JP6768156B2 - 仮想的に拡張された視覚的同時位置特定及びマッピングのシステム及び方法 - Google Patents

仮想的に拡張された視覚的同時位置特定及びマッピングのシステム及び方法 Download PDF

Info

Publication number
JP6768156B2
JP6768156B2 JP2019527929A JP2019527929A JP6768156B2 JP 6768156 B2 JP6768156 B2 JP 6768156B2 JP 2019527929 A JP2019527929 A JP 2019527929A JP 2019527929 A JP2019527929 A JP 2019527929A JP 6768156 B2 JP6768156 B2 JP 6768156B2
Authority
JP
Japan
Prior art keywords
image
viewpoint
scene
images
virtual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019527929A
Other languages
English (en)
Other versions
JP2019536170A (ja
Inventor
フェン、チェン
田口 裕一
裕一 田口
カンシゾグル、エスラ
ラマリンガム、スリクマール
ユーシフ、カリド
晴之 岩間
晴之 岩間
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2019536170A publication Critical patent/JP2019536170A/ja
Application granted granted Critical
Publication of JP6768156B2 publication Critical patent/JP6768156B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/275Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals
    • H04N13/279Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals the virtual viewpoint locations being selected by the viewers or determined by tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/579Depth or shape recovery from multiple images from motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

本発明は包括的には、シーンのモデルを再構成することに関し、より詳細には、同時位置特定及びマッピング(SLAM:simultaneous localization and mapping)に関する。
ロボットマッピングにおいて、同時位置特定及びマッピング(SLAM)は、未知の環境内のエージェントの場所を追跡しながら、同時に、環境のマップ及び/又はモデルを構成又は更新するという計算問題である。SLAMは、マップの構築(マッピング)及びマップの使用(位置特定)に関連するが、SLAMを実行すべきシステムにとって、位置特定に関連付けられるプロセス及びマッピングに関連付けられるプロセスは実際には同時に実行される必要はない。例えば、複数の手順を多重化するようにして実行することができる。
いくつかの適用例、例えば、都市環境又は屋内環境において、GPS又は別の位置推定システムは、SLAMにおいて十分に利用できないか、実用的でないか、又は正確ではない。そのため、いくつかのシステムは、専用の位置推定システムを使用するのに加えて、又はその代わりに、カメラ等の他の見通し線センサー(line-of-sight sensor)に頼り、視覚的SLAMと呼ばれる種類の技法を使用する。視覚的SLAM(VSLAM)は、環境のモデル、例えば、その環境を表すポイントクラウドを構築するため視覚センサーデータ又は画像を入力として使用する。例えば、VSLAMは、周囲環境の幾何学的形状及び外観(appearance)の両方を記述するモデルを形成するために、周囲環境の画像を取り込み、複数のそのような画像を一貫性のある座標系、例えば、グローバル座標系の中に重ね合わせるために見通し線センサーを使用する。
VSLAMは、センサーによって取り込まれた画像を用いて、その座標系内でセンサーの6自由度(DOF:degrees-of-freedom)姿勢(場所及び向き)を推定する。そのため、VSLAMは、異なる画像において観測される同じ物理的領域の対応を見つける能力に頼る。しかしながら、異なる視点から視認される同じ領域の外観は著しく変化する可能性があるので、VSLAMは長基線長照合問題(large-baseline matching problem)に悩まされ、すなわち、2つの遠方の視点から観測される領域がそのような照合プロセス中に頻繁に見逃される可能性がある。
いくつかの方法は、VSLAM技法を別の姿勢推定方法と組み合わせることによって、この問題に対処する。例えば、特許文献1において記述されている方法は、カメラを搬送するロボットの姿勢を推定するために、モーションセンサーを使用する。モーションセンサーの使用は、有用ではあるが、必ずしも望ましいとは限らない。
別の方法は、複数の画像を撮影し、画像間の小さい姿勢変動を確保することによって、センサーの姿勢を絶えず追跡する。例えば、特許文献2を参照されたい。しかしながら、その方法は、計算及びメモリにコストがかかり、環境の3Dモデルを構成するために、その環境内で、細心の注意を要し、複雑な軌道に追従するようにセンサーに要求する可能性がある。
米国特許第7162338号 米国特許出願公開第20140126769号
したがって、センサーの姿勢を追跡するために使用される画像の数を削減しながら、シーンの3Dモデルを構成するのに適したVSLAMが必要とされている。同じ数の画像を与えられると、そのようなVSLAMは、より多くの数の再構成される3D点を達成するだけでなく、より高い3D再構成及び姿勢推定精度も達成するはずである。
いくつかの実施の形態の目的は、シーンの3次元(3D)モデルを再構成するための視覚センサーデータ入力として画像を使用する視覚的同時位置特定及びマッピング(SLAM)に関する方法を開示することである。いくつかの実施の形態の別の目的は、センサーの姿勢を追跡するために使用される画像の数を削減しながら、そのシーンの3Dモデルを構成するのに適している、そのような視覚的SLAM(VSLAM)を提供することである。
いくつかの実施の形態は、そのシーンの3Dマップ又は3Dモデルを構成するための画像の数を削減するために、それらの画像が、相対的に遠方にある視点から取り込まれる必要があるという認識に基づく。そのようにして、少ない画像を用いて、そのシーンの複雑な部分を取り込むことができる。しかしながら、そのような手法は、VSLAMによって利用される姿勢追跡に根差している長基線長照合問題を引き起こす。具体的には、2つの離間した視点から観測されたランドマークがVSLAM照合プロセスによって見逃される可能性がある。なぜなら、異なる視点から視認された同じランドマークの外観が著しく変化する可能性があるためである。
この長基線長照合問題の簡単な例は以下の通りである。場所Bの方を向いているセンサー、例えば、カメラを、第1の軌道と呼ばれる、場所Aから場所Bまで一直線に動かすことによって、視覚的SLAMマップが構築されると仮定する。ここで、そのカメラが180度方向転換し、場所Aの方を向きながら、第2の軌道と呼ばれる、場所Bから場所Aまで動くと仮定する。その際、第2の軌道内で新たに観測される特徴が、第1の軌道内で観測され、マップ内に存在する特徴と著しく異なる可能性があるので、VSLAMフレームワークは、以前に構築されたマップ内でこのカメラの姿勢を正しく特定するのに失敗する可能性がある。
いくつかの実施の形態は、仮想画像が、外観不変性(appearance invariance)へのVSLAMのそのような依存性を回避するのを助けることができるという理解に基づく。例えば、モデル再構成中に、将来に訪問する可能性がある新たな視野からのいくつかの新たな仮想画像を合成することができる。上記で言及された例を用いてこの原理を説明すると、場所Aから場所Bの方を向いている第1の軌道内のカメラによって取り込まれた画像を、場所Bから場所Aの方を向いている第2の軌道内の仮想視点から視認されるような仮想画像に変換することができる。仮想画像は、長基線長照合問題を回避するために、場所Bから場所Aの方を向いている第2の軌道内のカメラによって新たに撮影された画像との比較のために使用することができる。そのようなVSLAMは、本明細書において、仮想的に拡張された(virtually-augmented)視覚的SLAM(VA−VSLAM)と呼ばれる。VA−VSLAMは、従来の視覚的SLAMより少ない数の画像で、そのシーンの類似のモデルを構成することができるか、又は同じ数の画像で、従来の視覚的SLAMより良好なモデルを構成することができる。そのため、VA−VSLAMは計算能力及びメモリ使用量を削減することができ、環境マップを作成するセンサーによって追従される軌道を簡単にすることができる。
具体的には、そのような仮想画像は、姿勢追跡のためのランドマークとして使用される特徴の異なる外観を有することができる。しかしながら、仮想画像は現実画像から生成されるので、現実画像内のランドマークと仮想画像内のランドマークとの間の対応は、その外観にかかわらず保持することができる。そのため、仮想画像の助けを借りて、新たに取り込まれた現実画像を他の現実画像と比較することができる。
例えば、新たな画像内のランドマークが仮想画像内のランドマークの外観に類似の外観を有することができ、それゆえ、そのようなランドマークは、仮想画像内の対応するランドマークと重ね合わせることができる。さらに、仮想画像内のランドマークは、その仮想画像がそこから生じる異なる現実画像内の対応するランドマークとあらかじめ重ね合わせられる。そのようにして、新たに取り込まれた画像からのランドマークを、仮想画像を通して、先行する画像のランドマークと重ね合わせることができる。そのようにして、長基線長照合問題を軽減することができ、それにより、少ない数の画像を用いて、そのシーンのモデルを構成できるようになる。
したがって、1つの実施の形態は、画像の視点を規定する異なる姿勢において少なくとも1つのセンサーによって取り込まれたシーンの1セットの画像からこのシーンの3次元(3D)モデルを再構成する方法であって、この3Dモデルは、3D座標によって特定される点を有するポイントクラウドを含み、本方法のステップは、この1セットの画像を記憶するメモリに接続され、本方法を実施する記憶された命令と結合されるプロセッサによって実行され、この命令は、このプロセッサによって実行されるときに、本方法の少なくともいくつかのステップを実行し、本方法は、1セットの画像からの画像を変換して、仮想視点から視認されるシーンの1セットの仮想画像を生成することと、画像及び仮想画像からの少なくともいくつかの特徴を比較し、1セットの画像内の各画像の視点を特定することと、少なくとも2つの画像の視点に従って、シーンのモデル内の少なくとも1つの点の3D座標を、この点に対応するこの2つの画像のピクセルからの光線逆投影法(ray back-projection)の交点の座標と一致するように更新することとを含む、方法を開示する。
別の実施の形態は、3次元(3D)座標によって特定される点を有するポイントクラウドを含む、シーンの3Dモデルを再構成するシステムを開示する。本システムは、画像の視点を規定する異なる姿勢からシーンの1セットの画像を取り込む少なくとも1つのセンサーと、1セットの画像と、シーンの3Dモデルとを記憶するメモリと、メモリに動作可能に接続され、記憶された命令に結合されるプロセッサであって、このプロセッサは、1セットの画像からの画像を変換して、仮想視点から視認されるシーンの1セットの仮想画像を生成し、画像及び仮想画像からの少なくともいくつかの特徴を比較して、1セットの画像内の各画像の視点を特定し、少なくとも2つの画像の視点に従って、シーンのモデル内の少なくとも1つの点の3D座標を、この点に対応するこの2つの画像のピクセルからの光線逆投影法の交点の座標と一致するように更新する、プロセッサとを備える。
更に別の実施の形態は、画像の視点を規定する異なる姿勢において少なくとも1つのセンサーによって取り込まれるシーンの1セットの画像からこのシーンの3次元(3D)モデルを再構成する方法を実行するためにプロセッサによって実行可能であるプログラムを具現する、非一時的コンピューター可読記憶媒体であって、この3Dモデルは、3D座標によって特定される点を有するポイントクラウドを含み、方法は、1セットの画像からの画像を変換して、仮想視点から視認されるシーンの1セットの仮想画像を生成することと、画像及び仮想画像からの少なくともいくつかの特徴を比較して、1セットの画像内の各画像の視点を特定することと、少なくとも2つの画像の視点に従って、シーンのモデル内の少なくとも1つの点の3D座標を、この点に対応するこの2つの画像のピクセルからの光線逆投影法の交点の座標と一致するように更新することとを含む、非一時的コンピューター可読記憶媒体を開示する。
いくつかの実施の形態による、VA−VSLAMに適したシステムのブロック図である。 いくつかの実施の形態による、システムの一例として、VA−VSLAMシステムを組み込むことができるモバイルロボットを示す図である。 いくつかの実施の形態によって使用されるような、グローバル基準系内のロボット及び/又はセンサーの姿勢の例示的な位置(x,y)を示す図である。 いくつかの実施の形態による、VA−VSLAMフレームワークのブロック図である。 いくつかの実施の形態による、仮想画像を用いて長基線長照合問題に対処する概略図の一例を示す図である。 環境を通る、取り得る軌道の例示的な概略図である。 いくつかの実施の形態による、シーンの1セットの画像から、そのシーンの3Dモデルを再構成する方法のブロック図である。 いくつかの実施の形態による、シーンの1セットの画像から、そのシーンの3Dモデルを再構成する方法のブロック図である。 VA−VSLAMの一実施の形態による、VA−VSLAM初期化のフロー図である。 一実施の形態による、或る平面で初期化されたシーンの画像を取り込むカメラの概略的な側面図である。 異なる姿勢にカメラを動かした後のカメラの概略的な側面図である。 一実施の形態による、あらかじめ計算された点−平面マップ内の可視平面を探索するために使用される仮想視点から視認されるポイントクラウドを示す図である。 いくつかの実施の形態による、仮想画像を生成するために使用されるシーンのワーピングされた画像の例を示す図である。 一実施の形態によるシステムの概略図である。
図1Aは、いくつかの実施の形態による、仮想的に拡張された視覚的同時位置特定及びマッピング(VA−VSLAM)に適したシステム100のブロック図を示す。システム100は、汎用プロセッサ161及びメモリ164を含むことができる。それに加えて、又はその代わりに、システム100は、画像プロセッサ166、姿勢プロセッサ168及び仮想画像プロセッサ167等の専用プロセッサを含むことができる。また、デバイス100は、1つ以上のバス177に結合される複数のセンサーと、プロセッサ161、166、167及び168のうちの少なくとも1つに更に結合される信号線とを含むことができる。
システム100は、モバイルデバイス、ワイヤレスデバイス、携帯電話、携帯情報端末、ウェアラブルデバイス(例えば、眼鏡、腕時計、ヘッドウェア、又は身に着ける類似のデバイス)、モバイルコンピューター、タブレット、パーソナルコンピューター、ラップトップコンピューター、又は処理能力を有する任意のタイプのデバイス若しくはプラットフォームの一部とすることができる。
システム100は、カメラ124、3Dセンサー、及び/又は赤緑青奥行(RGBD:red-green-blue-depth)センサー(図示せず)と呼ばれる、カメラ及び3Dセンサーの組み合わせ等のシーンの画像を取り込むセンサーを含むことができ、任意選択で、加速度計、ジャイロスコープ、電子コンパス又は他の類似の運動検知要素等のモーションセンサー121を含む場合がある。また、システム100は、前面及び/又は背面カメラ(例えば、カメラ124)において画像を取り込むこともできる。システム100はユーザーインターフェース150を更に含むことができ、ユーザーインターフェースは、ディスプレイ122、キーボード及びキーパッド152等の入力デバイスのうちの1つ又は組み合わせを含む。必要に応じて、タッチスクリーン/センサーを備えるディスプレイ122に仮想キーパッドを組み込むことによって、キーボード又はキーパッド152を不要にすることができる。例えば、デバイス100が携帯電話等のモバイルプラットフォームである場合には、ユーザーインターフェース150はマイクロフォン154及びスピーカー156を含むこともできる。
いくつかの実施態様において、システム100は、モバイル又はワイヤレスデバイスとして機能することができ、送受信機140を用いて1つ以上のワイヤレス通信リンクを介して通信することができる。システム100は、ポータブル若しくは非ポータブル電子デバイスに通常関連付けられる他の構成要素だけでなく、衛星測位システム受信機、電源デバイス(例えば、電池)等の種々の他の要素も含むことができる。
1つ以上の例示的な実施の形態において、上記の機能又はモジュールは、制御ユニット160のハードウェア(例えば、ハードウェア162)、ソフトウェア(例えば、ソフトウェア165)、ファームウェア(例えば、ファームウェア163)又はその任意の組み合わせにおいて実現することができる。コンピュータープログラム製品としてソフトウェアにおいて実現される場合には、機能又はモジュールは、1つ以上の命令又はコードとして、非一時的コンピューター可読媒体上に記憶することができるか、又は非一時的コンピューター可読媒体を介して送信することができる。コンピューター可読媒体は、或る場所から別の場所へのコンピュータープログラムの転送を容易にする任意の媒体を含む、コンピューター記憶媒体及び通信媒体の両方を含むことができる。記憶媒体は、コンピューターによってアクセス可能である任意の市販の媒体とすることができる。一例であって、限定はしないが、そのような非一時的コンピューター可読媒体は、RAM、ROM、EEPROM、CD−ROM若しくは他の光ディスク記憶装置、磁気ディスク記憶装置若しくは他の磁気記憶デバイス、又は命令若しくはデータ構造の形で所望のプログラムコードを搬送又は記憶するために使用することができ、コンピューターによってアクセス可能である任意の他の媒体を含むことができる。
図1Bは、システム100の一例として、VA−VSLAMシステムを組み込むことができるモバイルロボット101を示す。図示されるロボット101は、SLAMモジュールがグローバル位置を特定できるようにランドマークを視覚的に認識するために使用される視覚センサー104を含む。視覚センサー104のために広範な視覚センサーを使用することができる。例えば、視覚センサー104は、CCD撮像装置、CMOS撮像装置、赤外線撮像装置等を備えるデジタルカメラに対応することができる。また、視覚センサー104は、構造化光センサー(structured light sensor)、飛行時間センサー、LIDAR及びRGBDセンサー等の3Dセンサーに対応することもできる。視覚センサー104は、標準的なレンズ、又は広角レンズ、魚眼レンズ、全方位レンズ(omni-directional lens)等の特殊なレンズを含むことができる。さらに、レンズは、相対的に広い視野又は複数の視点を与えるために使用することができる、平面鏡、放物面鏡又は円錐鏡等の反射面を含むことができる。別の例において、視覚センサー104は、単一のカメラ又は複数のカメラに対応することができる。一実施の形態において、VA−VSLAMシステムは有利には、単一のカメラで動作するように構成され、それは有利には、複数のカメラと比べてコストを削減する。
ロボット101を移動させるために、図示されるロボット101のモーター110、112が車輪114、116に結合される。車輪の代わりに、又は車輪に加えて、ロボットの他の実施の形態は、動き回るために、脚、線路、ローラー、プロペラ等の異なるアクチュエーターを使用できることは当業者には理解されよう。図示される実施の形態において、走行距離計測法としても知られる、車輪の回転に関する情報が、制御部108への入力として与えられる。視覚センサー104からの画像データ106も、ロボット101のための制御部108への入力として与えられる。一実施の形態において、VA−VSLAMシステムは、制御部108内で具現される。図示される実施の形態において、制御部108は、ロボット101の移動を制御するためにモーター110、112に結合される。明確にするために、電池等の、ロボット101のための電源は図1Bには示されない。
画像データ106に応答して、制御部108は、モーター110、112に、ロボット101の移動を制御する制御信号を与えることができる。例えば、制御部108は、ロボットを前進させる、停止させる、後退させる、方向転換させる、垂直軸の周りで回転させるように指示する等の制御信号を与えることができる。ロボットが、図1Bに示される例示的な垂直軸118等の垂直軸の周りを回転するとき、この回転は「ヨー」と呼ばれる。ロボットの姿勢はセンサー104の姿勢を規定するので、本明細書では同じ意味で使用される。さらに、カメラの姿勢は、センサーによって取り込まれる画像の視点を規定する。そのため、ロボットの姿勢、センサーの姿勢、及び画像の視点は関連付けられ、グローバル基準系内の位置、例えば、センサー及び/又はロボットの位置と、カメラの向き若しくはロボットの機首方位(heading)とを含む。
図1Cは、いくつかの実施の形態において使用されるような、グローバル基準系内のロボット132及び/又はセンサー134の姿勢の例示的な位置(x,y)を示す。ロボット132は点より大きい空間の面積を占有するので、その位置はロボット132の中心に正確に対応する必要はないことは理解されよう。グローバル基準系に関する零ベクトル136は、環境内の様々な場所のうちの1つに対応することができる。図示される例では、グローバル基準系に関する零ベクトル136は、ロボット132が初期化される場所に設定される。一実施の形態において、グローバル基準系に関するx方向は、ロボットが初期化されたときのロボットの真正面に軸に対応する。
例えば、図示される実施の形態において、x軸は、零ベクトル136において初期化された時点でロボットが前方にそのまま進行するときの、ロボットが進行する経路に対応する。図示される実施の形態において、y方向はx軸に直交する軸に対応し、上方から見たときに正のy軸はx軸の左に向かって増加していく。基準系に関する零ベクトル、並びに零ベクトルに対するx軸及びY軸の位置合わせは、例えば、初期化時等の、零ベクトルが設定される時点においてロボットが位置する場所及びロボットの向きによって決まる可能性があることは理解されよう。
また、図1Cは、グローバル基準系内のロボットの姿勢の向きも示す。図示される実施の形態において、ロボットに関する向きθは、零ベクトルが設定されたときにロボットが有した初期機首方位を基準にする。有利には、ロボットの場所及びロボットに関する初期の向きは任意であり、それにより、ユーザーのためにロボットの設定を簡略化する。
x軸方向又はy軸方向に沿った変位に加えて、通常のモバイルロボットは、垂直軸の周りで回転又は「ヨーイング」することもできる。向きを変更するために、ロボットは直接回転又はヨーイングする必要はないことは理解されよう。例えば、角を曲がる行為もロボットの向き又は機首方位を変更する。いくつかの実施態様において、センサー134は、ロボット132に回転可能に取り付けられるので、センサー134は、ロボットの向きから独立して、又はロボットの向きに加えて、その向きを変更することができる。
上記で図示された実施の形態は、3−DOF姿勢(2−DOF位置及び1−DOF向き)を有する、平坦な地面上を移動するモバイルロボットに関して説明された。この場合、VA−VSLAMフレームワークは、他のDOF、すなわち、z軸方向に沿った1−DOF位置と、「ロール」及び「ピッチ」に対応する2−DOF向きとを0であると見なすことによって、3−DOF姿勢を推定することができる。いくつかの他の実施の形態では、システム及び/又はセンサーは、3D空間内で任意に移動することができ、VA−VSLAMフレームワークは、センサーの6−DOF姿勢を推定する。そのような事例は、3D空間内を飛行しているか、平坦でない地面上を移動しているロボット上に組み込まれるシステム、及び操作者によって携帯されるポータブルプラットフォーム上に組み込まれるシステムを含む。
図2Aは、1つ以上のカメラの6−DOF姿勢(位置及び向き)と、幾何学的周囲物の3D記述との両方を推定するために視覚的SLAMフレームワーク210を利用するいくつかの実施の形態によるVA−VSLAMフレームワーク200のブロック図を示す。VA−VSLAMフレームワークは、いくつかの実際の視点からカメラ及び/又はセンサー124によって取り込まれた現在観測されている現実画像(奥行を有するか又は有しない)に関する1セットの特徴と、いくつかの仮想視点から仮想カメラによって観測された仮想的に生成された画像に関する1セットの特徴とを照合することによって機能する。その方法のステップは、1セットの画像を記憶するメモリ164等のメモリに接続され、その方法を実施するソフトウェア165等の記憶された命令と結合される、汎用プロセッサ161及び/又は専用プロセッサ166、167及び168等のプロセッサによって実行することができる。それらの命令は、プロセッサによって実行されるときに、VA−VSLAMフレームワーク200の方法の少なくともいくつかのステップを実行する。
視覚的SLAMフレームワーク210は以下のように機能する。画像の1セットの現実フレーム{F}が、いくつかの特徴抽出器によって処理され、画像の各フレームFに関する1セットの特徴
Figure 0006768156
が選択される。フレームFは、1チャネルのグレー情報若しくは3チャネルのRGB情報を伴う通常の2D画像、及び/又は第4のチャネルがピクセルの奥行、すなわち、カメラ中心と、そのピクセルの光線方向に沿った最も近い物体との間のカメラ視認方向に沿った距離を記述する、4チャネルのRGBD情報を伴う3D画像を含むことができる。ピクセルの光線方向を特定するプロセスは、ピクセルの逆投影法として知られており、カメラの内部パラメーターを使用することによって実行することができる。例えば、特徴
Figure 0006768156
は、この特徴が幾何学的形状又は外観(appearance)のいずれかに関してその隣接領域と著しく異なる限り、フレームFが2D画像である場合には2D点とすることができ、フレームFが3D画像である場合には3D点とすることができる。特徴抽出器の例は、Harris、FAST又はORBキーポイント検出器を含む。
その後、特徴
Figure 0006768156
及び特徴
Figure 0006768156
がそのシーン内のランドマーク又は対象点と呼ばれる同じ物理領域に対応するような、対応する特徴対{(j,j’)}を見つけるために、この特徴セットfが別の1セットの特徴f’と照合される。そのような照合は、対象点の位置を特定し、その記述を生成するスケール不変特徴変換(SIFT:Scale Invariant Feature Transform)、スピードアップロバスト特徴(SURF:Speed Up Robust Features)、勾配場所−向きヒストグラム(GLOH:Gradient Location-Orientation histogram)、ORB、若しくは他の同等の技法等の種々の特徴記述方法、及び/又はRANSAC等のサンプリングベース方法を通して行うことができる。
対応する特徴対を用いて、視覚的SLAM210は、特徴セットf’がいかに構成されるかに応じて、先行して観測された1つのフレームFに対して、又は先行して観測された全てのフレームを含むマップ240
Figure 0006768156
に対して、このフレームFの姿勢220を追跡することができる。追跡される姿勢及び特徴対応は、マップ240を更に更新するために使用される、フレームの最良の6−DOF姿勢、及び特徴の3D幾何学記述を見つけるために、バンドル調整230に送られる。
異なる視点からの複数の3D点を表す1セットの画像を与えられると、バンドル調整230は、全ての点の対応する画像投影を伴う最適性基準に従って、シーン幾何学を記述する3D座標の精緻化、カメラの相対運動のパラメーター、及び画像を取り込むために利用されるカメラ(複数の場合もある)の光学特性のうちの1つ又は組み合わせを同時に解く問題と定義することができる。
一実施の形態において、バンドル調整は、観測される画像点及び予測される画像点の画像場所間の再投影誤差を最小化することを含み、再投影誤差は、多数の非線形実数値関数の二乗和として表される。このようにして、最小化は非線形最小二乗法を用いて達成される。例えば、一実施の形態は、実施するのが容易であること、及び広範な初期推測から迅速に収束する能力を与える実効的な減衰方式を使用することに起因して、レーベンバーグ・マーカート最適化を使用する。現在の推定値の近傍において最小化されるように関数を繰り返し線形化することによって、レーベンバーグ・マーカート法は、正規方程式と呼ばれる連立一次方程式を解くことを伴う。バンドル調整のフレームワークにおいて生じる最小化問題を解くとき、正規方程式は、異なる3D点及びカメラに関するパラメーター間の相互作用の欠如に起因して、疎なブロック構造を有する。正規方程式のゼロのパターンを明示的に利用し、ゼロ要素の記憶及び演算を回避する、レーベンバーグ・マーカート法の疎な変形形態を利用することによって、これを利用して計算に関する恩恵を受けることができる。
いくつかの実施の形態のVA−VSLAMは、シーン240の3Dマップ又は3Dモデルを構成するために取り込まれる画像215の数を削減することを目的とする。そのため、いくつかの実施の形態は、画像215が相対的に離れた視点から取り込まれる必要があるという認識に基づく。そのようにして、少ない画像を用いて、シーンの複雑な部分を取り込むことができる。しかしながら、そのような手法は、姿勢追跡220に根差している長基線長照合問題を引き起こす。具体的には、異なる視点から視認された同じランドマークの外観が著しく変化する可能性があるため、2つの離間した視野から観測されるランドマークがVSLAM照合プロセスによって見逃される可能性がある。
この長基線長照合問題の簡単な例は以下の通りである。場所Bの方を向いているカメラを、第1の軌道と呼ばれる、場所Aから場所Bまで一直線に動かすことによって、視覚的SLAMマップが構築されると仮定する。ここで、そのカメラが180度方向転換し、場所Aの方を向きながら、第2の軌道と呼ばれる、場所Bから場所Aまで動くと仮定する。その際、第2の軌道内で新たに観測される特徴が、第1の軌道内で観測され、マップ内に存在する特徴と著しく異なる可能性があるので、VSLAMフレームワークは、以前に構築されたマップ内でこのカメラの姿勢を正しく特定するのに失敗する可能性がある。
いくつかの実施の形態は、仮想画像が、外観不変性へのVSLAMのそのような依存性を回避するのを助けることができるという理解に基づく。例えば、モデル再構成中に、将来に訪問する可能性がある新たな視野からのいくつかの新たな仮想画像を合成することができる。上記で言及された例を用いてこの原理を説明すると、場所Aから場所Bの方を向いている第1の軌道内のカメラによって取り込まれた画像を、場所Bから場所Aの方を向いている第2の軌道内の仮想視点から視認されるような仮想画像に変換することができる。仮想画像は、長基線長照合問題を回避するために、場所Bから場所Aの方を向いている第2の軌道内のカメラによって新たに撮影された画像との比較のために使用することができる。
具体的には、そのような仮想画像は、姿勢追跡のためのランドマークとして使用される特徴の異なる外観を有することができる。しかしながら、仮想画像は現実画像から生成されるので、現実画像内のランドマークと仮想画像内のランドマークとの間の対応は、その外観にかかわらず保持することができる。そのため、仮想画像の助けを借りて、新たに取り込まれた現実画像を他の現実画像と比較することができる。
例えば、新たな画像内のランドマークが仮想画像内のランドマークの外観に類似の外観を有することができ、それゆえ、そのようなランドマークは、仮想画像内の対応するランドマークと重ね合わせることができる。さらに、仮想画像内のランドマークは、その仮想画像がそこから生じる異なる現実画像内の対応するランドマークとあらかじめ重ね合わせられる。そのようにして、新たに取り込まれた画像からのランドマークを、仮想画像を通して、先行する画像のランドマークと重ね合わせることができる。そのようにして、長基線長照合問題を軽減することができ、それにより、少ない数の画像を用いて、そのシーンのモデルを構成できるようになる。
そのため、VA−VSLAMフレームワーク200は、仮想フレーム又は画像255の概念を適用し、上記で言及された限界に対処する仮想画像生成器250を含む。VA−VSLAMは、既存の特徴照合方法において限界がある視点不変性に単に頼るのではなく、現実画像上で観測された特徴を仮想的に観測された画像上の特徴に明示的に変換する。
仮想フレーム生成器250は、画像215を変換して、仮想視点から視認されたシーンの仮想画像{V}255を生成する。これらの仮想画像は、その後、視覚的SLAM210に提示され、仮想特徴
Figure 0006768156
が抽出され、姿勢追跡器が位置特定ロバスト性及び精度を改善するのを助けるとともに、SLAMマップを
Figure 0006768156
として増補する。
図2Bは、いくつかの実施の形態による、仮想画像を用いて長基線長照合問題に対処する概略の一例を示す。この例では、画像260、270及び290は、異なる姿勢を有する少なくとも1つのセンサーによって取り込まれた現実画像であり、すなわち、画像260、270及び290は異なる視点を有する。画像は同じセンサーによって取り込まれるか、又は複数のセンサーによって取り込まれる、すなわち、各画像が異なるセンサーによって取り込まれる場合があることに留意されたい。画像280は、仮想視点を有する仮想画像である。画像260及び270の視点は互いに相対的に近い。そのため、画像260及び270は、そのシーン内の同じ特徴に対応するランドマーク265及び275を含み、すなわち、ランドマーク265及び275のピクセルは、そのシーン内の同じ点Pに対応し、類似の幾何学的形状及び/又は外観を有する。三角測量又は任意の他の適切な計算技法を用いて、そのシーン内の点Pの座標225を計算することができる。しかしながら、点Pの座標を特定するために2つの画像のみが使用されるとき、そのような座標は不正確な場合がある。
また、画像290は、そのシーン内に、ランドマーク265及び275と同じ点Pを表すランドマーク295を含む。しかしながら、画像290の視点は、画像260及び270の視点とは異なるので、ランドマーク295は異なる外観を有し、ランドマーク265及び275と照合することはできない。しかしながら、仮想画像280の視点は画像290の視点に近く、ランドマーク265及び275と同じ点Pに対応するランドマーク285は、ランドマーク295に類似の外観を有し、ランドマーク295と照合することができる。そのようにして、いくつかの実施の形態は、ランドマーク265、275及び295がそのシーン内の同じ点Pに対応すると判断することができる。そのため、画像290の姿勢を用いて、点Pの座標を点P’の座標235に更新することができる。そのようにして、仮想画像を使用することにより、そのシーンのモデルの精度が高められる。
同様に、画像270は、そのシーン内の点Qに対応するランドマーク277を含む。また、画像290は、そのシーン内に、ランドマーク277と同じ点Qを表すランドマーク297を含む。しかしながら、画像290の視点は画像270の視点とは異なるので、ランドマーク297は異なる外観を有し、ランドマーク277と照合することはできない。そのため、点Qの座標は未知であり、点Qはそのシーンのモデルに追加することはできない。
しかしながら、仮想画像280の視点は画像290の視点に近く、ランドマーク277と同じ点Qに対応するランドマーク287はランドマーク297に類似の外観を有し、ランドマーク297と照合することができる。そのようにして、いくつかの実施の形態は、ランドマーク277及び297がそのシーン内の同じ点Qに対応すると判断することができる。そのため、画像290の姿勢を用いて、点Qの座標245を特定することができ、点Qをそのシーンのモデルに追加することができる。そのようにして、仮想画像を使用することによって、仮想画像を使用しなければ必要であった画像より少ない画像で、そのシーンのモデルの密度が高められる。
図2Cは、環境を通る、システム100、例えば、ロボット101の取り得る軌道の例示的な概略図を示す。この例では、環境内のシーンのモデルを構成するために仮想画像を利用しないときには、ロボット101は、状態191、192、193、194、195等の、丸印及び星印を用いて表される各状態において画像を取り込む必要がある。しかしながら、仮想画像を使用するとき、ロボット101は、星印で表される状態{X,X,X,…XM−1,X}においてのみ画像を取り込むことができ、丸印で表される状態において生成された仮想画像の助けを借りて位置特定及びマッピングを実行することができる。そのようにして、仮想画像を使用することにより、現実画像の数を削減し、シーンのスパースモデリングを可能にする。
図3Aは、いくつかの実施の形態による、シーンの1セットの画像から、そのシーンの3Dモデルを再構成する方法のブロック図を示す。1セットの画像は、画像の視点を規定する異なる姿勢において少なくとも1つのセンサーによって取り込まれる。3Dモデルは、3D座標によって特定される点を有するポイントクラウドを含む。その方法のステップは、1セットの画像を記憶するメモリに接続され、その方法を実施する記憶された命令に結合されるプロセッサによって実行される。命令は、プロセッサによって実行されるとき、その方法の少なくともいくつかのステップを実行する。
その方法は、1セットの画像310からの画像を変換し(320)、仮想視点から視認されたシーンの1セットの仮想画像325を生成する。1セット310及び325のサイズは同じとすることができるか、又は異なることができる。一実施の形態において、仮想画像は、1セット310からの現実画像が互いに照合するのに失敗するときに必要に応じて生成される。それに加えて、又はその代わりに、仮想画像は先を見越して生成することができる。
そのため、異なる実施の形態は、仮想画像を生成するための仮想視点を選択するために異なる方式を採用する。例えば、一実施の形態は、6−DOFカメラ姿勢空間内でいくつかの有効な姿勢を、例えば、ランダムに、又は決定論的にサンプリングする。そのようなサンプリングは、姿勢空間にわたって均一にすることができるか、又は訪問されない領域に向かってバイアスをかけることができる。別の実施の形態は、現実画像の既存の現実視点を用いて、将来における1セットの取り得る姿勢を推定する。この実施の形態は、モバイルロボットの軌道があらかじめ決定されるときに、図1Bのモバイルロボット例にとって有利である。
更に別の実施の形態は、既存の現実視点の位置を保持するが、各現実視点をその位置の周りで回転させて、仮想視点が現実視点と異なる向きを有するが、現実視点と同じ位置において規定されるようにする。それらの仮想視点において生成される仮想画像は、現実画像とは異なる外観を有する可能性がある。なぜなら、(1)現実視点及び仮想視点は異なる投影モデルを使用する可能性があり、例えば、現実視点が魚眼投影モデルを使用する場合があり、一方、仮想視点は透視投影モデルを使用する場合があるためであり、(2)現実視点及び仮想視点が同じ透視投影モデルを使用する場合であっても、透視投影モデルが或る平面(すなわち、画像センサー面)において均一であるが、角度領域において不均一に光線をサンプリングし、それゆえ、仮想視点の向きが異なると、異なる組の光線がサンプリングされるためである。これは、カメラの視野が大きいほど明白になる。大きい視野を有する透視画像では、画像の中心領域に比べて、画像の周辺領域が引き伸ばされるように見え、それは射影歪みと呼ばれる。それゆえ、この実施の形態は、システムがいくつかの異なるセンサーを使用する、例えば、魚眼カメラ及び透視投影カメラを使用する、又は3Dセンサー及び透視投影カメラを使用する、又は異なる内部パラメーターを有する複数の透視投影カメラを使用するときに有利である。
次に、その方法は、画像310及び仮想画像325からの少なくともいくつかの特徴を比較して(330)、1セットの画像内の各画像の視点335を特定し、その後、少なくとも2つの画像の視点に従って、そのシーンのモデル345内の少なくとも1つの点の3D座標を、その点に対応する2つの画像のピクセルからの光線逆投影法の交点の座標と一致するように更新する(340)。例えば、異なる画像310からの異なるピクセルが互いに照合されるので、いくつかの実施の形態は、ステレオ三角測量及び/又はシート光三角測量(sheet of light triangulation)を用いて、シーンの奥行を特定することができる。
図3Bは、いくつかの実施の形態による、シーンの3Dモデルを再構成する方法のブロック図を示し、1セットの画像が、第1の視点を規定する第1の姿勢においてカメラによって視認されるシーンの第1の画像を含み、第2の視点を規定する第2の姿勢においてカメラによって視認されるシーンの第2の画像を含む。
その方法は、第1の視点とは異なる仮想視点に対応する第1の仮想画像を生成するように第1の画像を変換する(350)。とりわけ、その変換は、そのシーンの同じ点を表すように、第1の画像及び仮想画像の少なくともいくつかのピクセル間の対応を保持する。次に、その方法は、第2の画像の少なくともいくつかの特徴を仮想画像の少なくともいくつかの特徴と比較し(360)、第2の画像、仮想画像及び第1の画像の少なくともいくつかのピクセルの間の対応を特定する。そのような対応は、ランドマークが異なる外観を有する場合であっても、第2の画像からのランドマークを第1の画像のランドマークと照合できるようにする。
その方法は、第2の画像からのピクセルのサブセットの座標と、第1の画像からのピクセルのサブセットに対応するシーンの点の座標とに基づいて、第1の画像及び第2の画像からの対応するピクセルのサブセットを用いて、第1の画像の第1の視点に対する第2の画像の第2の視点を特定する(370)。次に、その方法は、第1の画像及び第2の画像内の対応するピクセルのバンドル調整を用いて、そのシーンのモデル内の点の3D座標を更新する(380)。
第2の視点の特定は、第1の画像及び第2の画像内の対応するピクセルから逆投影される光線が或る3D点において交差するはずであるという事実を利用する。例えば、画像260及び270の視点が既知である場合には、三角測量によって、すなわち、2つの光線の交点として、点Pの座標225を特定することができる。代替的には、画像260の視点及び座標225が既知である場合には、2D−3D重ね合わせ法(registration method)によって、光線が対応する3D点を通り抜けることができるような画像270の視点を特定することができる。そのような2D−3D重ね合わせ法は、パースペクティブnポイント法(perspective-n-point method)として知られる。
例えば、いくつかの実施の形態は、3Dセンサーを用いて、第1の画像からのピクセルのサブセットに対応するシーンのモデルの点の座標を初期化する。3Dセンサーの例は、キネクト(Kinect)タイプのRGBDカメラ、又はステレオカメラを含む。それに加えて、又はその代わりに、いくつかの実施の形態は類似の視点を有する複数の画像を用いて、モデル内の点の座標を初期化することができる。
図4Aは、VA−VSLAMの一実施の形態による初期化のフロー図を示す。ブロック401において、その実施の形態は、後続の画像を処理する前に、第1の画像(例えば、単一の基準画像)から3Dモデルを初期化することができる。例えば、第1の画像(例えば、カメラ124から取り込まれる単一の基準画像)を初期化することは、初期の推定された奥行を有する3次元空間内の1セットの対象点を決定することを含むことができる。いくつかの実施の形態において、初期化は直ちに、又はリアルタイムに、又は概ねリアルタイムに、又は基準画像を取り込む短い時間ウィンドウ内で行うことができる。
1つの実施態様において、その実施の形態は、初期の取り込まれた基準画像からモデルを作成する。モデルは、本明細書において使用されるときに、3D物体又はシーンのマップであると理解することもできる。その実施の形態は、単一のカメラセンサー又は単眼のソースに由来する単一の画像から目標物を生成することができる。モデルはメモリ(例えば、デバイス100のメモリ164)内に記憶することができ、或る画像から抽出又は計算される1つ以上の3D対象点によって表すことができるか、又はそのような対象点に関連付けることができる。いくつかの実施の形態において、3Dモデルは、初期基準画像又は第2の基準画像を選択することきに、いなかるユーザー入力も用いることなく初期化することができる。
ブロック402において、その実施の形態は1つ以上の後続の画像を処理する。処理することは、後続の画像のそれぞれにおける1セットのランドマークを特定することを含むことができる。いくつかの実施の形態において、1セットのランドマークは、基準画像を処理した後に特定されるのと同じランドマークとすることができる。しかしながら、その場所及び奥行の値は、基準画像とは異なる場合がある。また、処理することは、ランドマークの異なる外観を有する仮想画像を生成することを含むこともできる。
ブロック403において、その実施の形態は、6自由度において3D目標物を追跡する。追跡することは、直ちに、又は同時に、又はリアルタイムに、又は概ねリアルタイムに、又は第1の単一の基準画像を受信した後の短い期間内に行うことができる。いくつかの実施の形態において、3Dモデルは、即時に、又はリアルタイムに、又は概ねリアルタイムに、又はフレームを取り込む短い期間内に初期化することができるので、初期化は、拡張現実ユーザーに容易に明らかになる場合がある。システム100は、以下に更に詳細に説明されるように、追跡中に目標物の表現を表示することができる。
ブロック404において、その実施の形態は、1つ以上の後続の画像の処理に基づいて、3Dモデルを更新する。その実施の形態は、ランドマークを推定できるか否かを判断し、カメラの一連の動きにわたってモデルを徐々に精緻化する。1つの実施態様において、その実施の形態は、目標物を、想定される奥行値を有する平面に近似することによって、初期の小さい運動に関するカメラ運動推定値を与えることができる。また、目標物が平面で近似される実施態様では、第1の基準画像から絶えずカメラ124に追跡させるために、エピポーラ幾何学を明確に解くステップ(それは十分な並進(translation)を有することに依存する場合がある)を省くことができる。
図4Bは、一実施の形態による、或る平面で初期化されたシーンの画像を取り込むカメラの概略的な側面図を示す。この初期化において、1セットのランドマーク、例えば、ランドマーク425、430、435、440、445及び450が、位置405にあるカメラ124から視認されるように、所定の初期距離にある平面420上で初期化される。全てのランドマークが最初に同じ平面にあるように(例えば、単一の平面420上にある点425、430、435、440、445及び450)、各ランドマークを初期奥行に関連付けることができる。
他の実施の形態では、ランドマークは任意の他の幾何学的形状で初期化することができるか、又は初期化された奥行値の任意の配列で初期化することができる。例えば、それらの実施の形態は、別の幾何学的形状がその目標物のための基線始点になるはずであり、発見される目標物情報が増えるほど精緻化されるはずであると判断することができる。さらに、あらゆるランドマークが同じ奥行値を有する代わりに、当該技術分野において既知であるような他の技法によって、初期化される奥行値を個々に推定又は特定することができる。例えば、初期奥行値は、平均ランドマーク奥行が所定の閾値平均奥行内に入るような範囲の値とすることができる。
また、図4Bは、カメラ124によって観測される3Dシーンを表す物体(例えば、物体410)も示す。ライン415は光線を示しており、物体410に関連付けられるランドマーク425がその光線下で視認される(例えば、物体410のエッジに関連付けられるランドマーク425は、平面420上で検出される他のランドマークに等しい初期奥行を有する)。ライン415に沿った、位置405にあるカメラ124からランドマーク425までの距離は、ランドマーク425の想定される奥行である。
図4Cは、第2の画像を取り込む姿勢407までカメラが移動した(406)後のカメラ405の概略的な側面図を示し、それにより、姿勢407におけるカメラ124によって、1セットの点470、471、472、473、474及び475のそれぞれに関して、より精度が高い(すなわち、更新された)ランドマーク奥行を観測できるようになる。光線480は光線415に対応し、更新されたランドマーク470がその光線下で視認される。そのようにして、そのシーンのモデル内の点の3D座標は、少なくとも2つの画像の視点に従って、その点に対応する2つの画像のピクセルからの光線逆投影法の交点の座標と一致するように更新される。
いくつかの実施の形態は、2つの現実画像を用いて、第1の画像からのピクセルのサブセットに対応するシーンのモデルの点の座標を初期化する。例えば、一実施の形態において、1セットの画像は第3の視点を規定する第3の姿勢においてカメラによって視認されるシーンの第3の画像を含む。その実施の形態は、第1の画像及び第3の画像の特徴を比較して、そのシーン内の同じ点に対応する第1の画像及び第3の画像のピクセルを特定し、その後、ピクセルのサブセットに対応するシーンの点の座標を特定し、相対姿勢推定法を用いて、第1の姿勢に対する第3の姿勢を特定する。そのような相対姿勢推定は、5点法、7点法及び8点法のうちの1つ又は組み合わせを含み、第1の画像と第3の画像との間の少なくとも5つの2D−2Dピクセル対応によって機能する。それらの2D−2Dピクセル対応は、上記のように第1の画像及び/又は第3の画像から生成される仮想画像を介して取得することができ、必ずしも、2つの現実(第1及び第3の)画像を直接照合することによらないことに留意されたい。
異なる実施の形態は、仮想視点と、システムの現実フレームのデータタイプとの両方に応じて、或る仮想視点を与えられる場合に異なる方法を用いて仮想フレームを生成する。例えば、フレームが3D情報を含むとき、例えばフレームがRGBD画像を含むとき、仮想画像は、シーンを記述する密なポイントクラウドから直接生成することができる。例えば、一実施態様において、シーンのマップ又はモデルから、このシーンのテクスチャ付きメッシュモデル(textured mesh model)を作成することができる。その後、このテクスチャ付きメッシュが、所与の対象姿勢に設定された仮想カメラの姿勢(すなわち、OpenGLの用語においてモデル−ビュー行列)とともに、OpenGL等のグラフィックスパイプラインに提示され、その射影行列が、通常、現実カメラの内部行列と同じであるか、又はそれに近い所望のカメラ内部行列によって設定される。この時点で、OpenGLパイプラインの色バッファからRGB情報が抽出され、奥行バッファから奥行情報が抽出される。このようにして、所望の仮想視点においてRGBD画像の仮想フレームが生成される。
図5Aは、一実施の形態による、あらかじめ計算された点−平面マップ内の可視平面を探索するために使用される仮想視点から視認されるポイントクラウドを示す。仮想視野510において視認可能である主要面は、仮想カメラの中心から、その像面内のピクセルを通して、そのシーンの中に光線を投じることによって決定される。光線がシーン点に当たるとき、マップMを用いて、空間内の平面の位置(平面パラメーター)を探索する。このステップは、仮想視野の全てのピクセルに関して実行され(ただし、効率のために、ピクセル領域内の空間サブサンプリングを使用することができる)、結果として生成される平面リストが、各平面に属するピクセルの数によって並べ替えられる。平面ごとに、その実施の形態は、その平面の一部であるピクセルを追跡する。図5Bは、一実施の形態によって仮想画像を生成するために使用されるシーンのワーピングされた画像520、530及び540の例を示す。別の実施の形態では、フレームが通常の2D画像であり、仮想視点は、向きに関してのみ異なるが、現実フレームと同じ視認位置を有する。この実施の形態において、p=Hpによって、現実フレーム内のピクセルpから新たなフレーム内の全てのピクセルpをワーピングすることによって仮想フレームを生成することができる。ただし、p及びpはピクセルの2D同次座標であり、Hは
Figure 0006768156
によって定義される3×3ホモグラフィ行列であり、Rは現実の視点に対する仮想視点の向きに対応する3D回転行列であり、K及びKはそれぞれ、3×3仮想及び現実カメラ内部行列(camera intrinsic matrix)である。
更に別の実施の形態において、仮想視点が全ての現実フレームと異なる位置を有するとき、仮想画像は、平面誘発ホモグラフィ(plane-induced homography)を用いて生成される。この事例では、多くの場合にピクセル当たりの3D情報が不足しているので、フレーム内のピクセルごとに、遠方の仮想視点から仮想フレームを生成するのは難しい。先行する2つの事例のような密な仮想画像を生成する代わりに、あらかじめ推定された3D情報、すなわち、この現実フレーム内の全ての特徴点を用いてピクセル位置に集中する疎な仮想画像を生成することができる。この生成プロセスは、以下に説明される、平面誘発ホモグラフィを使用する画像ベースワーピングを通して行うことができる。特徴点の対応するランドマークが局所的に小さい平面(n,d)であると仮定する。ただし、nは世界座標系内の平面の3D法線方向であり、dはその平面への世界原点の距離である。この特徴点が、世界内のその姿勢が
Figure 0006768156
である現実フレーム内であらかじめ観測されており(ただし、R及びtはそれぞれ現実カメラの3D回転行列及び並進ベクトルである)、所与の仮想視点の姿勢が
Figure 0006768156
である場合には(ただし、R及びtはそれぞれ仮想カメラの3D回転行列及び並進ベクトルである)、多視点幾何学理論から、現実フレームと、同じ局所平面を観測することによって誘発される仮想フレームとの間のホモグラフィ行列を以下のように見つけることができる。
Figure 0006768156
ただし、
Figure 0006768156
であり、K及びKはそれぞれ3×3仮想及び現実カメラ内部行列である。
このホモグラフィ行列を用いて、現実フレーム上のパッチとしてこの特徴点及びその隣接するピクセルを仮想フレーム上のパッチにワーピングすることができる。このワーピングされたパッチは、現実カメラが仮想姿勢Tから対応するランドマークを観測する場合に観測されると予想されるものを表す。現実フレーム上の特徴点ごとにこのワーピング演算を繰り返すことによって、疎な特徴を有する仮想フレームが生成される。一実施の形態において、この事例において使用される3D情報は、特に視覚的SLAMプロセスの初期段階中に、相対的に大きい分散を含む可能性がある推定値であるので、SLAMマップ品質が向上するにつれて良好な仮想視野が生成されるように、仮想画像生成は、後続の姿勢推定及びSLAMマップ最適化とともに再帰的に実行される。
本明細書において説明される実施の形態は、様々な装置(例えば、デバイス)に組み込まれる(例えば、様々な装置内で実現されるか、又は様々な装置によって実行される)場合がある。例えば、本明細書において教示される1つ以上の態様は、電話(例えば、携帯電話)、携帯情報端末(「PDA」)、タブレット、モバイルコンピューター、ラップトップコンピューター、タブレット、エンターテイメントデバイス(例えば、音楽又はビデオデバイス)、ヘッドセット(例えば、ヘッドフォン、イヤフォン等)、医療デバイス(例えば、バイオメトリックセンサー、心拍数モニター、歩数計、EKGデバイス等)、ユーザーI/Oデバイス、コンピューター、サーバー、販売時点情報管理(point-of-sale)デバイス、エンターテイメントデバイス、セットトップボックス、又は任意の他の適切なデバイスに組み込まれる場合がある。これらのデバイスは、異なる電力及びデータ要件を有する場合があり、結果として、ランドマークごとに、又は1セットのランドマークに対して異なる電力プロファイルが生成される場合がある。
図6は、一実施の形態によるシステムの概略図を示す。そのシステムは、自動化パーキング650を実行するように構成されるプロセッサ602を含む車両601を含む。また、車両は、LIDAR610及び/又はカメラ620等の少なくとも1つのセンサーを含む。センサーはプロセッサ602に動作可能に接続され、駐車スペースの少なくとも一部の幾何学的形状を示す情報を検知するように構成される。この情報を用いて、プロセッサ602は、VA−VSLAMを用いて駐車スペース630のモデルを決定し、及び/又は更新する。さらに、プロセッサ602は、マップ130を用いて、自動化パーキング650を実行する。
本発明の上記で説明した実施の形態は、多数の方法のうちの任意のもので実施することができる。例えば、実施の形態は、ハードウェア、ソフトウェア又はそれらの組み合わせを用いて実施することができる。ソフトウェアで実施される場合、ソフトウェアコードは、単一のコンピューターに設けられるのか又は複数のコンピューター間に分散されるのかにかかわらず、任意の適したプロセッサ又はプロセッサの集合体において実行することができる。そのようなプロセッサは、1つ以上のプロセッサを集積回路部品に有する集積回路として実装することができる。ただし、プロセッサは、任意の適したフォーマットの回路類を用いて実装することができる。
また、本発明の実施の形態は、例が提供された方法として実施することができる。この方法の一部として実行される動作は、任意の適切な方法で順序付けすることができる。したがって、動作が示したものと異なる順序で実行される実施の形態を構築することができ、これには、例示の実施の形態では一連の動作として示されたにもかかわらず、いくつかの動作を同時に実行することを含めることもできる。
請求項の要素を修飾する、特許請求の範囲における「第1」、「第2」等の序数の使用は、それ自体で、1つの請求項の要素の別の請求項の要素に対する優先順位も、優位性も、順序も暗示するものでもなければ、方法の動作が実行される時間的な順序も暗示するものでもなく、請求項の要素を区別するために、単に、或る特定の名称を有する1つの請求項の要素を、同じ(序数の用語の使用を除く)名称を有する別の要素と区別するラベルとして用いられているにすぎない。

Claims (16)

  1. 画像の視点を規定する異なる姿勢において少なくとも1つのセンサーによって取り込まれたシーンの1セットの画像から前記シーンの3次元(3D)モデルを再構成する方法であって、前記3Dモデルは、3D座標によって特定される点を有するポイントクラウドを含み、前記方法のステップは、前記1セットの画像を記憶するメモリに接続され、前記方法を実施する記憶された命令と結合されるプロセッサによって実行され、前記命令は、前記プロセッサによって実行されるときに、前記方法の少なくともいくつかのステップを実行し、前記方法は、
    前記1セットの画像からの前記画像を変換して、仮想視点から視認される前記シーンの1セットの仮想画像を生成することと、
    前記画像及び前記仮想画像からの少なくともいくつかの特徴を比較し、前記1セットの画像内の各画像の前記視点を特定することと、
    少なくとも2つの画像の前記視点に従って、前記シーンの前記3Dモデル内の少なくとも1つの点の3D座標を、前記点に対応する前記2つの画像のピクセルからの光線逆投影法の交点の座標と一致するように更新することと、
    を含む、方法。
  2. 前記1セットの画像は第1の視点を規定する第1の姿勢において取り込まれるシーンの第1の画像と、第2の視点を規定する第2の姿勢において取り込まれる前記シーンの第2の画像とを含み、前記方法は、
    前記第1の画像を変換して、前記第1の視点とは異なる仮想視点に対応する第1の仮想画像を生成することであって、前記変換することは、前記シーンの同じ点を表すために、前記第1の画像及び前記仮想画像の少なくともいくつかのピクセル間の対応を保持することと、
    前記第2の画像のうちの少なくともいくつかの特徴を前記仮想画像のうちの少なくともいくつかの特徴と比較し、前記第2の画像、前記仮想画像及び前記第1の画像の少なくともいくつかのピクセル間の対応を特定することと、
    前記第2の画像からのピクセルのサブセットの座標と、前記第1の画像からのピクセルのサブセットに対応する前記シーンの点の座標とに基づいて、前記第1の画像及び前記第2の画像からの前記対応するピクセルのサブセットを用いて、前記第1の画像の前記第1の視点に対する前記第2の画像の前記第2の視点を決定することと、
    前記第1の画像及び前記第2の画像内の対応するピクセルのバンドル調整を用いて、前記シーンの前記3Dモデル内の前記点の3D座標を更新することと、
    を含む、請求項1に記載の方法。
  3. 前記第1の画像は3Dセンサーによって取り込まれ、前記方法は、
    前記3Dセンサーを用いて、前記第1の画像からのピクセルの前記サブセットに対応する前記シーンの点の前記座標を特定することを更に含む、請求項2に記載の方法。
  4. 所定の初期距離を用いて、前記第1の画像からのピクセルの前記サブセットに対応する前記シーンの点の前記座標を特定することを更に含む、請求項2に記載の方法。
  5. 前記仮想視点は前記第1の視点と同じ位置を有するが、異なる向きを有し、前記方法は、
    前記仮想視点と前記第1の視点との間の向きの違いと、カメラ内部行列とから求められるホモグラフィ行列を用いて、前記第1の画像のあらゆるピクセルをワーピングすることによって前記第1の仮想画像を生成することを更に含む、請求項2に記載の方法。
  6. 前記1セットの画像は、第3の視点を規定する第3の姿勢において取り込まれる前記シーンの第3の画像を含み、前記方法は、
    前記第1の画像及び前記第3の画像の特徴を比較し、前記シーン内の同じ点に対応する前記第1の画像及び前記第3の画像のピクセルを特定することと、
    相対姿勢推定を用いて、前記第1の画像からのピクセルの前記サブセットに対応する前記シーンの点の前記座標を特定することと、
    を更に含む、請求項2に記載の方法。
  7. 6自由度(6−DOF)センサー姿勢空間をサンプリングして、1セットのサンプリングされた視点を生成することと、
    前記1セットのサンプリングされた視点に関する前記仮想画像を生成することと、
    を更に含む、請求項1に記載の方法。
  8. 前記サンプリングは、前記1セットの画像内の、未知の視点を有する画像に向かってバイアスをかけられる、請求項7に記載の方法。
  9. 画像の将来の視点を得るために、前記6−DOFセンサー姿勢空間の部分空間を推定することと、
    前記6−DOFセンサー姿勢空間の前記部分空間をサンプリングし、サンプリングされた視点を生成することと、
    前記サンプリングされた視点に関する前記仮想画像を生成することと、
    を更に含む、請求項7に記載の方法。
  10. 前記センサーの現在の姿勢と、前記センサーの運動の軌道とを用いて、前記6−DOFセンサー姿勢空間の前記部分空間を推定することを更に含む、請求項9に記載の方法。
  11. 3次元(3D)座標によって特定される点を有するポイントクラウドを含む、シーンの3Dモデルを再構成するシステムであって、
    画像の視点を規定する異なる姿勢から前記シーンの1セットの画像を取り込む少なくとも1つのセンサーと、
    前記1セットの画像と、前記シーンの前記3Dモデルとを記憶するメモリと、
    前記メモリに動作可能に接続され、記憶された命令に結合されるプロセッサであって、
    前記1セットの画像からの前記画像を変換して、仮想視点から視認される前記シーンの1セットの仮想画像を生成し、
    前記画像及び前記仮想画像からの少なくともいくつかの特徴を比較して、前記1セットの画像内の各画像の前記視点を特定し、
    少なくとも2つの画像の前記視点に従って、前記シーンの前記3Dモデル内の少なくとも1つの点の3D座標を、前記点に対応する前記2つの画像のピクセルからの光線逆投影法の交点の座標と一致するように更新するものと、
    を備える、システム。
  12. 前記1セットの画像は、第1の視点を規定する第1の姿勢において取り込まれる前記シーンの第1の画像を含み、第2の視点を規定する第2の姿勢において取り込まれる前記シーンの第2の画像を含み、前記プロセッサは、
    前記第1の画像を変換して、前記第1の視点とは異なる仮想視点に対応する第1の仮想画像を生成し、なお、前記変換することは、前記シーンの同じ点を表すように、前記第1の画像及び前記仮想画像の少なくともいくつかのピクセル間の対応を保持し、
    前記第2の画像の少なくともいくつかの特徴を前記仮想画像の少なくともいくつかの特徴と比較して、前記第2の画像、前記仮想画像及び前記第1の画像の少なくともいくつかのピクセルの間の対応を特定し、
    前記第2の画像からのピクセルのサブセットの座標と、前記第1の画像からのピクセルのサブセットに対応する前記シーンの点の座標とに基づいて、前記第1の画像及び前記第2の画像からの前記対応するピクセルの前記サブセットを用いて、前記第1の画像の前記第1の視点に対する前記第2の画像の前記第2の視点を特定し、
    前記第1の画像及び前記第2の画像内の対応するピクセルのバンドル調整を用いて、前記シーンの前記3Dモデル内の前記点の3D座標を更新する、
    ように更に構成される、請求項11に記載のシステム。
  13. 前記第1の画像は3Dセンサーによって取り込まれ、前記プロセッサは、前記3Dセンサーを用いて、前記第1の画像からのピクセルの前記サブセットに対応する前記シーンの点の前記座標を特定する、請求項12に記載のシステム。
  14. 前記1セットの画像は、第3の視点を規定する第3の姿勢において取り込まれる前記シーンの第3の画像を含み、前記プロセッサは、
    前記第1の画像及び前記第3の画像の特徴を比較して、前記シーン内の同じ点に対応する前記第1の画像及び前記第3の画像のピクセルを特定し、
    相対姿勢推定を用いて、前記第1の画像からのピクセルの前記サブセットに対応する前記シーンの点の前記座標を特定する、請求項12に記載のシステム。
  15. 前記仮想画像は、前記1セットの画像からの少なくとも1つの画像をワーピングすること、前記シーンの前記3Dモデルを前記仮想視点に投影すること、及び平面誘発ホモグラフィを用いることのうちの1つ又は組み合わせを用いて生成される、請求項12に記載のシステム。
  16. 画像の視点を規定する異なる姿勢において少なくとも1つのセンサーによって取り込まれるシーンの1セットの画像から前記シーンの3次元(3D)モデルを再構成する方法を実行するためにプロセッサによって実行可能であるプログラムを具現する、非一時的コンピューター可読記憶媒体であって、前記3Dモデルは、3D座標によって特定される点を有するポイントクラウドを含み、前記方法は、
    前記1セットの画像からの前記画像を変換して、仮想視点から視認される前記シーンの1セットの仮想画像を生成することと、
    前記画像及び前記仮想画像からの少なくともいくつかの特徴を比較して、前記1セットの画像内の各画像の前記視点を特定することと、
    少なくとも2つの画像の前記視点に従って、前記シーンの前記3Dモデル内の少なくとも1つの点の3D座標を、前記点に対応する前記2つの画像のピクセルからの光線逆投影法の交点の座標と一致するように更新することと、
    を含む、非一時的コンピューター可読記憶媒体。
JP2019527929A 2017-02-28 2018-01-19 仮想的に拡張された視覚的同時位置特定及びマッピングのシステム及び方法 Active JP6768156B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/444,601 US10659768B2 (en) 2017-02-28 2017-02-28 System and method for virtually-augmented visual simultaneous localization and mapping
US15/444,601 2017-02-28
PCT/JP2018/002364 WO2018159168A1 (en) 2017-02-28 2018-01-19 System and method for virtually-augmented visual simultaneous localization and mapping

Publications (2)

Publication Number Publication Date
JP2019536170A JP2019536170A (ja) 2019-12-12
JP6768156B2 true JP6768156B2 (ja) 2020-10-14

Family

ID=61257060

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019527929A Active JP6768156B2 (ja) 2017-02-28 2018-01-19 仮想的に拡張された視覚的同時位置特定及びマッピングのシステム及び方法

Country Status (5)

Country Link
US (1) US10659768B2 (ja)
JP (1) JP6768156B2 (ja)
CN (1) CN110582798B (ja)
DE (1) DE112018001050T5 (ja)
WO (1) WO2018159168A1 (ja)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10489965B1 (en) * 2017-03-24 2019-11-26 Mappedin Inc. Systems and methods for positioning a virtual camera
US10848741B2 (en) * 2017-06-12 2020-11-24 Adobe Inc. Re-cinematography for spherical video
WO2019019157A1 (en) * 2017-07-28 2019-01-31 Qualcomm Incorporated INITIALIZING IMAGE SENSOR IN A ROBOTIC VEHICLE
US10388029B1 (en) * 2017-09-07 2019-08-20 Northrop Grumman Systems Corporation Multi-sensor pose-estimate system
WO2019081350A1 (en) * 2017-10-23 2019-05-02 Koninklijke Philips N.V. SERVICE INSTRUCTION LIBRARY BASED ON SELF-EXPANSION ENHANCED REALITY
US11057667B2 (en) 2017-11-17 2021-07-06 Gfycat, Inc. Selection of a prerecorded media file for superimposing into a video
US11057601B2 (en) 2017-11-17 2021-07-06 Gfycat, Inc. Superimposing a prerecorded media file into a video
AU2019291869B2 (en) 2018-06-27 2021-02-25 Niantic, Inc. Multi-sync ensemble model for device localization
US11215462B2 (en) * 2018-10-26 2022-01-04 Here Global B.V. Method, apparatus, and system for location correction based on feature point correspondence
US20200137380A1 (en) * 2018-10-31 2020-04-30 Intel Corporation Multi-plane display image synthesis mechanism
US10945042B2 (en) 2018-11-19 2021-03-09 Gfycat, Inc. Generating an interactive digital video content item
CN111238494B (zh) * 2018-11-29 2022-07-19 财团法人工业技术研究院 载具、载具定位系统及载具定位方法
US11288842B2 (en) 2019-02-15 2022-03-29 Interaptix Inc. Method and system for re-projecting and combining sensor data for visualization
US11670047B2 (en) * 2019-07-02 2023-06-06 Tata Consultancy Services Limited System and method for integrating objects in monocular slam
CN110689624B (zh) * 2019-10-11 2023-03-03 北京华宁全视科技有限公司 一种将混合现实场景中虚拟模型与实物配准的方法
CN112785715B (zh) * 2019-11-08 2024-06-25 华为技术有限公司 虚拟物体显示方法以及电子设备
CN111192308B (zh) * 2019-12-31 2023-11-03 浙江商汤科技开发有限公司 图像处理方法及装置、电子设备和计算机存储介质
CN111243021A (zh) * 2020-01-06 2020-06-05 武汉理工大学 基于多组合相机的车载视觉定位方法、系统及存储介质
US11209573B2 (en) 2020-01-07 2021-12-28 Northrop Grumman Systems Corporation Radio occultation aircraft navigation aid system
US11651473B2 (en) * 2020-05-22 2023-05-16 Meta Platforms, Inc. Outputting warped images from captured video data
US11276201B1 (en) 2020-06-01 2022-03-15 Snap Inc. Localizing an augmented reality device
US11748954B2 (en) 2020-06-01 2023-09-05 Snap Inc. Tracking an augmented reality device
KR102300570B1 (ko) * 2020-07-31 2021-09-09 주식회사 쓰리아이 전방위 이미지 촬영 어셈블리 및 이에 의해 수행되는 방법
US11514799B2 (en) 2020-11-11 2022-11-29 Northrop Grumman Systems Corporation Systems and methods for maneuvering an aerial vehicle during adverse weather conditions
JP7491398B2 (ja) 2020-11-18 2024-05-28 日本電気株式会社 マップ生成装置、マップ生成方法、及びプログラム
CN112767484B (zh) * 2021-01-25 2023-09-05 脸萌有限公司 定位模型的融合方法、定位方法、电子装置
EP4047558A1 (en) * 2021-02-17 2022-08-24 Miehee Ju Kim System for generating 3d mobile augmented reality
WO2022198603A1 (en) * 2021-03-25 2022-09-29 Shanghaitech University Real-time simultaneous localization and mapping using an event camera
CN113114994A (zh) * 2021-04-08 2021-07-13 中山大学 行为感知方法、装置及设备
CN113034600B (zh) * 2021-04-23 2023-08-01 上海交通大学 基于模板匹配的无纹理平面结构工业零件识别和6d位姿估计方法
KR102701104B1 (ko) * 2021-11-03 2024-08-29 경북대학교 산학협력단 다시점-다일시 위성 영상을 이용한 3차원 수치표면 모델 생성 장치 및 방법
DE102022206041A1 (de) 2022-06-15 2023-12-21 Robert Bosch Gesellschaft mit beschränkter Haftung Verfahren zum Bestimmen von Objekten in einer Umgebung für SLAM
CN115284297B (zh) * 2022-08-31 2023-12-12 深圳前海瑞集科技有限公司 工件定位方法、机器人及机器人作业方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7135992B2 (en) 2002-12-17 2006-11-14 Evolution Robotics, Inc. Systems and methods for using multiple hypotheses in a visual simultaneous localization and mapping system
US9183631B2 (en) 2012-06-29 2015-11-10 Mitsubishi Electric Research Laboratories, Inc. Method for registering points and planes of 3D data in multiple coordinate systems
EP3502621B1 (en) 2012-09-21 2023-06-07 NavVis GmbH Visual localisation
US9576183B2 (en) * 2012-11-02 2017-02-21 Qualcomm Incorporated Fast initialization for monocular visual SLAM
US10574974B2 (en) * 2014-06-27 2020-02-25 A9.Com, Inc. 3-D model generation using multiple cameras
CN105528082B (zh) * 2016-01-08 2018-11-06 北京暴风魔镜科技有限公司 三维空间及手势识别追踪交互方法、装置和系统

Also Published As

Publication number Publication date
DE112018001050T5 (de) 2019-11-07
JP2019536170A (ja) 2019-12-12
CN110582798A (zh) 2019-12-17
WO2018159168A1 (en) 2018-09-07
US20180249144A1 (en) 2018-08-30
CN110582798B (zh) 2023-07-28
US10659768B2 (en) 2020-05-19

Similar Documents

Publication Publication Date Title
JP6768156B2 (ja) 仮想的に拡張された視覚的同時位置特定及びマッピングのシステム及び方法
CN110264509B (zh) 确定图像捕捉设备的位姿的方法、装置及其存储介质
JP6896077B2 (ja) 車両自動パーキングシステム及び方法
CN110853075B (zh) 一种基于稠密点云与合成视图的视觉跟踪定位方法
EP2992508B1 (en) Diminished and mediated reality effects from reconstruction
JP6456347B2 (ja) 平面固有の特徴のターゲットのinsitu生成
CN108492316A (zh) 一种终端的定位方法和装置
JP2019522851A (ja) 3次元空間内の姿勢推定
CN112889091A (zh) 使用模糊特征的相机位姿估计
CN111127524A (zh) 一种轨迹跟踪与三维重建方法、系统及装置
CN109785373B (zh) 一种基于散斑的六自由度位姿估计系统及方法
CN110375765B (zh) 基于直接法的视觉里程计方法、系统及存储介质
CN105809664B (zh) 生成三维图像的方法和装置
CN108028904B (zh) 移动设备上光场增强现实/虚拟现实的方法和系统
CN116443256A (zh) 用于空中加油的方法、系统及计算机程序产品
CN115191113A (zh) 宽视角立体摄像机装置及使用其的深度影像处理方法
US10977810B2 (en) Camera motion estimation
CN113496503A (zh) 点云数据的生成及实时显示方法、装置、设备及介质
CN114882106A (zh) 位姿确定方法和装置、设备、介质
CN111784842B (zh) 三维重建方法、装置、设备及可读储存介质
JP6086491B2 (ja) 画像処理装置およびそのデータベース構築装置
EP2879090B1 (en) Aligning ground based images and aerial imagery
EP4261783A1 (en) Using cloud computing to improve accuracy of pose tracking
Yang et al. Dense depth estimation from multiple 360-degree images using virtual depth
Zhang et al. Bootstrapped real-time ego motion estimation and scene modeling

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190523

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200603

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200707

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200805

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200825

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200918

R150 Certificate of patent or registration of utility model

Ref document number: 6768156

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250