JP6976350B2

JP6976350B2 - 静的物体及び動的物体を含むシーンの位置特定及びマッピングに関するイメージングシステム

Info

Publication number: JP6976350B2
Application number: JP2019553594A
Authority: JP
Inventors: カンシゾグル、エスラ; カッカモ、セルジオ・エス; 裕一田口
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2017-08-11
Filing date: 2018-02-06
Publication date: 2021-12-08
Anticipated expiration: 2038-02-06
Also published as: WO2019030947A1; JP2020512646A; US20190050668A1; US10832078B2

Description

本開示は包括的には、コンピュータビジョン及び画像処理に関し、より詳細には、シーン内の静的物体の同時位置特定及びマッピング（ＳＬＡＭ：simultaneous localization and mapping）、並びにシーン内で移動している物体の検出及び追跡に適した、動的物体及び静的物体の同時再構成に関する。

従来のロボットは、シーン内の空間的及び時間的な関係、静止物体及び移動物体を確立するのに課題がある。位置特定は、ロボットと静止物体との間の空間的な関係を確立するプロセスに関する用語である。マッピングは、静止物体間の空間的な関係を確立するプロセスを指している。移動物体追跡は、移動物体とロボットとの間、又は移動物体と静止物体との間の空間的及び時間的な関係を確立するプロセスと理解することができる。現実世界には不確定性及び識別できない状態があることから、ロボット等の従来のセンサデバイスにとって、位置特定、マッピング及び移動物体追跡は困難である。カメラ、レーダ及びレーザ等の知覚センサ、並びに走行距離計測及び慣性測定装置等の運動センサは雑音があり、シーンの位置特定及びマッピングのための現在の技術的な適用例において使用するのに望ましくない。例えば、移動物体の意図、すなわち、制御入力は、移動物体上に取り付けられる追加のセンサを使用しなければ、識別することができない。

モバイルロボット工学及び人工知能産業において、同時位置特定及びマッピング（ＳＬＡＭ）問題及び移動物体追跡問題は長い間、課題になってきた。ＳＬＡＭは、マップを徐々に作成しながら、新たに知覚されたランドマークの場所及びロボット自体の場所を同時に推定することを伴う。移動物体追跡は、状態推定及び運動モデル学習の両方を伴う。従来の適用例では、ＳＬＡＭ及び移動物体追跡は、切り離して、すなわち、別々に検討される。従来のＳＬＡＭ問題では、静止物体に関連付けられるデータはポジであり、移動物体に関連付けられるデータはネガであり、それにより、性能が劣化する。逆に、移動物体追跡問題では、移動物体に属する測定値はポジであり、静止物体は背景と見なされ、フィルタリングにより除去される。例えば、特許文献１に記述されている方法を参照されたい。

したがって、モバイルロボット工学及び人工知能産業等における現在の技術的な適用例に対処するために、静的物体及び動的物体の両方を含むシーンの位置特定及びマッピングのための特徴ベース同時位置特定及びマッピング（ＳＬＡＭ）を提供するシステム及び方法が必要とされている。

米国特許第６，０４９，６１９号

本開示の実施形態は、コンピュータビジョン及び画像処理のシステム及び方法を提供し、より詳細には、シーン内の静的物体の同時位置特定及びマッピング（ＳＬＡＭ）、並びにシーン内で移動している物体の検出及び追跡に適した、動的物体及び静的物体の同時再構成のシステム及び方法を提供する。

本開示は、本発明のシステム及び方法が、シーン内の静的領域及び動的物体、すなわち、剛体移動物体（rigidly moving objects）の同時３次元（３Ｄ）再構成を提供するという理解に基づく。静止物体及び移動物体はいずれもシーン理解に対するポジ情報であるので、静的物体及び移動物体の同時位置特定及びマッピング（ＳＬＡＭ）は、互いに有利に働く可能性があると考えられる。具体的には、本開示は、静的物体及び動的物体を含むシーンの位置特定及びマッピングに関するスパース特徴ベースＳＬＡＭシステムを提供する。スパース特徴ベースＳＬＡＭは、シーン内のキーポイント、すなわち、対象点のみを記憶し、それにより、数ある利点の中でも、スパース特徴ベースＳＬＡＭシステムを実行するプロセッサにかかる計算負荷及び記憶負荷を軽減することができる。そのようなスパース特徴ベースＳＬＡＭは、シーン内の１つ又は複数の静的物体の静的マップ、及びシーン内の各動的物体の物体マップ（モデル）を同時に生成する必要がある。しかしながら、これを実現に近づけるのは困難であることがわかった。

移動物体の検出及び追跡（ＤＡＴＭＯ）を伴うＳＬＡＭに関する技法は、物体に関する運動モデルを適応的に学習することによって、移動物体追跡問題を解くことを目的とする。したがって、それらの技法は、静止物体及び移動物体に関する別々の事後確率（posteriors）を保持することによって、推定問題を２つの別々の推定器に分解する。結果として、推定問題は、一般化された物体を伴うＳＬＡＭよりはるかに低い次元になり、それにより、両方のフィルタをリアルタイムに更新できるようになる。

しかしながら、これらの従来の手法は、考慮すべき大きい実用上の問題を有する。これらの実用上の問題が、現在の技術的な適用例に関して、それらの手法を適用するのを制限することがわかった。例えば、これらの実用上の問題は、物体の運動が滑らかであるという仮定等の、知覚のモデル化及びデータ関連付けに関するいくつかの暗黙の仮定から生じる。いくつかの従来のシステムは、物体が滑らかな運動を全く有しない（すなわち、人によって操作される）ときに困難がある。さらに、これらの問題に対する解決策を適用する際に、ハードウェアのコストの上昇及び／又は計算要件の増加につながることがわかった。さらに、これらの手法は、移動物体の３Ｄ再構成を提供するのではなく、代わりに、物体追跡（すなわち、静的マップに対する物体の位置）のみを提供する。そのため、従来の手法に関する上記の制約を克服し、現在の技術的な適用例に対処する解決策を見つける必要があった。

他の従来のＳＬＡＭ手法があるが、これらの手法は、移動物体のモデルがあらかじめ与えられることを仮定する。これらの手法は、ＳＬＡＭに先立って、個別のモデル化及び物体スキャンステージを必要とする。そのため、これらの技法では、移動物体の姿勢のみが保持及び更新され、モデルに基づいて追跡が実行されるので、移動物体追跡がより容易になる。しかしながら、倉庫内等では、物体のタイプ及びパッケージングが急速に変化する可能性があるので、移動物体のモデルは未知である可能性がある。したがって、近づきつつある新たな物体ごとに個別の物体マップを生成できないことになり、これらの従来の手法を実生活において使用するのが難しくなる。

高密度ＳＬＡＭシステムは、その高密度表現においてシーンの全ての情報を使用するので、そのシステムを使用することにより、動的物体検出がより容易になる可能性がある。しかしながら、高密度ＳＬＡＭシステムを使用する結果として、スパースシステムに比べて、計算要件が厳しくなった。高密度ＳＬＡＭ手法は、入力フレーム内で見つけられた全ての輝度（intensity）及び奥行情報を記憶する。それに対して、スパース特徴ベースＳＬＡＭ手法の場合、上記で言及されたように、シーン内のキーポイント、すなわち、対象点のみが記憶され、スパース特徴ベースＳＬＡＭシステムを実行するプロセッサにかかる計算負荷及び記憶負荷を軽減する。スパース特徴ベースＳＬＡＭ手法を使用することが重要である少なくとも１つの理由は、非限定的な例によれば、ロボットにおいてスパース手法を使用することが、簡単なプロセッサを使用でき、大量のデータに起因する機能不全が生じないため有益であることにある。それに対して、高密度システムは計算要件が厳しくなり、グラフィックス処理ユニット（ＧＰＵ）においてのみ機能することになる。

本開示のいくつかの実施形態は最初に、単一のマップから開始し、静的マップと呼ばれる、このマップに対して各フレームの位置を特定する。静的マップに対するフレーム位置特定後に、高い外れ値比を有する１組のセグメントとして移動物体を検出することができる。動的セグメント測定値内に入る特徴を検出した後に、物体マップと呼ばれる、剛体移動物体、すなわち、動的物体を表す新たなマップを初期化する。後続の観測において、各フレームが静的マップ及び物体マップの両方に対して重ね合わせられる。これらの重ね合わせから生じる正常値（inliers）に基づいて、物体に属する特徴及び静的領域に属する特徴を区別する。

本開示は、動的領域及び静的領域に由来する特徴を区別するために使用されるマルチステージ幾何学的検証手法に基づく。具体的には、物体を表現するために特徴グループ分けを使用する。本開示のＳＬＡＭフレームワークにおいて、キーフレーム（keyframes）は、特徴の集合として扱われ、物体はセグメントの集合と見なされ、セグメントはキーフレームからの特徴のサブセットである。その場合に、マルチステージ重ね合わせ方式は、各マップに対する、フレームの全ての特徴、及び特徴の種々のサブセットの重ね合わせを検討する。最初に、全ての測定値が静的マップに対して重ね合わせられ、結果として、フレーム内の支配的な運動パターンが見つけられ、一方、小さい移動物体の位置特定は見逃される可能性がある。その後、第２のステージにおいて、セグメントベース重ね合わせ手順が進められ、物体マップに対してセグメント内に入る特徴が重ね合わせられる。特徴の分類は重ね合わせによって決まるので、よりロバストな重ね合わせのために、正確な姿勢推定値及び複数のステージにおける幾何学的検証の実行の必要性が生じる。

本開示の少なくとも１つの重要な利点は、静的環境をマッピングしながら、同時に、物体モデルをその場合で生成することである。子供が他人を観察することによって物体をモデル化し、操作するのを学習するのと同様に、本開示は、物体の運動に基づいて、物体モデル及び静的シーンマップの両方を同時に学習する。

本開示の少なくとも１つの方法は、静的物体及び動的物体を含むシーンの位置特定及びマッピングのためのイメージングシステムである。その方法は、一連のフレームを取得するセンサを含む。各フレームは、本開示による、３Ｄ平面及び点である特徴の集合を含む。これらの特徴は、フレームの測定値と定義される。点群上の領域成長手法後に、平面が抽出され、その後、平面が、平面方程式を用いて表される。点は、シーンの輝度及び奥行測定値によって表されるキーポイントとして抽出される。キーポイントは、それらの点のうちの１つを他の点から区別するのを助ける弁別的な特徴として現れる。例えば、キーポイントは、スケール不変特徴変換（ＳＩＦＴ：scale-invariant feature transform）及び最大安定極値領域（ＭＳＥＲ：maximally stable extremal regions）等の検出器を用いて検出することができる。シーンの各キーポイント輝度及び奥行測定値は、キーポイントの記述子を計算するために使用することができ、ＳＩＦＴ及びＭＳＥＲ法は、記述子抽出のために使用することができる。各キーポイントは、フレームの測定値と見なされ、それは、３Ｄロケーションと、関連するキーポイントの記述子とを用いて表される。イメージングシステムは、シーン内の１つ又は複数の静的物体の静的マップを記憶するメモリを含み、例えば、静的物体は、屋内シーンの壁及び床を含むことができる。さらに、メモリは、シーン内の各動的物体の物体マップを記憶することもでき、静的マップは１組のランドマークを含むことができる。ランドマークは世界内の特定の点であり、異なるフレームに由来する測定値の集合として表される。言い換えると、マップ内のランドマークは、種々の視点から複数のフレームによって視認することができる。動的物体の少なくとも１つの例は、人によって操作されるカップ及び箱等の日常的な物体を含むことができる。さらに、メモリは、１組のセグメントを含む物体マップを含み、各セグメントの記述子は、そのセグメントを形成する複数の測定値の関数である。ここで、１組のセグメントは、箱の側面、テーブル上面、球体又は柱体の表面等の空間的にコヒーレントな領域（spatially coherent regions）と理解される。また、各セグメントの記述子は、そのセグメントに入るキーポイント記述子の集合体と定義することができ、方法として、局所集約記述子ベクトル（ＶＬＡＤ：Vector of Locally Aggregated Descriptors）を使用することができる。

さらに、イメージングシステムのローカライザを用いて、フレームベース重ね合わせを使用することによって、センサによって取得されたフレームの少なくともいくつかの測定値を静的マップ内のランドマークと重ね合わせる。また、ローカライザは、セグメントベース重ね合わせを用いて、フレーム内の少なくともいくつかのセグメントを物体マップ内のセグメントと重ね合わせる。フレームベース重ね合わせは、最初に、フレーム内で見つけられた全ての測定値をマップ内のランドマークと照合し、第二に、ランダムサンプルコンセンサス（ＲＡＮＳＡＣ：random sample consensus）フレームワークに従って、照合対間の変化を見つけることであると説明することができる。さらに、セグメントベース重ね合わせは、最初に、外観類似性探索（appearance similarity search）（すなわち、ＶＬＡＤ）を用いてフレーム内のセグメントをマップ内のセグメントと照合し、第二に、セグメントの測定値をマップからの照合セグメントのランドマークと照合し、第三に、ＲＡＮＳＡＣフレームワークに従って照合対間の変化を見つけることであると規定される。照合プロセスにおいて雑音が存在する場合があるので、ＲＡＮＳＡＣ手順は、計算された変化に基づいて、どの照合が正確であると見なされるかを出力する。したがって、その手順は、フレームの測定値とマップのランドマークとの対応を与える。

最後に、マッパを用いて、各セグメントを形成する測定値と、セグメントベース重ね合わせに従って対応する物体マップと重ね合わせられる測定値とによって各物体マップを更新し、静的マップと重ね合わせられるキーポイントを用いて、フレーム内の残りのキーポイントによって静的マップを更新する。マッパをより深く理解するために、マッパは最初に、測定値が静的マップに追加されるか、物体マップに追加されるかを判断し、第二に、それに基づいて、各マップを更新する。より具体的には、最初のステップにおいて、測定値が物体マップのセグメントと照合されるセグメント内に入る場合には、又は測定値が物体マップのランドマークに対応すると見なされる場合には、その測定値は物体マップに関連付けられる。そうでない場合には、キーポイントは静的マップに関連付けられる。次に、最初のステップの結果として、マップに関連付けられる全てのキーポイントによってマップが更新される。マップ更新中に、測定値がマップのランドマークに関連付けられる場合には、その測定値は照合ランドマークに付加され、そうでない場合には、その測定値はマップに新たなランドマークとして追加される。それゆえ、この手順は、既存のランドマップを補強し、マップに新たなランドマークも追加する。

本開示の別の方法は、最初に、第１の入力フレームによって静的マップを初期化することを含み、３Ｄセンサによって取得された別のＲＧＢ−Ｄフレーム、すなわち、赤、緑、青及び奥行（ＲＧＢ−Ｄ）画像を取り込むことができる。次のステップにおいて、位置特定モジュールが、現在の入力フレームと、既存のマップのそれぞれとの間のマルチステージ重ね合わせを実行する。物体マップがまだ初期化されていない場合には、移動物体検出モジュールが、その物体に属する領域を見つける。既に既存の物体マップが存在する場合には、最初に、特徴分類を実行し、既存の物体マップに関連付けられる測定値を分割する。残りの測定値に関して、そのシーン内に新たな物体が存在するか否かを見つけるために、移動物体検出を再び実行する。各マップに対するフレームの推定姿勢に応じて、そのフレームが、新規のキーフレームとしてそれぞれのマップに追加される。その後、バンドル調整手順がＳＬＡＭと非同期に実行される。

本開示のイメージングシステム及び方法は、非限定的な例として、同時ロボットナビゲーション及び物体モデル化等の、数多くの異なる技術産業のために使用することが可能である。他の技術産業は、その場で生成された物体モデルによるロボット操作を含むことができる。さらに、本開示のスパース特徴ベースＳＬＡＭシステムは、非限定的な例として、計算効率、及び正確な３Ｄ再構成等の数多くの利点を提供することもできる。

本開示の一実施形態によれば、イメージングシステムは、静的物体及び動的物体を含むシーンの位置特定及びマッピングに関する。そのイメージングシステムは、一連のフレームを取得するセンサを備え、各フレームは、そのシーンの輝度及び奥行測定値を表す１組のキーポイントを含む。メモリは、シーン内の１つ又は複数の静的物体の静的マップ及びシーン内の各動的物体の物体マップを記憶する。その場合に、静的マップは１組のランドマークを含み、物体マップは１組のランドマーク及び１組のセグメントを含み、各セグメントの記述子は、そのセグメントを形成する複数の測定値の関数である。ローカライザを使用して、フレームベース重ね合わせを用いて、センサによって取得されたフレームの少なくともいくつかのキーポイントを静的マップ内のランドマークと重ね合わせ、セグメントベース重ね合わせを用いて、フレーム内の少なくともいくつかのセグメントを物体マップ内のセグメントと重ね合わせる。マッパは、各セグメントを形成するキーポイントと、セグメントベース重ね合わせに従って対応する物体マップと重ね合わせられるキーポイントとによって各物体マップを更新し、静的マップと重ね合わせられるキーポイントを用いて、フレーム内の残りのキーポイントによって静的マップを更新する。

本開示の一実施形態によれば、イメージングシステムは、静的物体及び動的物体を含むシーンの位置特定及びマッピングに関する。センサは、センサデータを取得する。データは一連のフレームを含み、各フレームは、そのシーンの輝度及び奥行測定値を表す１組のキーポイントを含む。メモリは、シーン内の１つ又は複数の静的物体の静的マップ及びシーン内の各動的物体の物体マップを記憶する。静的マップは１組のランドマークを含む。物体マップは１組のセグメントを含み、各セグメントの記述子は、セグメントを形成する複数の測定値の関数である。イメージングシステムは、メモリ及びセンサと通信するプロセッサを備える。プロセッサは、フレームベース重ね合わせを用いて、センサによって取得されたフレームの少なくともいくつかのキーポイントを静的マップ内のランドマークと重ね合わせ、セグメントベース重ね合わせを用いて、フレーム内の少なくともいくつかのセグメントを物体マップ内のセグメントと重ね合わせるローカライザを利用するように構成される。ランドマークは、シーン内の物体上の特定の識別点に対応する。マッパは、各セグメントを形成するキーポイントと、セグメントベース重ね合わせに従って対応する物体マップと重ね合わせられるキーポイントとによって各物体マップを更新し、静的マップと重ね合わせられるキーポイントを用いて、フレーム内の残りのキーポイントによって静的マップを更新する。

本開示の一実施形態によれば、イメージングシステムは、静的物体及び動的物体を含むシーンの位置特定及びマッピングに関する。そのイメージングシステムは、一連のフレームを取得するセンサを備えるイメージングシステムであり、各フレームは、そのシーンの輝度及び奥行測定値を表す１組のキーポイントを含む。メモリは、シーン内の１つ又は複数の静的物体の静的マップ及びシーン内の各動的物体の物体マップを記憶する。静的マップは１組のランドマークを含む。物体マップは１組のセグメントを含み、各セグメントの記述子は、セグメントを形成する複数の測定値の関数である。センサ及びメモリと通信するプロセッサは、フレームベース重ね合わせを用いて、センサによって取得されたフレームの少なくともいくつかのキーポイントを静的マップ内のランドマークと重ね合わせ、セグメントベース重ね合わせを用いて、フレーム内の少なくともいくつかのセグメントを物体マップ内のセグメントと重ね合わせるローカライザを利用するように構成される。マッパは、各セグメントを形成するキーポイントと、セグメントベース重ね合わせに従って対応する物体マップと重ね合わせられるキーポイントとによって各物体マップを更新し、静的マップと重ね合わせられるキーポイントを用いて、フレーム内の残りのキーポイントによって静的マップを更新する。

更なる特徴及び利点は、以下の詳細な説明を添付図面とともに取り入れると、この詳細な説明からより容易に明らかになる。

ここに開示されている実施形態は、添付図面を参照して更に説明される。示されている図面は、必ずしも一律の縮尺というわけではなく、その代わり、一般的に、ここに開示されている実施形態の原理を示すことに強調が置かれている。

本開示の実施形態による、イメージングシステムのブロック図である。本開示の一実施形態による、一連のフレームにおいてシーンを含む、図１Ａのイメージングシステムのブロック図である。本開示の実施形態による、図１Ｂのイメージングシステムのブロック図内のシーンの一連のフレームを示す図である。本開示の実施形態による、イメージングシステムのローカライザ及びマッパモジュールの態様を詳述する、イメージングシステム１００Ｂのブロック図である。本開示の実施形態による、物体マップ及びＳＬＡＭマップを使用する階層的特徴グループ分けの概略図である。本開示の実施形態による、特徴の静的領域及び物体領域への分類を示す概略図である。本開示の実施形態による、特徴の静的領域及び物体領域への分類を示す概略図である。本開示の実施形態による、特徴の静的領域及び物体領域への分類を示す概略図である。本開示の実施形態による、特徴の静的領域及び物体領域への分類を示す概略図である。本開示の実施形態による、イメージングシステムのフレームベース重ね合わせのブロック図である。本開示の実施形態による、イメージングシステムのセグメントベース重ね合わせのブロック図である。本開示の実施形態による、代替のコンピュータ又はコントローラを用いて実施することができる、図１Ａの方法を示すブロック図である。

以下の説明は、例示的な実施形態のみを提供し、本開示の範囲も、適用範囲も、構成も限定することを意図していない。そうではなく、例示的な実施形態の以下の説明は１つ以上の例示的な実施形態を実施することを可能にする説明を当業者に提供する。添付の特許請求の範囲に明記されているような開示された主題の趣旨及び範囲から逸脱することなく要素の機能及び配置に行うことができる様々な変更が意図されている。以下の説明では、実施形態の十分な理解を提供するために、具体的な詳細が与えられる。しかしながら、当業者は、これらの具体的な詳細がなくても実施形態を実施することができることを理解することができる。例えば、開示された主題におけるシステム、プロセス、及び他の要素は、実施形態を不必要な詳細で不明瞭にしないように、ブロック図形式の構成要素として示される場合がある。それ以外の場合において、よく知られたプロセス、構造、及び技法は、実施形態を不明瞭にしないように不必要な詳細なしで示される場合がある。さらに、様々な図面における同様の参照符号及び名称は、同様の要素を示す。

また、個々の実施形態は、フローチャート、フロー図、データフロー図、構造図、又はブロック図として描かれるプロセスとして説明される場合がある。フローチャートは、動作を逐次的なプロセスとして説明することができるが、これらの動作の多くは、並列又は同時に実行することができる。加えて、これらの動作の順序は、再配列することができる。プロセスは、その動作が完了したときに終了することができるが、論述されない又は図に含まれない追加のステップを有する場合がある。さらに、特に説明される任意のプロセスにおける全ての動作が全ての実施形態において行われ得るとは限らない。プロセスは、方法、関数、手順、サブルーチン、サブプログラム等に対応することができる。プロセスが関数に対応するとき、その関数の終了は、呼び出し側関数又はメイン関数へのその機能の復帰に対応することができる。

さらに、開示された主題の実施形態は、少なくとも一部は手動又は自動のいずれかで実施することができる。手動実施又は自動実施は、マシン、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、又はそれらの任意の組み合わせを用いて実行することもできるし、少なくとも援助することができる。ソフトウェア、ファームウェア、ミドルウェア又はマイクロコードで実施されるとき、必要なタスクを実行するプログラムコード又はプログラムコードセグメントは、マシン可読媒体に記憶することができる。プロセッサ（複数の場合もある）が、それらの必要なタスクを実行することができる。

概略
本開示の実施形態は、シーン内の静的物体の同時位置特定及びマッピング（ＳＬＡＭ）、並びにシーン内で移動している物体の検出及び追跡に適した、動的物体及び静的物体の同時再構成のシステム及び方法を提供する。

本開示は、本発明のシステム及び方法が、シーン内の静的領域及び動的物体、すなわち、剛体移動物体の同時３次元（３Ｄ）再構成を提供するという理解に基づく。本開示は、静止物体及び移動物体がいずれもシーン理解に対するポジ情報であるので、同時位置特定及びマッピング（ＳＬＡＭ）及び移動物体追跡が、互いに有利に働く可能性があるという理解に基づく。具体的には、本開示は、静的物体及び動的物体を含むシーンの位置特定及びマッピングに関するスパース特徴ベースＳＬＡＭシステムを提供する。スパース特徴ベースＳＬＡＭは、シーン内のキーポイント、すなわち、対象点を含み、それにより、数ある利点の中でも、スパース特徴ベースＳＬＡＭシステムを実行するプロセッサにかかる計算負荷及び記憶負荷を軽減することができる。そのようなスパース特徴ベースＳＬＡＭは、シーン内の１つ又は複数の静的物体の静的マップ、及びシーン内の各動的物体の物体マップ（モデル）を同時に生成する必要がある。

本開示のいくつかの実施形態は最初に、単一のマップから開始し、静的マップと呼ばれる、このマップに対して各フレームの位置を特定する。静的マップに対するフレーム位置特定後に、高い外れ値比を有する１組のセグメントとして移動物体を検出することができる。動的セグメント測定値内に入る特徴を検出した後に、物体マップと呼ばれる、剛体移動物体、すなわち、動的物体を表す新たなマップを初期化する。後続の観測において、各フレームが静的マップ及び物体マップの両方に対して重ね合わせられる。これらの重ね合わせから生じる正常値に基づいて、物体に属する特徴及び静的領域に属する特徴を区別する。

本開示は、動的領域及び静的領域に由来する特徴を区別するために使用されるマルチステージ幾何学的検証手法に基づく。具体的には、物体を表現するために特徴グループ分けを使用する。本開示のＳＬＡＭフレームワークにおいて、キーフレームは、特徴の集合として扱われ、物体はセグメントの集合と見なされ、セグメントはキーフレームからの特徴のサブセットである。その場合に、マルチステージ重ね合わせ方式は、各マップに対する、フレームの全ての特徴、及び特徴の種々のサブセットの重ね合わせを検討する。最初に、全ての測定値が静的マップに対して重ね合わせられ、結果として、フレーム内の支配的な運動パターンが見つけられ、一方、小さい移動物体の位置特定は見逃される可能性がある。その後、第２のステージにおいて、セグメントベース重ね合わせ手順が進められ、物体マップに対してセグメント内に入る特徴が重ね合わせられる。特徴の分類は重ね合わせによって決まるので、よりロバストな重ね合わせのために、正確な姿勢推定値及び複数のステージにおける幾何学的検証の実行の必要性が生じる。

本開示の一実施形態は、一連のフレームを取得するセンサを含み、各フレームは、そのシーンの輝度及び奥行測定値を表す１組のキーポイントを含む。メモリは、シーン内の１つ又は複数の静的物体の静的マップ及びシーン内の各動的物体の物体マップを記憶する。その場合に、静的マップは１組のランドマークを含み、物体マップは１組のランドマーク及び１組のセグメントを含み、各セグメントの記述子は、そのセグメントを形成する複数の測定値の関数である。ローカライザを使用して、フレームベース重ね合わせを用いて、センサによって取得されたフレームの少なくともいくつかのキーポイントを静的マップ内のランドマークと重ね合わせ、セグメントベース重ね合わせを用いて、フレーム内の少なくともいくつかのセグメントを物体マップ内のセグメントと重ね合わせる。マッパは、各セグメントを形成するキーポイントと、セグメントベース重ね合わせに従って対応する物体マップと重ね合わせられるキーポイントとによって各物体マップを更新し、静的マップと重ね合わせられるキーポイントを用いて、フレーム内の残りのキーポイントによって静的マップを更新する。

図１Ａは、本開示の一実施形態による、イメージングシステムのブロック図である。イメージングシステム１００Ａは、シーン１２１の一連のフレーム１９５を取得するセンサ１２２を備える。各フレームは、シーン１２１の輝度及び奥行測定値を表す１組のキーポイントを含む。メモリ１３０は、シーン１２１内の１つ又は複数の静的物体の静的マップ１０５及びシーン内の各動的物体の物体マップ１０７を記憶する。静的マップ１０５は１組のランドマークを含み、物体マップ１０７は１組のセグメントを含み、各セグメントの記述子は、そのセグメントを形成する複数の測定値の関数である。マッパ１２６は、フレームベース重ね合わせを用いて、センサ１２２によって取得されたフレームの少なくともいくつかのキーポイントを静的マップ１０５内のランドマークと重ね合わせ、セグメントベース重ね合わせを用いて、フレーム内の少なくともいくつかのセグメントを物体マップ１０７内のセグメントと重ね合わせるローカライザ１２４。各セグメントを形成するキーポイントと、セグメントベース重ね合わせに従って対応する物体マップ１０７と重ね合わせられるキーポイントとによって各物体マップ１０７を更新し、静的マップ１０５と重ね合わせられるキーポイントを用いて、フレーム内の残りのキーポイントによって静的マップ１０５を更新する。

図１Ｂは、本開示の一実施形態による、一連のフレームにおいてシーンを含む、図１Ａのイメージングシステムのブロック図である。図１Ｂは、センサ１２２によってシーン１２１から取り込まれた一連のフレーム１９５を示す。一連のフレーム１９５はプロセッサ１２８に入力され、位置特定１２４及びマッピング１２６のシステムによって処理され、プロセッサはメモリ１３０と通信する。システム１００Ａは、シーン１２１の静的領域及び動的物体に由来する特徴を区別するのに成功することができ、その後、静的マップ１０５及び物体マップ１０７をそれぞれ出力することができる。

図１Ｃは、本開示による、図１Ｂのイメージングシステムのブロック図内のシーンの一連のフレームを示す。図１Ｂ及び図１Ｃを参照すると、各フレームはシーン１２１内の物体を示し、物体のうちのいくつかを用いて、フレームの測定値を規定するために使用される特徴の集合（すなわち、３Ｄ平面及び点）を取得することができる。例えば、フレーム１及び２は、テーブルの表面１Ａ、１Ｂ、上段の棚の表面２Ａ、２Ｂ、下段の棚の表面３Ａ、３Ｂ、第１の箱４Ａ、４Ｂ及び玩具５Ａ、５Ｂ等のいくつかの物体を含み、第１の箱４Ａ、４Ｂは玩具５Ａ、５Ｂに接近している。フレーム３〜５は、上段の棚の表面２Ｃ、２Ｄ、２Ｅ上に位置する第２の箱６Ａ、６Ｂ、６Ｃ、テーブルの表面１Ｃ、１Ｄ、１Ｅ上に位置する第３の箱７Ａ、７Ｂ、７Ｃ及び下段の棚の表面３Ｃ、３Ｄ、３Ｅ上に位置する第４の箱８Ａ、８Ｂ、８Ｃとともに、フレーム１及び２の同じ物体を含む。これらのフレームにおいて、玩具５Ａ〜５Ｅは移動しており、図１Ｂのセンサは移動しているか、又は移動している場合がある。システムは、青色で塗りつぶして示されるような玩具５Ａ〜５Ｅに属するセグメントを正確に識別した。物体運動は、特にフレーム４とフレーム５との間で急変しており、これらのフレームにおいて、玩具５Ｄはテーブル上にあり、その後、上段の棚の表面２Ｅに動かされた。

上記で言及されたように、点群上の領域成長手法後に、平面が抽出され、その後、平面が、平面方程式を用いて表される。点は、シーンの輝度及び奥行測定値によって表されるキーポイントとして抽出される。キーポイントは、それらの点のうちの１つを他の点から区別するのを助ける弁別的な特徴として現れる。シーンの各キーポイント輝度及び奥行測定値は、キーポイントの記述子を計算するために使用することができ、ＳＩＦＴ及びＭＳＥＲ法は、記述子抽出のために使用することができる。各キーポイントは、フレームの測定値と見なされ、それは、３Ｄロケーションと、関連するキーポイントの記述子とを用いて表される。イメージングシステム１００Ａは、シーン１２１内の１つ又は複数の静的物体の静的マップ１０５を記憶するメモリ１３０を備える。

図１Ｂ及び図１Ｃを引き続き参照すると、例えば、記憶された静的マップ１０５のシーン１２１内の１つ又は複数の静的物体は、非限定的な例として、テーブルの表面１Ａ〜１Ｅ、棚の構造的特徴（すなわち、上段の棚の表面２Ａ〜２Ｅ、下段の棚の表面３Ａ〜３Ｅ等）、第１の箱４Ａ〜４Ｅ、第２の箱６Ａ〜６Ｃ、第３の箱７Ａ〜７Ｃ及び第４の箱８Ａ〜８Ｃを含むことができる。静的マップ１０５は１組のランドマークを含む。ランドマークは世界内の特定の点であり、異なるフレームに由来する測定値の集合として表される。言い換えると、静的マップ１０５内のランドマークは、種々の視点から複数のフレームによって視認することができる。

また、メモリ１３０は、シーン１２１内の各動的物体の物体マップ１０７を記憶することができ、動的物体の少なくとも１つの例は玩具５Ａ〜５Ｅを含むことができる。さらに、メモリ１３０は１組のセグメントを有する物体マップ１０７を含み、各セグメントの記述子は、セグメントを形成する複数の測定値の関数である。ここで、１組のセグメントは、非限定的な例として、テーブルの構造的特徴（すなわち、テーブルの表面１Ａ〜１Ｅ等）、棚の構造的特徴（すなわち、上段の棚の表面２Ａ〜２Ｅ、下段の棚の表面３Ａ〜３Ｅ等）、第１の箱４Ａ〜４Ｅの構造的特徴、第２の箱６Ａ〜６Ｃの構造的特徴、第３の箱７Ａ〜７Ｃの構造的特徴及び第４の箱８Ａ〜８Ｃの構造的特徴等の空間的にコヒーレントな領域と理解される。また、各セグメントの記述子は、そのセグメントに入るキーポイント記述子の集合体と定義することができ、方法として、局所集約記述子ベクトル（ＶＬＡＤ）を使用することができる。

図１Ｄは、本開示の実施形態による、イメージングシステムのローカライザ及びマッパモジュールの態様を詳述する、イメージングシステム１００Ｂのブロック図を示す。ローカライザ１２４は、フレームベースステップ１２７及びセグメントベース重ね合わせステップ１２９のステップから構成することができる。例えば、ローカライザを用いて、フレームベース重ね合わせ１２７を使用することによって、センサによって取得されたフレームの少なくともいくつかの測定値を静的マップ内のランドマークと重ね合わせることができる。また、ローカライザは、セグメントベース重ね合わせ１２９を用いて、フレーム内の少なくともいくつかセグメントを物体マップ内のセグメントと重ね合わせる。フレームベース重ね合わせ１２７は、最初に、フレーム内で見つけられた全ての測定値をマップ内のランドマークと照合し、第二に、ランダムサンプルコンセンサス（ＲＡＮＳＡＣ）フレームワークに従って、照合対間の変化を見つけることであると説明することができる。さらに、セグメントベース重ね合わせ１２９は、最初に、外観類似性探索（すなわち、ＶＬＡＤ）を用いてフレーム内のセグメントをマップ内のセグメントと照合し、第二に、セグメントの測定値をマップからの照合セグメントのランドマークと照合し、第三に、ＲＡＮＳＡＣフレームワークに従って照合対間の変化を見つけることであると規定することができる。照合プロセスにおいて雑音が存在する場合があるので、ＲＡＮＳＡＣ手順は、計算された変化に基づいて、どの照合が正確であると見なされるかを出力する。したがって、その手順は、フレームの測定値とマップのランドマークとの対応を与える。

図１Ｄを引き続き参照すると、次に、マッパ１２６が、ローカライザ１２４の出力を用いて、最初に、測定値を静的領域及び動的領域に分類することができる（１３３）。次のステップは、新たな移動物体を検出することを含むことができる（１３５）。いかなるマップにも関連付けられない特徴に関して、ローカライザ１２４は、セグメントあたりの静的マップ１０５に伴う外れ値の数に基づいて、新たな移動物体を探索する。新たな移動物体が見つけられた場合には（ｙｅｓ）（１３７）、新たな物体マップ１０７が初期化される。最後に、測定値分類及び新たな物体検出結果に基づいて、全てのマップを更新するために、マップ更新に関するステップ１３９が実行される。

言い換えると、マッパ１２６は最初に、測定値が静的マップ１０５に追加されるか、物体マップ１０７に追加されるかを判断し、マッパ１２６は、第二に、それに基づいて、各マップを更新する。より具体的には、最初のステップにおいて、測定値が物体マップのセグメントと照合されるセグメント内に入る場合には、又は測定値が物体マップのランドマークに対応すると見なされる場合には、その測定値は物体マップ１０７に関連付けられる。そうでない場合には、キーポイントは静的マップ１０５に関連付けられる。次に、最初のステップの結果として、各マップに関連付けられる全てのキーポイントによって各マップが更新される。マップ更新中に、測定値がマップのランドマークに関連付けられる場合には、その測定値は照合ランドマークに付加され、そうでない場合には、その測定値はマップに新たなランドマークとして追加される。それゆえ、この手順は、既存のランドマップを改善し、マップに新たなランドマークも追加する。

図２は、本開示の実施形態による、物体マップ及びＳＬＡＭマップを使用する階層的特徴グループ分けの概略図である。具体的には、図２は、本開示の実施形態による、セグメントを生成するための特徴グループ分け手法を示す。ＳＬＡＭマップ１１０は、１組の重ね合わせられたキーフレーム１１５を記憶し、キーフレームはそれぞれが１組の特徴２２１に関連付けられる。本開示は、セグメント２４１に基づく別の階層を用いて、物体を表す。セグメントはキーフレーム内の特徴２２１のサブセットを含み、物体マップ１０７は１組の重ね合わせられたセグメントを含む。本システムにおいて、セグメントは、奥行ベースセグメント化によって生成することができる。

図３Ａ〜図３Ｄは、本開示による、特徴の静的領域及び物体領域への分類を示す概略図である。図３Ａに示されるように、現在のフレームから特徴が抽出され、特徴は、平面、３Ｄ点及び２Ｄ点からなる。箱の側面においてセグメントが生成され、ｓｅｇ＿ａ、ｓｅｇ＿ｂ及びｓｅｇ＿ｃと呼ばれる。特徴分類は、図３Ｂに示されるように、フレームとマップランドマークとの間の特徴の関連付けを与える。セグメントｓｅｇ＿ａ、ｓｅｇ＿ｂ及びｓｅｇ＿ｃは、物体マップに対する照合セグメントと見なされる。図３Ｃに示されるように、静的マップのランドマークに関連付けられる特徴が静的マップに追加される。実線は、静的マップ内の既存の対応するランドマークに付加される特徴を示す。破線は、静的マップ及び物体マップの両方に対する特徴の一致を示し、特徴が物体マップに一致するセグメント内にあるので、マッパは物体マップを選択することに決め、その特徴を物体マップに追加した。いかなるランドマークにも一致しないが、静的マップ３０１Ｄ、３０２Ｄ、３０３Ｄ、３０４Ｄに関連付けられると見なされる特徴は、新たなランドマークとして、図３Ｃの静的マップに追加される。図３Ｄは、物体マップのためのマップ更新を示す。実線で示されるように、物体マップの対応するランドマークに照合特徴が追加される。破線は、フレームと物体マップとの間の誤った一致を示し、その特徴は照合用セグメントの外部にあることがわかるので、静的マップに正確に追加された。既存のランドマークに一致しないが、物体マップ３０１Ｆ、３０２Ｆに関連付けられると見なされる特徴は、図３Ｄに示されるように、新たなランドマークとして物体マップに追加される。

本開示は、マッパによって実行される測定値分類に関するアルゴリズムを組み込む。例えば、アルゴリズム１はフレーム内に測定値を含み、測定値はｍとして表される。Ｉ_{ｓｔａｔｉｃ}及びＩ_{ｏｂｊｅｃｔ}は、ローカライザの結果として、測定値が静的マップに関連付けられると見なされるか、物体マップに関連付けられると見なされるかの指示関数を表す。Ｓ_{ｏｂｊｅｃｔ}（ｍ）は、測定値が照合セグメント内にあるか否かを示す。測定値ｍが照合セグメント内にある場合には、又は物体マップに関連付けられると見なされる場合には、その測定値ｍは物体マップに追加される。そうでない場合には、その測定値は静的マップに追加される。アルゴリズム１が開示される。

図４Ａは、本開示の実施形態による、イメージングシステムのフレームベース重ね合わせのブロック図である。センサ１２２が、シーン１２１のフレームを取り込み、そのプロセスは、取得されたフレーム４０３から抽出された特徴４２５を使用する。フレームベース重ね合わせ４００は２つのステージからなる。最初に、特徴がマップのランドマークと照合される（４６０）。第二に、フレームを物体マップに重ね合わせるために、それらの照合がＲＡＮＳＡＣフレームワークにおいて利用される（４６５）。ＲＡＮＳＡＣが成功した場合には（４７０）、重ね合わせは、推定姿勢と、測定値−ランドマーク関連付けとをもたらす（４８０）。そうでない場合には、フレームが破棄される（４７５）。第１のステージにおいて与えられる一致は雑音を含む可能性があるので、ＲＡＮＳＡＣ手順が、誤った一致を判断することができ、結果としてフレーム４０３とマップ１４０との間の正確な測定値−ランドマーク関連付け４８０が与えられることに留意されたい。

図４Ｂは、本開示の実施形態による、図４Ａのイメージングシステムのセグメントベース重ね合わせのブロック図である。センサ１２２がシーン１２１のフレーム４０３を取り込み、そのプロセスは、取得されたフレーム４０３から抽出された特徴４２１及びセグメント４４１を使用する。セグメントごとに、システムは最初に、物体マップ１４０内のセグメントに対して外観類似性探索４６０を実行する。一致するセグメント４６６が存在した場合には、結果として幾何学的検証が行われ、フレームセグメントが、ＲＡＮＳＡＣフレームワークに従って、物体マップの照合セグメントと重ね合わせられる（４７０）。ＲＡＮＳＡＣが成功した場合には（４７５）、結果として生じる姿勢は予測と見なされ、予測ベース位置特定手順によって精緻化される（４８５）。より具体的には、ＲＡＮＳＡＣによる予測姿勢及び位置特定に基づいて、物体マップ１４０の全てのランドマークがフレーム４０３の全ての特徴４２１に対して照合される。この精緻化４８５は、位置特定中に、マップ１４０の全てのランドマーク及びフレーム４０３の全ての特徴が検討されるのを確実にする。最後に、セグメントベース重ね合わせが、計算された姿勢及び測定値−ランドマーク関連付け４９０を出力する。

特徴
本開示のイメージングシステムの態様は、フレームから特徴を抽出することと、フレームを複数のセグメントにセグメント化することであって、各セグメントはフレームから抽出された複数の特徴を含む、セグメント化することと、物体マップにおいて、フレーム内のセグメントに類似のセグメントを探索することと、フレーム内のセグメントを物体マップ内の照合セグメントと重ね合わせることとを行うように構成されるローカライザを含むことができる。探索は、局所集約記述子ベクトル（ＶＬＡＤ）に基づくことができる。フレームは奥行ベースセグメント化によってセグメント化される。特徴は記述子に関連付けることができる。ランドマークはシーン内の物体上の特定の識別点に対応する。セグメントはランダムサンプルコンセンサス（ＲＡＮＳＡＣ）を用いて重ね合わせられる。探索は外観ベース類似性探索である。

本開示のイメージングシステムの別の態様は、フレーム内のセグメントと、物体マップ内のセグメントとの外観照合を実行し、照合セグメント間の幾何学的検証を実行するセグメントベース重ね合わせも含むことができる。さらに、一態様は、１つ以上のセグメントの全てのキーポイントを、セグメントが重ね合わせられた物体マップに追加するように構成されるマッパを含むことができる。一態様は、キーポイントが物体マップのランドマークとの対応を有する場合には、位置特定に基づいてキーポイントを物体マップに追加し、そうでない場合には、キーポイントを静的マップに追加するように更に構成されるマッパを含むことができる。

別の態様は、物体マップに基づいて、動的物体を操作するためのロボットアームを含むマニピュレータを含むことができる。またさらに、センサは、赤色、緑色、青色及び奥行（ＲＧＢ−Ｄ）画像データを取得することができる３次元（３Ｄ）センサ、又は輝度及び奥行から構成される画像データを取得することができる他のセンサのうちの１つからなる群からのものとすることができる。

図５は、本開示の実施形態による、代替のコンピュータ又はプロセッサを用いて実施することができる、図１Ａの方法を示すブロック図である。コンピュータ５１１は、プロセッサ５４０と、コンピュータ可読メモリ５１２と、記憶装置５５８と、ディスプレイ５５２及びキーボード５５１とのユーザインターフェース５４９とを備え、これらは、バス５５６を通じて接続されている。例えば、プロセッサ５４０及びコンピュータ可読メモリ５１２と通信するユーザインターフェース５４９は、ユーザによるユーザ入力インターフェース５５７の表面、キーボード表面からの入力を受信すると、測定データを入手し、コンピュータ可読メモリ５１２内に記憶する。

メモリ５１２は、プロセッサによって実行可能な命令と、履歴データと、本開示の方法及びシステムによって利用することができる任意のデータとを記憶することができることが意図されている。プロセッサ５４０は、シングルコアプロセッサ、マルチコアプロセッサ、コンピューティングクラスター、又は任意の数の他の構成体とすることができる。プロセッサ５４０は、バス５５６を通じて１つ以上の入力デバイス及び出力デバイスに接続することができる。メモリ５１２は、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、フラッシュメモリ、又は他の任意の適したメモリシステムを含むことができる。

図５を引き続き参照すると、記憶装置５５８は、プロセッサによって用いられる補助データ及び／又はソフトウェアモジュールを記憶するように構成することができる。例えば、記憶装置５５８は、履歴デバイスデータと、デバイスのマニュアル等の他の関連したデバイスデータとを記憶することができ、デバイスは、本開示に関して上述したような測定データを取得することが可能な検知デバイスである。加えて又は代替的に、記憶装置５５８は、測定データと同様の履歴データを記憶することができる。記憶装置５５８は、ハードドライブ、光ドライブ、サムドライブ、ドライブのアレイ、又はそれらの任意の組み合わせを含むことができる。

システムは、任意選択で、バス５５６を通じて、システムをディスプレイデバイス（図示せず）に接続するように構成されたディスプレイインターフェース（図示せず）にリンクすることができ、ディスプレイデバイスは、とりわけ、コンピュータモニタ、カメラ、テレビ、プロジェクター、又はモバイルデバイスを含むことができる。

コンピュータ５１１は、用途に応じて、電力源５５４を備えることができ、電力源５５４は、任意選択でコンピュータ５１１の外部に配置されてもよい。バス５５６を通じて、ディスプレイデバイス５４８に接続するように構成されたユーザ入力インターフェース５５７をリンクすることができ、ディスプレイデバイス５４８は、とりわけ、コンピュータモニタ、カメラ、テレビ、プロジェクター、又はモバイルデバイスを含むことができる。プリンタインターフェース５５９も、バス５５６を通じて接続することができ、印刷デバイス５３２に接続するように構成することができる。印刷デバイス５３２は、とりわけ、液体インクジェットプリンタ、固体インクプリンタ、大規模商用プリンタ、感熱式プリンタ、ＵＶプリンタ、又は昇華型プリンタを含むことができる。ネットワークインターフェースコントローラ（ＮＩＣ）５３４は、バス５５６を通じてネットワーク５３６に接続するように構成され、とりわけ、測定データ又は他のデータは、コンピュータ５１１の外部の第三者ディスプレイデバイス、第三者画像デバイス、及び／又は第三者印刷デバイス上にレンダリングすることができる。

図５を引き続き参照すると、とりわけ、測定データ又は他のデータは、ネットワーク５３６の通信チャネルを介して送信することができ、及び／又は、記憶及び／又は更なる処理のために記憶装置５５８内に記憶することができる。さらに、測定データ又は他のデータは、受信機５４６（又は外部受信機５３８）から無線又は配線接続で受信することもできるし、送信機５４７（又は外部送信機５３９）を介して無線又は配線接続で送信することもでき、受信機５４６及び送信機５４７は、ともにバス５５６を通じて接続されている。コンピュータ５１１は、入力インターフェース５０８を介して外部検知デバイス５４４及び外部入力／出力デバイス５４１に接続することができる。コンピュータ５１１は、他の外部コンピュータ５４２に接続することができる。出力インターフェース５０９は、プロセッサ５４０からの処理データを出力するのに用いることができる。

上述した本開示の実施形態は、数多くの方法のうちの任意のもので実施することができる。例えば、実施形態は、ハードウェア、ソフトウェア又はそれらの組み合わせを用いて実施することができる。請求項の要素を修飾する、特許請求の範囲における「第１」、「第２」等の序数の使用は、それ自体で、１つの請求項の要素の別の請求項の要素に対する優先順位も、優位性も、順序も暗示するものでもなければ、方法の動作が実行される時間的な順序も暗示するものでもなく、請求項の要素を区別するために、単に、或る特定の名称を有する１つの請求項の要素を、同じ（序数の用語の使用を除く）名称を有する別の要素と区別するラベルとして用いられているにすぎない。

Claims

静的物体及び動的物体を含む、シーンの位置特定及びマッピングに関するイメージングシステムであって、
一連のフレームを取得するセンサであって、各フレームは前記シーンの輝度及び奥行測定値を表す１組のキーポイントを含む、センサと、
前記シーン内の１つ又は複数の静的物体の静的マップ及び前記シーン内の各動的物体の物体マップを記憶するメモリであって、前記静的マップは１組のランドマークを含み、前記物体マップは１組のランドマーク及び１組のセグメントを含み、各前記セグメントの記述子は前記セグメントを形成する複数の測定値の関数である、メモリと、
フレームベース重ね合わせを用いて、前記センサによって取得された前記フレームの少なくともいくつかのキーポイントを前記静的マップ内のランドマークと重ね合わせ、セグメントベース重ね合わせを用いて、前記フレーム内の少なくともいくつかのセグメントを前記物体マップ内のセグメントと重ね合わせるローカライザと、
各前記セグメントを形成するキーポイントと、前記セグメントベース重ね合わせに従って対応する物体マップと重ね合わせられるキーポイントとによって各前記物体マップを更新し、前記静的マップと重ね合わせられる前記キーポイントを用いて、前記フレーム内の残りのキーポイントによって前記静的マップを更新するマッパと、
を備え、
前記セグメントベース重ね合わせは、前記フレーム内のセグメントと、前記物体マップ内の前記セグメントとの外観照合を実行し、照合セグメント間の幾何学的検証を実行し、
前記マッパは、キーポイントが前記物体マップの前記ランドマークとの対応を有する場合には、前記位置特定に基づいて前記キーポイントを前記物体マップに追加し、そうでない場合には、前記キーポイントを前記静的マップに追加するように更に構成される、
イメージングシステム。
前記ローカライザは、前記フレームから特徴を抽出することと、
前記フレームを複数のセグメントにセグメント化することであって、各前記セグメントは前記フレームから抽出された複数の特徴を含む、セグメント化することと、
前記物体マップにおいて、前記フレーム内の前記セグメントに類似のセグメントを探索することと、
前記フレーム内のセグメントを前記物体マップ内の照合セグメントと重ね合わせることと、
を行うように構成される、請求項１に記載のイメージングシステム。
前記探索は、局所集約記述子ベクトル（ＶＬＡＤ）に基づく、請求項２に記載のイメージングシステム。
前記フレームは奥行ベースセグメント化によってセグメント化される、請求項２に記載のイメージングシステム。
前記特徴は記述子に関連付けられる、請求項２に記載のイメージングシステム。
前記ランドマークは前記シーン内の物体上の特定の識別点に対応する、請求項２に記載のイメージングシステム。
前記セグメントはランダムサンプルコンセンサス（ＲＡＮＳＡＣ）を用いて重ね合わせられる、請求項２に記載のイメージングシステム。
前記探索は外観ベース類似性探索である、請求項２に記載のイメージングシステム。
前記マッパは、１つ以上のセグメントの全てのキーポイントを、前記セグメントが重ね合わせられた前記物体マップに追加するように構成される、請求項１に記載のイメージングシステム。
前記物体マップに基づいて、前記動的物体を操作するためのロボットアームを含むマニピュレータを更に備える、請求項１に記載のイメージングシステム。
前記センサは、運動中又は静止中に、赤色、緑色、青色及び奥行（ＲＧＢ−Ｄ）画像データを取得することができる３次元（３Ｄ）センサ、又は輝度及び奥行から構成される画像データを取得することができる他のセンサのうちの１つからなる群から、前記一連のフレームを取得する、請求項１に記載のイメージングシステム。
静的物体及び動的物体を含む、シーンの位置特定及びマッピングに関するイメージングシステムであって、運動中にセンサがセンサデータを取得し、前記センサデータは一連のフレームを含み、各フレームは前記シーンの輝度及び奥行測定値を表す１組のキーポイントを含み、メモリが前記シーン内の１つ又は複数の静的物体の静的マップと、前記シーン内の各動的物体の物体マップとを記憶し、前記静的マップは１組のランドマークを含み、前記物体マップは１組のセグメントを含み、各前記セグメントの記述子は、前記セグメントを形成する複数の測定値の関数であり、前記イメージングシステムは、
前記メモリと通信するプロセッサであって、前記プロセッサは、フレームベース重ね合わせを用いて、前記センサによって取得された前記フレームの少なくともいくつかのキーポイントを前記静的マップ内のランドマークと重ね合わせ、セグメントベース重ね合わせを用いて、前記フレーム内の少なくともいくつかのセグメントを前記物体マップ内のセグメントと重ね合わせるローカライザを利用するように構成され、前記ランドマークは前記シーン内の物体上の特定の識別点に対応する、プロセッサと、
各前記セグメントを形成するキーポイントと、前記セグメントベース重ね合わせに従って対応する物体マップと重ね合わせられるキーポイントとによって各前記物体マップを更新し、前記静的マップと重ね合わせられる前記キーポイントを用いて、前記フレーム内の残りのキーポイントによって前記静的マップを更新するマッパと、
を備え、
前記セグメントベース重ね合わせは、前記フレーム内のセグメントと、前記物体マップ内の前記セグメントとの外観照合を実行し、照合セグメント間の幾何学的検証を実行し、
前記マッパは、キーポイントが前記物体マップの前記ランドマークとの対応を有する場合には、前記位置特定に基づいて、前記キーポイントを前記物体マップに追加し、そうでない場合には、前記キーポイントを前記静的マップに追加するように構成される、
イメージングシステム。
前記ローカライザは、前記フレームから特徴を抽出することと、
前記フレームを複数のセグメントにセグメント化することであって、各前記セグメントは前記フレームから抽出された複数の特徴を含む、セグメント化することと、
前記物体マップにおいて、前記フレーム内の前記セグメントに類似のセグメントを探索することと、
前記フレーム内のセグメントを前記物体マップ内の照合セグメントと重ね合わせることと、
を行うように構成される、請求項１２に記載のイメージングシステム。
前記マッパは、１つ以上のセグメントの全てのキーポイントを、前記セグメントが重ね合わせられた前記物体マップに追加するように構成される、請求項１２に記載のイメージングシステム。
静的物体及び動的物体を含む、シーンの位置特定及びマッピングに関するイメージングシステムであって、
運動中又は静止中にセンサデータを取得するセンサであって、前記センサデータは一連のフレームを含み、各フレームは、前記シーンの輝度及び奥行測定値を表す１組のキーポイントを含む、センサと、
入力インターフェースを介して、前記シーン内の１つ又は複数の静的物体の静的マップと、前記シーン内の各動的物体の物体マップとを記憶するメモリであって、前記静的マップは１組のランドマークを含み、前記物体マップは１組のセグメントを含み、各前記セグメントの記述子は前記セグメントを形成する複数の測定値の関数であり、前記フレームの前記測定値は少なくとも３Ｄ平面を更に含む、メモリと、
前記センサ、前記メモリ及び前記入力インターフェースと通信するプロセッサであって、前記プロセッサは、フレームベース重ね合わせを用いて、前記センサによって取得された前記フレームの少なくともいくつかのキーポイントを前記静的マップ内のランドマークと重ね合わせ、セグメントベース重ね合わせを用いて、前記フレーム内の少なくともいくつかのセグメントを前記物体マップ内のセグメントと重ね合わせるローカライザを利用するように構成される、プロセッサと、
各前記セグメントを形成するキーポイントと、前記セグメントベース重ね合わせに従って対応する物体マップと重ね合わせられるキーポイントとによって各前記物体マップを更新し、前記静的マップと重ね合わせられる前記キーポイントを用いて、前記フレーム内の残りのキーポイントによって前記静的マップを更新するマッパと、
を備え、
前記セグメントベース重ね合わせは、前記フレーム内のセグメントと、前記物体マップ内の前記セグメントとの外観照合を実行し、照合セグメント間の幾何学的検証を実行し、
前記マッパは、キーポイントが前記物体マップの前記ランドマークとの対応を有する場合には、前記位置特定に基づいて、前記キーポイントを前記物体マップに追加し、そうでない場合には、前記キーポイントを前記静的マップに追加するように構成される、
イメージングシステム。
前記ローカライザは前記フレームから特徴を抽出することと、
前記フレームを複数のセグメントにセグメント化することであって、各前記セグメントは前記フレームから抽出された複数の特徴を含む、セグメント化することと、
前記物体マップにおいて、前記フレーム内の前記セグメントに類似のセグメントを探索することと、
前記フレーム内のセグメントを前記物体マップ内の照合セグメントと重ね合わせることと、
を行うように構成される、請求項１５に記載のイメージングシステム。
前記マッパは、１つ以上のセグメントの全てのキーポイントを、前記セグメントが重ね合わせられた前記物体マップに追加するように構成される、請求項１５に記載のイメージングシステム。