JP6339579B2 - コンピュータビジョンベースの追跡のために複数のマップをマージするシステムおよび方法 - Google Patents

コンピュータビジョンベースの追跡のために複数のマップをマージするシステムおよび方法 Download PDF

Info

Publication number
JP6339579B2
JP6339579B2 JP2015539627A JP2015539627A JP6339579B2 JP 6339579 B2 JP6339579 B2 JP 6339579B2 JP 2015539627 A JP2015539627 A JP 2015539627A JP 2015539627 A JP2015539627 A JP 2015539627A JP 6339579 B2 JP6339579 B2 JP 6339579B2
Authority
JP
Japan
Prior art keywords
scene
diversity
maps
scale
keyframes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2015539627A
Other languages
English (en)
Other versions
JP2016500885A5 (ja
JP2016500885A (ja
Inventor
マヘシュ・ラマチャンドラン
アブヒシェク・ティアギ
セラフィン・ディアス・スピンドラ
Original Assignee
クアルコム,インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by クアルコム,インコーポレイテッド filed Critical クアルコム,インコーポレイテッド
Publication of JP2016500885A publication Critical patent/JP2016500885A/ja
Publication of JP2016500885A5 publication Critical patent/JP2016500885A5/ja
Application granted granted Critical
Publication of JP6339579B2 publication Critical patent/JP6339579B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/38Electronic maps specially adapted for navigation; Updating thereof
    • G01C21/3804Creation or updating of map data
    • G01C21/3833Creation or updating of map data characterised by the source of data
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/20Instruments for performing navigational calculations
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/38Electronic maps specially adapted for navigation; Updating thereof
    • G01C21/3863Structures of map data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/579Depth or shape recovery from multiple images from motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Theoretical Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

関連出願の相互参照
本出願は、2013年3月14日に出願した、「Systems and Methods of Merging Multiple Maps for Computer Vision Based Mobile Device Tracking」という表題の米国出願第13/830,664号の利益を主張し、その出願は、2012年10月31日に出願した、「Systems and Methods of Merging Multiple Maps for Computer Vision Based Mobile Device Tracking」という表題の米国仮出願第61/720,804号の利益を主張する。前述の米国出願は、その全体が参照により本明細書に組み込まれている。
本開示は、ワイヤレス通信、コンピュータビジョン、および拡張現実の分野に関する。詳細には、本開示は、コンピュータビジョンベースの追跡のために複数のマップをマージするシステムおよび方法に関する。
複数のサブマップからマップ全体を生成するために、多数の従来の方法が利用可能である。これらの従来の方法は、複数のサブマップのマージをサポートするためにメモリ内に冗長なサブマップを記憶する。そのような冗長なサブマップは、マップ全体の品質への寄与が低い場合がある。しかしながら、それらの冗長なサブマップは、かなりの記憶量を消費する場合がある。加えて、そのような冗長なサブマップを処理するために、貴重なコンピューティングリソースおよび時間が無駄になる場合がある。
本開示は、コンピュータビジョンベースの追跡のために複数のマップをマージするシステムおよび方法に関する。一実施形態では、コンピュータビジョンベースの追跡のために複数のマップをマージする方法は、少なくとも1つのモバイルデバイスからある場所におけるシーンの複数のマップを受信するステップと、シーンの複数のマップの複数のキーフレームを識別するステップと、シーンのグローバルマップを生成するために複数のキーフレームをマージするステップとを備える。本方法は、場所において少なくとも1つのモバイルデバイスの位置を追跡するステップをさらに備える。
場所におけるシーンの複数のマップを受信する方法は、複数のモバイルデバイスからシーンの複数のマップを受信するステップを備える。本方法は、複数のモバイルデバイスからのシーンの複数のマップからの複数のキーフレームの冗長性を評価するステップと、冗長なキーフレームを削除するステップとをさらに備える。本方法は、複数のモバイルデバイスからのシーンの複数のマップを使用して自己位置推定及び地図構築同時実行(SLAM)マップを生成するステップと、複数のモバイルデバイスの間でSLAMマップを共有するステップとをさらに備える。
シーンの複数のマップの複数のキーフレームを識別する方法は、複数の角度からシーンの複数の視点を表す複数のキーフレームを識別するステップと、複数のスケールでシーンの複数の視点を表す複数のキーフレームを識別するステップとのうちの少なくとも1つを備え、これらの複数のキーフレームは、複数のマップの共通の特徴、位置座標、および外観を含む。これらの複数のスケールは、少なくとも1つのモバイルデバイスとシーンとの間の複数の距離と、少なくとも1つのモバイルデバイスからのシーンの複数のアスペクト比とのうちの少なくとも1つを備える。
シーンのグローバルマップを生成するために複数のキーフレームをマージする方法は、複数のキーフレームの各キーフレームに関して、キーフレームの角度ダイバーシティおよびキーフレームのスケールダイバーシティに少なくとも一部基づいて寄与スコアを決定するステップと、所定のしきい値未満の寄与スコアに応じてキーフレームを削除するステップとを備える。キーフレームの角度ダイバーシティおよびスケールダイバーシティに少なくとも一部基づいて寄与スコアを決定する方法は、第1の重み因子をキーフレームの角度ダイバーシティに適用することによって角度ダイバーシティスコアリング基準値を計算するステップと、第2の重み因子をキーフレームのスケールダイバーシティに適用することによってスケールダイバーシティスコアリング基準値を計算するステップと、寄与スコアを生成するために角度ダイバーシティスコアリング基準値とスケールダイバーシティスコアリング基準値とを組み合わせるステップとを備える。
シーンのグローバルマップを生成するために複数のキーフレームをマージする方法は、複数のキーフレームの各キーフレームに関して、キーフレームの角度ダイバーシティに少なくとも一部基づいて寄与スコアを決定するステップと、所定のしきい値未満の寄与スコアに応じてキーフレームを削除するステップとをさらに備える。シーンのグローバルマップを生成するために複数のキーフレームをマージする方法は、複数のキーフレームの各キーフレームに関して、キーフレームのスケールダイバーシティに少なくとも一部基づいて寄与スコアを決定するステップと、所定のしきい値未満の寄与スコアに応じてキーフレームを削除するステップとをさらに備える。
シーンのグローバルマップを生成するために複数のキーフレームをマージする方法は、角度ヒストグラムにおいて複数のキーフレームを計数するステップをさらに備え、その角度ヒストグラムは、シーンの異なる視点角度(viewing angle)を表す複数のビンを含み、複数のビンの各ビンは、シーンの異なる視点スケール(viewing scale)を表す複数の区分を含む。本方法は、角度ヒストグラムにおける複数のキーフレームの各キーフレームに関して、キーフレームの角度ダイバーシティおよびキーフレームのスケールダイバーシティに少なくとも一部基づいて寄与スコアを決定するステップと、所定のしきい値未満の寄与スコアに応じてキーフレームを削除するステップとをさらに含む。
キーフレームの角度ダイバーシティおよびスケールダイバーシティに少なくとも一部基づいて寄与スコアを決定する方法は、キーフレームが含まれるビン内のキーフレームの数に少なくとも一部基づいている第1の重み因子をキーフレームの角度ダイバーシティに適用することによって角度ダイバーシティスコアリング基準値を計算するステップと、キーフレームが含まれる区分内のキーフレームの数に少なくとも一部基づいている第2の重み因子をキーフレームのスケールダイバーシティに適用することによってスケールダイバーシティスコアリング基準値を計算するステップと、寄与スコアを生成するために角度ダイバーシティスコアリング基準値とスケールダイバーシティスコアリング基準値とを組み合わせるステップとを備える。
別の実施形態では、装置は、少なくとも1つのモバイルデバイスからある場所におけるシーンの複数のマップを受信するように構成された論理と、シーンの複数のマップの複数のキーフレームを識別するように構成された論理と、シーンのグローバルマップを生成するために複数のキーフレームをマージするように構成された論理とを備える。
さらに別の実施形態では、コンピュータプログラム製品は、1つまたは複数のコンピュータシステムによって実行される命令を記憶する非一時的媒体を備える。これらの命令は、少なくとも1つのモバイルデバイスからある場所におけるシーンの複数のマップを受信するための命令と、シーンの複数のマップの複数のキーフレームを識別するための命令と、シーンのグローバルマップを生成するために複数のキーフレームをマージするための命令とを備える。
さらに別の実施形態では、システムは、少なくとも1つのモバイルデバイスからある場所におけるシーンの複数のマップを受信するための手段と、シーンの複数のマップの複数のキーフレームを識別するための手段と、シーンのグローバルマップを生成するために複数のキーフレームをマージするための手段とを備える。
本開示の上述の特徴および利点、ならびにその追加の特徴および利点は、以下の図面とともに本開示の実施形態の詳細な説明を読めば、より明確に理解されよう。
本開示のいくつかの態様による、例示的な場所を示す図である。 本開示のいくつかの態様による、複数の角度からシーンの複数の視点を記録する方法を示す図である。 本開示のいくつかの態様による、複数の距離からシーンの複数の視点を記録する方法を示す図である。 本開示のいくつかの態様による、複数のアスペクト比でシーンの複数の視点を記録する方法を示す図である。 本開示のいくつかの態様による、コンピュータビジョンベースの追跡のために複数のマップをマージする方法を実施するための例示的な装置を示す図である。 本開示のいくつかの態様による、コンピュータビジョンベースの追跡のために複数のマップをマージする方法を実施するための例示的なフローチャートである。 本開示のいくつかの態様によるモバイルデバイスの例示的なブロック図である。 本開示のいくつかの態様による、キーフレームの角度ダイバーシティおよびスケールダイバーシティを決定するための例示的な方法を示す図である。 本開示のいくつかの態様による、キーフレームの角度ダイバーシティおよびスケールダイバーシティを決定するための別の例示的な方法を示す図である。
図面を通して同様の番号が使用される。
コンピュータビジョンベースの追跡のために複数のマップをマージする実施形態が開示される。以下の説明は、いかなる当業者でも本開示を実施し、使用することができるようにするために提示される。特定の実施形態およびアプリケーションの説明は、例としてのみ提供される。本明細書で説明する例の様々な修正および組合せが当業者には容易に明らかであり、本明細書で定義した一般原理は、本開示の趣旨および範囲から逸脱することなく他の例およびアプリケーションに適用できる。したがって、本開示は、説明され示される例に限定されることが意図されず、本明細書で開示される原理および特徴に一致する最大の範囲を与えられることが意図される。
本開示のいくつかの態様によれば、自己位置推定及び地図構築同時実行(SLAM)ベースのアプリケーションは、環境または場所において少なくとも1つのモバイルデバイスの位置を追跡するために少なくとも1つのモバイルデバイスによって観察される環境または場所に関する情報を構築および維持する。この情報は、環境マップとも呼ばれ得る、特徴の構造(3D位置)および外観を含むが、これらに限定されない。マップ構築のための技法は、様々な環境または場所における様々な使用事例をサポートするのに有益であり得る。たとえば、複数のモバイルデバイスを使用して大きい場所のグローバルマップを構築することは、環境において複数のモバイルデバイスの位置を追跡するのに有用であり得る。複数のモバイルデバイスを使用することは、単一のモバイルデバイスを使用してグローバルマップを構築するのとは対照的に、グローバルマップを構築するのに好ましい場合があることに留意されたい。
いくつかの実装形態では、これらのグローバルマップは、自己位置推定を実施する際に環境において複数のモバイルデバイスによって共有され得る。様々なモバイルデバイスからのシーンの複数のマップがある場合、一手法は、グローバルマップを得るためにこれらのマップをマージすることである。本開示の態様によれば、グローバルマップは、リアルタイムで生成され得るか、またはサーバにおいてオフラインで生成され得る。別の手法は、複数のマップをマージすることが、より小さいグローバルマップサイズと、グローバルマップを使用した、より低い追跡回数とをもたらすことができると同時に冗長性を除去することである。環境または場所に関する情報を効率的な方法で表すマージマップを生成する方法が、以下のセクションに説明される。
本開示のいくつかの態様によれば、シーンのマップは、様々な視点から記録された画像であるキーフレームとして表され得る。各キーフレームは、シーン内の画像のセットおよび3D特徴(点、線など)の特徴の観測値(位置座標および点/線の外観)を含み得る。いくつかの実装形態では、新規の入って来る観測値または制約条件を有する幾何形状を精緻化するために、過去の観測値およびキーフレームが記憶および使用される。一手法は、キーフレーム内の特徴観測値を記憶することである。マップ内のキーフレームは、多様な視点におけるシーン特徴の観測値を記録することができる。加えて、キーフレームは、記憶された情報において冗長性が最小であるシーンの様々な部分の観測値を提供することができる。外観を使用した特徴追跡では、図2に関連して説明されるように、複数の視点から特徴の観測値を有することと、図3および図4に関連して説明されるように、複数のスケールで特徴の観測値を有することとが有用である。そのような特徴追跡方法は、追跡品質および頑強性を改善するのに有用である。
マップ間の情報をマージする際にすべてのキーフレームを保持することは、冗長な情報がある場合、ジョイントマップサイズを増大させる場合があることに留意されたい。加えて、キーフレームを削減すること(放棄すること)は、追跡性能にはキーフレームが重要であるので、追跡品質に影響を及ぼさない場合があることは望ましい。一手法では、様々な角度におけるキーフレーム視野特徴を保持する場合があるが、様々なスケールにおけるキーフレーム視野特徴を放棄する場合がある。しかしながら、この手法は、様々な距離において特徴を継続的に追跡するのに有用な情報を保持しない。この手法は、三角測量を実行するか、または構造を解析するのに必要な情報のみを保持する。別の手法では、特徴をより近くで観測するキーフレームが好ましい場合がある。さらに別の手法では、様々な距離において特徴を観測するキーフレームを保持する場合があるが、様々な角度において特徴を観測するキーフレームを放棄する場合がある。キーフレームは、マップ全体または画像全体を生成する際のその寄与に関して評価される。
本開示の態様によれば、様々なスケールにおいて特徴を観測するキーフレームは、図3および図4に関連して説明されるように、スケールの変化を伴った外観の変化を記録するのに使用され得る。さらに、キーフレームは、予測される外観が最小の加工物または最小の外観歪みを有するように、様々なスケールのうちの適切なスケールの外観を予測するのに使用され得る。
例示的な一実装形態では、キーフレームに関連する寄与スコアは、キーフレームの角度ダイバーシティおよびスケールダイバーシティに少なくとも一部基づいて決定され得る。たとえば、寄与スコアの一部分は、キーフレームによって観測された特徴の角度ダイバーシティに対するキーフレームの寄与から導出され得る。寄与スコアの別の部分は、キーフレームによって観測された特徴のスケールダイバーシティに対するキーフレームの寄与から導出され得る。次いで、キーフレームは、寄与スコアが所定のしきい値未満である場合、削除され得る。本開示の態様によれば、寄与スコアの所定のしきい値は、アプリケーションに応じてプログラム可能であり得る。いくつかの他の実装形態では、寄与スコアは、一定の視点角度からおよび一定の視点スケールすなわち視点距離からキーフレームの数の出現を計数するように構成されたビン内にすでに存在するキーフレームの数を表す場合がある。たとえば、いくつかのアプリケーションでは、ビン内のキーフレームの数の所定のしきい値を2に設定することができ、いくつかの他のアプリケーションでは、ビン内のキーフレームの数の所定のしきい値を5に設定することができる。
言い換えれば、キーフレームスコアリング方法は、角度ダイバーシティを測定するのに第1のスコアリング基準値を使用し、キーフレームのスケールダイバーシティを測定するのに第2のスコアリング基準値を使用することができる。次いで、2つの基準値は、様々な重み因子と組み合わせられ、合計され得る。重み因子は、他のスコアリング基準値に対するあるスコアリング基準値をより強調するために使用され得る。本開示の態様によれば、角度ダイバーシティおよびスケールダイバーシティの重み因子は、プログラム可能であり、その範囲は、0(0%)から1(100%)まで変化し得る。たとえば、いくつかの実装形態では、角度ダイバーシティの重みは0であり、スケールダイバーシティの重みは1であってもよいし、逆もまた同様である。いくつかの他の実装形態では、角度ダイバーシティの重みは5であり、スケールダイバーシティの重みは5であってもよい。さらにいくつかの他の実装形態では、角度ダイバーシティの重みは6であり、スケールダイバーシティの重みは4であってもよいし、以下同様である。次いで、マッピングおよび追跡に関するキーフレームの寄与を評価するために、ジョイント基準値が使用され得る。上述のように、キーフレームは、その寄与スコアが所定のしきい値未満である場合、削除(または削減)され得る。たとえば、極めて類似した距離および角度からシーン内の同じオブジェクトを見る9つの他のキーフレームが存在した場合、これら9つのキーフレームは、低い角度ダイバーシティスコアおよびスケールダイバーシティスコアを有するであろうが、その理由は、それらのキーフレームのうちのいずれか1つを除去することは、他のキーフレームが同じ情報コンテンツを有するので重要でないからである。
別の例示的な実装形態では、シーンの角度ダイバーシティ基準値を決定する際、シーンの各観測値の情報コンテンツが計算され得る。次いで、キーフレームの寄与スコアを形成するために、正規化スコアが積算され得る。この手法は、角度ダイバーシティを奨励するが、モバイルデバイスにより近い対応する距離を有するシーンを表すキーフレームを選好することに留意されたい。
シーンのスケールダイバーシティ基準値を決定する際、スケールダイバーシティのスケールが使用される。本方法は、一例として、0.5x〜2xの距離からの視像を合成するために距離xにおけるキーフレームを使用するように構成することができ、本方法は、1つのピラミッドレベルによるダウンサンプリング/アップサンプリングに対応する。この手法では、このブラケット内にあるすべてのキーフレームに関して、本方法は、そのブラケット内のキーフレームの数(N)によって除算されたスコアである場合がある寄与スコアを割り当てる。次いで、本方法は、観測されたマップ点の寄与スコアを合計する。本開示の態様によれば、スケールダイバーシティに基づいてスコアを割り当てるために様々な手法を使用することができ、たとえば、一手法は、N≦5の場合は-0.25*N+1.5、N>5の場合は1/Nを使用することができる。
図1は、本開示のいくつかの態様による、例示的な場所を示す。図1に示すように、例示的な場所102は、複合フットボールスタジアムであり得る。そのような複合的な場所では、通常のモバイルデバイスは、スタジアム全体を表す画像を記録できない場合がある。追跡自己位置推定アプリケーションにおいて使用され得るグローバル画像を構築するために1つまたは複数のモバイルデバイスによって記録された複数の画像をマージするのが望ましい。
図2は、本開示のいくつかの態様による、複数の角度からシーンの複数の視点を記録する方法を示す。図2に示される例では、様々な視点角度において1つまたは複数のモバイルデバイス(201a〜201f)によってシーン202が記録され得る。たとえば、モバイルデバイス201aは視点角度A1を有し、モバイルデバイス201bは視点角度A2を有し、以下同様にして、モバイルデバイス201fは視点角度A6を有する。いくつかの実装形態では、複数の視点(A1〜A6)は、1つのモバイルデバイスによって記録され得る。いくつかの他の実装形態では、複数の視点(A1〜A6)は、複数のモバイルデバイスによって記録され得る。
図3は、本開示のいくつかの態様による、複数の距離からシーンの複数の視点を記録する方法を示す。図3に示される例では、様々な距離から1つまたは複数のモバイルデバイス(301a〜301c)によってシーン302が記録され得る。たとえば、モバイルデバイス301aは距離D1においてシーン302を記録し、モバイルデバイス301bは距離D2においてシーン302を記録し、モバイルデバイス301cは距離D3においてシーン302を記録する。いくつかの実装形態では、様々な距離(D1〜D3)からの複数の視点は、1つのモバイルデバイスによって記録され得る。いくつかの他の実装形態では、様々な距離(D1〜D3)からの複数の視点は、複数のモバイルデバイスによって記録され得る。
図4は、本開示のいくつかの態様による、複数のアスペクト比でシーンの複数の視点を記録する方法を示す。図4に示される例では、1つまたは複数のモバイルデバイス(401a〜401c)の様々なアスペクト比設定で、シーン402の複数の視点が1つまたは複数のモバイルデバイスによって記録され得る。たとえば、モバイルデバイス401aは距離Dにおいてアスペクト比AR1でシーン402を記録し、モバイルデバイス401bは距離Dにおいてアスペクト比AR2でシーン402を記録し、モバイルデバイス401cは距離Dにおいてアスペクト比AR3でシーン402を記録する。いくつかの実装形態では、様々なアスペクト比(AR1〜AR3)によるシーン402の複数の視点は、1つのモバイルデバイスによって記録され得る。いくつかの他の実装形態では、様々なアスペクト比(AR1〜AR3)によるシーン402の複数の視点は、複数のモバイルデバイスによって記録され得る。
図5は、本開示のいくつかの態様による、コンピュータビジョンベースの追跡のために複数のマップをマージする方法を実施するための例示的な装置を示す。図5に示される例では、装置500は、1つまたは複数のプロセッサ502と、ネットワークインターフェース504と、マップデータベース506と、キーフレーム処理モジュール508と、メモリ510とを含む。1つまたは複数のプロセッサ502は、装置500の動作を制御するように構成され得る。ネットワークインターフェース504は、ネットワーク(図示せず)と通信するように構成することができ、ネットワークは、ネットワーク上のサーバ、コンピュータ、およびモバイルデバイスと通信するように構成され得る。マップデータベース506は、様々な場所、ランドマーク、マップ、および他のユーザ定義情報の画像を記憶するように構成され得る。キーフレーム処理モジュール538は、コンピュータビジョンベースの追跡のために複数のマップをマージする方法を実施するように構成され得る。たとえば、キーフレーム処理モジュール508は、プロセッサ502とともに動作しながら、上述の方法と、図6、図8、および図9に関連して下で説明する方法とを実施するように構成され得る。メモリ510は、装置500のためのプログラムコードおよびデータを記憶するように構成され得る。他の実施形態では、図6、図8、および図9に関連して下で説明する方法は、図2、図3、および図4に示されるモバイルデバイスのうちの1つによって実施され、サーバによっても実施され得る。
図6は、本開示のいくつかの態様による、コンピュータビジョンベースの追跡のために複数のマップをマージする方法を実施するための例示的なフローチャートを示す。図6に示される例示的な実装形態では、ブロック602において、本方法は、少なくとも1つのモバイルデバイスからある場所におけるシーンの複数のマップを受信する。ブロック604では、本方法は、シーンの複数のマップの複数のキーフレームを識別する。ブロック606では、本方法は、シーンのグローバルマップを生成するために複数のキーフレームをマージする。本開示の態様によれば、グローバルマップは、場所の3次元モデル、自己位置推定及び地図構築同時実行(SLAM)マップ、および2次元モデルを含み得るが、これらに限定されない。加えて、グローバルマップは、動的に更新され得るか、または遠隔サーバにおいてオフラインで更新され得る。いくつかの状況では、複数のマップのいずれも互いに重複しない可能性があり、そのような状況では、複数のマップにおける対応するキーフレームのいずれも除去されない場合があるが、その理由は、これらのキーフレームが、そのそれぞれの1つまたは複数の近接したキーフレームに対して高い角度ダイバーシティおよび/またはスケールダイバーシティを有するものと見なされ得るからである。いくつかの他の状況では、複数のマップのうちのいくつかが互いに重複する可能性があり、そのような状況では、複数のマップにおける対応するキーフレームのうちのいくつかが除去される場合があるが、その理由は、冗長なキーフレームのうちのいくつかが、そのそれぞれの1つまたは複数の近接したキーフレームに対して低い角度ダイバーシティおよび/またはスケールダイバーシティを有するものと見なされ得るからである。いくつかの特別な状況では、2つ以上のマップが互いに実質的に重複する可能性があり、そのような状況では、マップのうちの少なくとも1つからの対応するキーフレームのほとんどが除去される場合があるが、その理由は、冗長なキーフレームのほとんどが、そのそれぞれの1つまたは複数の近接したキーフレームに対して低い角度ダイバーシティおよび/またはスケールダイバーシティを有するものと見なされ得るからである。
本開示のいくつかの態様によれば、ブロック602で実行される方法は、ブロック608で実行される方法をさらに含むことができ、ブロック608で実行される方法は、ブロック609および610で実行される方法をさらに含むことができる。ブロック608では、本方法は、複数のモバイルデバイスからシーンの複数のマップを受信する。ブロック609では、本方法は、複数のモバイルデバイスからのシーンの複数のマップからの複数のキーフレームの冗長性を評価し、冗長なキーフレームを削除する。ブロック610では、本方法は、複数のモバイルデバイスからのシーンの複数のマップを使用してグローバルマップを生成し、複数のモバイルデバイスの間でグローバルマップを共有する。
本開示のいくつかの態様によれば、ブロック604で実行される方法は、ブロック612で実行される方法をさらに含むことができ、ブロック612で実行される方法は、ブロック614の要素をさらに含むことができる。ブロック612では、本方法は、複数の角度からシーンの複数の視点を表す複数のキーフレームを識別し、および/または、複数のスケールでシーンの複数の視点を表す複数のキーフレームを識別するが、これらの複数のキーフレームは、複数のマップの特徴、3次元座標、および外観を含む。ブロック614では、これらの複数のスケールは、少なくとも1つのモバイルデバイスとシーンとの間の複数の距離と、少なくとも1つのモバイルデバイスからのシーンの複数のアスペクト比とのうちの少なくとも1つを備える。
本開示のいくつかの態様によれば、ブロック606で実行される方法は、ブロック616で実行される方法をさらに含むことができ、ブロック616で実行される方法は、ブロック618で実行される方法をさらに含むことができる。ブロック616では、本方法は、複数のキーフレームの各キーフレームに関して、キーフレームの角度ダイバーシティおよび/またはキーフレームのスケールダイバーシティに少なくとも一部基づいて寄与スコアを決定し、所定のしきい値未満の寄与スコアに応じてキーフレームを削除する。ブロック618では、本方法は、第1の重み因子をキーフレームの角度ダイバーシティに適用することによって角度ダイバーシティスコアリング基準値を計算し、第2の重み因子をキーフレームのスケールダイバーシティに適用することによってスケールダイバーシティスコアリング基準値を計算し、寄与スコアを生成するために角度ダイバーシティスコアリング基準値とスケールダイバーシティスコアリング基準値とを組み合わせる。ブロック620では、本方法は、オプションで、場所において少なくとも1つのモバイルデバイスの位置を追跡し得る。
図7は、本開示のいくつかの態様によるモバイルデバイスの例示的なブロック図を示す。モバイルデバイス201(201a〜201fを実装するように構成され得る)は、限定されないが、サーバおよび他のモバイルデバイスを含む他のコンピューティングデバイスと通信するためのトランシーバ106と、個々の写真またはビデオのフレームのいずれかであり得る、環境の画像を記録するためのカメラ108とを含む。モバイルデバイス201は、それを用いてモバイルデバイス201がその位置および方向、すなわち、ポーズを判断することができるデータを提供するために使用され得るセンサ116を含むことも可能である。モバイルデバイス201とともに使用され得るセンサの例には、線形加速度計として使用される加速度計、水晶センサ、ジャイロ、マイクロ電気機械システム(MEMS)センサ、ならびに磁力計が含まれる。
モバイルデバイス201は、画像を表示することができるディスプレイ112を含むユーザインターフェース110も含み得る。ユーザインターフェース110は、キーパッド114、または、ユーザが情報をモバイルデバイス201に入力することができる他の入力デバイスを含むことも可能である。所望される場合、仮想キーパッドをタッチセンサ付きディスプレイ112に組み込むことによってキーパッド114を取り除くことができる。ユーザインターフェース110は、たとえば、モバイルプラットフォームがセルラー電話である場合、マイクロフォン117および1つまたは複数のスピーカ118を含むこともできる。当然、モバイルデバイス201は、本開示に関係しない他の構成要素を含むことが可能である。
モバイルデバイス201は、任意の他の所望の特徴とともに、カメラ108、およびセンサ116、ならびにユーザインターフェース110に接続され、これらと通信する制御ユニット120をさらに含む。制御ユニット120は、1つまたは複数のプロセッサ122と、関連するメモリ/記憶装置124とによって提供され得る。制御ユニット120は、ソフトウェア126、ならびにハードウェア128、およびファームウェア130を含むことも可能である。制御ユニット120は、モバイルデバイス201によって記録された観測値に基づいてキーフレームを処理するように構成されたキーフレーム処理モジュール132を含む。制御ユニット120は、複数のサブマップに基づいてマップを生成するように構成されたマップ生成モジュール134をさらに含む。わかりやすいように、キーフレーム処理モジュール132およびマップ生成モジュール134は、プロセッサ122および/またはハードウェア128とは切り離して例示されるが、ソフトウェア126内およびファームウェア130内の命令に基づいて、プロセッサ122内および/もしくはハードウェア128内で組み合わせること、ならびに/または実装することが可能である。制御ユニット120は、キーフレーム処理およびマップ生成の方法を実施するように構成され得ることに留意されたい。たとえば、制御ユニット120は、図2、図3、および図4において説明されるモバイルデバイス201の機能を実施するように構成され得る。
図8は、本開示のいくつかの態様による、キーフレームの角度ダイバーシティおよびスケールダイバーシティを決定するための例示的な方法を示す。図8に示すように、黒い正方形として示されるオブジェクト802は、異なる角度から、異なる距離から、および異なるスケールで観測され得る。一手法では、考えられる方向は、図8に示される804および806などの、球800のビンに離散化され得る。本開示の態様によれば、ビンは、球800のセクタ(近似的にピラミッドとして示される)を表し得る。ビンは、観測値を含むキーフレームを記録する角度ヒストグラムと見なすこともでき、観測値は、ビン内の1つまたは複数の星印によって表される。例示のために、ビン804は、球800の右側に別に示される。この例では、ビン804は、観測値810a、810b、810c、810d、810e、および810fを含み得る。いくつかの実装形態では、ビンは、図8に示される区分1および区分2などの複数の区分にさらに区分され得る。ビン内の各観測値は、セクタ内の他の観測値に対して評価され得るか、または他のビンからの他の観測値に対して評価され得る。
いくつかの実装形態では、ビン内の観測値の(マップ点の)数が、所定の数、たとえば3未満である場合、観測値は、高い角度重要度を有するものと見なされてもよく、それらの観測値は保持され得る。他方では、観測値の数が所定の数よりも大きい場合、追加の観測値は、低い角度重要度を有するものと見なされてもよく、その追加の観測値は放棄され得る。
本開示の態様によれば、ある視点からのマップ点の観測値を仮定すれば、異なる視点からのその外観および同様の視点角度は、カメラからマップ点までの距離の1/f倍〜f倍内に正確に生成されることが期待され得る。いくつかの実装形態では、fは2に等しい場合があり、他の実装形態では、fの値は、どれくらいのスケール範囲が望まれるかに応じて、より低くなる場合がある。各観測値に関するカメラからマップ点までの距離の対数は、観測値の角度ヒストグラムを表すビンに割り当てられ得る。その距離は、均等目盛または対数目盛で記録され得る。
いくつかの実装形態では、ビン内の観測値の数が、所定の数、たとえば2未満である場合、観測値は、高いスケール重要度を有するものと見なされてもよく、そのような観測値は保持され得る。他方では、ビン内の観測値の数が所定の数よりも多い場合、ビン内の追加の観測値は、低いスケール重要度を有するものと見なされてもよく、その追加の観測値は放棄され得る。
本開示の態様によれば、観測値が高い角度重要度またはスケール重要度を有する場合、その観測値は、重要としてフラグを立てられ得る。観測値が低い角度重要度および低いスケール重要度を有する場合、その観測値は、重要でないとしてフラグを立てられてもよく、その観測値は除去可能となる場合がある。キーフレームが、除去可能観測値の所定の比率(たとえば、0.8)よりも大きく、重要な観測値の所定の比率(たとえば、0.1)未満である場合、そのキーフレームは、除去するためにフラグを立てられ得る。
図9は、本開示のいくつかの態様による、キーフレームの角度ダイバーシティおよびスケールダイバーシティを決定するための別の例示的な方法を示す。図9に示される例では、黒い正方形として示されるオブジェクト902は、異なる角度から、異なる距離から、および異なるスケールで観測され得る。一手法では、考えられる方向は、図9に示される904および906などの、球900のビンに離散化され得る。図8に示される例と同様に、ビンは、球900のセクタ(円すいとして示される)を表し得る。ビンは、観測値を含むキーフレームを記録する角度ヒストグラムと見なすこともでき、観測値は、ビン内の1つまたは複数の星印によって表される。例示のために、ビン904は、球900の右側に別に示される。この例では、ビン904は、観測値910a、910b、910c、910d、910e、910f、および910gを含み得る。いくつかの実装形態では、ビンは、図9に示されるように、区分1および区分2などの複数の区分にさらに区分され得る。ビン内の各観測値は、セクタ内の他の観測値に対して評価され得るか、または他のビンからの他の観測値に対して評価され得る。
本開示の態様によれば、第1の観測値が第1のビン内にすでに存在すると仮定すると、第2のビン内に第2の観測値を有することは、第1のビン内に第2の観測値を有することよりも高い角度ダイバーシティ(すなわち、重要度)に寄与するであろう。たとえば、観測値910aがビン904内にすでに存在する場合、ビン906内に観測値912aを有することは、ビン904内に観測値910bを有することよりも高い角度ダイバーシティに寄与するであろう。いくつかの実装形態では、あるビンへの追加の観測値による角度ダイバーシティの寄与は、そのビン内の観測値の数に反比例する場合がある。
本開示の態様によれば、ある観測値がビンの第1の区分内にすでに存在すると仮定すると、ビンの第2の区分内に追加の観測値を有することは、第1の区分内に追加の観測値を有することよりも高いスケールダイバーシティ(すなわち、重要度)に寄与するであろう。たとえば、観測値910aがビン904の区分1内にすでに存在する場合、ビン904の区分2内に追加の観測値910fを有することは、ビン904の区分1内に観測値910bを有することよりも高いスケールダイバーシティに寄与するであろう。いくつかの実装形態では、ビンのある区分内の追加の観測値によるスケールダイバーシティの寄与は、ビンのその区分内の観測値の数に反比例する場合がある。
本開示の態様によれば、いくつかの技法を使用して、画像フレーム内の特徴を識別および追跡することが実行され得る。一手法では、特徴を識別する方法は、各2×2勾配行列の最小固有値を検査することによって実行され得る。次いで、2つの窓の間の差を最小化するニュートン・ラフソン法を使用して特徴が追跡される。多重解像度追跡の方法は、画像間の比較的大きな変位を可能にする。あるフレームから次のフレームに特徴を追跡する間、誤差が蓄積し得ることに留意されたい。潜在的に不良な特徴を検出するために、モバイルデバイスは、現在のフレーム内の特徴を囲む窓内の画像信号が、前のフレーム内の特徴を囲む窓内の画像信号に依然として類似するかどうかを監視するように構成され得る。多くのフレームを通して特徴を追跡することができるので、画像コンテンツは変形する場合がある。この課題に対処するために、相似またはアフィンマッピングを用いて、一貫性検査を実行することができる。
本開示の態様によれば、画像内のオブジェクトを識別するために、オブジェクト上の点を抽出して、そのオブジェクトの(キーポイント、特徴点、または略して特徴とも呼ばれる)特徴記述子を提供することができる。次いで、多くの他のオブジェクトを含むテスト画像内のオブジェクトの位置特定を試みるとき、トレーニング画像から抽出されたこの記述子を使用して、そのオブジェクトを識別することができる。信頼性が高い認識を実行するために、トレーニング画像から抽出された特徴は、画像スケール、雑音、および照度の変更下ですら、検出可能であり得る。そのような点は、通常、オブジェクトエッジなど、画像の高コントラスト領域に存在する。
これらの特徴の別の特性は、元のシーン内のこれらの特徴同士の間の相対的な位置は画像ごとに変わらない場合があるということである。たとえば、扉の四隅だけが特徴として使用される場合、扉の位置にかかわらず、これらの四隅は機能し得るが、フレーム内の点が使用される場合、扉が開かれた場合、または閉じられた場合、認識は失敗する可能性がある。同様に、連結したオブジェクト内またはフレキシブルなオブジェクト内に位置する特徴は、処理されているセット内の2つの画像同士の間でその内部幾何形状に何らかの変更が発生した場合、一般に、機能しない可能性がある。いくつかの実装形態では、SIFTは、画像から多数の特徴を検出および使用し、これは、すべての特徴マッチング誤差の平均誤差における局所変化によって引き起こされる誤差の寄与を削減し得る。したがって、開示される方法は、ノイズの中ですら、および部分的なオクルージョン下ですら、オブジェクトを識別することができるが、これは、SIFT特徴記述子が一定のスケーリング、方向に対して不変であり得、アフィン歪み(affine distortion)および照度変化に対して部分的に不変であり得るからである。
たとえば、オブジェクトのキーポイントを、まず参照画像のセットから抽出して、データベース内に記憶することができる。新しい画像からの各特徴をこのデータベースと比較して、それらの特徴ベクトルのユークリッド距離に基づいて、候補マッチング特徴を見出すことによって、新しい画像内のオブジェクトが認識される。マッチングの完全セットから、新しい画像内のオブジェクトおよびその位置、スケール、ならびに方向に関して一致したキーポイントのサブセットを識別して、良好なマッチングをフィルタ除去することができる。一貫性のあるクラスタの判断は、生成されたハフ変換のハッシュ表実装形態を使用することによって実行され得る。オブジェクトおよびそのポーズに関して一致した、3つ以上の特徴の各クラスタは、次いで、さらに詳細なモデル検証を受けることが可能であり、その後、異常値が廃棄され得る。次いで、適合の精度と推定誤マッチングの数とに基づいて、特徴の特定のセットがオブジェクトの存在を示す確率を計算することが可能である。テストに合格するオブジェクトマッチングは、高い信頼性で正確として識別され得る。
本開示の態様によれば、画像特徴生成は、画像を、その各々が画像変換、スケーリング、および回転に対して不変であると同様に、照度変更に対しても不変であり得、局所的な幾何学的歪みに対して頑強であり得る特徴ベクトルの大規模コレクションに変換する。これらの特徴は、霊長類の視覚内のオブジェクト認識に関して使用される下側頭皮質内の神経細胞と類似の性質を共に有する。キー位置は、一連の平滑化および再サンプリングされた画像に対してスケール空間で適用されるガウス関数の差の結果の最大値および最小値として定義され得る。低コントラスト候補点、およびエッジに沿ったエッジ反応点を廃棄することができる。最も頻度の高い方向(dominant orientations)を局所的キーポイントに割り当てる。この手法は、マッチングおよび認識に関してキーポイントがより安定していることを保証する。次いで、キー位置の半径を囲む画素を考慮して、局所的な画像配向面のぼかしおよび再サンプリングによって、局所的なアフィン歪みに対して頑強なSIFT記述子が取得され得る。
特徴マッチングおよび索引付けは、SIFTキーを記憶することと、新しい画像からマッチングキーを識別することとを含み得る。一手法では、限定された量の計算を使用して、高い確率を有する最近隣を識別するために使用され得るベストビンファースト検索(best-bin-first search)方法とも呼ばれるk-dツリーアルゴリズムの修正。ベストビンファーストアルゴリズムは、特徴空間内のビンをクエリ位置から最近距離の順序で検索することができるように、k-dツリーアルゴリズムに関して、修正された検索順序を使用する。この検索順序は、検索順序を効率的に判断するために、ヒープベースの優先待ち行列(heap-based priority queue)の使用を必要とする。トレーニング画像からキーポイントのデータベース内のその最近隣を識別することによって、各キーポイントに関する最善の候補マッチングを見出すことができる。最近隣は、所与の記述子ベクトルから最小ユークリッド距離を有するキーポイントとして定義され得る。マッチングが正確である確率は、最近隣から第2の最近隣までの距離の率をとることによって判断され得る。
1つの例示的な実装形態では、距離比が0.8を超えるマッチングは拒否されてよく、これは誤マッチングの90%を排除するのに対して、正確なマッチングの5%未満を廃棄する。ベストビンファーストアルゴリズムの効率をさらに改善するために、所定の数(たとえば、100個)の最近隣候補を検査した後、検索を止めることができる。100,000個のキーポイントのデータベースの場合、これは、正確な最近隣検索に関しておよそ2桁の加速を実現し得、さらに、正確なマッチングの数において5%未満の損失をもたらす。
この例示的な実装形態の場合、ハフ変換を使用して、信頼性が高いモデル仮説をクラスタ化して、特定のモデルポーズに関して一致するキーに関して検索することができる。その特徴に一致し得るオブジェクトポーズを決定する(vote)ための各特徴を使用することによって、一貫性のある解釈を用いて特徴のクラスタを識別するために、ハフ変換を使用することができる。特徴のクラスタがオブジェクトの同じポーズを決定することが見出されたとき、正確である解釈の確率は任意の単一の特徴に関するよりもより高い場合がある。マッチング仮説からモデルの位置、方向、およびスケールを予測するために、ハッシュ表内に記入を生み出すことができる。ビン内の少なくとも3つの記入のクラスタを識別するためにハッシュ表を検索することができ、ビンをサイズの降順にソートすることができる。
本開示の態様によれば、SIFTキーポイントの各々は、2D位置、スケール、および方向を指定することができる。加えて、データベース内の各マッチングキーポイントは、そのマッチングキーポイントが見出されるトレーニング画像に対するそのパラメータの記録を有し得る。これらの4つのパラメータによって暗示される相似変換は、3Dオブジェクトに関する6自由度のポーズ空間の近似値であり得、また任意の非剛体変形に対応しない。したがって、例示的な実装形態は、方向に関して30度の広いビンサイズ、2倍のスケール、および位置に関して(予測されたスケールを使用して)最大予想トレーニング画像寸法の0.25倍を使用することができる。より大きなスケールで生成されたSIFTキーサンプルには、より小さなスケールのSIFTキーサンプルよりも2倍の重みを与えることができる。この手法を用いると、より大きなスケールは、事実上、より小さなスケールで検査するための可能性が最も高い近隣をフィルタリングすることができる。この手法は、最も雑音の低いスケールにより大きな重みを与えることによって認識性能も改善する。本開示の態様によれば、ビン割当ての境界効果の課題を回避するために、各キーポイントマッチングは各次元内の2個の近接ビンを決定して、各仮説に関して合計で16個の記入を与えて、ポーズ範囲をさらに広げることができる。
本開示の態様によれば、所与のパラメータ解に関して、各画像特徴とモデルとの間の一致を検査することによって、異常値を除去することができる。たとえば、線形最小二乗解を考慮すると、各マッチングは、ハフ変換ビン内のパラメータに関して使用される誤差の半分の範囲内で一致することが必要とされ得る。異常値が廃棄されると、残りの点を用いて線形最小二乗解を解くことができ、このプロセスを反復することができる。いくつかの実装形態では、異常値を廃棄した後、所定数未満の点(たとえば、3個の点)が残る場合、マッチングは拒否され得る。加えて、トップダウンマッチング段階を使用して、相似変換近似値または他の誤差により、ハフ変換ビンから欠落している場合がある、予測モデル位置に一致する任意のさらなるマッチングを追加することができる。
モデル仮説を受け入れるか、または拒否する決定は、詳細な確率モデルに基づくことが可能である。この方法は、まず、モデルの予測されたサイズと、領域内の特徴の数と、マッチングの精度とを考慮して、モデルポーズに対して予想される誤マッチングの数を計算する。次いで、ベイズ確率解析は、見出された実際のマッチング特徴数に基づいて、そのオブジェクトが存在し得る確率を出すことが可能である。正確な解釈に関する最終的な確率が所定の割合(たとえば、95%)を超える場合、モデルを受け入れることができる。
本開示の態様によれば、一手法では、クラッタ状況下または部分的なオクルージョン状況下で対処するために、SIFTの回転不変量の一般化(generalization)として、回転不変量特徴変換(RIFT:rotation invariant feature transform)方法を用いることができる。等しい幅の同心リングに分割された円正規化パッチ(circular normalized patches)を使用して、RIFT記述子を構築することが可能であり、各リング内の勾配方向ヒストグラムを計算することが可能である。回転不変を維持するために、中心から外に向かう方向に対して各点における方向を測定することができる。
別の手法では、一般化ロバスト不変特徴(G-RIF:generalized robust invariant feature)方法を使用することができる。G-RIFは、知覚的情報を空間符号化と組み合わせる統一形式でエッジ方向、エッジ密度、および色相情報を符号化する。オブジェクト認識方式は、近接コンテキストベースの決定を使用して、オブジェクトモデルを推定する。
さらに別の手法では、再現性、独自性、および頑強性に関して前に提案された方式をしのぐ場合があるスケールおよび回転不変関心ポイント検出器(scale and rotation-invariant interest detector)/記述子を使用する高速化ロバスト特徴(SURF:speeded up robust feature)方法を使用することができる。SURFは、計算時間を削減するための画像畳み込み用の積分画像に依存し、(検出器に関する高速ヘッセ行列ベースの測定と、分布ベースの記述子とを使用する)優れた既存の検出器および記述子の強度に基づく。SURF方法は、関心ポイント近隣内のハール・ウェーブレット応答の分布を記述する。速度に関して積分画像を使用することができ、64次元を使用して、特徴計算およびマッチングに関する時間を削減することができる。索引付けステップは、記述子のマッチング速度および頑強性を高めるラプラシアンの信号に基づくことが可能である。
さらに別の手法では、主成分分析SIFT(PCA-SIFT:principle component analysis SIFT)方法を使用することができる。いくつかの実装形態では、PCA-SIFT記述子は、サポート領域内で計算されたxおよびy方向の画像勾配のベクトルである。勾配領域は、39×39位置でサンプリングされ得る。したがって、ベクトルは次元3042のものであり得る。PCAを用いて、次元を36に削減することができる。さらに別の手法では、そのロバスト性および独自性を高めるように設計されたSIFT記述子の拡張である勾配位置方向ヒストグラム(GLOH:Gradient location-orientation histogram)方法を用いることができる。いくつかの実装形態では、SIFT記述子は、(半径が6、11、および15に設定される)半径方向に3個のビンと、角度方向に8個のビンとを有し、結果として17個の位置ビンを有するログ極性(log-polar)位置グリッドに関して計算され得る。中央ビンは、角度方向に分割されなくてよい。勾配方向は、16個のビン内で量子化されて、結果として、272ビンヒストグラムをもたらし得る。PCAを用いて、この記述子のサイズを削減することができる。様々な画像から収集された画像パッチに関して、PCAに関する共分散行列を推定することができる。次いで、記述のために128個の最も大きな固有ベクトルを使用することができる。
さらに別の手法では、現在のモバイルデバイス限界範囲内で、2オブジェクト認識アルゴリズム(two-object recognition algorithm)を使用するために用いることができる。典型的なSIFT手法とは対照的に、特徴検出のために、加速セグメントテストからの特徴(FAST:Features from Accelerated Segment Test)コーナー検出器を使用することができる。この手法は、特徴が異なるスケールレベルで作成され得るオフライン準備段階と、特徴が、モバイルデバイスのカメラの画像の現在の固定スケールレベルで作成され得るオンライン段階とを区別する。1つの例示的な実装形態では、特徴は、所定の固定パッチサイズ(たとえば、15×15画素)から作成されることが可能であり、36次元を有するSIFT記述子を形成する。認識パイプライン内にスケーラブルな語彙ツリー(scalable vocabulary tree)を統合することによって、この手法をさらに拡張することが可能である。これは、モバイルデバイス上の多数のオブジェクトの効率的な認識を可能にする。
本開示の態様によれば、局所画像特徴の検出および記述は、オブジェクト認識に役立つ場合がある。SIFT特徴は、局所的であり得、特定の関心ポイントにおけるオブジェクトの外観に基づくことが可能であり、画像のスケールおよび回転に対して不変であり得る。SIFT特徴は、やはり、照度、雑音の変化、および視野内の微小変化に対して頑強であり得る。これらの特性に加えて、これらの特徴は非常に特徴的であり得、抽出が比較的容易であり得、低い不マッチング確率で正確なオブジェクト識別を可能にし得る。これらの特徴は、局所特徴の(大規模)データベースに対して比較的に容易にマッチングすることができ、ベストビンファースト検索を用いたK次元(k-d)ツリーなど、一般に確率的なアルゴリズムを使用することができる。SIFT特徴のセットによるオブジェクト記述は、部分的なオクルージョンに対しても頑強であり得る。たとえば、オブジェクトからわずか3個のSIFT特徴はその位置およびポーズを計算するのに十分であり得る。いくつかの実装形態では、認識は、小型データベースに関して、現代的なコンピュータハードウェア上で、疑似リアルタイムで実行され得る。
本開示の態様によれば、カメラの視野内のオブジェクトを移動させることによってもたらされる異常値を除去するために、ランダムサンプルコンセンサス(RANSAC)技法を用いることができる。RANSACは、異常値を含む、観測されたデータのセットから数学モデルのパラメータを推定するために反復方法を使用することに留意されたい。この方法は関連する確率を有する合理的な結果を生み出すため、この方法は非決定論的であり得、より多くの反復が実行されるにつれて、確率を高めることができる。
1つの例示的な実装形態では、観測されたデータ値のセット、対応する信頼性パラメータを有する観測に適合し得るパラメータ化されたモデル。この例示的な実装形態では、この方法は、元のデータのランダムサブセットを反復的に選択する。これらのデータは、仮説的正常値であり得、この仮説は、次いで、次のようにテストされ得る。
1.モデルは仮説的正常値に適合し得、すなわち、モデルのすべての自由パラメータは正常値から再構築される。
2.次いで、適合モデルに対してすべての他のデータをテストすることができ、点が推定モデルに十分適合する場合、その点を仮説的に正常値であると見なすことができる。
3.十分な数の点が仮説的正常値として分類されている場合、推定モデルを許容可能と見なすことができる。
4.モデルは仮説的正常値の初期セットからだけ推定されているので、すべての仮説的正常値からモデルを再度推定することができる。
5.最終的に、モデルに対する正常値の誤差を推定することによって、モデルを評価することができる。
上記の手順を所定回数繰り返し、毎回、あまりにも少ない点が正常値として分類されているので拒否され得るモデル、または対応する誤差測定とともに精緻化されたモデルのいずれかを生み出すことができる。後者の場合、誤差が前に保存されたモデルよりも低い場合、精緻化されたモデルを維持することができる。
別の例示的な実装形態では、モデルベースの動き追跡方法を使用して、カメラの視野内の移動オブジェクトを積極的に識別および除去することができる。一手法では、追跡の対象は、モデル認識の問題として処理され得る。ターゲットの2進表現を追跡することができ、ハウスドルフ距離ベースの検索を使用して、対象物に関する画像の領域を検索することができる。ターゲット(モデル)の2進表現の場合、ガウス平滑化画像の標準キャニーエッジ(canny edge)検出器からの出力は、モデル履歴の概念を用いて拡張され得る。各フレームで、現在の画像および現在のモデルからのキャニーエッジを使用して、各ターゲットに関してハウスドルフ検索を実行することができる。加えて、アフィン推定を実行して、正味背景運動を概算することができる。これらの2つの検索の結果から、ターゲットに関する情報を収集して、ターゲットの動きを概算するため、ならびに、ターゲットの領域内の動きから背景を分離するために、この情報を使用することができる。(オブジェクトが遮断されて影になる、オブジェクトがフレームを離れる、またはカメラ画像の歪みが不良な画像品質をもたらすなど)有害/異常状態に対処することを可能にするために、ターゲットの過去の動きおよびサイズ変更、ターゲットの特徴的視野(ターゲットが追跡されてきた様々な様式の正確な表現を実現する、時間を通じたスナップショット)、および過去のマッチング品質など、ターゲットに関する履歴データを保持することが可能である。
ターゲットを追跡する履歴は、有害/異常状態を単に補助する以上に有用な場合があり、固体運動追跡方法の一部は、フレームごとの動き比較方法だけでなく、履歴データを必要とする場合がある。この履歴状態は、何をターゲットの一部と見なすべきであるか(たとえば、同じ速度で移動するオブジェクトに近接して移動する物をオブジェクト内に組み込むべきであること)をどのように決定するかに関する情報を提供することができ、動きおよびサイズに関する情報を用いて、この方法は、失われた対象がどこに行ったか、またはその対象がどこに再現し得るかを予測的に推定することができる(これは、フレームを離れて、後の時点で再現するターゲットを回復する際に有用である)。
動き追跡方法の本質的な課題は、(静的カメラとは対照的に)カメラは任意の動きを有する場合があり、これはカメラの動きの予測不可能な変化に対処し得る追跡システムの開発を困難にすることによってもたらされる場合がある。計算的に効率的なアフィン背景推定方式を使用して、カメラおよびシーンの動きに関する情報を提供することが可能である。
本開示の態様によれば、画像に関するアフィン変換を、時間t+dtの画像に対して、時間tで実行することができ、これは、2つの画像内の動きを相関することを可能にする。この背景情報は、この方法が、時間tの画像から時間t+dtの画像を合成することと、正味シーン動作の近似であり得るアフィン変換とを可能にする。t+dtにおける実際の画像とt+dtにおける生成画像との差を利用して、ターゲットを取り巻く空間から画像特徴を除去することができるので、この合成画像は、新しいモデル情報を生成して、モデル空間から背景クラッタを除去する際に有用であり得る。
検索空間を浄化するためのツールとしてアフィン変換を使用することに加えて、ターゲットの座標移動を正規化するためにこの合成画像を使用することも可能であり、背景がどのように移動し得るかを追跡するためのベクトルと、ターゲットがどのように移動し得るかを追跡するためのベクトルとを有することによって、2つのベクトルの差を利用して、背景に対するターゲットの動きを記述するベクトルを生成することができる。このベクトルは、この方法が、ターゲットがどこにいるべきかを予測的にマッチングし、障害状態を予期することを可能にする(たとえば、動きの方向を見越すことは、近づきつつある障害に関する手掛かりを提供すると同様に、障害状態の場合、オブジェクトがどこに存在し得るかを追跡することができる)。オブジェクトが障害状態に入ったとき、この方法は、背景運動を推定することが依然として可能であり、モデルの前の動きの知識とともにその推定を使用して、モデルがどこに再現する場合があるか、またはフレームに再び入る場合があるかを推測することができる。
背景推定は、オブジェクトの長期的追跡における主な要因であり得る。背景推定なしに、短期的追跡を実行することが可能であるが、ある時間期間後には、背景の良好な推定なしに、オブジェクトの歪みおよび危険に効果的に対処するのは困難な場合があることに留意されたい。
本開示の態様によれば、マッチング演算子としてハウスドルフ距離を使用することの利点のうちの1つは、ハウスドルフ距離は、マッチングの間、形状の変化に対して極めて耐性であり得ることであるが、マッチング演算子としてハウスドルフ距離を使用することは、追跡されているオブジェクトをより正確に定義することを必要とする場合がある。
一手法では、時間t+1画像から新しいモデルを捕える直線膨張(straight dilation)ベースの方法を使用することができる。(発生することが非常に多い)オブジェクトに近接する非オブジェクト特徴が存在し得る、いくつかの状況では、膨張方法はシーン全体をモデル内にゆっくりと組み込むことが可能であるので、この方法は効果的でない場合があることに留意されたい。したがって、モデル形状の変化に対して耐性があり得る、フレームごとにモデルを更新するが、あまり緩やか(relaxed)ではなく、そのため、非モデル画素のモデル内への組込みを採用することができる。1つの例示的な実装形態は、背景除去と、現在のモデルマッチング窓に前のモデルを追加して、安定した画素と思われるもの、ならびに、安定していない場合があるので、経時的にモデルから排除される可能性、またはモデル内に組み込まれる可能性のいずれかがある、それらの画素を取り巻く新しい画素の利用との組合せを使用することである。この手法は、画像内のクラッタからモデルを比較的清浄に保つ際に効果的であり得る。たとえば、この手法を用いると、トラックに近接する道路はもはや画素ごとにモデル内に引き込まれない。モデルは膨張しているように見える場合があるが、これはそれらのモデルがどのように構築されているかの履歴的な影響の結果である場合があるが、この方法は、場合によっては、次のフレーム内でマッチングするより多くのモデル画素を有し得るので、検索結果をより明確にする特徴も有し得ることに留意されたい。
各フレームにおいて、実行されるべきかなりの量の計算が存在し得ることに留意されたい。いくつかの実装形態によれば、モバイルデバイスは、各ターゲットの平滑化/特徴抽出、ハウスドルフマッチング(たとえば、モデルごとに1つのマッチング)、ならびに、アフィン背景推定を実行するように構成され得る。これらの動作の各々は、個々に、非常に計算的に高価であり得る。モバイルデバイス上でリアルタイム性能を達成するために、設計は、可能な限り並行処理を使用するように構成され得る。
少なくとも、次段落〜次々段落(原文段落[0085]〜[0086])、図5、図6、図7、およびそれらの対応する説明は、少なくとも1つのモバイルデバイスからある場所におけるシーンの複数のマップを受信するための手段と、シーンの複数のマップの複数のキーフレームを識別するための手段と、シーンのグローバルマップを生成するために複数のキーフレームをマージするための手段とを提供することに留意されたい。
本明細書において説明される方法論およびモバイルデバイスは、アプリケーションに応じて種々の手段によって実施することができる。たとえば、これらの方法論は、ハードウェア、ファームウェア、ソフトウェア、またはそれらの組合せで実施され得る。ハードウェアの実施態様の場合、処理ユニットは、本明細書で説明される機能を実行するように設計された、1つもしくは複数の特定用途向け集積回路(ASIC)、デジタルシグナルプロセッサ(DSP)、デジタルシグナルプロセシングデバイス(DSPD)、プログラマブル論理デバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、電子デバイス、他の電子ユニット、またはそれらの組合せ内で実現することができる。本明細書では、「制御論理回路」という用語は、ソフトウェア、ハードウェア、ファームウェア、またはそれらの組合せによって実装された論理回路を包含する。
ファームウェアおよび/またはソフトウェアの実施態様の場合、それらの方法論は、本明細書において説明される機能を実行するモジュール(たとえば、手順、関数など)によって実施することができる。命令を有形に具現化するいずれの機械可読媒体も、本明細書で説明される方法論の実施において使用され得る。たとえば、ソフトウェアコードは、メモリに記憶され、処理ユニットによって実行され得る。メモリは、処理ユニット内に実装され、または処理ユニットの外部に実装される場合がある。本明細書において用いられるときに、「メモリ」という用語は、長期、短期、揮発性、不揮発性、または他の記憶デバイスのいずれかのタイプを指しており、任意の特定のタイプのメモリもしくはメモリの数には限定されず、あるいはメモリが格納される媒体のタイプに関して限定されない。
ファームウェアおよび/またはソフトウェアに実装される場合、機能は、コンピュータ可読媒体に1つまたは複数の命令またはコードとして記憶され得る。例は、データ構造によって符号化されたコンピュータ可読媒体およびコンピュータプログラムによって符号化されたコンピュータ可読媒体を含む。コンピュータ可読媒体は製造物品の形態をとり得る。コンピュータ可読媒体は、物理的なコンピュータ記憶媒体を含む。記憶媒体は、コンピュータによってアクセスされ得る任意の使用可能な媒体である場合がある。限定ではなく、例として、そのようなコンピュータ可読媒体は、RAM、ROM、EEPROM、CD-ROMもしくは他の光ディスクストレージ、磁気ディスクストレージもしくは他の磁気ストレージデバイス、または所望のプログラムコードを命令もしくはデータ構造の形で記憶するために使用され、コンピュータによってアクセスされ得る任意の他の媒体を含むことができ、本明細書で使用するディスク(diskおよびdisc)には、コンパクトディスク(disc)(CD)、レーザディスク(disc)、光ディスク(disc)、デジタル多用途ディスク(disc)(DVD)、フロッピー(登録商標)ディスク(disk)、およびブルーレイディスク(disc)が含まれ、ディスク(disk)は通常、データを磁気的に再生するが、ディスク(disc)はデータをレーザによって光学的に再生する。上記の組合せもコンピュータ可読媒体の範囲内に含まれるべきである。
コンピュータ可読媒体に記憶するのに加えて、命令および/またはデータは、通信装置に含まれる伝送媒体上の信号として与えられ得る。たとえば、通信装置は、命令およびデータを示す信号を有するトランシーバを含み得る。命令およびデータは、少なくとも1つのプロセッサに特許請求の範囲において概説する機能を実施させるように構成される。すなわち、通信装置は、開示する機能を実行するための情報を示す信号を有する伝送媒体を含む。第1の時間において、通信装置中に含まれる伝送媒体は、開示する機能を実行するための情報の第1の部分を含んでよく、一方、第2の時間において、通信装置中に含まれる伝送媒体は、開示する機能を実行するための情報の第2の部分を含んでよい。
本開示は、ワイヤレスワイドエリアネットワーク(WWAN)、ワイヤレスローカルエリアネットワーク(WLAN)、ワイヤレスパーソナルエリアネットワーク(WPAN)などの、種々のワイヤレス通信ネットワークとともに実現することができる。「ネットワーク」および「システム」という用語は、しばしば互換的に使用される。「位置」および「場所」という用語は、しばしば互換的に使用される。WWANは、符号分割多元接続(CDMA)ネットワーク、時分割多元接続(TDMA)ネットワーク、周波数分割多元接続(FDMA)ネットワーク、直交周波数分割多元接続(OFDMA)ネットワーク、シングルキャリア周波数分割多元接続(SC-FDMA)ネットワーク、ロングタームエボリューション(LTE:Long Term Evolution)ネットワーク、WiMAX(IEEE802.16)ネットワークなどとすることができる。CDMAネットワークは、cdma2000、広帯域CDMA(W-CDMA)などの1つまたは複数の無線アクセス技術(RAT)を実装することができる。cdma2000は、IS-95規格、IS-2000規格、およびIS-856規格を含む。TDMAネットワークは、Global System for Mobile Communications(GSM(登録商標))、Digital Advanced Mobile Phone System(D-AMPS)、または何らかの他のRATを実装することができる。GSM(登録商標)およびW-CDMAは、「第3世代パートナーシッププロジェクト」(3GPP)という名称の組織からの文書に記載されている。cdma2000は、「第3世代パートナーシッププロジェクト2」(3GPP2)という名称の組織からの文書に記述される。3GPPおよび3GPP2の文書は、公的に入手可能である。WLANは、IEEE802.11xネットワークであり得、またWPANはBluetooth(登録商標)ネットワーク、IEEE802.15x、または何らかの他のタイプのネットワークであり得る。また、本技法は、WWAN、WLAN、および/またはWPANの任意の組合せとともに実施することができる。
移動局は、セルラー通信デバイスもしくは他のワイヤレス通信デバイス、パーソナル通信システム(PCS)デバイス、パーソナルナビゲーションデバイス(PND)、個人情報マネージャ(PIM)、携帯情報端末(PDA)、ラップトップ、またはワイヤレス通信および/もしくはナビゲーション信号を受信することができる他の適切なモバイルデバイスなどのデバイスを指している。「移動局」という用語はまた、短距離ワイヤレス接続、赤外線接続、ワイヤライン接続、または他の接続などによって、パーソナルナビゲーションデバイス(PND)と通信するデバイスを、衛星信号受信、支援データ受信、および/または位置関連処理がそのデバイスにおいて行われるか、またはPNDにおいて行われるかにかかわらず含むことが意図される。また、「移動局」は、インターネット、Wi-Fi、または他のネットワークなどを介してサーバとの通信が可能である、ワイヤレス通信デバイス、コンピュータ、ラップトップなどを含むすべてのデバイスを、衛星信号受信、支援データ受信、および/または位置関連処理がそのデバイスにおいて行われるか、サーバにおいて行われるか、またはネットワークに関連する別のデバイスにおいて行われるかにかかわらず含むことが意図される。上記の任意の動作可能な組合せも「移動局」と見なされる。
何かが「最適化される」、「必要とされる」という指摘または他の指摘は、最適化されるシステム、または「必要とされる」要素が存在するシステムのみに本開示が適用されること(または他の指摘に起因する他の制限)を示すものではない。これらの表現は、特定の説明された実装形態のみを指す。当然、多くの実装形態が可能である。本技法は、開発中であるか今後開発されるプロトコルを含む、本明細書で論じるプロトコル以外のプロトコルで使用できる。
同じ基本的な根底をなす機構および方法を依然として使用しながら、開示される実施形態の多くの可能な変更および組合せを使用できることを、当業者は認識されよう。上記の説明は、説明の目的で、特定の実施形態に関して書かれている。しかしながら、上で示した論述は網羅的なものでも、あるいは本開示を開示された厳密な形態に限定しようとするものでもない。多くの修正および変形が、上記の教示に鑑みて可能である。本開示の原理およびその実際の適用について説明するために、また、企図される特定の用途に合わせて様々な修正を加えて本開示および様々な実施形態を他の当業者が最善の形で利用できるように、実施形態が選択され、説明されている。
102 場所
106 トランシーバ
108 カメラ
110 ユーザインターフェース
112 ディスプレイ
114 キーパッド
116 センサ
117 マイクロフォン
118 スピーカ
120 制御ユニット
122 プロセッサ
124 メモリ/記憶装置
126 ソフトウェア
128 ハードウェア
130 ファームウェア
132 キーフレーム処理モジュール
134 マップ生成モジュール

Claims (15)

  1. コンピュータビジョンベースの追跡のために複数のマップをマージする方法であって、
    少なくとも1つのモバイルデバイスからある場所におけるシーンの複数のマップを受信するステップと、
    前記シーンの前記複数のマップの複数のキーフレームを識別するステップと、
    前記シーンのグローバルマップを生成するために前記複数のキーフレームをマージするステップと
    を備え、
    前記シーンのグローバルマップを生成するために前記複数のキーフレームをマージするステップは、
    前記複数のキーフレームの各キーフレームに関して、
    前記キーフレームの角度ダイバーシティおよび前記キーフレームのスケールダイバーシティのうちの少なくとも1つの少なくとも一部に基づいて寄与スコアを決定するステップと、
    所定のしきい値未満の前記寄与スコアに応じて前記キーフレームを削除するステップと
    を備え
    前記キーフレームの角度ダイバーシティおよび前記キーフレームのスケールダイバーシティのうちの少なくとも1つの少なくとも一部に基づいて寄与スコアを決定するステップは、
    第1の重み因子を前記キーフレームの前記角度ダイバーシティに適用することによって角度ダイバーシティスコアリング基準値を計算するステップと、
    第2の重み因子を前記キーフレームの前記スケールダイバーシティに適用することによってスケールダイバーシティスコアリング基準値を計算するステップと
    のうちの少なくとも1つを備える、方法。
  2. ある場所におけるシーンの複数のマップを受信するステップは、
    複数のモバイルデバイスから前記シーンの前記複数のマップを受信するステップ
    を備える、請求項1に記載の方法。
  3. 複数のモバイルデバイスからの前記シーンの前記複数のマップからの前記複数のキーフレームの冗長性を評価するステップと、
    冗長なキーフレームを削除するステップと
    をさらに備える、請求項2に記載の方法。
  4. 複数のモバイルデバイスからの前記シーンの前記複数のマップを使用して自己位置推定及び地図構築同時実行(SLAM)マップを生成するステップと、
    前記複数のモバイルデバイスの間で前記SLAMマップを共有するステップと
    をさらに備える、請求項2に記載の方法。
  5. 前記シーンの前記複数のマップの前記複数のキーフレームを識別するステップは、
    複数の角度から前記シーンの複数の視点を表す前記複数のキーフレームを識別するステップと、
    複数のスケールで前記シーンの複数の視点を表す前記複数のキーフレームを識別するステップと
    のうちの少なくとも1つを備え、
    前記複数のキーフレームは、前記複数のマップの共通の特徴、位置座標、および外観を含む、
    請求項1に記載の方法。
  6. 複数のスケールは、
    前記少なくとも1つのモバイルデバイスと前記シーンとの間の複数の距離と、
    前記少なくとも1つのモバイルデバイスからの前記シーンの複数のアスペクト比と
    のうちの少なくとも1つを備える、
    請求項5に記載の方法。
  7. 前記キーフレームの角度ダイバーシティおよびスケールダイバーシティに少なくとも一部基づいて寄与スコアを決定するステップは、
    第1の重み因子を前記キーフレームの前記角度ダイバーシティに適用することによって角度ダイバーシティスコアリング基準値を計算するステップと、
    第2の重み因子を前記キーフレームの前記スケールダイバーシティに適用することによってスケールダイバーシティスコアリング基準値を計算するステップと、
    前記寄与スコアを生成するために前記角度ダイバーシティスコアリング基準値と前記スケールダイバーシティスコアリング基準値とを組み合わせるステップと
    を備える、請求項1に記載の方法。
  8. コンピュータビジョンベースの追跡のために複数のマップをマージする方法であって、
    少なくとも1つのモバイルデバイスからある場所におけるシーンの複数のマップを受信するステップと、
    前記シーンの前記複数のマップの複数のキーフレームを識別するステップと、
    前記シーンのグローバルマップを生成するために前記複数のキーフレームをマージするステップと
    を備え、
    前記シーンのグローバルマップを生成するために前記複数のキーフレームをマージするステップは、
    角度ヒストグラムにおいて前記複数のキーフレームを計数するステップであって、前記角度ヒストグラムは、前記シーンの異なる視点角度を表す複数のビンを含み、前記複数のビンの各ビンは、前記シーンの異なる視点スケールを表す複数の区分を含む、ステップと、
    前記角度ヒストグラムにおける前記複数のキーフレームの各キーフレームに関して、
    前記キーフレームの角度ダイバーシティおよび前記キーフレームのスケールダイバーシティに少なくとも一部基づいて寄与スコアを決定するステップと、
    所定のしきい値未満の前記寄与スコアに応じて前記キーフレームを削除するステップと
    を備える、方法。
  9. 前記キーフレームの角度ダイバーシティおよびスケールダイバーシティに少なくとも一部基づいて寄与スコアを決定するステップは、
    前記キーフレームが含まれるビン内のキーフレームの数に少なくとも一部基づいている第1の重み因子を前記キーフレームの前記角度ダイバーシティに適用することによって角度ダイバーシティスコアリング基準値を計算するステップと、
    前記キーフレームが含まれる区分内のキーフレームの数に少なくとも一部基づいている第2の重み因子を前記キーフレームの前記スケールダイバーシティに適用することによってスケールダイバーシティスコアリング基準値を計算するステップと、
    前記寄与スコアを生成するために前記角度ダイバーシティスコアリング基準値と前記スケールダイバーシティスコアリング基準値とを組み合わせるステップと
    を備える、請求項8に記載の方法。
  10. 前記場所において前記少なくとも1つのモバイルデバイスの位置を追跡するステップ
    をさらに備える、請求項1に記載の方法。
  11. 少なくとも1つのモバイルデバイスからある場所におけるシーンの複数のマップを受信するための手段と、
    前記シーンの前記複数のマップの複数のキーフレームを識別するための手段と、
    前記シーンのグローバルマップを生成するために前記複数のキーフレームをマージするための手段と
    を備え、
    前記シーンのグローバルマップを生成するために前記複数のキーフレームをマージするための手段は、
    前記複数のキーフレームの各キーフレームに関して、
    前記キーフレームの角度ダイバーシティおよび前記キーフレームのスケールダイバーシティのうちの少なくとも1つの少なくとも一部に基づいて寄与スコアを決定するための手段と
    所定のしきい値未満の前記寄与スコアに応じて前記キーフレームを削除するための手段と
    を備え、
    前記キーフレームの角度ダイバーシティおよび前記キーフレームのスケールダイバーシティのうちの少なくとも1つの少なくとも一部に基づいて寄与スコアを決定するための手段は、
    第1の重み因子を前記キーフレームの前記角度ダイバーシティに適用することによって角度ダイバーシティスコアリング基準値を計算するための手段と、
    第2の重み因子を前記キーフレームの前記スケールダイバーシティに適用することによってスケールダイバーシティスコアリング基準値を計算するための手段と
    のうちの少なくとも1つを備える、システム。
  12. ある場所におけるシーンの複数のマップを受信するための手段は、
    複数のモバイルデバイスから前記シーンの前記複数のマップを受信するための手段と、
    複数のモバイルデバイスからの前記シーンの前記複数のマップからの前記複数のキーフレームの冗長性を評価するための手段と、
    冗長なキーフレームを削除するための手段と、
    複数のモバイルデバイスからの前記シーンの前記複数のマップを使用して自己位置推定及び地図構築同時実行(SLAM)マップを生成するための手段と、
    前記複数のモバイルデバイスの間で前記SLAMマップを共有するための手段と
    を備える、請求項11に記載のシステム。
  13. 前記シーンの前記複数のマップの前記複数のキーフレームを識別するための手段は、
    複数の角度から前記シーンの複数の視点を表す前記複数のキーフレームを識別するための手段と、
    複数のスケールで前記シーンの複数の視点を表す前記複数のキーフレームを識別するための手段と
    のうちの少なくとも1つを備え、
    前記複数のキーフレームは、前記複数のマップの共通の特徴、位置座標、および外観を含み、
    複数のスケールは、
    前記少なくとも1つのモバイルデバイスと前記シーンとの間の複数の距離と、
    前記少なくとも1つのモバイルデバイスからの前記シーンの複数のアスペクト比と
    のうちの少なくとも1つを備える、
    請求項11に記載のシステム。
  14. 少なくとも1つのモバイルデバイスからある場所におけるシーンの複数のマップを受信するための手段と、
    前記シーンの前記複数のマップの複数のキーフレームを識別するための手段と、
    前記シーンのグローバルマップを生成するために前記複数のキーフレームをマージするための手段と
    を備え、
    前記シーンのグローバルマップを生成するために前記複数のキーフレームをマージするための手段は、
    角度ヒストグラムにおいて前記複数のキーフレームを計数するための手段であって、前記角度ヒストグラムは、前記シーンの異なる視点角度を表す複数のビンを含み、前記複数のビンの各ビンは、前記シーンの異なる視点スケールを表す複数の区分を含む、手段と、
    前記角度ヒストグラムにおける前記複数のキーフレームの各キーフレームに関して、
    前記キーフレームの角度ダイバーシティおよび前記キーフレームのスケールダイバーシティに少なくとも一部基づいて寄与スコアを決定するための手段と、
    所定のしきい値未満の前記寄与スコアに応じて前記キーフレームを削除するための手段と
    を備える、システム
  15. 1つまたは複数のコンピュータシステムによって実行される命令を記憶するコンピュータ可読記憶媒体にあるコンピュータプログラムであって、前記命令は、実行されると、前記1つまたは複数のコンピュータシステムに請求項1から10のいずれか一項に記載の方法を実行させる、コンピュータプログラム。
JP2015539627A 2012-10-31 2013-10-08 コンピュータビジョンベースの追跡のために複数のマップをマージするシステムおよび方法 Expired - Fee Related JP6339579B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261720804P 2012-10-31 2012-10-31
US61/720,804 2012-10-31
US13/830,664 2013-03-14
US13/830,664 US9177404B2 (en) 2012-10-31 2013-03-14 Systems and methods of merging multiple maps for computer vision based tracking
PCT/US2013/063876 WO2014070390A1 (en) 2012-10-31 2013-10-08 Systems and methods of merging multiple maps for computer vision based tracking

Publications (3)

Publication Number Publication Date
JP2016500885A JP2016500885A (ja) 2016-01-14
JP2016500885A5 JP2016500885A5 (ja) 2016-11-04
JP6339579B2 true JP6339579B2 (ja) 2018-06-06

Family

ID=50547228

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015539627A Expired - Fee Related JP6339579B2 (ja) 2012-10-31 2013-10-08 コンピュータビジョンベースの追跡のために複数のマップをマージするシステムおよび方法

Country Status (6)

Country Link
US (1) US9177404B2 (ja)
EP (1) EP2915138B1 (ja)
JP (1) JP6339579B2 (ja)
KR (1) KR20150079730A (ja)
CN (1) CN104756155B (ja)
WO (1) WO2014070390A1 (ja)

Families Citing this family (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010045271A1 (en) * 2008-10-14 2010-04-22 Joshua Victor Aller Target and method of detecting, identifying, and determining 3-d pose of the target
US9367811B2 (en) * 2013-03-15 2016-06-14 Qualcomm Incorporated Context aware localization, mapping, and tracking
US10262462B2 (en) 2014-04-18 2019-04-16 Magic Leap, Inc. Systems and methods for augmented and virtual reality
KR101574876B1 (ko) * 2014-02-13 2015-12-04 영남대학교 산학협력단 비전 센서 데이터베이스를 이용한 거리 측정 방법
US9478029B2 (en) * 2014-10-23 2016-10-25 Qualcomm Incorporated Selection strategy for exchanging map information in collaborative multi-user SLAM systems
EP3234626A4 (en) * 2014-12-18 2018-08-22 Innerspace Technology Inc. Method and system for sensing interior spaces to auto-generate a navigational map
US10185775B2 (en) * 2014-12-19 2019-01-22 Qualcomm Technologies, Inc. Scalable 3D mapping system
EP3062142B1 (en) 2015-02-26 2018-10-03 Nokia Technologies OY Apparatus for a near-eye display
US20160259404A1 (en) 2015-03-05 2016-09-08 Magic Leap, Inc. Systems and methods for augmented reality
US10838207B2 (en) 2015-03-05 2020-11-17 Magic Leap, Inc. Systems and methods for augmented reality
US9940542B2 (en) * 2015-08-11 2018-04-10 Google Llc Managing feature data for environment mapping on an electronic device
CN108604383A (zh) 2015-12-04 2018-09-28 奇跃公司 重新定位系统和方法
JP6842618B2 (ja) * 2015-12-14 2021-03-17 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 3dマップの作成
CN105913459B (zh) * 2016-05-10 2019-07-12 中国科学院自动化研究所 基于高分辨率连拍图像的运动目标检测方法
US10802147B2 (en) 2016-05-18 2020-10-13 Google Llc System and method for concurrent odometry and mapping
US11017610B2 (en) * 2016-05-18 2021-05-25 Google Llc System and method for fault detection and recovery for concurrent odometry and mapping
US10890600B2 (en) 2016-05-18 2021-01-12 Google Llc Real-time visual-inertial motion tracking fault detection
US10217231B2 (en) * 2016-05-31 2019-02-26 Microsoft Technology Licensing, Llc Systems and methods for utilizing anchor graphs in mixed reality environments
EP3494549A4 (en) 2016-08-02 2019-08-14 Magic Leap, Inc. SYSTEMS AND METHODS FOR FIXED AND INCREASED DISTANCE VIRTUAL REALITY
US10650552B2 (en) 2016-12-29 2020-05-12 Magic Leap, Inc. Systems and methods for augmented reality
EP3343267B1 (en) 2016-12-30 2024-01-24 Magic Leap, Inc. Polychromatic light out-coupling apparatus, near-eye displays comprising the same, and method of out-coupling polychromatic light
US10812936B2 (en) * 2017-01-23 2020-10-20 Magic Leap, Inc. Localization determination for mixed reality systems
US10534964B2 (en) * 2017-01-30 2020-01-14 Blackberry Limited Persistent feature descriptors for video
US10217232B2 (en) 2017-02-08 2019-02-26 Toyota Motor Engineering & Manufacturing North America, Inc. Systems and methods for locally aligning map data
CN111309955B (zh) * 2017-02-13 2022-06-24 哈尔滨理工大学 一种面向图像检索的融合方法
KR102366781B1 (ko) 2017-03-17 2022-02-22 매직 립, 인코포레이티드 컬러 가상 콘텐츠 와핑을 갖는 혼합 현실 시스템 및 이를 사용하여 가상 콘텐츠를 생성하는 방법
EP3596703A4 (en) 2017-03-17 2020-01-22 Magic Leap, Inc. VIRTUAL CONTENT DEFORMATION MIXED REALITY SYSTEM AND VIRTUAL CONTENT GENERATION METHOD USING THE SAME
AU2018233733B2 (en) 2017-03-17 2021-11-11 Magic Leap, Inc. Mixed reality system with multi-source virtual content compositing and method of generating virtual content using same
US10990829B2 (en) * 2017-04-28 2021-04-27 Micro Focus Llc Stitching maps generated using simultaneous localization and mapping
US10578870B2 (en) 2017-07-26 2020-03-03 Magic Leap, Inc. Exit pupil expander
WO2019113570A1 (en) 2017-12-10 2019-06-13 Magic Leap, Inc. Anti-reflective coatings on optical waveguides
EP3729172A4 (en) 2017-12-20 2021-02-24 Magic Leap, Inc. INSERT FOR AUGMENTED REALITY VIEWING DEVICE
CN110099237B (zh) * 2018-01-31 2021-08-17 腾讯科技(深圳)有限公司 图像处理方法、电子装置及计算机可读存储介质
WO2019178567A1 (en) 2018-03-15 2019-09-19 Magic Leap, Inc. Image correction due to deformation of components of a viewing device
US11204491B2 (en) 2018-05-30 2021-12-21 Magic Leap, Inc. Compact variable focus configurations
EP3803450A4 (en) * 2018-05-31 2021-08-18 Magic Leap, Inc. POSITIONING A RADAR HEAD
CN112400157A (zh) 2018-06-05 2021-02-23 奇跃公司 观看系统的基于单应性变换矩阵的温度校准
US11092812B2 (en) 2018-06-08 2021-08-17 Magic Leap, Inc. Augmented reality viewer with automated surface selection placement and content orientation placement
US10549186B2 (en) * 2018-06-26 2020-02-04 Sony Interactive Entertainment Inc. Multipoint SLAM capture
US11579441B2 (en) 2018-07-02 2023-02-14 Magic Leap, Inc. Pixel intensity modulation using modifying gain values
CN109074757B (zh) * 2018-07-03 2021-11-09 达闼机器人有限公司 一种建立地图的方法、终端和计算机可读存储介质
US11856479B2 (en) 2018-07-03 2023-12-26 Magic Leap, Inc. Systems and methods for virtual and augmented reality along a route with markers
WO2020010226A1 (en) 2018-07-03 2020-01-09 Magic Leap, Inc. Systems and methods for virtual and augmented reality
KR102392100B1 (ko) * 2018-07-19 2022-04-27 우이시 테크놀로지스 (베이징) 리미티드. 시각 위치 확인 지도 저장 및 로딩 방법, 장치, 시스템 및 저장 매체
EP3827299A4 (en) 2018-07-23 2021-10-27 Magic Leap, Inc. SYSTEM OF MIXED REALITY WITH VIRTUAL CONTENT DISTORTION AND PROCESS FOR GENERATING VIRTUAL CONTENT WITH IT
WO2020023543A1 (en) 2018-07-24 2020-01-30 Magic Leap, Inc. Viewing device with dust seal integration
EP4270016A3 (en) 2018-07-24 2024-02-07 Magic Leap, Inc. Temperature dependent calibration of movement detection devices
JP7139762B2 (ja) * 2018-07-31 2022-09-21 カシオ計算機株式会社 自律移動装置、自律移動方法及びプログラム
WO2020028834A1 (en) 2018-08-02 2020-02-06 Magic Leap, Inc. A viewing system with interpupillary distance compensation based on head motion
EP3830631A4 (en) 2018-08-03 2021-10-27 Magic Leap, Inc. NON-FUSED POSE DRIFT CORRECTION OF A FUSED TOTEM IN A USER INTERACTION SYSTEM
JP7182976B2 (ja) 2018-09-27 2022-12-05 キヤノン株式会社 情報処理装置、情報処理方法、およびプログラム
CN117111304A (zh) 2018-11-16 2023-11-24 奇跃公司 用于保持图像清晰度的图像尺寸触发的澄清
CN109754385A (zh) * 2019-01-11 2019-05-14 中南大学 未配准多聚焦图像的快速融合方法
JP2022519292A (ja) 2019-02-06 2022-03-22 マジック リープ, インコーポレイテッド 複数のプロセッサによって発生される総熱を限定するための標的意図ベースのクロック速度の決定および調節
EP3939030A4 (en) 2019-03-12 2022-11-30 Magic Leap, Inc. REGISTRATION OF LOCAL CONTENT BETWEEN FIRST AND SECOND VIEWERS OF AUGMENTED REALITY
CN109949412B (zh) * 2019-03-26 2021-03-02 腾讯科技(深圳)有限公司 一种三维对象重建方法和装置
US11445232B2 (en) 2019-05-01 2022-09-13 Magic Leap, Inc. Content provisioning system and method
CN114174895A (zh) 2019-07-26 2022-03-11 奇跃公司 用于增强现实的系统和方法
JP2023502927A (ja) 2019-11-15 2023-01-26 マジック リープ, インコーポレイテッド 外科手術環境において使用するための視認システム
CN111241944B (zh) * 2019-12-31 2023-05-26 浙江大学 基于背景目标与背景特征匹配的场景识别与回环检测方法
CN111402288A (zh) * 2020-03-26 2020-07-10 杭州博雅鸿图视频技术有限公司 目标检测跟踪方法及装置
WO2022049615A1 (ja) * 2020-09-01 2022-03-10 株式会社ネイン 情報処理システム、情報処理方法およびコンピュータプログラム
CN112541970A (zh) * 2020-11-30 2021-03-23 北京华捷艾米科技有限公司 一种集中式协同SlAM中的重定位方法及装置
KR102431122B1 (ko) * 2021-12-30 2022-08-10 주식회사 버넥트 맵 타겟 추적 방법 및 그 시스템
CN115376051B (zh) * 2022-10-25 2023-03-24 杭州华橙软件技术有限公司 关键帧的管理方法及管理装置、slam方法、电子设备

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1167120B1 (en) 2000-06-30 2014-08-27 Panasonic Corporation Rendering device for parking aid
EP2450763B1 (en) 2005-07-26 2017-03-01 MacDonald, Dettwiler and Associates Inc. Global position and orientation estimation system for a vehicle in a passageway environment
JP4400659B2 (ja) 2007-09-03 2010-01-20 トヨタ自動車株式会社 車載表示装置
JP4803155B2 (ja) * 2007-10-15 2011-10-26 セイコーエプソン株式会社 複数の画像データのパノラマ合成
US8200037B2 (en) * 2008-01-28 2012-06-12 Microsoft Corporation Importance guided image transformation
US8204299B2 (en) * 2008-06-12 2012-06-19 Microsoft Corporation 3D content aggregation built into devices
WO2010088840A1 (en) * 2009-02-06 2010-08-12 The Hong Kong University Of Science And Technology Generating three-dimensional models from images
IL202460A (en) * 2009-12-01 2013-08-29 Rafael Advanced Defense Sys Method and system for creating a 3D view of real arena for military planning and operations
US8447136B2 (en) * 2010-01-12 2013-05-21 Microsoft Corporation Viewing media in the context of street-level images
US20120195491A1 (en) 2010-07-21 2012-08-02 Palo Alto Research Center Incorporated System And Method For Real-Time Mapping Of An Indoor Environment Using Mobile Robots With Limited Sensing
KR101732076B1 (ko) 2010-12-22 2017-05-02 엘지전자 주식회사 전자 기기 및 전자 기기의 제어 방법
CN102541418B (zh) * 2010-12-30 2015-04-08 上海博泰悦臻电子设备制造有限公司 一种实现地图显示的处理方法及装置
US9247133B2 (en) * 2011-06-01 2016-01-26 Apple Inc. Image registration using sliding registration windows
US20130293671A1 (en) * 2012-05-01 2013-11-07 Tourwrist, Inc. Systems and methods for stitching and sharing panoramas

Also Published As

Publication number Publication date
EP2915138A1 (en) 2015-09-09
CN104756155B (zh) 2017-09-19
US20140119598A1 (en) 2014-05-01
EP2915138B1 (en) 2019-07-31
US9177404B2 (en) 2015-11-03
CN104756155A (zh) 2015-07-01
JP2016500885A (ja) 2016-01-14
KR20150079730A (ko) 2015-07-08
WO2014070390A1 (en) 2014-05-08

Similar Documents

Publication Publication Date Title
JP6339579B2 (ja) コンピュータビジョンベースの追跡のために複数のマップをマージするシステムおよび方法
JP6162805B2 (ja) 拡張の継続性の維持
US9330471B2 (en) Camera aided motion direction and speed estimation
JP5722502B2 (ja) モバイルデバイスのための平面マッピングおよびトラッキング
US9098740B2 (en) Apparatus, method, and medium detecting object pose
JP5940453B2 (ja) 画像のシーケンス内のオブジェクトのリアルタイム表現のハイブリッド型追跡のための方法、コンピュータプログラム、および装置
JP6007682B2 (ja) 画像処理装置、画像処理方法及びプログラム
US20130121535A1 (en) Detection device and method for transition area in space
CN109272577B (zh) 一种基于Kinect的视觉SLAM方法
CN111797709A (zh) 一种基于回归检测的实时动态手势轨迹识别方法
GB2599948A (en) Initialising keyframes for visual-inertial localisation and/or mapping
GB2599947A (en) Visual-inertial localisation in an existing map
Ekekrantz et al. Adaptive iterative closest keypoint
EP2939181B1 (en) Photometric edge description
US11830218B2 (en) Visual-inertial localisation in an existing map
Chen et al. Multi-Scale YOLOv2 for Hand Detection in Complex Scenes
Siddiqui et al. A novel plane extraction approach using supervised learning
WO2023150885A1 (en) System and method for object comprehension
Román Erades Creation and maintenance of visual incremental maps and hierarchical localization.
Kodirov et al. Robust real time face tracking in mobile devices
CN117745757A (zh) 目标跟踪的方法、装置、终端设备及存储介质
Doyle et al. Determination of feature generation methods for PTZ camera object tracking

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160914

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160914

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170921

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170925

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20171225

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180416

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180510

R150 Certificate of patent or registration of utility model

Ref document number: 6339579

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees