JP7430243B2 - 視覚的測位方法及び関連装置 - Google Patents
視覚的測位方法及び関連装置 Download PDFInfo
- Publication number
- JP7430243B2 JP7430243B2 JP2022503488A JP2022503488A JP7430243B2 JP 7430243 B2 JP7430243 B2 JP 7430243B2 JP 2022503488 A JP2022503488 A JP 2022503488A JP 2022503488 A JP2022503488 A JP 2022503488A JP 7430243 B2 JP7430243 B2 JP 7430243B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- target
- images
- candidate
- camera
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/86—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using syntactic or structural representations of the image or video pattern, e.g. symbolic string recognition; using graph matching
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/587—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/36—Applying a local operator, i.e. means to operate on image points situated in the vicinity of a given point; Non-linear local filtering operations, e.g. median filtering
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/751—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/752—Contour matching
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
- G06V10/7625—Hierarchical techniques, i.e. dividing or merging patterns to obtain a tree-like representation; Dendograms
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B29/00—Maps; Plans; Charts; Diagrams, e.g. route diagram
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30244—Camera pose
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- Remote Sensing (AREA)
- Mathematical Physics (AREA)
- Business, Economics & Management (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- Nonlinear Science (AREA)
- Image Analysis (AREA)
Description
本願は、2019年08月30日に提出された出願番号201910821911.3の中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。
前記画像ライブラリにおける、対応する視覚的ワードベクトルと前記第1画像に対応する視覚的ワードベクトルとの類似度が最も高い複数の候補画像を決定することであって、前記画像ライブラリにおけるいずれか1つの画像は、1つの視覚的ワードベクトルに対応し、前記画像ライブラリにおける画像は、前記ターゲット機器が前記第1画像を収集する時に所在する測位されるべきシーンの電子マップを構築するためのものである、ことと、
前記複数の候補画像をそれぞれ前記第1画像と特徴マッチングし、各候補画像の、前記第1画像とマッチングした特徴の数を得ることと、
前記複数の候補画像のうち、前記第1画像とマッチングした特徴の数が最も多いM個の画像を取得し、前記第1候補画像シーケンスを得ることと、を含む。
前記画像ライブラリにおける、対応する視覚的ワードの少なくとも1つが前記第1画像に対応する視覚的ワードと同じである画像を決定し、複数の予備選択画像を得ることであって、前記画像ライブラリにおけるいずれか1つの画像は、少なくとも1つ視覚的ワードに対応し、前記第1画像は、少なくとも1つの視覚的ワードに対応する、ことと、前記複数の予備選択画像のうち、対応する視覚的ワードベクトルと前記第1画像に対応する視覚的ワードベクトルとの類似度が最も高い複数の候補画像を決定することと、を含む。
語彙ツリーを利用して、前記第1画像から抽出された特徴をターゲットワードベクトルに変換することであって、前記語彙ツリーは、前記測位されるべきシーンで収集された訓練画像から抽出された特徴をクラスタリングすることで得られたものである、ことと、
前記ターゲットワードベクトルと前記複数の予備選択画像のうちの各予備選択画像に対応する視覚的ワードベクトルとの類似度をそれぞれ算出することであって、前記複数の予備選択画像のうちのいずれか1つの予備選択画像に対応する視覚的ワードベクトルは、前記語彙ツリーを利用して、前記いずれか1つの予備選択画像から抽出された特徴により得た視覚的ワードベクトルである、ことと、
前記複数の予備選択画像のうち、対応する視覚的ワードベクトルと前記ターゲットワードベクトルとの類似度が最も高い複数の候補画像を決定することと、を含む。
前記第1画像での、前記語彙ツリーにおける各リーフノードに対応する視覚的ワードに対応する重みを算出することと、
前記第1画像での、前記各リーフノードに対応する視覚的ワードに対応する重みを組み合わせて1つのベクトルを形成し、前記ターゲットワードベクトルを得ることと、を含む。
前記語彙ツリーを利用して、前記第1画像から抽出された特徴を分類し、ターゲットリーフノードに分類された中間特徴を得ることであって、前記ターゲットリーフノードは、前記語彙ツリーにおけるいずれか1つのリーフノードであり、ターゲットリーフノードは、ターゲット視覚的ワードに対応する、ことと、
前記中間特徴、前記ターゲット視覚的ワードの重み及び前記ターゲット視覚的ワードに対応するクラスタ中心に基づいて、前記第1画像での、前記ターゲット視覚的ワードに対応するターゲット重みを算出することであって、前記ターゲット重みは、前記ターゲット視覚的ワードの重みと正に相関し、前記ターゲット視覚的ワードの重みは、前記語彙ツリーを生成する時に前記ターゲット視覚的ワードに対応する特徴の数に基づいて決定される、ことと、を含む。
語彙ツリーに基づいて、前記第1画像から抽出された第3特徴をリーフノードに分類することであって、前記語彙ツリーは、前記測位されるべきシーンで抽出された画像から抽出された特徴をクラスタリングすることで得られたものであり、前記語彙ツリーの最終層のノードは、リーフノードであり、各リーフノードは、複数の特徴を含む、ことと、
各前記リーフノードにおける前記第3特徴と第4特徴に対して特徴マッチングを行い、各前記リーフノードにおける、前記第3特徴とマッチングした第4特徴を得ることであって、前記第4特徴は、ターゲット候補画像から抽出された特徴であり、前記ターゲット候補画像は、前記第1候補画像シーケンスに含まれるいずれか1つの画像である、ことと、
各前記リーフノードにおける、前記第3特徴とマッチングした第4特徴に基づいて、前記ターゲット候補画像の、前記第1画像とマッチングした特徴の数を得ることと、を含む。
変換行列及び前記第1姿勢に基づいて、前記カメラの三次元位置を決定することであって、前記変換行列は、前記ポイントクラウドマップの角度及び位置を変換し、前記ポイントクラウドマップの輪郭と屋内平面図をアライメントすることで得られたものである、ことを更に含む。
複数の画像シーケンスを取得することであって、各画像シーケンスは、測位されるべきシーンにおける1つ又は複数の領域を収集することで得られたものである、ことと、
前記複数の画像シーケンスに基づいて、前記ポイントクラウドマップを構築することであって、前記複数の画像シーケンスのうちのいずれか1つの画像シーケンスは、1つ又は複数の領域のサブポイントクラウドマップを構築するためのものであり、前記ポイントクラウドマップは、前記第1電子マップ及び前記第2電子マップを含む、ことと、を更に含む。
前記測位されるべきシーンに対して撮影を行うことで得られた複数枚の訓練画像を取得することと、
前記複数枚の訓練画像に対して特徴抽出を行い、訓練特徴集合を得ることと、
前記訓練特徴集合における特徴に対して複数回のクラスタリングを行い、前記語彙ツリーを得ることと、を更に含む。
位置情報を受信することであって、前記位置情報は、前記カメラの位置及び方向を示すためのものであり、前記位置情報は、前記サーバにより第2候補画像シーケンスに基づいて決定された、前記ターゲット画像を収集する時の前記カメラの位置情報であり、前記第2候補画像シーケンスは、前記サーバによりターゲットウィンドウに基づいて第1候補画像シーケンスにおける各フレームの画像の順番を調整することで得られたものであり、前記ターゲットウィンドウは、画像ライブラリから決定された、ターゲットフレーム画像を含む連続した複数フレームの画像であり、前記画像ライブラリは、電子マップを構築するためのものであり、前記ターゲットフレーム画像は、前記画像ライブラリにおける、第2画像とマッチングした画像であり、前記第2画像は、前記カメラにより第1画像を収集する前に収集された画像であり、前記第1候補画像シーケンスにおける各フレームの画像は、前記第1画像とのマッチング度の順番に応じてソートされる、ことと、
電子マップを表示することであって、前記電子マップに前記カメラの位置及び方向が含まれる、ことと、を含む。
画像ライブラリから、第1候補画像シーケンスを決定するように構成される選別ユニットであって、前記画像ライブラリは、電子マップを構築するためのものであり、前記第1候補画像シーケンスにおける各フレームの画像は、第1画像とのマッチング度の順番に応じてソートされ、前記第1画像は、カメラにより収集された画像である、選別ユニットを備え、
前記選別ユニットは更に、ターゲットウィンドウに応じて、前記第1候補画像シーケンスにおける各フレームの画像の順番を調整し、第2候補画像シーケンスを得るように構成され、前記ターゲットウィンドウは、画像ライブラリから決定された、ターゲットフレームの画像を含む連続した複数フレームの画像であり、前記ターゲットフレームの画像は、前記画像ライブラリにおける、第2画像とマッチングした画像であり、前記第2画像は、前記カメラにより第1画像を収集する前に収集された画像であり、
該装置は、前記第2候補画像シーケンスに基づいて、前記第1画像を収集する時の前記カメラのターゲット姿勢を決定するように構成される決定ユニットを更に備える。
ターゲット画像を収集するように構成されるカメラと、
サーバにターゲット情報を送信するように構成される送信ユニットであって、前記ターゲット情報は、前記ターゲット画像又は前記ターゲット画像から抽出された特徴シーケンス、及び前記カメラの内部パラメータを含む、送信ユニットと、
位置情報を受信するように構成される受信ユニットであって、前記位置情報は、前記カメラの位置及び方向を示すためのものであり、前記位置情報は、前記サーバにより第2候補画像シーケンスに基づいて決定された、前記ターゲット画像を収集する時の前記カメラの位置情報であり、前記第2候補画像シーケンスは、前記サーバによりターゲットウィンドウに基づいて第1候補画像シーケンスにおける各フレームの画像の順番を調整することで得られたものであり、前記ターゲットウィンドウは、画像ライブラリから決定された、ターゲットフレーム画像を含む連続した複数フレームの画像であり、前記画像ライブラリは、電子マップを構築するためのものであり、前記ターゲットフレーム画像は、前記画像ライブラリにおける、第2画像とマッチングした画像であり、前記第2画像は、前記カメラにより第1画像を収集する前に収集された画像であり、前記第1候補画像シーケンスにおける各フレームの画像は、前記第1画像とのマッチング度の順番に応じてソートされる、受信ユニットと、
電子マップを表示するように構成される表示ユニットであって、前記電子マップに前記カメラの位置及び方向が含まれる、表示ユニットと、を備える。
例えば、本願は以下の項目を提供する。
(項目1)
視覚的測位方法であって、
画像ライブラリから、第1候補画像シーケンスを決定することであって、前記画像ライブラリは、電子マップを構築するためのものであり、前記第1候補画像シーケンスにおける各フレームの画像は、第1画像とのマッチング度の順番に応じてソートされ、前記第1画像は、カメラにより収集された画像である、ことと、
ターゲットウィンドウに応じて、前記第1候補画像シーケンスにおける各フレームの画像の順番を調整し、第2候補画像シーケンスを得ることであって、前記ターゲットウィンドウは、画像ライブラリから決定された、ターゲットフレームの画像を含む連続した複数フレームの画像であり、前記ターゲットフレームの画像は、前記画像ライブラリにおける、第2画像とマッチングした画像であり、前記第2画像は、前記カメラにより第1画像を収集する前に収集された画像である、ことと、
前記第2候補画像シーケンスに基づいて、前記第1画像を収集する時の前記カメラのターゲット姿勢を決定することと、を含む、前記視覚的測位方法。
(項目2)
前記第2候補画像シーケンスに基づいて、前記第1画像を収集する時の前記カメラのターゲット姿勢を決定することは、
第1画像シーケンス及び前記第1画像に基づいて、前記カメラの第1姿勢を決定することであって、前記第1画像シーケンスは、前記画像ライブラリにおける、第1参照フレーム画像に隣接する連続した複数フレームの画像を含み、前記第1参照フレーム画像は、前記第2候補画像シーケンスに含まれる、ことと、
前記第1姿勢に基づいて前記カメラの位置を測位することに成功したと判定した場合、前記第1姿勢を前記ターゲット姿勢として決定することと、を含むことを特徴とする
項目1に記載の視覚的測位方法。
(項目3)
前記第1画像シーケンス及び前記第1画像に基づいて、前記カメラの第1姿勢を決定した後、前記視覚的測位方法は、
前記第1姿勢に基づいて前記カメラの位置を測位することに失敗したと判定した場合、第2画像シーケンス及び前記第1画像に基づいて、前記カメラの第2姿勢を決定することであって、前記第2画像シーケンスは、前記画像ライブラリにおける、第2参照フレーム画像に隣接する連続した複数フレームの画像を含み、前記第2参照フレーム画像は、前記第2候補画像シーケンスにおける、前記第1参照フレーム画像の1フレーム後の画像又は1フレーム前の画像である、ことと、
前記第2姿勢に基づいて前記カメラの位置を測位することに成功したと判定した場合、前記第2姿勢を前記ターゲット姿勢として決定することと、を更に含むことを特徴とする
項目2に記載の視覚的測位方法。
(項目4)
前記第1画像シーケンス及び前記第1画像に基づいて、前記カメラの第1姿勢を決定することは、
前記第1画像シーケンスにおける各画像から抽出された特徴のうち、前記第1画像から抽出された特徴とマッチングしたF個の特徴を決定することであって、Fは、0より大きい整数である、ことと、
前記F個の特徴、ポイントクラウドマップでの、前記F個の特徴に対応する空間座標点及び前記カメラの内部パラメータに基づいて、前記第1姿勢を決定することであって、前記ポイントクラウドマップは、測位されるべきシーンの電子マップであり、前記測位されるべきシーンは、前記カメラが前記第1画像を収集する時に所在するシーンである、ことと、を含むことを特徴とする
項目2又は3に記載の視覚的測位方法。
(項目5)
前記ターゲットウィンドウに基づいて、第1候補画像シーケンスにおける各フレームの画像の順番を調整し、第2候補画像シーケンスを得ることは、
前記第1候補画像シーケンスにおける各フレームの画像が前記第1画像とのマッチング度の昇順に応じてソートされた場合、前記第1候補画像シーケンスにおける、前記ターゲットウィンドウに位置する画像を、前記第1候補画像シーケンスの最終位置に調整することと、
前記第1候補画像シーケンスにおける各フレームの画像が前記第1画像とのマッチング度の降順に応じてソートされた場合、前記第1候補画像シーケンスにおける、前記ターゲットウィンドウに位置する画像を、前記第1候補画像シーケンスの先頭位置に調整することと、を含むことを特徴とする
項目1から4のうちいずれか一項に記載の視覚的測位方法。
(項目6)
前記画像ライブラリから、第1候補画像シーケンスを決定することは、
前記画像ライブラリにおける、対応する視覚的ワードベクトルと前記第1画像に対応する視覚的ワードベクトルとの類似度が最も高い複数の候補画像を決定することであって、前記画像ライブラリにおけるいずれか1つの画像は、1つの視覚的ワードベクトルに対応し、前記画像ライブラリにおける画像は、前記ターゲット機器が前記第1画像を収集する時に所在する測位されるべきシーンの電子マップを構築するためのものである、ことと、
前記複数の候補画像をそれぞれ前記第1画像と特徴マッチングし、各候補画像の、前記第1画像とマッチングした特徴の数を得ることと、
前記複数の候補画像のうち、前記第1画像とマッチングした特徴の数が最も多いM個の画像を取得し、前記第1候補画像シーケンスを得ることと、を含むことを特徴とする
項目5に記載の視覚的測位方法。
(項目7)
前記画像ライブラリにおける、対応する視覚的ワードベクトルと前記第1画像に対応する視覚的ワードベクトルとの類似度が最も高い複数の候補画像を決定することは、
前記画像ライブラリにおける、対応する視覚的ワードの少なくとも1つが前記第1画像に対応する視覚的ワードと同じである画像を決定し、複数の予備選択画像を得ることであって、前記画像ライブラリにおけるいずれか1つの画像は、少なくとも1つ視覚的ワードに対応し、前記第1画像は、少なくとも1つの視覚的ワードに対応する、ことと、
前記複数の予備選択画像のうち、対応する視覚的ワードベクトルと前記第1画像に対応する視覚的ワードベクトルとの類似度が最も高い複数の候補画像を決定することと、を含むことを特徴とする
項目6に記載の視覚的測位方法。
(項目8)
前記複数の予備選択画像のうち、対応する視覚的ワードベクトルと前記第1画像に対応する視覚的ワードベクトルとの類似度が最も高い複数の候補画像を決定することは、
前記複数の予備選択画像のうち、対応する視覚的ワードベクトルと前記第1画像に対応する視覚的ワードベクトルとの類似度が最も高い上位Qパーセントの画像を決定し、前記複数の候補画像を得ることであって、Qは、0より大きい実数である、ことを含むことを特徴とする
項目7に記載の視覚的測位方法。
(項目9)
前記複数の予備選択画像のうち、対応する視覚的ワードベクトルと前記第1画像に対応する視覚的ワードベクトルとの類似度が最も高い複数の候補画像を決定することは、
語彙ツリーを利用して、前記第1画像から抽出された特徴をターゲットワードベクトルに変換することであって、前記語彙ツリーは、前記測位されるべきシーンで収集された訓練画像から抽出された特徴をクラスタリングすることで得られたものである、ことと、
前記ターゲットワードベクトルと前記複数の予備選択画像のうちの各予備選択画像に対応する視覚的ワードベクトルとの類似度をそれぞれ算出することであって、前記複数の予備選択画像のうちのいずれか1つの予備選択画像に対応する視覚的ワードベクトルは、前記語彙ツリーを利用して、前記いずれか1つの予備選択画像から抽出された特徴により得た視覚的ワードベクトルである、ことと、
前記複数の予備選択画像のうち、対応する視覚的ワードベクトルと前記ターゲットワードベクトルとの類似度が最も高い複数の候補画像を決定することと、を含むことを特徴とする
項目7又は8に記載の視覚的測位方法。
(項目10)
前記語彙ツリーにおける各リーフノードは、1つの視覚的ワードに対応し、前記語彙ツリーにおける最終層のノードは、リーフノードであり、語彙ツリーを利用して、前記第1画像から抽出された特徴をターゲットワードベクトルに変換することは、
前記第1画像での、前記語彙ツリーにおける各リーフノードに対応する視覚的ワードに対応する重みを算出することと、
前記第1画像での、前記各リーフノードに対応する視覚的ワードに対応する重みを組み合わせて1つのベクトルを形成し、前記ターゲットワードベクトルを得ることと、を含むことを特徴とする
項目9に記載の視覚的測位方法。
(項目11)
前記語彙ツリーの各ノードは、1つのクラスタ中心に対応し、前記第1画像での、前記語彙ツリーに対応する各視覚的ワードに対応する重みを算出することは、
前記語彙ツリーを利用して、前記第1画像から抽出された特徴を分類し、ターゲットリーフノードに分類された中間特徴を得ることであって、前記ターゲットリーフノードは、前記語彙ツリーにおけるいずれか1つのリーフノードであり、ターゲットリーフノードは、ターゲット視覚的ワードに対応する、ことと、
前記中間特徴、前記ターゲット視覚的ワードの重み及び前記ターゲット視覚的ワードに対応するクラスタ中心に基づいて、前記第1画像での、前記ターゲット視覚的ワードに対応するターゲット重みを算出することであって、前記ターゲット重みは、前記ターゲット視覚的ワードの重みと正に相関し、前記ターゲット視覚的ワードの重みは、前記語彙ツリーを生成する時に前記ターゲット視覚的ワードに対応する特徴の数に基づいて決定される、ことと、を含むことを特徴とする
項目10に記載の視覚的測位方法。
(項目12)
前記中間特徴は、少なくとも1つのサブ特徴を含み、前記ターゲット重みは、前記中間特徴に含まれる各サブ特徴に対応する重みパラメータの和であり、前記サブ特徴に対応する重みパラメータは、特徴距離と負に相関し、前記特徴距離は、前記サブ特徴と対応するクラスタ中心とのハミング距離であることを特徴とする
項目11に記載の視覚的測位方法。
(項目13)
前記複数の候補画像と前記第1画像に対して特徴マッチングを行い、前記第1画像とマッチングした各候補画像の特徴の数を得ることは、
語彙ツリーに基づいて、前記第1画像から抽出された第3特徴をリーフノードに分類することであって、前記語彙ツリーは、前記測位されるべきシーンで抽出された画像から抽出された特徴をクラスタリングすることで得られたものであり、前記語彙ツリーの最終層のノードは、リーフノードであり、各リーフノードは、複数の特徴を含む、ことと、
各前記リーフノードにおける前記第3特徴と第4特徴に対して特徴マッチングを行い、各前記リーフノードにおける、前記第3特徴とマッチングした第4特徴を得ることであって、前記第4特徴は、ターゲット候補画像から抽出された特徴であり、前記ターゲット候補画像は、前記第1候補画像シーケンスに含まれるいずれか1つの画像である、ことと、
各前記リーフノードにおける、前記第3特徴とマッチングした第4特徴に基づいて、前記ターゲット候補画像の、前記第1画像とマッチングした特徴の数を得ることと、を含むことを特徴とする
項目6から12のうちいずれか一項に記載の視覚的測位方法。
(項目14)
前記F個の特徴、ポイントクラウドマップでの、前記F個の特徴に対応する空間座標点及び前記カメラの内部パラメータに基づいて、前記第1姿勢を決定した後、前記視覚的測位方法は、
変換行列及び前記第1姿勢に基づいて、前記カメラの三次元位置を決定することであって、前記変換行列は、前記ポイントクラウドマップの角度及び位置を変換し、前記ポイントクラウドマップの輪郭と屋内平面図をアライメントすることで得られたものである、ことを更に含むことを特徴とする
項目4から13のうちいずれか一項に記載の視覚的測位方法。
(項目15)
前記第1姿勢に基づいて前記カメラの位置を測位することに成功したと判定したことは、L対の特徴点の位置関係がいずれも前記第1姿勢に合致すると判定することであって、各対の特徴点のうちの1つの特徴点は前記第1画像から抽出されたものであり、もう1つの特徴点は、前記第1画像シーケンスにおける画像から抽出されたものであり、Lは、1より大きい整数である、ことを含むことを特徴とする
項目1から14のうちいずれか一項に記載の視覚的測位方法。
(項目16)
前記第1画像シーケンス及び前記第1画像に基づいて前記カメラの第1姿勢を決定する前に、前記視覚的測位方法は、
複数の画像シーケンスを取得することであって、各画像シーケンスは、測位されるべきシーンにおける1つ又は複数の領域を収集することで得られたものである、ことと、
前記複数の画像シーケンスに基づいて、前記ポイントクラウドマップを構築することであって、前記複数の画像シーケンスのうちのいずれか1つの画像シーケンスは、1つ又は複数の領域のサブポイントクラウドマップを構築するためのものであり、前記ポイントクラウドマップは、前記第1電子マップ及び前記第2電子マップを含む、ことと、を更に含むことを特徴とする
項目2から15のうちいずれか一項に記載の視覚的測位方法。
(項目17)
前記語彙ツリーを利用して、前記第1画像から抽出された特徴をターゲットワードベクトルに変換する前に、前記視覚的測位方法は、
前記測位されるべきシーンに対して撮影を行うことで得られた複数枚の訓練画像を取得することと、
前記複数枚の訓練画像に対して特徴抽出を行い、訓練特徴集合を得ることと、
前記訓練特徴集合における特徴に対して複数回のクラスタリングを行い、前記語彙ツリーを得ることと、を更に含むことを特徴とする
項目9から16のうちいずれか一項に記載の視覚的測位方法。
(項目18)
前記視覚的測位方法がサーバに適用され、前記画像ライブラリから第1候補画像シーケンスを決定する前に、前記視覚的測位方法は、
ターゲット機器からの前記第1画像を受信することであって、前記ターゲット機器に前記カメラが搭載された、ことを更に含むことを特徴とする
項目1から17のうちいずれか一項に記載の視覚的測位方法。
(項目19)
前記第1姿勢に基づいて前記カメラの位置を測位することに成功したと判定した後、前記視覚的測位方法は、
前記カメラの位置情報を前記ターゲット機器に送信することを更に含むことを特徴とする
項目18に記載の視覚的測位方法。
(項目20)
前記視覚的測位方法は、前記カメラを搭載した電子機器に適用されることを特徴とする
項目1から17のうちいずれか一項に記載の視覚的測位方法。
(項目21)
視覚的測位方法であって、
カメラによりターゲット画像を収集することと、
サーバにターゲット情報を送信することであって、前記ターゲット情報は、前記ターゲット画像又は前記ターゲット画像から抽出された特徴シーケンス、及び前記カメラの内部パラメータを含む、ことと、
位置情報を受信することであって、前記位置情報は、前記カメラの位置及び方向を示すためのものであり、前記位置情報は、前記サーバにより第2候補画像シーケンスに基づいて決定された、前記ターゲット画像を収集する時の前記カメラの位置情報であり、前記第2候補画像シーケンスは、前記サーバによりターゲットウィンドウに基づいて第1候補画像シーケンスにおける各フレームの画像の順番を調整することで得られたものであり、前記ターゲットウィンドウは、画像ライブラリから決定された、ターゲットフレーム画像を含む連続した複数フレームの画像であり、前記画像ライブラリは、電子マップを構築するためのものであり、前記ターゲットフレーム画像は、前記画像ライブラリにおける、第2画像とマッチングした画像であり、前記第2画像は、前記カメラにより第1画像を収集する前に収集された画像であり、前記第1候補画像シーケンスにおける各フレームの画像は、前記第1画像とのマッチング度の順番に応じてソートされる、ことと、
電子マップを表示することであって、前記電子マップに前記カメラの位置及び方向が含まれる、ことと、を含む、前記視覚的測位方法。
(項目22)
視覚的測位装置であって、
画像ライブラリから、第1候補画像シーケンスを決定するように構成される選別ユニットであって、前記画像ライブラリは、電子マップを構築するためのものであり、前記第1候補画像シーケンスにおける各フレームの画像は、第1画像とのマッチング度の順番に応じてソートされ、前記第1画像は、カメラにより収集された画像である、選別ユニットを備え、
前記選別ユニットは更に、ターゲットウィンドウに応じて、前記第1候補画像シーケンスにおける各フレームの画像の順番を調整し、第2候補画像シーケンスを得るように構成され、前記ターゲットウィンドウは、画像ライブラリから決定された、ターゲットフレームの画像を含む連続した複数フレームの画像であり、前記ターゲットフレームの画像は、前記画像ライブラリにおける、第2画像とマッチングした画像であり、前記第2画像は、前記カメラにより第1画像を収集する前に収集された画像であり、
前記視覚的測位装置は、前記第2候補画像シーケンスに基づいて、前記第1画像を収集する時の前記カメラのターゲット姿勢を決定するように構成される決定ユニットを更に備える、前記視覚的測位装置。
(項目23)
前記決定ユニットは更に、第1画像シーケンス及び前記第1画像に基づいて、前記カメラの第1姿勢を決定するように構成され、前記第1画像シーケンスは、前記画像ライブラリにおける、第1参照フレーム画像に隣接する連続した複数フレームの画像を含み、前記第1参照フレーム画像は、前記第2候補画像シーケンスに含まれ、
前記決定ユニットは更に、前記第1姿勢に基づいて前記カメラの位置を測位することに成功したと判定した場合、前記第1姿勢を前記ターゲット姿勢として決定するように構成されることを特徴とする
項目22に記載の視覚的測位装置。
(項目24)
前記決定ユニットは更に、前記第1姿勢に基づいて前記カメラの位置を測位することに失敗したと判定した場合、第2画像シーケンス及び前記第1画像に基づいて、前記カメラの第2姿勢を決定するように構成され、前記第2画像シーケンスは、前記画像ライブラリにおける、第2参照フレーム画像に隣接する連続した複数フレームの画像を含み、前記第2参照フレーム画像は、前記第2候補画像シーケンスにおける、前記第1参照フレーム画像の1フレーム後の画像又は1フレーム前の画像であり、前記決定ユニットは更に、前記第2姿勢に基づいて前記カメラの位置を測位することに成功したと判定した場合、前記第2姿勢を前記ターゲット姿勢として決定するように構成されることを特徴とする
項目23に記載の視覚的測位装置。
(項目25)
前記決定ユニットは、前記第1画像シーケンスにおける各画像から抽出された特徴のうち、前記第1画像から抽出された特徴とマッチングしたF個の特徴を決定するように構成され、Fは、0より大きい整数であり、前記決定ユニットは、前記F個の特徴、ポイントクラウドマップでの、前記F個の特徴に対応する空間座標点及び前記カメラの内部パラメータに基づいて、前記第1姿勢を決定するように構成され、前記ポイントクラウドマップは、測位されるべきシーンの電子マップであり、前記測位されるべきシーンは、前記カメラが前記第1画像を収集する時に所在するシーンであることを特徴とする
項目23又は24に記載の視覚的測位装置。
(項目26)
前記選別ユニットは、前記第1候補画像シーケンスにおける各フレームの画像が前記第1画像とのマッチング度の昇順に応じてソートされた場合、前記第1候補画像シーケンスにおける、前記ターゲットウィンドウに位置する画像を、前記第1候補画像シーケンスの最終位置に調整し、前記第1候補画像シーケンスにおける各フレームの画像が前記第1画像とのマッチング度の降順に応じてソートされた場合、前記第1候補画像シーケンスにおける、前記ターゲットウィンドウに位置する画像を、前記第1候補画像シーケンスの先頭位置に調整するように構成されることを特徴とする
項目22から25のうちいずれか一項に記載の視覚的測位装置。
(項目27)
前記選別ユニットは、前記第1候補画像シーケンスにおける各フレームの画像が前記第1画像とのマッチング度の昇順に応じてソートされた場合、前記第1候補画像シーケンスにおける、前記ターゲットウィンドウに位置する画像を、前記第1候補画像シーケンスの最終位置に調整し、
前記第1候補画像シーケンスにおける各フレームの画像が前記第1画像とのマッチング度の降順に応じてソートされた場合、前記第1候補画像シーケンスにおける、前記ターゲットウィンドウに位置する画像を、前記第1候補画像シーケンスの先頭位置に調整するように構成されることを特徴とする
項目26に記載の視覚的測位装置。
(項目28)
前記選別ユニットは、前記画像ライブラリにおける、対応する視覚的ワードの少なくとも1つが前記第1画像に対応する視覚的ワードと同じである画像を決定し、複数の予備選択画像を得るように構成され、前記画像ライブラリにおけるいずれか1つの画像は、少なくとも1つ視覚的ワードに対応し、前記第1画像は、少なくとも1つの視覚的ワードに対応し、
前記選別ユニットは、前記複数の予備選択画像のうち、対応する視覚的ワードベクトルと前記第1画像に対応する視覚的ワードベクトルとの類似度が最も高い複数の候補画像を決定するように構成されることを特徴とする
項目27に記載の視覚的測位装置。
(項目29)
前記選別ユニットは、前記複数の予備選択画像のうち、対応する視覚的ワードベクトルと前記第1画像に対応する視覚的ワードベクトルとの類似度が最も高い上位Qパーセントの画像を決定し、前記複数の候補画像を得るように構成され、Qは、0より大きい実数であることを特徴とする
項目28に記載の視覚的測位装置。
(項目30)
前記選別ユニットは、語彙ツリーを利用して、前記第1画像から抽出された特徴をターゲットワードベクトルに変換するように構成され、前記語彙ツリーは、前記測位されるべきシーンで収集された訓練画像から抽出された特徴をクラスタリングすることで得られたものであり、
前記選別ユニットは、前記ターゲットワードベクトルと前記複数の予備選択画像のうちの各予備選択画像に対応する視覚的ワードベクトルとの類似度をそれぞれ算出するように構成され、前記複数の予備選択画像のうちのいずれか1つの予備選択画像に対応する視覚的ワードベクトルは、前記語彙ツリーを利用して、前記いずれか1つの予備選択画像から抽出された特徴により得た視覚的ワードベクトルであり、
前記選別ユニットは、前記複数の予備選択画像のうち、対応する視覚的ワードベクトルと前記ターゲットワードベクトルとの類似度が最も高い複数の候補画像を決定するように構成されることを特徴とする
項目28又は29に記載の視覚的測位装置。
(項目31)
前記語彙ツリーにおける各リーフノードは、1つの視覚的ワードに対応し、前記語彙ツリーにおける最終層のノードは、リーフノードであり、
前記選別ユニットは、前記第1画像での、前記語彙ツリーにおける各リーフノードに対応する視覚的ワードに対応する重みを算出し、
前記第1画像での、前記各リーフノードに対応する視覚的ワードに対応する重みを組み合わせて1つのベクトルを形成し、前記ターゲットワードベクトルを得るように構成されることを特徴とする
項目30に記載の視覚的測位装置。
(項目32)
前記語彙ツリーの各ノードは、1つのクラスタ中心に対応し、
前記選別ユニットは、
前記語彙ツリーを利用して、前記第1画像から抽出された特徴を分類し、ターゲットリーフノードに分類された中間特徴を得るように構成され、前記ターゲットリーフノードは、前記語彙ツリーにおけるいずれか1つのリーフノードであり、ターゲットリーフノードは、ターゲット視覚的ワードに対応し、
前記選別ユニットは、前記中間特徴、前記ターゲット視覚的ワードの重み及び前記ターゲット視覚的ワードに対応するクラスタ中心に基づいて、前記第1画像での、前記ターゲット視覚的ワードに対応するターゲット重みを算出するように構成され、前記ターゲット重みは、前記ターゲット視覚的ワードの重みと正に相関し、前記ターゲット視覚的ワードの重みは、前記語彙ツリーを生成する時に前記ターゲット視覚的ワードに対応する特徴の数に基づいて決定されることを特徴とする
項目31に記載の視覚的測位装置。
(項目33)
前記中間特徴は、少なくとも1つのサブ特徴を含み、前記ターゲット重みは、前記中間特徴に含まれる各サブ特徴に対応する重みパラメータの和であり、前記サブ特徴に対応する重みパラメータは、特徴距離と負に相関し、前記特徴距離は、前記サブ特徴と対応するクラスタ中心とのハミング距離であることを特徴とする
項目32に記載の視覚的測位装置。
(項目34)
前記選別ユニットは、語彙ツリーに基づいて、前記第1画像から抽出された第3特徴をリーフノードに分類するように構成され、前記語彙ツリーは、前記測位されるべきシーンで抽出された画像から抽出された特徴をクラスタリングすることで得られたものであり、前記語彙ツリーの最終層のノードは、リーフノードであり、各リーフノードは、複数の特徴を含み、
前記選別ユニットは、各前記リーフノードにおける前記第3特徴と第4特徴に対して特徴マッチングを行い、各前記リーフノードにおける、前記第3特徴とマッチングした第4特徴を得るように構成され、前記第4特徴は、ターゲット候補画像から抽出された特徴であり、前記ターゲット候補画像は、前記第1候補画像シーケンスに含まれるいずれか1つの画像であり、
前記選別ユニットは、各前記リーフノードにおける、前記第3特徴とマッチングした第4特徴に基づいて、前記ターゲット候補画像の、前記第1画像とマッチングした特徴の数を得るように構成されることを特徴とする
項目27から33のうちいずれか一項に記載の視覚的測位装置。
(項目35)
前記決定ユニットは更に、変換行列及び前記第1姿勢に基づいて、前記カメラの三次元位置を決定するように構成され、前記変換行列は、前記ポイントクラウドマップの角度及び位置を変換し、前記ポイントクラウドマップの輪郭と屋内平面図をアライメントすることで得られたものであることを特徴とする
項目25から34のうちいずれか一項に記載の視覚的測位装置。
(項目36)
前記決定ユニットは、L対の特徴点の位置関係がいずれも前記第1姿勢に合致すると判定するように構成され、各対の特徴点のうちの1つの特徴点は前記第1画像から抽出されたものであり、もう1つの特徴点は、前記第1画像シーケンスにおける画像から抽出されたものであり、Lは、1より大きい整数であることを特徴とする
項目22から35のうちいずれか一項に記載の視覚的測位装置。
(項目37)
前記視覚的測位装置は、
複数の画像シーケンスを取得するように構成される第1取得ユニットであって、各画像シーケンスは、測位されるべきシーンにおける1つ又は複数の領域を収集することで得られたものである、第1取得ユニットと、
前記複数の画像シーケンスに基づいて、前記ポイントクラウドマップを構築するように構成される地図構築ユニットであって、前記複数の画像シーケンスのうちのいずれか1つの画像シーケンスは、1つ又は複数の領域のサブポイントクラウドマップを構築するためのものであり、前記ポイントクラウドマップは、前記第1電子マップ及び前記第2電子マップを含む、地図構築ユニットと、を更に備えることを特徴とする
項目23から36のうちいずれか一項に記載の視覚的測位装置。
(項目38)
前記視覚的測位装置は、
前記測位されるべきシーンに対して撮影を行うことで得られた複数枚の訓練画像を取得するように構成される第2取得ユニットと、
前記複数枚の訓練画像に対して特徴抽出を行い、訓練特徴集合を得るように構成される特徴抽出ユニットと、
前記訓練特徴集合における特徴に対して複数回のクラスタリングを行い、前記語彙ツリーを得るように構成されるクラスタリングユニットと、を更に備えることを特徴とする
項目30から37のうちいずれか一項に記載の視覚的測位装置。
(項目39)
前記視覚的測位装置は、サーバであり、前記視覚的測位装置は、
ターゲット機器からの前記第1画像を受信するように構成される受信ユニットであって、前記ターゲット機器に前記カメラが搭載された、受信ユニットを更に備えることを特徴とする
項目22から37のうちいずれか一項に記載の視覚的測位装置。
(項目40)
前記視覚的測位装置は、
前記カメラの位置情報を前記ターゲット機器に送信するように構成される送信ユニットを更に備えることを特徴とする
項目39に記載の視覚的測位装置。
(項目41)
前記視覚的測位装置は、前記カメラを搭載した電子機器であることを特徴とする
項目22から38のうちいずれか一項に記載の視覚的測位装置。
(項目42)
端末装置であって、
ターゲット画像を収集するように構成されるカメラと、
サーバにターゲット情報を送信するように構成される送信ユニットであって、前記ターゲット情報は、前記ターゲット画像又は前記ターゲット画像から抽出された特徴シーケンス、及び前記カメラの内部パラメータを含む、送信ユニットと、
位置情報を受信するように構成される受信ユニットであって、前記位置情報は、前記カメラの位置及び方向を示すためのものであり、前記位置情報は、前記サーバにより第2候補画像シーケンスに基づいて決定された、前記ターゲット画像を収集する時の前記カメラの位置情報であり、前記第2候補画像シーケンスは、前記サーバによりターゲットウィンドウに基づいて第1候補画像シーケンスにおける各フレームの画像の順番を調整することで得られたものであり、前記ターゲットウィンドウは、画像ライブラリから決定された、ターゲットフレーム画像を含む連続した複数フレームの画像であり、前記画像ライブラリは、電子マップを構築するためのものであり、前記ターゲットフレーム画像は、前記画像ライブラリにおける、第2画像とマッチングした画像であり、前記第2画像は、前記カメラにより第1画像を収集する前に収集された画像であり、前記第1候補画像シーケンスにおける各フレームの画像は、前記第1画像とのマッチング度の順番に応じてソートされる、受信ユニットと、
電子マップを表示するように構成される表示ユニットであって、前記電子マップに前記カメラの位置及び方向が含まれる、表示ユニットと、を備える、前記端末装置。
(項目43)
視覚的測位システムであって、サーバと、端末装置と、を備え、前記サーバは、項目1から19のうちいずれか一項に記載の視覚的測位方法を実行するように構成され、前記端末装置は、項目21に記載の視覚的測位方法を実行するように構成される、前記視覚的測位システム。
(項目44)
電子機器であって、
プログラムを記憶するためのメモリと、
前記メモリに記憶された前記プログラムを実行するように構成されるプロセッサと、を備え、前記プログラムが実行される時、前記プロセッサは、項目1から20のうちいずれか一項に記載の視覚的測位方法を実行する、前記電子機器。
(項目45)
コンピュータ可読記憶媒体であって、前記コンピュータ可読記憶媒体にコンピュータプログラムが記憶されており、該コンピュータプログラムは、プログラム命令を含み、前記プログラム命令がプロセッサにより実行される時、前記プロセッサに、項目1から20のうちいずれか一項に記載の視覚的測位方法を実行させる、前記コンピュータ可読記憶媒体。
(項目46)
コンピュータプログラム製品であって、前記コンピュータプログラムは、プログラム命令を含み、前記プログラムがプロセッサにより実行される時、前記プロセッサに、項目1から20のうちいずれか一項に記載の視覚的測位方法を実行させる、前記コンピュータプログラム製品。
画像の特徴点は、例えば、輪郭点、暗い領域における輝点、明るい領域における暗点などのような画像における著しい点と理解されてもよい。該定義を得るために、特徴周囲の画像階調値に基づいて、候補特徴点の周囲の画素値を検出し、候補点の周囲領域において、該候補点の階調値との差が大きい画素点の数が十分であると、候補点を特徴点と認める。特徴点を得た後、1つの方式でこれらの特徴点の属性を記述する必要がある。これらの属性の出力は、該特徴点の記述子(Feature Descritors)と呼ばれる。ORBアルゴリズムは、特徴点を迅速に抽出して記述するアルゴリズムである。ORBアルゴリズムは、FAST(Features from Accelerated Segment Test)アルゴリズムを利用して特徴点を検出する。FASTアルゴリズムは、コーナー検出に用いられるアルゴリズムである。該アルゴリズムの原理は、画像における検出点を取り、該点を円心とした周囲の16個の画素点により、検測点がコーナーであるかどうかを判定することである。ORBアルゴリズムは、BRIEFアルゴリズムを利用して1つの特徴点の記述子を算出する。BRIEFアルゴリズムの要旨は、キーポイントPの周囲で、所定のモデルでN個のポイント対を選択し、該N個のポイント対の比較結果を組み合わせて記述子とすることである。
運動からの構造復元(Structure From Motion:SFM)アルゴリズムは、収集された種々の無秩序なピクチャに基づいて三次元再構築を行うオフラインアルゴリズムである。核心的なアルゴリズムStructure From Motionを行う前に、準備を行い、適切なピクチャを選別する必要がある。まず、ピクチャから焦点距離情報を抽出し、続いて、SIFTなどの特徴抽出アルゴリズムを利用して画像特徴を抽出し、kd-treeモデルを利用して2枚のピクチャの特徴点同士のユークリッド距離を算出して特徴点のマッチングを行うことで、マッチングした特徴点の数が要件を満たす画像対を得る。SIFT(Scale-Invariant Feature Transform)は、局所的特徴を検出するアルゴリズムである。kd-treeは、BST(Binary Search Tree)から進化したものであり、高次元インデックスツリー型データ構造である。大規模な高次元データに対する密な探索比較シーンに適用されることが多く、主に、最近傍探索(Nearest Neighbor)及び近似最近傍探索(Approximate Nearest Neighbor)である。コンピュータビジョンにおいて主に、画像検索及び認識における高次元特徴ベクトルの探索及び比較である。各画像マッチング対に対して、に対してエピポーラ幾何を算出し、基礎行列(即ち、F行列)を推定し、ransacアルゴリズムによりマッチング対を最適化して改良する。このようなマッチング対において、検出されるまでチェーンのように伝達される特徴点があれば、軌跡を形成することができる。続いて、Structure From Motionに入る。肝心なステップ1において、好適な画像対を選択してバンドル調整(Bundle Adjustment:BA)プロセス全体を初期化する。まず、選択された初期されるべき2枚のピクチャに対して第1回のBAをおコアに、続いて、新たなピクチャを繰り返して追加し、新たなBAを行い、追加可能な好適ピクチャがなくなければ、BAを終了する。カメラ推定パラメータ及びシーンの幾何情報を得る。つまり、スパース3Dポイントクラウド(ポイントクラウドマップ)を得る。
ランダムサンプルコンセンサスアルゴリズム(random sample consensus,RANSAC)は、反復の方式で、アウトライアを含む一組の観測されるデータから、数学的モデルのパラメータを推算する。RANSACアルゴリズムの基本的仮定は、サンプルにインライア(inliers:モデルにより記述される可能なデータ)が含まれ、アウトライア(outliers:正常な範囲から大きく外れて数学的モデルに適応できないデータ)も含まれ、つまり、データ集合に騒音が含まれることである。これらのアウトライアは、誤った測定、誤った仮定、誤った演算により発生したものである可能性がある。RANSACアルゴリズムの入力は、一組の観測データ、観測データを解釈であるか又は観測データに適応できるパラメータ化モデル、幾つかの信頼できるパラメータである。RANSACは、データにおける一組のランダム部分集合を繰り返して選択することでターゲットを達成する。選択された部分集合は、インライアポイントと過程され、下記方法で検証される。ステップ1において、1つのモデルが仮設したインライアポイントに適応し、つまり、全ての未知パラメータは、いずれも仮設したインライアポイントにより算出されることが可能である。ステップ2において、ステップ1で得られたモデルにより、全ての他のデータをテストする。あるポイントが推定したモデルに適用可能であれば、これもインライアポイントと認める。ステップ3において、仮設したインライアポイントと分類されたポイントが十分に多ければ、推定したモデルは、十分に合理的である。ステップ4において、モデルが初期仮設インライアポイントのみにより推定されたため、仮設した全てのインライアポイントにより、モデルを再推定する。ステップ5において、最後に、インライアポイントとモデルの誤り率を推定することでモデルを評価する。該プロセスは、所定の回数で繰り返して実行される。各回で発生したモデルは、インライアポイントが少な過ぎるため捨てられるか又は既存のモデルより好適であるため利用される。
語彙ツリーは、視覚的語彙(視覚的ワードとも呼ばれる)に基づいて画像を検出するための効率的なデータ構造である。膨大な画像ライブラリに対して、1つのツリー構造は、マッチングした画像を探すために全てのキーワードを走査することなく、準線形時間内で行われるキーワード検索を許容する。従って、検索速度を大幅に向上させることができる。以下、語彙ツリーの構築工程を紹介する。ステップ1において、全ての訓練画像のORB特徴を抽出する。各訓練画像に対して約3000個の特徴を抽出する。訓練画像は、測位されるべきシーンから収集される。ステップ2において、K平均法(k-mean)により、抽出された全ての特徴をK個のクラスタにクラスタリングする。各クラスタに対して同様な方式で、K個のクラスタにクラスタリングしてL層まで継続し、各層における各クラスタ中心を保留し、最終的に語彙ツリーを生成する。K及びLはいずれも1より大きい整数である。例えば、Kは、10であり、Lは、6である。リーフノードである第L層のノードは、最終的視覚的ワードである。語彙ツリーにおける1つのノードは、1つのクラスタ中心である。図1は、本願の実施例による語彙ツリーを示す概略図である。図1に示すように、語彙ツリーは、計(L+1)層を含み、第1層は、1つのルートノードを含み、最終層は、複数のリーフノードを含む。
画像ライブラリから、第1候補画像シーケンスを決定するように構成される選別ユニットであって、該画像ライブラリは、電子マップを構築するためのものであり、該第1候補画像シーケンスにおける各フレームの画像は、第1画像とのマッチング度の順番に応じてソートされ、該第1画像は、カメラにより収集された画像である、選別ユニット701を備え、
選別ユニット701は更に、ターゲットウィンドウに応じて、該第1候補画像シーケンスにおける各フレームの画像の順番を調整し、第2候補画像シーケンスを得るように構成され、該ターゲットウィンドウは、画像ライブラリから決定された、ターゲットフレームの画像を含む連続した複数フレームの画像であり、該ターゲットフレームの画像は、該画像ライブラリにおける、第2画像とマッチングした画像であり、該第2画像は、該カメラにより第1画像を収集する前に収集された画像であり、
該装置は、該第2候補画像シーケンスに基づいて、該第1画像を収集する時の該カメラのターゲット姿勢を決定するように構成される決定ユニット702を更に備える。
決定ユニット702は、該第1姿勢に基づいて該カメラの位置を測位することに成功したと判定した場合、該第1姿勢を該ターゲット姿勢として決定するように構成される。
決定ユニット702は、該F個の特徴、ポイントクラウドマップでの、該F個の特徴に対応する空間座標点及び該カメラの内部パラメータに基づいて、該第1姿勢を決定するように構成され、該ポイントクラウドマップは、測位されるべきシーンの電子マップであり、該測位されるべきシーンは、該カメラが前記第1画像を収集する時に所在するシーンである。
該第1候補画像シーケンスにおける各フレームの画像が該第1画像とのマッチング度の降順に応じてソートされた場合、該第1候補画像シーケンスにおける、該ターゲットウィンドウに位置する画像を、該第1候補画像シーケンスの先頭位置に調整するように構成される。
選別ユニット701は、該ターゲットワードベクトルと該複数の予備選択画像のうちの各予備選択画像に対応する視覚的ワードベクトルとの類似度をそれぞれ算出するように構成され、該複数の予備選択画像のうちのいずれか1つの予備選択画像に対応する視覚的ワードベクトルは、該語彙ツリーを利用して、該いずれか1つの予備選択画像から抽出された特徴により得た視覚的ワードベクトルであり、
選別ユニット701は、該複数の予備選択画像のうち、対応する視覚的ワードベクトルと該ターゲットワードベクトルとの類似度が最も高い複数の候補画像を決定するように構成される。
選別ユニット701は、該第1画像での、該語彙ツリーにおける各リーフノードに対応する視覚的ワードに対応する重みを算出し、該第1画像での、該各リーフノードに対応する視覚的ワードに対応する重みを組み合わせて1つのベクトルを形成し、該ターゲットワードベクトルを得るように構成される。
選別ユニット701は、該語彙ツリーを利用して、該第1画像から抽出された特徴を分類し、ターゲットリーフノードに分類された中間特徴を得るように構成され、該ターゲットリーフノードは、該語彙ツリーにおけるいずれか1つのリーフノードであり、ターゲットリーフノードは、ターゲット視覚的ワードに対応し、
選別ユニット701は、該中間特徴、該ターゲット視覚的ワードの重み及び該ターゲット視覚的ワードに対応するクラスタ中心に基づいて、該第1画像での、該ターゲット視覚的ワードに対応するターゲット重みを算出するように構成され、該ターゲット重みは、該ターゲット視覚的ワードの重みと正に相関し、該ターゲット視覚的ワードの重みは、該語彙ツリーを生成する時に該ターゲット視覚的ワードに対応する特徴の数に基づいて決定される。
選別ユニット701は、各該リーフノードにおける該第3特徴と第4特徴に対して特徴マッチングを行い、各該リーフノードにおける、該第3特徴とマッチングした第4特徴を得るように構成され、該第4特徴は、ターゲット候補画像から抽出された特徴であり、該ターゲット候補画像は、該第1候補画像シーケンスに含まれるいずれか1つの画像であり、
選別ユニット701は、各該リーフノードにおける、該第3特徴とマッチングした第4特徴に基づいて、該ターゲット候補画像の、該第1画像とマッチングした特徴の数を得るように構成される。
複数の画像シーケンスを取得するように構成される第1取得ユニット703であって、各画像シーケンスは、測位されるべきシーンにおける1つ又は複数の領域を収集することで得られたものである、第1取得ユニット703と、
該複数の画像シーケンスに基づいて、該ポイントクラウドマップを構築するように構成される地図構築ユニット704であって、該複数の画像シーケンスのうちのいずれか1つの画像シーケンスは、1つ又は複数の領域のサブポイントクラウドマップを構築するためのものであり、該ポイントクラウドマップは、該第1電子マップ及び該第2電子マップを含む、地図構築ユニット704と、を更に備える。
該測位されるべきシーンに対して撮影を行うことで得られた複数枚の訓練画像を取得するように構成される第2取得ユニット705と、
該複数枚の訓練画像に対して特徴抽出を行い、訓練特徴集合を得るように構成される特徴抽出ユニット706と、
該訓練特徴集合における特徴に対して複数回のクラスタリングを行い、該語彙ツリーを得るように構成されるクラスタリングユニット707と、を更に備える。第2取得ユニット705と第1取得ユニット703は、同一のユニットであってもよく、異なるユニットであってもよい。
該カメラの位置情報を該ターゲット機器に送信するように構成される送信ユニット709を更に備える。
ターゲット画像を収集するように構成されるカメラ801と、
サーバにターゲット情報を送信するように構成される送信ユニット802であって、該ターゲット情報は、該ターゲット画像又は該ターゲット画像から抽出された特徴シーケンス、及び該カメラの内部パラメータを含む、送信ユニット802と、
位置情報を受信するように構成される受信ユニット803であって、該位置情報は、該カメラの位置及び方向を示すためのものであり、該位置情報は、該サーバにより第2候補画像シーケンスに基づいて決定された、該ターゲット画像を収集する時の該カメラの位置情報であり、該第2候補画像シーケンスは、該サーバによりターゲットウィンドウに基づいて第1候補画像シーケンスにおける各フレームの画像の順番を調整することで得られたものであり、該ターゲットウィンドウは、画像ライブラリから決定された、ターゲットフレーム画像を含む連続した複数フレームの画像であり、該画像ライブラリは、電子マップを構築するためのものであり、該ターゲットフレーム画像は、該画像ライブラリにおける、第2画像とマッチングした画像であり、該第2画像は、該カメラにより第1画像を収集する前に収集された画像であり、該第1候補画像シーケンスにおける各フレームの画像は、該第1画像とのマッチング度の順番に応じてソートされる、受信ユニット803と、
電子マップを表示するように構成される表示ユニット804であって、該電子マップに該カメラの位置及び方向が含まれる、表示ユニット804と、を備える。
Claims (18)
- 電子機器が実行する視覚的測位方法であって、前記視覚的測位方法は、
画像ライブラリから、第1候補画像シーケンスを決定することであって、前記画像ライブラリは、電子マップを構築するためのものであり、前記第1候補画像シーケンスにおける各フレームの画像は、第1画像とのマッチング度の順番に応じてソートされ、前記第1画像は、カメラにより収集された画像である、ことと、
ターゲットウィンドウに応じて、前記第1候補画像シーケンスにおける各フレームの画像の順番を調整し、第2候補画像シーケンスを得ることであって、前記ターゲットウィンドウは、画像ライブラリから決定された、ターゲットフレームの画像と、前記ターゲットフレームの画像の前後の連続した複数フレームの画像とを含み、前記ターゲットフレームの画像は、前記画像ライブラリにおける、第2画像とマッチングした画像であり、前記第2画像は、前記カメラにより第1画像を収集する前に収集された画像である、ことと、
前記第2候補画像シーケンスに基づいて、前記第1画像を収集する時の前記カメラのターゲット姿勢を決定することと
を含み、
前記ターゲットウィンドウに応じて、前記第1候補画像シーケンスにおける各フレームの画像の順番を調整し、第2候補画像シーケンスを得ることは、
前記第1候補画像シーケンスにおける各フレームの画像が前記第1画像とのマッチング度の昇順に応じてソートされた場合、前記第1候補画像シーケンスにおける、前記ターゲットウィンドウに位置する画像を、前記第1候補画像シーケンスの最終位置に調整することと、
前記第1候補画像シーケンスにおける各フレームの画像が前記第1画像とのマッチング度の降順に応じてソートされた場合、前記第1候補画像シーケンスにおける、前記ターゲットウィンドウに位置する画像を、前記第1候補画像シーケンスの先頭位置に調整することと
を含み、
前記第2候補画像シーケンスに基づいて、前記第1画像を収集する時の前記カメラのターゲット姿勢を決定することは、
第1画像シーケンスおよび前記第1画像に基づいて、前記カメラの第1姿勢を決定することであって、前記第1画像シーケンスは、前記画像ライブラリにおける、第1参照フレーム画像に隣接する連続した複数フレームの画像を含み、前記第1参照フレーム画像は、前記第2候補画像シーケンスに含まれる、ことと、
前記第1姿勢に基づいて前記カメラの位置を測位することに成功したと判定した場合、前記第1姿勢を前記ターゲット姿勢として決定することと
を含み、
前記第1画像シーケンスおよび前記第1画像に基づいて、前記カメラの第1姿勢を決定することは、
前記第1画像シーケンスにおける各画像から抽出された特徴のうち、前記第1画像から抽出された特徴とマッチングしたF個の特徴を決定することであって、Fは、0より大きい整数である、ことと、
パースペクティブnポイント(PnP)アルゴリズムを用いて、前記F個の特徴、ポイントクラウドマップでの、前記F個の特徴に対応する空間座標点および前記カメラの内部パラメータに基づいて、前記第1姿勢を決定することであって、前記ポイントクラウドマップは、測位されるべきシーンの電子マップであり、前記測位されるべきシーンは、前記カメラが前記第1画像を収集する時に所在するシーンである、ことと
を含む、視覚的測位方法。 - 前記第1画像シーケンスおよび前記第1画像に基づいて、前記カメラの第1姿勢を決定した後、前記視覚的測位方法は、
前記第1姿勢に基づいて前記カメラの位置を測位することに失敗したと判定した場合、第2画像シーケンスおよび前記第1画像に基づいて、前記カメラの第2姿勢を決定することであって、前記第2画像シーケンスは、前記画像ライブラリにおける、第2参照フレーム画像に隣接する連続した複数フレームの画像を含み、前記第2参照フレーム画像は、前記第2候補画像シーケンスにおける、前記第1参照フレーム画像の1フレーム後の画像または1フレーム前の画像である、ことと、
前記第2姿勢に基づいて前記カメラの位置を測位することに成功したと判定した場合、前記第2姿勢を前記ターゲット姿勢として決定することと
を更に含む、請求項1に記載の視覚的測位方法。 - 前記画像ライブラリから、第1候補画像シーケンスを決定することは、
前記画像ライブラリにおける、対応する視覚的ワードベクトルと前記第1画像に対応する視覚的ワードベクトルとの類似度が最も高い複数の候補画像を決定することであって、前記画像ライブラリにおけるいずれか1つの画像は、1つの視覚的ワードベクトルに対応し、前記画像ライブラリにおける画像は、ターゲット機器が前記第1画像を収集する時に所在する測位されるべきシーンの電子マップを構築するためのものである、ことと、
前記複数の候補画像をそれぞれ前記第1画像と特徴マッチングし、各候補画像の、前記第1画像とマッチングした特徴の数を得ることと、
前記複数の候補画像のうち、前記第1画像とマッチングした特徴の数が最も多いM個の画像を取得し、前記第1候補画像シーケンスを得ることと
を含む、請求項1または請求項2に記載の視覚的測位方法。 - 前記画像ライブラリにおける、対応する視覚的ワードベクトルと前記第1画像に対応する視覚的ワードベクトルとの類似度が最も高い複数の候補画像を決定することは、
前記画像ライブラリにおける、対応する視覚的ワードの少なくとも1つが前記第1画像に対応する視覚的ワードと同じである画像を決定し、複数の予備選択画像を得ることであって、前記画像ライブラリにおけるいずれか1つの画像は、少なくとも1つ視覚的ワードに対応し、前記第1画像は、少なくとも1つの視覚的ワードに対応する、ことと、
前記複数の予備選択画像のうち、対応する視覚的ワードベクトルと前記第1画像に対応する視覚的ワードベクトルとの類似度が最も高い複数の候補画像を決定することと
を含み、
前記複数の予備選択画像のうち、対応する視覚的ワードベクトルと前記第1画像に対応する視覚的ワードベクトルとの類似度が最も高い複数の候補画像を決定することは、
前記複数の予備選択画像のうち、対応する視覚的ワードベクトルと前記第1画像に対応する視覚的ワードベクトルとの類似度が最も高い上位Qパーセントの画像を決定し、前記複数の候補画像を得ることを含み、Qは、0より大きい実数である、請求項3に記載の視覚的測位方法。 - 前記複数の予備選択画像のうち、対応する視覚的ワードベクトルと前記第1画像に対応する視覚的ワードベクトルとの類似度が最も高い複数の候補画像を決定することは、
語彙ツリーを利用して、前記第1画像から抽出された特徴をターゲットワードベクトルに変換することであって、前記語彙ツリーは、前記測位されるべきシーンで収集された訓練画像から抽出された特徴をクラスタリングすることで得られたものである、ことと、
前記ターゲットワードベクトルと前記複数の予備選択画像のうちの各予備選択画像に対応する視覚的ワードベクトルとの類似度をそれぞれ算出することであって、前記複数の予備選択画像のうちのいずれか1つの予備選択画像に対応する視覚的ワードベクトルは、前記語彙ツリーを利用して、前記いずれか1つの予備選択画像から抽出された特徴により得た視覚的ワードベクトルである、ことと、
前記複数の予備選択画像のうち、対応する視覚的ワードベクトルと前記ターゲットワードベクトルとの類似度が最も高い複数の候補画像を決定することと
を含む、請求項4に記載の視覚的測位方法。 - 前記語彙ツリーにおける各リーフノードは、1つの視覚的ワードに対応し、前記語彙ツリーにおける最終層のノードは、リーフノードであり、語彙ツリーを利用して、前記第1画像から抽出された特徴をターゲットワードベクトルに変換することは、
前記第1画像での、前記語彙ツリーにおける各リーフノードに対応する視覚的ワードに対応する重みを算出することと、
前記第1画像での、前記各リーフノードに対応する視覚的ワードに対応する重みを組み合わせて1つのベクトルを形成し、前記ターゲットワードベクトルを得ることと
を含み、
前記語彙ツリーの各ノードは、1つのクラスタ中心に対応し、前記第1画像での、前記語彙ツリーに対応する各視覚的ワードに対応する重みを算出することは、
前記語彙ツリーを利用して、前記第1画像から抽出された特徴を分類し、ターゲットリーフノードに分類された中間特徴を得ることであって、前記ターゲットリーフノードは、前記語彙ツリーにおけるいずれか1つのリーフノードであり、ターゲットリーフノードは、ターゲット視覚的ワードに対応する、ことと、
前記中間特徴、前記ターゲット視覚的ワードの重みおよび前記ターゲット視覚的ワードに対応するクラスタ中心に基づいて、前記第1画像での、前記ターゲット視覚的ワードに対応するターゲット重みを算出することであって、前記ターゲット重みは、前記ターゲット視覚的ワードの重みと正に相関し、前記ターゲット視覚的ワードの重みは、前記語彙ツリーを生成する時に前記ターゲット視覚的ワードに対応する特徴の数に基づいて決定される、ことと
を含み、
前記中間特徴は、少なくとも1つのサブ特徴を含み、前記ターゲット重みは、前記中間特徴に含まれる各サブ特徴に対応する重みパラメータの和であり、前記サブ特徴に対応する重みパラメータは、特徴距離と負に相関し、前記特徴距離は、前記サブ特徴と対応するクラスタ中心とのハミング距離である、請求項5に記載の視覚的測位方法。 - 前記複数の候補画像と前記第1画像とに対して特徴マッチングを行い、前記第1画像とマッチングした各候補画像の特徴の数を得ることは、
語彙ツリーに基づいて、前記第1画像から抽出された第3特徴をリーフノードに分類す
ることであって、前記語彙ツリーは、前記測位されるべきシーンで抽出された画像から抽出された特徴をクラスタリングすることで得られたものであり、前記語彙ツリーの最終層のノードは、リーフノードであり、各リーフノードは、複数の特徴を含む、ことと、
各前記リーフノードにおける前記第3特徴と第4特徴とに対して特徴マッチングを行い、各前記リーフノードにおける、前記第3特徴とマッチングした第4特徴を得ることであって、前記第4特徴は、ターゲット候補画像から抽出された特徴であり、前記ターゲット候補画像は、前記第1候補画像シーケンスに含まれるいずれか1つの画像である、ことと、
各前記リーフノードにおける、前記第3特徴とマッチングした第4特徴に基づいて、前記ターゲット候補画像の、前記第1画像とマッチングした特徴の数を得ることと
を含む、請求項3~6のいずれか一項に記載の視覚的測位方法。 - 前記F個の特徴、ポイントクラウドマップでの、前記F個の特徴に対応する空間座標点および前記カメラの内部パラメータに基づいて、前記第1姿勢を決定した後、前記視覚的測位方法は、
変換行列および前記第1姿勢に基づいて、前記カメラの三次元位置を決定することをさらに含み、前記変換行列は、前記ポイントクラウドマップの角度および位置を変換し、前記ポイントクラウドマップの輪郭と屋内平面図をアライメントすることで得られたものである、請求項1~7のいずれか一項に記載の視覚的測位方法。 - 前記第1姿勢に基づいて前記カメラの位置を測位することに成功したと判定したことは、L対の特徴点の位置関係がいずれも前記第1姿勢に合致すると判定することを含み、各対の特徴点のうちの1つの特徴点は、前記第1画像から抽出されたものであり、もう1つの特徴点は、前記第1画像シーケンスにおける画像から抽出されたものであり、Lは、1より大きい整数である、請求項1~8のいずれか一項に記載の視覚的測位方法。
- 前記第1画像シーケンスおよび前記第1画像に基づいて前記カメラの第1姿勢を決定する前に、前記視覚的測位方法は、
複数の画像シーケンスを取得することであって、各画像シーケンスは、測位されるべきシーンにおける1つまたは複数の領域を収集することで得られたものである、ことと、
前記複数の画像シーケンスに基づいて、前記ポイントクラウドマップを構築することであって、前記複数の画像シーケンスのうちのいずれか1つの画像シーケンスは、1つまたは複数の領域のサブポイントクラウドマップを構築するためのものであり、前記ポイントクラウドマップは、第1電子マップおよび第2電子マップを含む、ことと
を更に含む、請求項1~9のいずれか一項に記載の視覚的測位方法。 - 前記語彙ツリーを利用して、前記第1画像から抽出された特徴をターゲットワードベクトルに変換する前に、前記視覚的測位方法は、
前記測位されるべきシーンに対して撮影を行うことで得られた複数枚の訓練画像を取得することと、
前記複数枚の訓練画像に対して特徴抽出を行い、訓練特徴集合を得ることと、
前記訓練特徴集合における特徴に対して複数回のクラスタリングを行い、前記語彙ツリーを得ることと
を更に含む、請求項5または請求項6に記載の視覚的測位方法。 - 前記視覚的測位方法がサーバに適用され、前記画像ライブラリから第1候補画像シーケンスを決定する前に、前記視覚的測位方法は、
ターゲット機器からの前記第1画像を受信することであって、前記ターゲット機器に前記カメラが搭載された、ことを更に含み、
前記第1姿勢に基づいて前記カメラの位置を測位することに成功したと判定した後、前
記視覚的測位方法は、
前記カメラの位置情報を前記ターゲット機器に送信することを更に含む、請求項1~11のいずれか一項に記載の視覚的測位方法。 - 視覚的測位方法であって、
カメラによりターゲット画像を収集することと、
サーバにターゲット情報を送信することであって、前記ターゲット情報は、前記ターゲット画像または前記ターゲット画像から抽出された特徴シーケンスと、前記カメラの内部パラメータとを含む、ことと、
位置情報を受信することであって、前記位置情報は、前記カメラの位置および方向を示すためのものであり、前記位置情報は、前記サーバにより第2候補画像シーケンスに基づいて決定された、前記ターゲット画像を収集する時の前記カメラの位置情報であり、前記第2候補画像シーケンスは、前記サーバによりターゲットウィンドウに基づいて第1候補画像シーケンスにおける各フレームの画像の順番を調整することで得られたものであり、前記ターゲットウィンドウは、画像ライブラリから決定された、ターゲットフレームの画像と、前記ターゲットフレームの画像の前後の連続した複数フレームの画像とを含み、前記画像ライブラリは、電子マップを構築するためのものであり、前記ターゲットフレームの画像は、前記画像ライブラリにおける、第2画像とマッチングした画像であり、前記第2画像は、前記カメラにより第1画像を収集する前に収集された画像であり、前記第1候補画像シーケンスにおける各フレームの画像は、前記第1画像とのマッチング度の順番に応じてソートされる、ことと、
電子マップを表示することであって、前記電子マップに前記カメラの位置および方向が含まれる、ことと
を含み、
前記サーバによりターゲットウィンドウに基づいて第1候補画像シーケンスにおける各フレームの画像の順番を調整することは、前記第1候補画像シーケンスにおける各フレームの画像が前記第1画像とのマッチング度の昇順に応じてソートされた場合、前記第1候補画像シーケンスにおける、前記ターゲットウィンドウに位置する画像を、前記第1候補画像シーケンスの最終位置に調整することと、前記第1候補画像シーケンスにおける各フレームの画像が前記第1画像とのマッチング度の降順に応じてソートされた場合、前記第1候補画像シーケンスにおける、前記ターゲットウィンドウに位置する画像を、前記第1候補画像シーケンスの先頭位置に調整することとを含む、視覚的測位方法。 - 視覚的測位装置であって、
前記視覚的測位装置は、画像ライブラリから、第1候補画像シーケンスを決定するように構成されている選別ユニットを備え、前記画像ライブラリは、電子マップを構築するためのものであり、前記第1候補画像シーケンスにおける各フレームの画像は、第1画像とのマッチング度の順番に応じてソートされ、前記第1画像は、カメラにより収集された画像であり、
前記選別ユニットは、ターゲットウィンドウに応じて、前記第1候補画像シーケンスにおける各フレームの画像の順番を調整し、第2候補画像シーケンスを得るように更に構成されており、前記ターゲットウィンドウは、画像ライブラリから決定された、ターゲットフレームの画像と、前記ターゲットフレームの画像の前後の連続した複数フレームの画像とを含み、前記ターゲットフレームの画像は、前記画像ライブラリにおける、第2画像とマッチングした画像であり、前記第2画像は、前記カメラにより第1画像を収集する前に収集された画像であり、
前記視覚的測位装置は、前記第2候補画像シーケンスに基づいて、前記第1画像を収集する時の前記カメラのターゲット姿勢を決定するように構成されている決定ユニットを更に備え、
前記選別ユニットは、前記第1候補画像シーケンスにおける各フレームの画像が前記第
1画像とのマッチング度の昇順に応じてソートされた場合、前記第1候補画像シーケンスにおける、前記ターゲットウィンドウに位置する画像を、前記第1候補画像シーケンスの最終位置に調整し、前記第1候補画像シーケンスにおける各フレームの画像が前記第1画像とのマッチング度の降順に応じてソートされた場合、前記第1候補画像シーケンスにおける、前記ターゲットウィンドウに位置する画像を、前記第1候補画像シーケンスの先頭位置に調整するように更に構成されており、
前記決定ユニットは、第1画像シーケンスおよび前記第1画像に基づいて、前記カメラの第1姿勢を決定し、前記第1画像シーケンスは、前記画像ライブラリにおける、第1参照フレーム画像に隣接する連続した複数フレームの画像を含み、前記第1参照フレーム画像は、前記第2候補画像シーケンスに含まれ、前記第1姿勢に基づいて前記カメラの位置を測位することに成功したと判定した場合、前記第1姿勢を前記ターゲット姿勢として決定するように更に構成されており、
前記決定ユニットは、前記第1画像シーケンスにおける各画像から抽出された特徴のうち、前記第1画像から抽出された特徴とマッチングしたF個の特徴を決定し、Fは、0より大きい整数であり、パースペクティブnポイント(PnP)アルゴリズムを用いて、前記F個の特徴、ポイントクラウドマップでの、前記F個の特徴に対応する空間座標点および前記カメラの内部パラメータに基づいて、前記第1姿勢を決定するように更に構成されており、前記ポイントクラウドマップは、測位されるべきシーンの電子マップであり、前記測位されるべきシーンは、前記カメラが前記第1画像を収集する時に所在するシーンである、視覚的測位装置。 - 端末装置であって、前記端末装置は、
ターゲット画像を収集するように構成されているカメラと、
サーバにターゲット情報を送信するように構成されている送信ユニットであって、前記ターゲット情報は、前記ターゲット画像または前記ターゲット画像から抽出された特徴シーケンスと、前記カメラの内部パラメータとを含む、送信ユニットと、
位置情報を受信するように構成されている受信ユニットであって、前記位置情報は、前記カメラの位置および方向を示すためのものであり、前記位置情報は、前記サーバにより第2候補画像シーケンスに基づいて決定された、前記ターゲット画像を収集する時の前記カメラの位置情報であり、前記第2候補画像シーケンスは、前記サーバによりターゲットウィンドウに基づいて第1候補画像シーケンスにおける各フレームの画像の順番を調整することで得られたものであり、前記ターゲットウィンドウは、画像ライブラリから決定された、ターゲットフレームの画像と、前記ターゲットフレームの画像の前後の連続した複数フレームの画像とを含み、前記画像ライブラリは、電子マップを構築するためのものであり、前記ターゲットフレームの画像は、前記画像ライブラリにおける、第2画像とマッチングした画像であり、前記第2画像は、前記カメラにより第1画像を収集する前に収集された画像であり、前記第1候補画像シーケンスにおける各フレームの画像は、前記第1画像とのマッチング度の順番に応じてソートされる、受信ユニットと、
電子マップを表示するように構成されている表示ユニットであって、前記電子マップに前記カメラの位置および方向が含まれる、表示ユニットと
を備え、
前記サーバによりターゲットウィンドウに基づいて第1候補画像シーケンスにおける各フレームの画像の順番を調整することは、前記第1候補画像シーケンスにおける各フレームの画像が前記第1画像とのマッチング度の昇順に応じてソートされた場合、前記第1候補画像シーケンスにおける、前記ターゲットウィンドウに位置する画像を、前記第1候補画像シーケンスの最終位置に調整することと、前記第1候補画像シーケンスにおける各フレームの画像が前記第1画像とのマッチング度の降順に応じてソートされた場合、前記第1候補画像シーケンスにおける、前記ターゲットウィンドウに位置する画像を、前記第1候補画像シーケンスの先頭位置に調整することとを含む、端末装置。 - 電子機器であって、
プログラムを記憶するためのメモリと、
請求項1~12のいずれか一項に記載の視覚的測位方法または請求項13に記載の視覚的測位方法を実行するために、前記メモリに記憶された前記プログラムを実行するように構成されているプロセッサと
を備える、電子機器。 - コンピュータ読み取り可能な記憶媒体であって、前記コンピュータ読み取り可能な記憶媒体には、コンピュータプログラムが記憶されており、前記コンピュータプログラムは、プログラム命令を含み、前記プログラム命令は、プロセッサによって実行されると、請求項1~12のいずれか一項に記載の視覚的測位方法または請求項13に記載の視覚的測位方法を実行することを前記プロセッサに行わせる、コンピュータ読み取り可能な記憶媒体。
- 請求項1~12のいずれか一項に記載の視覚的測位方法または請求項13に記載の視覚的測位方法を実行することをコンピュータに行わせる、コンピュータプログラム製品。
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201910821911.3 | 2019-08-30 | ||
| CN201910821911.3A CN112445929B (zh) | 2019-08-30 | 2019-08-30 | 视觉定位方法及相关装置 |
| PCT/CN2019/117224 WO2021035966A1 (zh) | 2019-08-30 | 2019-11-11 | 视觉定位方法及相关装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2022541559A JP2022541559A (ja) | 2022-09-26 |
| JP7430243B2 true JP7430243B2 (ja) | 2024-02-09 |
Family
ID=74684964
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2022503488A Active JP7430243B2 (ja) | 2019-08-30 | 2019-11-11 | 視覚的測位方法及び関連装置 |
Country Status (6)
| Country | Link |
|---|---|
| US (1) | US20220148302A1 (ja) |
| JP (1) | JP7430243B2 (ja) |
| KR (1) | KR20220024736A (ja) |
| CN (1) | CN112445929B (ja) |
| TW (1) | TWI745818B (ja) |
| WO (1) | WO2021035966A1 (ja) |
Families Citing this family (17)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US11017233B2 (en) | 2019-03-29 | 2021-05-25 | Snap Inc. | Contextual media filter search |
| JP7283378B2 (ja) * | 2019-12-26 | 2023-05-30 | 株式会社豊田自動織機 | 自己位置推定装置、移動体、自己位置推定方法、及び自己位置推定プログラム |
| US12131550B1 (en) * | 2019-12-30 | 2024-10-29 | Waymo Llc | Methods and apparatus for validating sensor data |
| US11620829B2 (en) * | 2020-09-30 | 2023-04-04 | Snap Inc. | Visual matching with a messaging application |
| CN113177971A (zh) * | 2021-05-07 | 2021-07-27 | 中德(珠海)人工智能研究院有限公司 | 一种视觉跟踪方法、装置、计算机设备及存储介质 |
| KR102366364B1 (ko) * | 2021-08-25 | 2022-02-23 | 주식회사 포스로직 | 기하학적 패턴 매칭 방법 및 이러한 방법을 수행하는 장치 |
| US12444072B1 (en) * | 2021-11-09 | 2025-10-14 | Amazon Technologies, Inc. | Dynamic object detection using posture data |
| CN114445633B (zh) * | 2022-01-25 | 2024-09-06 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置和计算机可读存储介质 |
| CN114463429B (zh) * | 2022-04-12 | 2022-08-16 | 深圳市普渡科技有限公司 | 机器人、地图创建方法、定位方法及介质 |
| JP2024017894A (ja) * | 2022-07-28 | 2024-02-08 | 株式会社日立製作所 | タスク実行システム、タスク実行方法、およびタスク実行プログラム |
| CN115620035B (zh) * | 2022-09-29 | 2025-07-15 | 中汽创智科技有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
| CN115655258A (zh) * | 2022-10-26 | 2023-01-31 | 深圳艾灵网络有限公司 | 移动设备的定位方法、装置、服务器及介质 |
| CN118052867A (zh) * | 2022-11-15 | 2024-05-17 | 中兴通讯股份有限公司 | 定位方法、终端设备、服务器及存储介质 |
| CN116659523B (zh) * | 2023-05-17 | 2024-07-23 | 深圳市保臻社区服务科技有限公司 | 一种基于社区进入车辆的位置自动定位方法及装置 |
| CN117708357B (zh) * | 2023-06-16 | 2024-08-23 | 荣耀终端有限公司 | 一种图像检索方法和电子设备 |
| CN116823932B (zh) * | 2023-06-27 | 2026-02-27 | 联想(北京)有限公司 | 数据处理方法及装置 |
| CN116977677B (zh) * | 2023-07-07 | 2024-10-25 | 深圳云天励飞技术股份有限公司 | 基于聚类的图像特征点匹配筛选方法、装置、设备及介质 |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN109816769A (zh) | 2017-11-21 | 2019-05-28 | 深圳市优必选科技有限公司 | 基于深度相机的场景地图生成方法、装置及设备 |
Family Cites Families (16)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP2418588A1 (en) * | 2010-08-10 | 2012-02-15 | Technische Universität München | Visual localization method |
| EP2423873B1 (en) * | 2010-08-25 | 2013-12-11 | Lakeside Labs GmbH | Apparatus and Method for Generating an Overview Image of a Plurality of Images Using a Reference Plane |
| WO2013086475A1 (en) * | 2011-12-08 | 2013-06-13 | Cornell University | System and methods for world-scale camera pose estimation |
| JP5387723B2 (ja) * | 2012-04-26 | 2014-01-15 | カシオ計算機株式会社 | 画像表示装置、及び画像表示方法、画像表示プログラム |
| EP2874117A1 (en) * | 2013-11-15 | 2015-05-20 | Axis AB | Method and apparatus for determining position related properties of a motion video camera |
| US10121266B2 (en) * | 2014-11-25 | 2018-11-06 | Affine Technologies LLC | Mitigation of disocclusion artifacts |
| CN104700402B (zh) * | 2015-02-06 | 2018-09-14 | 北京大学 | 基于场景三维点云的视觉定位方法及装置 |
| US10706321B1 (en) * | 2016-05-20 | 2020-07-07 | Ccc Information Services Inc. | Image processing system to align a target object in a target object image with an object model |
| CN106446815B (zh) * | 2016-09-14 | 2019-08-09 | 浙江大学 | 一种同时定位与地图构建方法 |
| US10593060B2 (en) * | 2017-04-14 | 2020-03-17 | TwoAntz, Inc. | Visual positioning and navigation device and method thereof |
| CN107368614B (zh) * | 2017-09-12 | 2020-07-07 | 猪八戒股份有限公司 | 基于深度学习的图像检索方法及装置 |
| CN107796397B (zh) * | 2017-09-14 | 2020-05-15 | 杭州迦智科技有限公司 | 一种机器人双目视觉定位方法、装置和存储介质 |
| CN108198145B (zh) * | 2017-12-29 | 2020-08-28 | 百度在线网络技术(北京)有限公司 | 用于点云数据修复的方法和装置 |
| CN110057352B (zh) * | 2018-01-19 | 2021-07-16 | 北京图森智途科技有限公司 | 一种相机姿态角确定方法及装置 |
| CN108596976B (zh) * | 2018-04-27 | 2022-02-22 | 腾讯科技(深圳)有限公司 | 相机姿态追踪过程的重定位方法、装置、设备及存储介质 |
| CN109710724B (zh) * | 2019-03-27 | 2019-06-25 | 深兰人工智能芯片研究院(江苏)有限公司 | 一种构建点云地图的方法和设备 |
-
2019
- 2019-08-30 CN CN201910821911.3A patent/CN112445929B/zh active Active
- 2019-11-11 WO PCT/CN2019/117224 patent/WO2021035966A1/zh not_active Ceased
- 2019-11-11 KR KR1020227001898A patent/KR20220024736A/ko active Pending
- 2019-11-11 JP JP2022503488A patent/JP7430243B2/ja active Active
- 2019-12-30 TW TW108148436A patent/TWI745818B/zh active
-
2022
- 2022-01-26 US US17/585,114 patent/US20220148302A1/en not_active Abandoned
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN109816769A (zh) | 2017-11-21 | 2019-05-28 | 深圳市优必选科技有限公司 | 基于深度相机的场景地图生成方法、装置及设备 |
Also Published As
| Publication number | Publication date |
|---|---|
| WO2021035966A1 (zh) | 2021-03-04 |
| US20220148302A1 (en) | 2022-05-12 |
| CN112445929B (zh) | 2022-05-17 |
| JP2022541559A (ja) | 2022-09-26 |
| CN112445929A (zh) | 2021-03-05 |
| KR20220024736A (ko) | 2022-03-03 |
| TW202109357A (zh) | 2021-03-01 |
| TWI745818B (zh) | 2021-11-11 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7430243B2 (ja) | 視覚的測位方法及び関連装置 | |
| CN111323024B (zh) | 定位方法及装置、设备、存储介质 | |
| Snavely et al. | Skeletal graphs for efficient structure from motion | |
| Sun et al. | A dataset for benchmarking image-based localization | |
| US20220392201A1 (en) | Image feature matching method and related apparatus, device and storage medium | |
| WO2020259481A1 (zh) | 定位方法及装置、电子设备、可读存储介质 | |
| JP6211407B2 (ja) | 画像検索システム、画像検索装置、検索サーバ装置、画像検索方法、及び画像検索プログラム | |
| US8983201B2 (en) | Three-dimensional visual phrases for object recognition | |
| CN103609178A (zh) | 地点辅助的识别 | |
| CN114586075B (zh) | 用于位置识别的视觉对象实例描述符 | |
| CN108229347A (zh) | 用于人识别的拟吉布斯结构采样的深层置换的方法和装置 | |
| Vishal et al. | Accurate localization by fusing images and GPS signals | |
| WO2022126529A1 (zh) | 定位的方法、设备、无人机和存储介质 | |
| CN109961103B (zh) | 特征提取模型的训练方法、图像特征的提取方法及装置 | |
| US20150254527A1 (en) | Methods for 3d object recognition and registration | |
| CN114743139A (zh) | 视频场景检索方法、装置、电子设备及可读存储介质 | |
| JP2023509105A (ja) | ディープラーニングを利用した屋内位置測位方法 | |
| Orhan et al. | Semantic pose verification for outdoor visual localization with self-supervised contrastive learning | |
| Jiang et al. | Indoor localization with a signal tree | |
| Sui et al. | An accurate indoor localization approach using cellphone camera | |
| Wu et al. | A vision-based indoor positioning method with high accuracy and efficiency based on self-optimized-ordered visual vocabulary | |
| CN112131902B (zh) | 闭环检测方法及装置、存储介质和电子设备 | |
| CN114119737B (zh) | 室内导航的视觉定位方法及相关设备 | |
| HK40039150B (zh) | 视觉定位方法及相关装置 | |
| HK40039150A (en) | Visual positioning method and related devices |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220118 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220118 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230105 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230330 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230718 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231017 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240116 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240130 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7430243 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |