JP7430243B2

JP7430243B2 - 視覚的測位方法及び関連装置

Info

Publication number: JP7430243B2
Application number: JP2022503488A
Authority: JP
Inventors: ▲鮑▼▲虎▼▲軍▼; 章国▲鋒▼; 余▲海▼林; 叶智超; 盛崇山
Original assignee: Zhejiang Sensetime Technology Development Co Ltd
Current assignee: Zhejiang Sensetime Technology Development Co Ltd
Priority date: 2019-08-30
Filing date: 2019-11-11
Publication date: 2024-02-09
Anticipated expiration: 2039-11-11
Also published as: WO2021035966A1; US20220148302A1; CN112445929B; JP2022541559A; CN112445929A; KR20220024736A; TW202109357A; TWI745818B

Description

（関連出願の相互参照）
本願は、２０１９年０８月３０日に提出された出願番号２０１９１０８２１９１１．３の中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。

本願は、コンピュータビジョン分野に関するが、これに限定されず、特に視覚的測位方法及び関連装置に関する。

測位技術は、人々の日常生活において非常に重要である。全地球測位システム（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ：ＧＰＳ）が測位に用いられるが、ＧＰＳ測位は、屋外測位に用いられることが多い。現在、屋内測位システムは、主に、Ｗｉ－Ｆｉ信号、ブルートゥース（登録商標）信号及び超広帯域技術（ＵｌｔｒａＷｉｄｅＢａｎｄ：ＵＷＢ）等に基づいて実現する。Ｗｉ－Ｆｉ信号に基づいて測位を行う場合、多くの無線アクセスポイント（ＡｃｃｅｓｓＰｏｉｎｔ：ＡＰ）を事前配置する必要がある。

視覚的情報の取得が容易であり、シーンに対する改造を必要としない。携帯電話などの装置により画像を撮ることで、周りの豊富な視覚的情報を得ることができる。視覚的測位技術は、携帯電話などの画像又は映像収集装置により収集された視覚的情報（画像又は映像）を利用して測位を行う。

本願の実施例は、視覚的測位方法及び関連装置を提供する。

第１態様によれば、本願の実施例は、視覚的測位方法を提供する。該方法は、画像ライブラリから、第１候補画像シーケンスを決定することであって、前記画像ライブラリは、電子マップを構築するためのものであり、前記第１候補画像シーケンスにおける各フレームの画像は、第１画像とのマッチング度の順番に応じてソートされ、前記第１画像は、カメラにより収集された画像である、ことと、ターゲットウィンドウに応じて、前記第１候補画像シーケンスにおける各フレームの画像の順番を調整し、第２候補画像シーケンスを得ることであって、前記ターゲットウィンドウは、画像ライブラリから決定された、ターゲットフレームの画像を含む連続した複数フレームの画像であり、前記ターゲットフレームの画像は、前記画像ライブラリにおける、第２画像とマッチングした画像であり、前記第２画像は、前記カメラにより第１画像を収集する前に収集された画像である、ことと、前記第２候補画像シーケンスに基づいて、前記第１画像を収集する時の前記カメラのターゲット姿勢を決定することと、を含む。

本願の実施例は、タイムシーケンスでの、画像フレームの連続性を利用して、連続フレームの測位速度を効果的に向上させる。

幾つかの実施例において、前記第２候補画像シーケンスに基づいて、前記第１画像を収集する時の前記カメラのターゲット姿勢を決定することは、第１画像シーケンス及び前記第１画像に基づいて、前記カメラの第１姿勢を決定することであって、前記第１画像シーケンスは、前記画像ライブラリにおける、第１参照フレーム画像に隣接する連続した複数フレームの画像を含み、前記第１参照フレーム画像は、前記第２候補画像シーケンスに含まれる、ことと、前記第１姿勢に基づいて前記カメラの位置を測位することに成功したと判定した場合、前記第１姿勢を前記ターゲット姿勢として決定することと、を含む。

幾つかの実施例において、第１画像シーケンス及び前記第１画像に基づいて、前記カメラの第１姿勢を決定した後、前記視覚的測位方法は、前記第１姿勢に基づいて前記カメラの位置を測位することに失敗したと判定した場合、第２画像シーケンス及び前記第１画像に基づいて、前記カメラの第２姿勢を決定することであって、前記第２画像シーケンスは、前記画像ライブラリにおける、第２参照フレーム画像に隣接する連続した複数フレームの画像を含み、前記第２参照フレーム画像は、前記第２候補画像シーケンスにおける、前記第１参照フレーム画像の１フレーム後の画像又は１フレーム前の画像である、ことと、前記第２姿勢に基づいて前記カメラの位置を測位することに成功したと判定した場合、前記第２姿勢を前記ターゲット姿勢として決定することと、を更に含む。

幾つかの実施例において、第１画像シーケンス及び前記第１画像に基づいて、前記カメラの第１姿勢を決定することは、前記第１画像シーケンスにおける各画像から抽出された特徴のうち、前記第１画像から抽出された特徴とマッチングしたＦ個の特徴を決定することであって、Ｆは、０より大きい整数である、ことと、前記Ｆ個の特徴、ポイントクラウドマップでの、前記Ｆ個の特徴に対応する空間座標点及び前記カメラの内部パラメータに基づいて、前記第１姿勢を決定することであって、前記ポイントクラウドマップは、測位されるべきシーンの電子マップであり、前記測位されるべきシーンは、前記カメラが前記第１画像を収集する時に所在するシーンである、ことと、を含む。

幾つかの実施例において、ターゲットウィンドウに基づいて、第１候補画像シーケンスにおける各フレームの画像の順番を調整し、第２候補画像シーケンスを得ることは、前記第１候補画像シーケンスにおける各フレームの画像が前記第１画像とのマッチング度の昇順に応じてソートされた場合、前記第１候補画像シーケンスにおける、前記ターゲットウィンドウに位置する画像を、前記第１候補画像シーケンスの最終位置に調整することと、前記第１候補画像シーケンスにおける各フレームの画像が前記第１画像とのマッチング度の降順に応じてソートされた場合、前記第１候補画像シーケンスにおける、前記ターゲットウィンドウに位置する画像を、前記第１候補画像シーケンスの先頭位置に調整することと、を含む。

幾つかの実施例において、前記画像ライブラリから、第１候補画像シーケンスを決定することは、
前記画像ライブラリにおける、対応する視覚的ワードベクトルと前記第１画像に対応する視覚的ワードベクトルとの類似度が最も高い複数の候補画像を決定することであって、前記画像ライブラリにおけるいずれか１つの画像は、１つの視覚的ワードベクトルに対応し、前記画像ライブラリにおける画像は、前記ターゲット機器が前記第１画像を収集する時に所在する測位されるべきシーンの電子マップを構築するためのものである、ことと、
前記複数の候補画像をそれぞれ前記第１画像と特徴マッチングし、各候補画像の、前記第１画像とマッチングした特徴の数を得ることと、
前記複数の候補画像のうち、前記第１画像とマッチングした特徴の数が最も多いＭ個の画像を取得し、前記第１候補画像シーケンスを得ることと、を含む。

幾つかの実施例において、前記画像ライブラリにおける、対応する視覚的ワードベクトルと前記第１画像に対応する視覚的ワードベクトルとの類似度が最も高い複数の候補画像を決定することは、
前記画像ライブラリにおける、対応する視覚的ワードの少なくとも１つが前記第１画像に対応する視覚的ワードと同じである画像を決定し、複数の予備選択画像を得ることであって、前記画像ライブラリにおけるいずれか１つの画像は、少なくとも１つ視覚的ワードに対応し、前記第１画像は、少なくとも１つの視覚的ワードに対応する、ことと、前記複数の予備選択画像のうち、対応する視覚的ワードベクトルと前記第１画像に対応する視覚的ワードベクトルとの類似度が最も高い複数の候補画像を決定することと、を含む。

幾つかの実施例において、前記複数の予備選択画像のうち、対応する視覚的ワードベクトルと前記第１画像に対応する視覚的ワードベクトルとの類似度が最も高い複数の候補画像を決定することは、前記複数の予備選択画像のうち、対応する視覚的ワードベクトルと前記第１画像に対応する視覚的ワードベクトルとの類似度が最も高い上位Ｑパーセントの画像を決定し、前記複数の候補画像を得ることであって、Ｑは、０より大きい実数である、ことを含む。

幾つかの実施例において、前記複数の予備選択画像のうち、対応する視覚的ワードベクトルと前記第１画像に対応する視覚的ワードベクトルとの類似度が最も高い複数の候補画像を決定することは、
語彙ツリーを利用して、前記第１画像から抽出された特徴をターゲットワードベクトルに変換することであって、前記語彙ツリーは、前記測位されるべきシーンで収集された訓練画像から抽出された特徴をクラスタリングすることで得られたものである、ことと、
前記ターゲットワードベクトルと前記複数の予備選択画像のうちの各予備選択画像に対応する視覚的ワードベクトルとの類似度をそれぞれ算出することであって、前記複数の予備選択画像のうちのいずれか１つの予備選択画像に対応する視覚的ワードベクトルは、前記語彙ツリーを利用して、前記いずれか１つの予備選択画像から抽出された特徴により得た視覚的ワードベクトルである、ことと、
前記複数の予備選択画像のうち、対応する視覚的ワードベクトルと前記ターゲットワードベクトルとの類似度が最も高い複数の候補画像を決定することと、を含む。

該実現形態において、語彙ツリーを利用して、第１画像から抽出された特徴をターゲットワードベクトルに変換し、ターゲットワードベクトルと各予備選択画像に対応する視覚的ワードベクトルとの類似度を算出することで複数の候補画像を得る。従って、候補画像を迅速かつ正確に選別することができる。

幾つかの実施例において、前記語彙ツリーにおける各リーフノードは、１つの視覚的ワードに対応し、前記語彙ツリーにおける最終層のノードは、リーフノードであり、語彙ツリーを利用して、前記第１画像から抽出された特徴をターゲットワードベクトルに変換することは、
前記第１画像での、前記語彙ツリーにおける各リーフノードに対応する視覚的ワードに対応する重みを算出することと、
前記第１画像での、前記各リーフノードに対応する視覚的ワードに対応する重みを組み合わせて１つのベクトルを形成し、前記ターゲットワードベクトルを得ることと、を含む。

該実現形態において、ターゲットワードベクトルを迅速に算出することができる。

幾つかの実施例において、前記語彙ツリーの各ノードは、１つのクラスタ中心に対応し、前記第１画像での、前記語彙ツリーに対応する各視覚的ワードに対応する重みを算出することは、
前記語彙ツリーを利用して、前記第１画像から抽出された特徴を分類し、ターゲットリーフノードに分類された中間特徴を得ることであって、前記ターゲットリーフノードは、前記語彙ツリーにおけるいずれか１つのリーフノードであり、ターゲットリーフノードは、ターゲット視覚的ワードに対応する、ことと、
前記中間特徴、前記ターゲット視覚的ワードの重み及び前記ターゲット視覚的ワードに対応するクラスタ中心に基づいて、前記第１画像での、前記ターゲット視覚的ワードに対応するターゲット重みを算出することであって、前記ターゲット重みは、前記ターゲット視覚的ワードの重みと正に相関し、前記ターゲット視覚的ワードの重みは、前記語彙ツリーを生成する時に前記ターゲット視覚的ワードに対応する特徴の数に基づいて決定される、ことと、を含む。

幾つかの実施例において、前記中間特徴は、少なくとも１つのサブ特徴を含み、前記ターゲット重みは、前記中間特徴に含まれる各サブ特徴に対応する重みパラメータの和であり、前記サブ特徴に対応する重みパラメータは、特徴距離と負に相関し、前記特徴距離は、前記サブ特徴と対応するクラスタ中心とのハミング距離である。

該実現形態において、同一の視覚的ワードにある特徴の相違性を考慮した。

幾つかの実施例において、前記複数の候補画像と前記第１画像に対して特徴マッチングを行い、前記第１画像とマッチングした各候補画像の特徴の数を得ることは、
語彙ツリーに基づいて、前記第１画像から抽出された第３特徴をリーフノードに分類することであって、前記語彙ツリーは、前記測位されるべきシーンで抽出された画像から抽出された特徴をクラスタリングすることで得られたものであり、前記語彙ツリーの最終層のノードは、リーフノードであり、各リーフノードは、複数の特徴を含む、ことと、
各前記リーフノードにおける前記第３特徴と第４特徴に対して特徴マッチングを行い、各前記リーフノードにおける、前記第３特徴とマッチングした第４特徴を得ることであって、前記第４特徴は、ターゲット候補画像から抽出された特徴であり、前記ターゲット候補画像は、前記第１候補画像シーケンスに含まれるいずれか１つの画像である、ことと、
各前記リーフノードにおける、前記第３特徴とマッチングした第４特徴に基づいて、前記ターゲット候補画像の、前記第１画像とマッチングした特徴の数を得ることと、を含む。

このような方式により、特徴マッチングの演算量を低減させ、特徴マッチング速度を大幅に向上させることができる。

幾つかの実施例において、前記Ｆ個の特徴、ポイントクラウドマップでの、前記Ｆ個の特徴に対応する空間座標点及び前記カメラの内部パラメータに基づいて、前記第１姿勢を決定した後、前記視覚的測位方法は、
変換行列及び前記第１姿勢に基づいて、前記カメラの三次元位置を決定することであって、前記変換行列は、前記ポイントクラウドマップの角度及び位置を変換し、前記ポイントクラウドマップの輪郭と屋内平面図をアライメントすることで得られたものである、ことを更に含む。

幾つかの実施例において、前記第１姿勢に基づいて前記カメラの位置を測位することに成功したと判定したことは、Ｌ対の特徴点の位置関係がいずれも前記第１姿勢に合致すると判定することであって、各対の特徴点のうちの１つの特徴点は前記第１画像から抽出されたものであり、もう１つの特徴点は、前記第１画像シーケンスにおける画像から抽出されたものであり、Ｌは、１より大きい整数である、ことを含む。

該実現形態において、該第２姿勢に基づいて前記カメラの位置を測位することに成功できるかどうかを正確かつ迅速に判定することができる。

幾つかの実施例において、第１画像シーケンス及び前記第１画像に基づいて前記カメラの第１姿勢を決定する前に、前記視覚的測位方法は、
複数の画像シーケンスを取得することであって、各画像シーケンスは、測位されるべきシーンにおける１つ又は複数の領域を収集することで得られたものである、ことと、
前記複数の画像シーケンスに基づいて、前記ポイントクラウドマップを構築することであって、前記複数の画像シーケンスのうちのいずれか１つの画像シーケンスは、１つ又は複数の領域のサブポイントクラウドマップを構築するためのものであり、前記ポイントクラウドマップは、前記第１電子マップ及び前記第２電子マップを含む、ことと、を更に含む。

該実現形態において、測位されるべきシーンを複数の領域に分割し、各領域に対してサブポイントクラウドマップを構築する。従って、測位されるべきシーンにおける１つの領域が変換された後、測位されるべきシーン全体のポイントクラウドマップを構築する必要がなく、該領域のビデオシーケンスを収集して該領域のサブポイントクラウドマップを構築すればよい。作業量を効果的に減少させることができる。

幾つかの実施例において、前記語彙ツリーを利用して、前記第１画像から抽出された特徴をターゲットワードベクトルに変換する前に、前記視覚的測位方法は、
前記測位されるべきシーンに対して撮影を行うことで得られた複数枚の訓練画像を取得することと、
前記複数枚の訓練画像に対して特徴抽出を行い、訓練特徴集合を得ることと、
前記訓練特徴集合における特徴に対して複数回のクラスタリングを行い、前記語彙ツリーを得ることと、を更に含む。

幾つかの実施例において、前記視覚的測位方法は、サーバに適用され、画像ライブラリから第１候補画像シーケンスを決定する前に、前記視覚的測位方法は、ターゲット機器からの前記第１画像を受信することであって、前記ターゲット機器に前記カメラが搭載された、ことを更に含む。

該実現形態において、サーバは、ターゲット機器からの第１画像に基づいて測位を行う。処理速度及び記憶空間の点でのサーバの優位性を十分に利用することができる。測位精度が高く、測位速度が速い。

幾つかの実施例において、前記第２姿勢に基づいて前記カメラの位置を測位することに成功したと判定した後、前記視覚的測位方法は、前記カメラの位置情報を前記ターゲット機器に送信することを更に含む。

該実現形態において、サーバは、ターゲット機器の位置情報を該ターゲット機器に送信する。これにより、該ターゲット機器に該位置情報を表示し、所在位置をユーザに正確に知らせることができる。

幾つかの実施例において、前記視覚的測位方法は、前記カメラを搭載した電子機器に適用される。

第２態様によれば、本願の実施例は、もう１つの視覚的測位方法を提供する。該方法は、カメラによりターゲット画像を収集することと、サーバにターゲット情報を送信することであって、前記ターゲット情報は、前記ターゲット画像又は前記ターゲット画像から抽出された特徴シーケンス、及び前記カメラの内部パラメータを含む、ことと、
位置情報を受信することであって、前記位置情報は、前記カメラの位置及び方向を示すためのものであり、前記位置情報は、前記サーバにより第２候補画像シーケンスに基づいて決定された、前記ターゲット画像を収集する時の前記カメラの位置情報であり、前記第２候補画像シーケンスは、前記サーバによりターゲットウィンドウに基づいて第１候補画像シーケンスにおける各フレームの画像の順番を調整することで得られたものであり、前記ターゲットウィンドウは、画像ライブラリから決定された、ターゲットフレーム画像を含む連続した複数フレームの画像であり、前記画像ライブラリは、電子マップを構築するためのものであり、前記ターゲットフレーム画像は、前記画像ライブラリにおける、第２画像とマッチングした画像であり、前記第２画像は、前記カメラにより第１画像を収集する前に収集された画像であり、前記第１候補画像シーケンスにおける各フレームの画像は、前記第１画像とのマッチング度の順番に応じてソートされる、ことと、
電子マップを表示することであって、前記電子マップに前記カメラの位置及び方向が含まれる、ことと、を含む。

第３態様によれば、本願の実施例は、視覚的測位装置を提供する。該装置は、
画像ライブラリから、第１候補画像シーケンスを決定するように構成される選別ユニットであって、前記画像ライブラリは、電子マップを構築するためのものであり、前記第１候補画像シーケンスにおける各フレームの画像は、第１画像とのマッチング度の順番に応じてソートされ、前記第１画像は、カメラにより収集された画像である、選別ユニットを備え、
前記選別ユニットは更に、ターゲットウィンドウに応じて、前記第１候補画像シーケンスにおける各フレームの画像の順番を調整し、第２候補画像シーケンスを得るように構成され、前記ターゲットウィンドウは、画像ライブラリから決定された、ターゲットフレームの画像を含む連続した複数フレームの画像であり、前記ターゲットフレームの画像は、前記画像ライブラリにおける、第２画像とマッチングした画像であり、前記第２画像は、前記カメラにより第１画像を収集する前に収集された画像であり、
該装置は、前記第２候補画像シーケンスに基づいて、前記第１画像を収集する時の前記カメラのターゲット姿勢を決定するように構成される決定ユニットを更に備える。

第４態様によれば、本願の実施例は、端末装置を提供する。該端末装置は、
ターゲット画像を収集するように構成されるカメラと、
サーバにターゲット情報を送信するように構成される送信ユニットであって、前記ターゲット情報は、前記ターゲット画像又は前記ターゲット画像から抽出された特徴シーケンス、及び前記カメラの内部パラメータを含む、送信ユニットと、
位置情報を受信するように構成される受信ユニットであって、前記位置情報は、前記カメラの位置及び方向を示すためのものであり、前記位置情報は、前記サーバにより第２候補画像シーケンスに基づいて決定された、前記ターゲット画像を収集する時の前記カメラの位置情報であり、前記第２候補画像シーケンスは、前記サーバによりターゲットウィンドウに基づいて第１候補画像シーケンスにおける各フレームの画像の順番を調整することで得られたものであり、前記ターゲットウィンドウは、画像ライブラリから決定された、ターゲットフレーム画像を含む連続した複数フレームの画像であり、前記画像ライブラリは、電子マップを構築するためのものであり、前記ターゲットフレーム画像は、前記画像ライブラリにおける、第２画像とマッチングした画像であり、前記第２画像は、前記カメラにより第１画像を収集する前に収集された画像であり、前記第１候補画像シーケンスにおける各フレームの画像は、前記第１画像とのマッチング度の順番に応じてソートされる、受信ユニットと、
電子マップを表示するように構成される表示ユニットであって、前記電子マップに前記カメラの位置及び方向が含まれる、表示ユニットと、を備える。

第５態様によれば、本願の実施例は、電子機器を提供する。該電子機器は、プログラムを記憶するためのメモリと、前記メモリに記憶された前記プログラムを実行するように構成されるプロセッサと、を備え、前記プログラムが実行される時、前記プロセッサは、上記第１態様から上記第２態様及びいずれか１つの実現形態に記載の視覚的測位方法を実行するように構成される。

第６態様によれば、本願の実施例は、視覚的測位システムを提供する。前記視覚的測位システムは、サーバと、端末装置と、を備え、前記サーバは、上記第１及びいずれか１つ実現形態に記載の視覚的測位方法を実行し、前記端末装置は、上記第２態様に記載の視覚的測位方法を実行するように構成される。

第７態様によれば、本願の実施例は、コンピュータ可読記憶媒体を提供する。該コンピュータ可読記憶媒体にコンピュータプログラムが記憶されており、該コンピュータプログラムは、プログラム命令を含み、該プログラム命令がプロセッサにより実行される時、該プロセッサに上記第１態様から第２態様及びいずれか１つの実現態様に記載の視覚的測位方法を実行させる。

第８態様によれば、本願の実施例は、コンピュータプログラム製品を提供する。前記コンピュータプログラムは、プログラム命令を含み、前記プログラムがプロセッサにより実行される時、前記プロセッサに前記いずれか１つの実施例で提供される視覚的測位方法を実行させる。
例えば、本願は以下の項目を提供する。
（項目１）
視覚的測位方法であって、
画像ライブラリから、第１候補画像シーケンスを決定することであって、前記画像ライブラリは、電子マップを構築するためのものであり、前記第１候補画像シーケンスにおける各フレームの画像は、第１画像とのマッチング度の順番に応じてソートされ、前記第１画像は、カメラにより収集された画像である、ことと、
ターゲットウィンドウに応じて、前記第１候補画像シーケンスにおける各フレームの画像の順番を調整し、第２候補画像シーケンスを得ることであって、前記ターゲットウィンドウは、画像ライブラリから決定された、ターゲットフレームの画像を含む連続した複数フレームの画像であり、前記ターゲットフレームの画像は、前記画像ライブラリにおける、第２画像とマッチングした画像であり、前記第２画像は、前記カメラにより第１画像を収集する前に収集された画像である、ことと、
前記第２候補画像シーケンスに基づいて、前記第１画像を収集する時の前記カメラのターゲット姿勢を決定することと、を含む、前記視覚的測位方法。
（項目２）
前記第２候補画像シーケンスに基づいて、前記第１画像を収集する時の前記カメラのターゲット姿勢を決定することは、
第１画像シーケンス及び前記第１画像に基づいて、前記カメラの第１姿勢を決定することであって、前記第１画像シーケンスは、前記画像ライブラリにおける、第１参照フレーム画像に隣接する連続した複数フレームの画像を含み、前記第１参照フレーム画像は、前記第２候補画像シーケンスに含まれる、ことと、
前記第１姿勢に基づいて前記カメラの位置を測位することに成功したと判定した場合、前記第１姿勢を前記ターゲット姿勢として決定することと、を含むことを特徴とする
項目１に記載の視覚的測位方法。
（項目３）
前記第１画像シーケンス及び前記第１画像に基づいて、前記カメラの第１姿勢を決定した後、前記視覚的測位方法は、
前記第１姿勢に基づいて前記カメラの位置を測位することに失敗したと判定した場合、第２画像シーケンス及び前記第１画像に基づいて、前記カメラの第２姿勢を決定することであって、前記第２画像シーケンスは、前記画像ライブラリにおける、第２参照フレーム画像に隣接する連続した複数フレームの画像を含み、前記第２参照フレーム画像は、前記第２候補画像シーケンスにおける、前記第１参照フレーム画像の１フレーム後の画像又は１フレーム前の画像である、ことと、
前記第２姿勢に基づいて前記カメラの位置を測位することに成功したと判定した場合、前記第２姿勢を前記ターゲット姿勢として決定することと、を更に含むことを特徴とする
項目２に記載の視覚的測位方法。
（項目４）
前記第１画像シーケンス及び前記第１画像に基づいて、前記カメラの第１姿勢を決定することは、
前記第１画像シーケンスにおける各画像から抽出された特徴のうち、前記第１画像から抽出された特徴とマッチングしたＦ個の特徴を決定することであって、Ｆは、０より大きい整数である、ことと、
前記Ｆ個の特徴、ポイントクラウドマップでの、前記Ｆ個の特徴に対応する空間座標点及び前記カメラの内部パラメータに基づいて、前記第１姿勢を決定することであって、前記ポイントクラウドマップは、測位されるべきシーンの電子マップであり、前記測位されるべきシーンは、前記カメラが前記第１画像を収集する時に所在するシーンである、ことと、を含むことを特徴とする
項目２又は３に記載の視覚的測位方法。
（項目５）
前記ターゲットウィンドウに基づいて、第１候補画像シーケンスにおける各フレームの画像の順番を調整し、第２候補画像シーケンスを得ることは、
前記第１候補画像シーケンスにおける各フレームの画像が前記第１画像とのマッチング度の昇順に応じてソートされた場合、前記第１候補画像シーケンスにおける、前記ターゲットウィンドウに位置する画像を、前記第１候補画像シーケンスの最終位置に調整することと、
前記第１候補画像シーケンスにおける各フレームの画像が前記第１画像とのマッチング度の降順に応じてソートされた場合、前記第１候補画像シーケンスにおける、前記ターゲットウィンドウに位置する画像を、前記第１候補画像シーケンスの先頭位置に調整することと、を含むことを特徴とする
項目１から４のうちいずれか一項に記載の視覚的測位方法。
（項目６）
前記画像ライブラリから、第１候補画像シーケンスを決定することは、
前記画像ライブラリにおける、対応する視覚的ワードベクトルと前記第１画像に対応する視覚的ワードベクトルとの類似度が最も高い複数の候補画像を決定することであって、前記画像ライブラリにおけるいずれか１つの画像は、１つの視覚的ワードベクトルに対応し、前記画像ライブラリにおける画像は、前記ターゲット機器が前記第１画像を収集する時に所在する測位されるべきシーンの電子マップを構築するためのものである、ことと、
前記複数の候補画像をそれぞれ前記第１画像と特徴マッチングし、各候補画像の、前記第１画像とマッチングした特徴の数を得ることと、
前記複数の候補画像のうち、前記第１画像とマッチングした特徴の数が最も多いＭ個の画像を取得し、前記第１候補画像シーケンスを得ることと、を含むことを特徴とする
項目５に記載の視覚的測位方法。
（項目７）
前記画像ライブラリにおける、対応する視覚的ワードベクトルと前記第１画像に対応する視覚的ワードベクトルとの類似度が最も高い複数の候補画像を決定することは、
前記画像ライブラリにおける、対応する視覚的ワードの少なくとも１つが前記第１画像に対応する視覚的ワードと同じである画像を決定し、複数の予備選択画像を得ることであって、前記画像ライブラリにおけるいずれか１つの画像は、少なくとも１つ視覚的ワードに対応し、前記第１画像は、少なくとも１つの視覚的ワードに対応する、ことと、
前記複数の予備選択画像のうち、対応する視覚的ワードベクトルと前記第１画像に対応する視覚的ワードベクトルとの類似度が最も高い複数の候補画像を決定することと、を含むことを特徴とする
項目６に記載の視覚的測位方法。
（項目８）
前記複数の予備選択画像のうち、対応する視覚的ワードベクトルと前記第１画像に対応する視覚的ワードベクトルとの類似度が最も高い複数の候補画像を決定することは、
前記複数の予備選択画像のうち、対応する視覚的ワードベクトルと前記第１画像に対応する視覚的ワードベクトルとの類似度が最も高い上位Ｑパーセントの画像を決定し、前記複数の候補画像を得ることであって、Ｑは、０より大きい実数である、ことを含むことを特徴とする
項目７に記載の視覚的測位方法。
（項目９）
前記複数の予備選択画像のうち、対応する視覚的ワードベクトルと前記第１画像に対応する視覚的ワードベクトルとの類似度が最も高い複数の候補画像を決定することは、
語彙ツリーを利用して、前記第１画像から抽出された特徴をターゲットワードベクトルに変換することであって、前記語彙ツリーは、前記測位されるべきシーンで収集された訓練画像から抽出された特徴をクラスタリングすることで得られたものである、ことと、
前記ターゲットワードベクトルと前記複数の予備選択画像のうちの各予備選択画像に対応する視覚的ワードベクトルとの類似度をそれぞれ算出することであって、前記複数の予備選択画像のうちのいずれか１つの予備選択画像に対応する視覚的ワードベクトルは、前記語彙ツリーを利用して、前記いずれか１つの予備選択画像から抽出された特徴により得た視覚的ワードベクトルである、ことと、
前記複数の予備選択画像のうち、対応する視覚的ワードベクトルと前記ターゲットワードベクトルとの類似度が最も高い複数の候補画像を決定することと、を含むことを特徴とする
項目７又は８に記載の視覚的測位方法。
（項目１０）
前記語彙ツリーにおける各リーフノードは、１つの視覚的ワードに対応し、前記語彙ツリーにおける最終層のノードは、リーフノードであり、語彙ツリーを利用して、前記第１画像から抽出された特徴をターゲットワードベクトルに変換することは、
前記第１画像での、前記語彙ツリーにおける各リーフノードに対応する視覚的ワードに対応する重みを算出することと、
前記第１画像での、前記各リーフノードに対応する視覚的ワードに対応する重みを組み合わせて１つのベクトルを形成し、前記ターゲットワードベクトルを得ることと、を含むことを特徴とする
項目９に記載の視覚的測位方法。
（項目１１）
前記語彙ツリーの各ノードは、１つのクラスタ中心に対応し、前記第１画像での、前記語彙ツリーに対応する各視覚的ワードに対応する重みを算出することは、
前記語彙ツリーを利用して、前記第１画像から抽出された特徴を分類し、ターゲットリーフノードに分類された中間特徴を得ることであって、前記ターゲットリーフノードは、前記語彙ツリーにおけるいずれか１つのリーフノードであり、ターゲットリーフノードは、ターゲット視覚的ワードに対応する、ことと、
前記中間特徴、前記ターゲット視覚的ワードの重み及び前記ターゲット視覚的ワードに対応するクラスタ中心に基づいて、前記第１画像での、前記ターゲット視覚的ワードに対応するターゲット重みを算出することであって、前記ターゲット重みは、前記ターゲット視覚的ワードの重みと正に相関し、前記ターゲット視覚的ワードの重みは、前記語彙ツリーを生成する時に前記ターゲット視覚的ワードに対応する特徴の数に基づいて決定される、ことと、を含むことを特徴とする
項目１０に記載の視覚的測位方法。
（項目１２）
前記中間特徴は、少なくとも１つのサブ特徴を含み、前記ターゲット重みは、前記中間特徴に含まれる各サブ特徴に対応する重みパラメータの和であり、前記サブ特徴に対応する重みパラメータは、特徴距離と負に相関し、前記特徴距離は、前記サブ特徴と対応するクラスタ中心とのハミング距離であることを特徴とする
項目１１に記載の視覚的測位方法。
（項目１３）
前記複数の候補画像と前記第１画像に対して特徴マッチングを行い、前記第１画像とマッチングした各候補画像の特徴の数を得ることは、
語彙ツリーに基づいて、前記第１画像から抽出された第３特徴をリーフノードに分類することであって、前記語彙ツリーは、前記測位されるべきシーンで抽出された画像から抽出された特徴をクラスタリングすることで得られたものであり、前記語彙ツリーの最終層のノードは、リーフノードであり、各リーフノードは、複数の特徴を含む、ことと、
各前記リーフノードにおける前記第３特徴と第４特徴に対して特徴マッチングを行い、各前記リーフノードにおける、前記第３特徴とマッチングした第４特徴を得ることであって、前記第４特徴は、ターゲット候補画像から抽出された特徴であり、前記ターゲット候補画像は、前記第１候補画像シーケンスに含まれるいずれか１つの画像である、ことと、
各前記リーフノードにおける、前記第３特徴とマッチングした第４特徴に基づいて、前記ターゲット候補画像の、前記第１画像とマッチングした特徴の数を得ることと、を含むことを特徴とする
項目６から１２のうちいずれか一項に記載の視覚的測位方法。
（項目１４）
前記Ｆ個の特徴、ポイントクラウドマップでの、前記Ｆ個の特徴に対応する空間座標点及び前記カメラの内部パラメータに基づいて、前記第１姿勢を決定した後、前記視覚的測位方法は、
変換行列及び前記第１姿勢に基づいて、前記カメラの三次元位置を決定することであって、前記変換行列は、前記ポイントクラウドマップの角度及び位置を変換し、前記ポイントクラウドマップの輪郭と屋内平面図をアライメントすることで得られたものである、ことを更に含むことを特徴とする
項目４から１３のうちいずれか一項に記載の視覚的測位方法。
（項目１５）
前記第１姿勢に基づいて前記カメラの位置を測位することに成功したと判定したことは、Ｌ対の特徴点の位置関係がいずれも前記第１姿勢に合致すると判定することであって、各対の特徴点のうちの１つの特徴点は前記第１画像から抽出されたものであり、もう１つの特徴点は、前記第１画像シーケンスにおける画像から抽出されたものであり、Ｌは、１より大きい整数である、ことを含むことを特徴とする
項目１から１４のうちいずれか一項に記載の視覚的測位方法。
（項目１６）
前記第１画像シーケンス及び前記第１画像に基づいて前記カメラの第１姿勢を決定する前に、前記視覚的測位方法は、
複数の画像シーケンスを取得することであって、各画像シーケンスは、測位されるべきシーンにおける１つ又は複数の領域を収集することで得られたものである、ことと、
前記複数の画像シーケンスに基づいて、前記ポイントクラウドマップを構築することであって、前記複数の画像シーケンスのうちのいずれか１つの画像シーケンスは、１つ又は複数の領域のサブポイントクラウドマップを構築するためのものであり、前記ポイントクラウドマップは、前記第１電子マップ及び前記第２電子マップを含む、ことと、を更に含むことを特徴とする
項目２から１５のうちいずれか一項に記載の視覚的測位方法。
（項目１７）
前記語彙ツリーを利用して、前記第１画像から抽出された特徴をターゲットワードベクトルに変換する前に、前記視覚的測位方法は、
前記測位されるべきシーンに対して撮影を行うことで得られた複数枚の訓練画像を取得することと、
前記複数枚の訓練画像に対して特徴抽出を行い、訓練特徴集合を得ることと、
前記訓練特徴集合における特徴に対して複数回のクラスタリングを行い、前記語彙ツリーを得ることと、を更に含むことを特徴とする
項目９から１６のうちいずれか一項に記載の視覚的測位方法。
（項目１８）
前記視覚的測位方法がサーバに適用され、前記画像ライブラリから第１候補画像シーケンスを決定する前に、前記視覚的測位方法は、
ターゲット機器からの前記第１画像を受信することであって、前記ターゲット機器に前記カメラが搭載された、ことを更に含むことを特徴とする
項目１から１７のうちいずれか一項に記載の視覚的測位方法。
（項目１９）
前記第１姿勢に基づいて前記カメラの位置を測位することに成功したと判定した後、前記視覚的測位方法は、
前記カメラの位置情報を前記ターゲット機器に送信することを更に含むことを特徴とする
項目１８に記載の視覚的測位方法。
（項目２０）
前記視覚的測位方法は、前記カメラを搭載した電子機器に適用されることを特徴とする
項目１から１７のうちいずれか一項に記載の視覚的測位方法。
（項目２１）
視覚的測位方法であって、
カメラによりターゲット画像を収集することと、
サーバにターゲット情報を送信することであって、前記ターゲット情報は、前記ターゲット画像又は前記ターゲット画像から抽出された特徴シーケンス、及び前記カメラの内部パラメータを含む、ことと、
位置情報を受信することであって、前記位置情報は、前記カメラの位置及び方向を示すためのものであり、前記位置情報は、前記サーバにより第２候補画像シーケンスに基づいて決定された、前記ターゲット画像を収集する時の前記カメラの位置情報であり、前記第２候補画像シーケンスは、前記サーバによりターゲットウィンドウに基づいて第１候補画像シーケンスにおける各フレームの画像の順番を調整することで得られたものであり、前記ターゲットウィンドウは、画像ライブラリから決定された、ターゲットフレーム画像を含む連続した複数フレームの画像であり、前記画像ライブラリは、電子マップを構築するためのものであり、前記ターゲットフレーム画像は、前記画像ライブラリにおける、第２画像とマッチングした画像であり、前記第２画像は、前記カメラにより第１画像を収集する前に収集された画像であり、前記第１候補画像シーケンスにおける各フレームの画像は、前記第１画像とのマッチング度の順番に応じてソートされる、ことと、
電子マップを表示することであって、前記電子マップに前記カメラの位置及び方向が含まれる、ことと、を含む、前記視覚的測位方法。
（項目２２）
視覚的測位装置であって、
画像ライブラリから、第１候補画像シーケンスを決定するように構成される選別ユニットであって、前記画像ライブラリは、電子マップを構築するためのものであり、前記第１候補画像シーケンスにおける各フレームの画像は、第１画像とのマッチング度の順番に応じてソートされ、前記第１画像は、カメラにより収集された画像である、選別ユニットを備え、
前記選別ユニットは更に、ターゲットウィンドウに応じて、前記第１候補画像シーケンスにおける各フレームの画像の順番を調整し、第２候補画像シーケンスを得るように構成され、前記ターゲットウィンドウは、画像ライブラリから決定された、ターゲットフレームの画像を含む連続した複数フレームの画像であり、前記ターゲットフレームの画像は、前記画像ライブラリにおける、第２画像とマッチングした画像であり、前記第２画像は、前記カメラにより第１画像を収集する前に収集された画像であり、
前記視覚的測位装置は、前記第２候補画像シーケンスに基づいて、前記第１画像を収集する時の前記カメラのターゲット姿勢を決定するように構成される決定ユニットを更に備える、前記視覚的測位装置。
（項目２３）
前記決定ユニットは更に、第１画像シーケンス及び前記第１画像に基づいて、前記カメラの第１姿勢を決定するように構成され、前記第１画像シーケンスは、前記画像ライブラリにおける、第１参照フレーム画像に隣接する連続した複数フレームの画像を含み、前記第１参照フレーム画像は、前記第２候補画像シーケンスに含まれ、
前記決定ユニットは更に、前記第１姿勢に基づいて前記カメラの位置を測位することに成功したと判定した場合、前記第１姿勢を前記ターゲット姿勢として決定するように構成されることを特徴とする
項目２２に記載の視覚的測位装置。
（項目２４）
前記決定ユニットは更に、前記第１姿勢に基づいて前記カメラの位置を測位することに失敗したと判定した場合、第２画像シーケンス及び前記第１画像に基づいて、前記カメラの第２姿勢を決定するように構成され、前記第２画像シーケンスは、前記画像ライブラリにおける、第２参照フレーム画像に隣接する連続した複数フレームの画像を含み、前記第２参照フレーム画像は、前記第２候補画像シーケンスにおける、前記第１参照フレーム画像の１フレーム後の画像又は１フレーム前の画像であり、前記決定ユニットは更に、前記第２姿勢に基づいて前記カメラの位置を測位することに成功したと判定した場合、前記第２姿勢を前記ターゲット姿勢として決定するように構成されることを特徴とする
項目２３に記載の視覚的測位装置。
（項目２５）
前記決定ユニットは、前記第１画像シーケンスにおける各画像から抽出された特徴のうち、前記第１画像から抽出された特徴とマッチングしたＦ個の特徴を決定するように構成され、Ｆは、０より大きい整数であり、前記決定ユニットは、前記Ｆ個の特徴、ポイントクラウドマップでの、前記Ｆ個の特徴に対応する空間座標点及び前記カメラの内部パラメータに基づいて、前記第１姿勢を決定するように構成され、前記ポイントクラウドマップは、測位されるべきシーンの電子マップであり、前記測位されるべきシーンは、前記カメラが前記第１画像を収集する時に所在するシーンであることを特徴とする
項目２３又は２４に記載の視覚的測位装置。
（項目２６）
前記選別ユニットは、前記第１候補画像シーケンスにおける各フレームの画像が前記第１画像とのマッチング度の昇順に応じてソートされた場合、前記第１候補画像シーケンスにおける、前記ターゲットウィンドウに位置する画像を、前記第１候補画像シーケンスの最終位置に調整し、前記第１候補画像シーケンスにおける各フレームの画像が前記第１画像とのマッチング度の降順に応じてソートされた場合、前記第１候補画像シーケンスにおける、前記ターゲットウィンドウに位置する画像を、前記第１候補画像シーケンスの先頭位置に調整するように構成されることを特徴とする
項目２２から２５のうちいずれか一項に記載の視覚的測位装置。
（項目２７）
前記選別ユニットは、前記第１候補画像シーケンスにおける各フレームの画像が前記第１画像とのマッチング度の昇順に応じてソートされた場合、前記第１候補画像シーケンスにおける、前記ターゲットウィンドウに位置する画像を、前記第１候補画像シーケンスの最終位置に調整し、
前記第１候補画像シーケンスにおける各フレームの画像が前記第１画像とのマッチング度の降順に応じてソートされた場合、前記第１候補画像シーケンスにおける、前記ターゲットウィンドウに位置する画像を、前記第１候補画像シーケンスの先頭位置に調整するように構成されることを特徴とする
項目２６に記載の視覚的測位装置。
（項目２８）
前記選別ユニットは、前記画像ライブラリにおける、対応する視覚的ワードの少なくとも１つが前記第１画像に対応する視覚的ワードと同じである画像を決定し、複数の予備選択画像を得るように構成され、前記画像ライブラリにおけるいずれか１つの画像は、少なくとも１つ視覚的ワードに対応し、前記第１画像は、少なくとも１つの視覚的ワードに対応し、
前記選別ユニットは、前記複数の予備選択画像のうち、対応する視覚的ワードベクトルと前記第１画像に対応する視覚的ワードベクトルとの類似度が最も高い複数の候補画像を決定するように構成されることを特徴とする
項目２７に記載の視覚的測位装置。
（項目２９）
前記選別ユニットは、前記複数の予備選択画像のうち、対応する視覚的ワードベクトルと前記第１画像に対応する視覚的ワードベクトルとの類似度が最も高い上位Ｑパーセントの画像を決定し、前記複数の候補画像を得るように構成され、Ｑは、０より大きい実数であることを特徴とする
項目２８に記載の視覚的測位装置。
（項目３０）
前記選別ユニットは、語彙ツリーを利用して、前記第１画像から抽出された特徴をターゲットワードベクトルに変換するように構成され、前記語彙ツリーは、前記測位されるべきシーンで収集された訓練画像から抽出された特徴をクラスタリングすることで得られたものであり、
前記選別ユニットは、前記ターゲットワードベクトルと前記複数の予備選択画像のうちの各予備選択画像に対応する視覚的ワードベクトルとの類似度をそれぞれ算出するように構成され、前記複数の予備選択画像のうちのいずれか１つの予備選択画像に対応する視覚的ワードベクトルは、前記語彙ツリーを利用して、前記いずれか１つの予備選択画像から抽出された特徴により得た視覚的ワードベクトルであり、
前記選別ユニットは、前記複数の予備選択画像のうち、対応する視覚的ワードベクトルと前記ターゲットワードベクトルとの類似度が最も高い複数の候補画像を決定するように構成されることを特徴とする
項目２８又は２９に記載の視覚的測位装置。
（項目３１）
前記語彙ツリーにおける各リーフノードは、１つの視覚的ワードに対応し、前記語彙ツリーにおける最終層のノードは、リーフノードであり、
前記選別ユニットは、前記第１画像での、前記語彙ツリーにおける各リーフノードに対応する視覚的ワードに対応する重みを算出し、
前記第１画像での、前記各リーフノードに対応する視覚的ワードに対応する重みを組み合わせて１つのベクトルを形成し、前記ターゲットワードベクトルを得るように構成されることを特徴とする
項目３０に記載の視覚的測位装置。
（項目３２）
前記語彙ツリーの各ノードは、１つのクラスタ中心に対応し、
前記選別ユニットは、
前記語彙ツリーを利用して、前記第１画像から抽出された特徴を分類し、ターゲットリーフノードに分類された中間特徴を得るように構成され、前記ターゲットリーフノードは、前記語彙ツリーにおけるいずれか１つのリーフノードであり、ターゲットリーフノードは、ターゲット視覚的ワードに対応し、
前記選別ユニットは、前記中間特徴、前記ターゲット視覚的ワードの重み及び前記ターゲット視覚的ワードに対応するクラスタ中心に基づいて、前記第１画像での、前記ターゲット視覚的ワードに対応するターゲット重みを算出するように構成され、前記ターゲット重みは、前記ターゲット視覚的ワードの重みと正に相関し、前記ターゲット視覚的ワードの重みは、前記語彙ツリーを生成する時に前記ターゲット視覚的ワードに対応する特徴の数に基づいて決定されることを特徴とする
項目３１に記載の視覚的測位装置。
（項目３３）
前記中間特徴は、少なくとも１つのサブ特徴を含み、前記ターゲット重みは、前記中間特徴に含まれる各サブ特徴に対応する重みパラメータの和であり、前記サブ特徴に対応する重みパラメータは、特徴距離と負に相関し、前記特徴距離は、前記サブ特徴と対応するクラスタ中心とのハミング距離であることを特徴とする
項目３２に記載の視覚的測位装置。
（項目３４）
前記選別ユニットは、語彙ツリーに基づいて、前記第１画像から抽出された第３特徴をリーフノードに分類するように構成され、前記語彙ツリーは、前記測位されるべきシーンで抽出された画像から抽出された特徴をクラスタリングすることで得られたものであり、前記語彙ツリーの最終層のノードは、リーフノードであり、各リーフノードは、複数の特徴を含み、
前記選別ユニットは、各前記リーフノードにおける前記第３特徴と第４特徴に対して特徴マッチングを行い、各前記リーフノードにおける、前記第３特徴とマッチングした第４特徴を得るように構成され、前記第４特徴は、ターゲット候補画像から抽出された特徴であり、前記ターゲット候補画像は、前記第１候補画像シーケンスに含まれるいずれか１つの画像であり、
前記選別ユニットは、各前記リーフノードにおける、前記第３特徴とマッチングした第４特徴に基づいて、前記ターゲット候補画像の、前記第１画像とマッチングした特徴の数を得るように構成されることを特徴とする
項目２７から３３のうちいずれか一項に記載の視覚的測位装置。
（項目３５）
前記決定ユニットは更に、変換行列及び前記第１姿勢に基づいて、前記カメラの三次元位置を決定するように構成され、前記変換行列は、前記ポイントクラウドマップの角度及び位置を変換し、前記ポイントクラウドマップの輪郭と屋内平面図をアライメントすることで得られたものであることを特徴とする
項目２５から３４のうちいずれか一項に記載の視覚的測位装置。
（項目３６）
前記決定ユニットは、Ｌ対の特徴点の位置関係がいずれも前記第１姿勢に合致すると判定するように構成され、各対の特徴点のうちの１つの特徴点は前記第１画像から抽出されたものであり、もう１つの特徴点は、前記第１画像シーケンスにおける画像から抽出されたものであり、Ｌは、１より大きい整数であることを特徴とする
項目２２から３５のうちいずれか一項に記載の視覚的測位装置。
（項目３７）
前記視覚的測位装置は、
複数の画像シーケンスを取得するように構成される第１取得ユニットであって、各画像シーケンスは、測位されるべきシーンにおける１つ又は複数の領域を収集することで得られたものである、第１取得ユニットと、
前記複数の画像シーケンスに基づいて、前記ポイントクラウドマップを構築するように構成される地図構築ユニットであって、前記複数の画像シーケンスのうちのいずれか１つの画像シーケンスは、１つ又は複数の領域のサブポイントクラウドマップを構築するためのものであり、前記ポイントクラウドマップは、前記第１電子マップ及び前記第２電子マップを含む、地図構築ユニットと、を更に備えることを特徴とする
項目２３から３６のうちいずれか一項に記載の視覚的測位装置。
（項目３８）
前記視覚的測位装置は、
前記測位されるべきシーンに対して撮影を行うことで得られた複数枚の訓練画像を取得するように構成される第２取得ユニットと、
前記複数枚の訓練画像に対して特徴抽出を行い、訓練特徴集合を得るように構成される特徴抽出ユニットと、
前記訓練特徴集合における特徴に対して複数回のクラスタリングを行い、前記語彙ツリーを得るように構成されるクラスタリングユニットと、を更に備えることを特徴とする
項目３０から３７のうちいずれか一項に記載の視覚的測位装置。
（項目３９）
前記視覚的測位装置は、サーバであり、前記視覚的測位装置は、
ターゲット機器からの前記第１画像を受信するように構成される受信ユニットであって、前記ターゲット機器に前記カメラが搭載された、受信ユニットを更に備えることを特徴とする
項目２２から３７のうちいずれか一項に記載の視覚的測位装置。
（項目４０）
前記視覚的測位装置は、
前記カメラの位置情報を前記ターゲット機器に送信するように構成される送信ユニットを更に備えることを特徴とする
項目３９に記載の視覚的測位装置。
（項目４１）
前記視覚的測位装置は、前記カメラを搭載した電子機器であることを特徴とする
項目２２から３８のうちいずれか一項に記載の視覚的測位装置。
（項目４２）
端末装置であって、
ターゲット画像を収集するように構成されるカメラと、
サーバにターゲット情報を送信するように構成される送信ユニットであって、前記ターゲット情報は、前記ターゲット画像又は前記ターゲット画像から抽出された特徴シーケンス、及び前記カメラの内部パラメータを含む、送信ユニットと、
位置情報を受信するように構成される受信ユニットであって、前記位置情報は、前記カメラの位置及び方向を示すためのものであり、前記位置情報は、前記サーバにより第２候補画像シーケンスに基づいて決定された、前記ターゲット画像を収集する時の前記カメラの位置情報であり、前記第２候補画像シーケンスは、前記サーバによりターゲットウィンドウに基づいて第１候補画像シーケンスにおける各フレームの画像の順番を調整することで得られたものであり、前記ターゲットウィンドウは、画像ライブラリから決定された、ターゲットフレーム画像を含む連続した複数フレームの画像であり、前記画像ライブラリは、電子マップを構築するためのものであり、前記ターゲットフレーム画像は、前記画像ライブラリにおける、第２画像とマッチングした画像であり、前記第２画像は、前記カメラにより第１画像を収集する前に収集された画像であり、前記第１候補画像シーケンスにおける各フレームの画像は、前記第１画像とのマッチング度の順番に応じてソートされる、受信ユニットと、
電子マップを表示するように構成される表示ユニットであって、前記電子マップに前記カメラの位置及び方向が含まれる、表示ユニットと、を備える、前記端末装置。
（項目４３）
視覚的測位システムであって、サーバと、端末装置と、を備え、前記サーバは、項目１から１９のうちいずれか一項に記載の視覚的測位方法を実行するように構成され、前記端末装置は、項目２１に記載の視覚的測位方法を実行するように構成される、前記視覚的測位システム。
（項目４４）
電子機器であって、
プログラムを記憶するためのメモリと、
前記メモリに記憶された前記プログラムを実行するように構成されるプロセッサと、を備え、前記プログラムが実行される時、前記プロセッサは、項目１から２０のうちいずれか一項に記載の視覚的測位方法を実行する、前記電子機器。
（項目４５）
コンピュータ可読記憶媒体であって、前記コンピュータ可読記憶媒体にコンピュータプログラムが記憶されており、該コンピュータプログラムは、プログラム命令を含み、前記プログラム命令がプロセッサにより実行される時、前記プロセッサに、項目１から２０のうちいずれか一項に記載の視覚的測位方法を実行させる、前記コンピュータ可読記憶媒体。
（項目４６）
コンピュータプログラム製品であって、前記コンピュータプログラムは、プログラム命令を含み、前記プログラムがプロセッサにより実行される時、前記プロセッサに、項目１から２０のうちいずれか一項に記載の視覚的測位方法を実行させる、前記コンピュータプログラム製品。

本願の実施例による語彙ツリーを示す概略図である。本願の実施例による視覚的測位方法を示す図である。本願の実施例によるもう１つの視覚的測位方法を示す図である。本願の実施例によるまた１つの視覚的測位方法を示す図である。本願の実施例による測位ナビゲーション方法を示す図である。本願の実施例によるポイントクラウドマップ構築方法を示す図である。本願の実施例による視覚的測位装置の構造を示す概略図である。本願の実施例による端末の構造を示す概略図である。本願の実施例によるもう１つの端末の構造を示す概略図である。本願の実施例によるサーバの構造を示す概略図である。

本願の実施例における技術的解決手段をより明確に説明するために、以下、本願の実施例又は背景技術に必要な図面を説明する。

当業者に本願の技術的解決手段をより良く理解させるために、以下、本願の実施例における図面を参照しながら、本願の実施例における技術的解決手段を明瞭に説明する。勿論、記述される実施例は、全ての実施例ではなく、ただ本願の一部の実施例である。

なお、本願の明細書における実施例及び特許請求の範囲並びに上記図面に言及された「第１」、「第２」及び「第３」等の用語は、類似した対象を区別するためのものであり、特定の順番又は前後順序を説明するためのものではない。なお、「備える」と「有する」という用語及びそれらの如何なる変形は、非排他的な包含を網羅することを意図している。例えば、一連の工程又はユニットを含む方法、システム、製品又は装置は、明記された工程又はユニットに限定されず、明記されていないか又はこれらのプロセス、方法、製品又は装置固有の他の工程又はユニットを含んでもよい。

非視覚的情報に基づいた測位方法は、一般的には、測位されるべきシーンに装置を事前配置する必要があり、且つ測位精度が高くない。現在、視覚的情報に基づいた測位方法は、主な研究方向である。本願の実施例で提供される視覚的測位方法は、位置認識、測位ナビゲーションなどのシーンに適用可能である。以下、本願の実施例で提供される視覚的測位方法の位置認識シーン及び測位ナビゲーションシーンへの適用を簡単に説明する。

位置認識シーンにおいて、例えば、大型デパートでは、デパート（即ち、測位されるべきシーン）に対して領域分割を行い、各領域に対して運動からの構造復元（ＳｔｒｕｃｔｕｒｅｆｒｏｍＭｏｔｉｏｎ：ＳＦＭ）等の技術を利用してデパートのポイントクラウドマップを構築することができる。ユーザは、該デパートにおいて、自己の所在位置及び／又は方向を決定しようとする場合、携帯電話におけるターゲットアプリケーションを起動することができる。該携帯電話は、カメラにより周りの画像を収集し、電子マップをディスプレイに表示し、該電子マップで、該ユーザの現在の所在位置及び方向を示す。該ターゲットアプリケーションは、屋内での正確な測位を実現するために特別に開発されたアプリケーションである。

測位ナビゲーションシーンにおいて、例えば、大型デパートでは、デパートに対して領域分割を行い、各領域に対してＳＦＭ等の技術を利用してデパートのポイントクラウドマップを構築することができる。ユーザがデパートにおいて迷っているか又はある店に行きたい場合、該ユーザは、携帯電話におけるターゲットアプリケーションを起動し、到着すべき宛先アドレスを入力する。該ユーザは、携帯電話をかざして前方に向けて画像を収集する。収集された画像を該携帯電話にリアルタイムで表示し、例えば矢印のような、該ユーザが到着すべき宛先アドレスを示すマークを表示する。該ターゲットアプリケーションは、屋内での正確な測位を実現するために特別に開発されたアプリケーションである。携帯電話の演算能力が低いため、クラウド側で演算を行う必要があり、つまり、クラウド側で測位操作を実現させる必要がある。デパートに常に変動が発生するため、デパート全体に対してポイントクラウドマップを再構築する必要がなく、変動した領域のみに対してポイントクラウドマップを再構築すればよい。

本願の実施例は、画像特徴抽出、ＳＦＭアルゴリズム及び姿勢推定等に係るため、理解を容易にするために、以下、まず、本願の実施例に係る関連用語及び相関概念を説明する。

（１）特徴点、記述子及び方向付きＦＡＳＴと回転ＢＲＩＥＦ（ＯｒｉｅｎｔｅｄＦａｓｔａｎｄＲｏｔａｔｅｄＢｒｉｅｆ：ＯＲＢ）アルゴリズム
画像の特徴点は、例えば、輪郭点、暗い領域における輝点、明るい領域における暗点などのような画像における著しい点と理解されてもよい。該定義を得るために、特徴周囲の画像階調値に基づいて、候補特徴点の周囲の画素値を検出し、候補点の周囲領域において、該候補点の階調値との差が大きい画素点の数が十分であると、候補点を特徴点と認める。特徴点を得た後、１つの方式でこれらの特徴点の属性を記述する必要がある。これらの属性の出力は、該特徴点の記述子（ＦｅａｔｕｒｅＤｅｓｃｒｉｔｏｒｓ）と呼ばれる。ＯＲＢアルゴリズムは、特徴点を迅速に抽出して記述するアルゴリズムである。ＯＲＢアルゴリズムは、ＦＡＳＴ（ＦｅａｔｕｒｅｓｆｒｏｍＡｃｃｅｌｅｒａｔｅｄＳｅｇｍｅｎｔＴｅｓｔ）アルゴリズムを利用して特徴点を検出する。ＦＡＳＴアルゴリズムは、コーナー検出に用いられるアルゴリズムである。該アルゴリズムの原理は、画像における検出点を取り、該点を円心とした周囲の１６個の画素点により、検測点がコーナーであるかどうかを判定することである。ＯＲＢアルゴリズムは、ＢＲＩＥＦアルゴリズムを利用して１つの特徴点の記述子を算出する。ＢＲＩＥＦアルゴリズムの要旨は、キーポイントＰの周囲で、所定のモデルでＮ個のポイント対を選択し、該Ｎ個のポイント対の比較結果を組み合わせて記述子とすることである。

ＯＲＢアルゴリズムの最大の特徴は、演算速度が速いことである。それは、ＦＡＳＴを利用して特徴点を検出することによるものである。ＦＡＳＴの検出速度は、その名称の通り、非常に速いことが知られている。また、それは、ＢＲＩＥＦアルゴリズムを利用して記述子を算出する。該記述子に特有のバイナリストリングの表現形態は、記憶空間を節約するだけでなく、マッチングにかかる時間を大幅に短縮する。例えば、特徴点Ａ、Ｂの記述子は、Ａ：１０１０１０１１、Ｂ：１０１０１０１０と記述される。例えば、８０％のような閾値を設定する。ＡとＢの記述子の類似度が９０％より大きい場合、ＡとＢが同一の特徴点であると判定する。つまり、該２つの点のマッチングに成功した。該例において、ＡとＢとは、最終桁のみが異なり、類似度が８７．５％であり、８０％より大きい。従って、Ａは、Ｂとマッチングした。

（２）ＳＦＭアルゴリズム
運動からの構造復元（ＳｔｒｕｃｔｕｒｅＦｒｏｍＭｏｔｉｏｎ：ＳＦＭ）アルゴリズムは、収集された種々の無秩序なピクチャに基づいて三次元再構築を行うオフラインアルゴリズムである。核心的なアルゴリズムＳｔｒｕｃｔｕｒｅＦｒｏｍＭｏｔｉｏｎを行う前に、準備を行い、適切なピクチャを選別する必要がある。まず、ピクチャから焦点距離情報を抽出し、続いて、ＳＩＦＴなどの特徴抽出アルゴリズムを利用して画像特徴を抽出し、ｋｄ－ｔｒｅｅモデルを利用して２枚のピクチャの特徴点同士のユークリッド距離を算出して特徴点のマッチングを行うことで、マッチングした特徴点の数が要件を満たす画像対を得る。ＳＩＦＴ（Ｓｃａｌｅ－ＩｎｖａｒｉａｎｔＦｅａｔｕｒｅＴｒａｎｓｆｏｒｍ）は、局所的特徴を検出するアルゴリズムである。ｋｄ－ｔｒｅｅは、ＢＳＴ（ＢｉｎａｒｙＳｅａｒｃｈＴｒｅｅ）から進化したものであり、高次元インデックスツリー型データ構造である。大規模な高次元データに対する密な探索比較シーンに適用されることが多く、主に、最近傍探索（ＮｅａｒｅｓｔＮｅｉｇｈｂｏｒ）及び近似最近傍探索（ＡｐｐｒｏｘｉｍａｔｅＮｅａｒｅｓｔＮｅｉｇｈｂｏｒ）である。コンピュータビジョンにおいて主に、画像検索及び認識における高次元特徴ベクトルの探索及び比較である。各画像マッチング対に対して、に対してエピポーラ幾何を算出し、基礎行列（即ち、Ｆ行列）を推定し、ｒａｎｓａｃアルゴリズムによりマッチング対を最適化して改良する。このようなマッチング対において、検出されるまでチェーンのように伝達される特徴点があれば、軌跡を形成することができる。続いて、ＳｔｒｕｃｔｕｒｅＦｒｏｍＭｏｔｉｏｎに入る。肝心なステップ１において、好適な画像対を選択してバンドル調整（ＢｕｎｄｌｅＡｄｊｕｓｔｍｅｎｔ：ＢＡ）プロセス全体を初期化する。まず、選択された初期されるべき２枚のピクチャに対して第１回のＢＡをおコアに、続いて、新たなピクチャを繰り返して追加し、新たなＢＡを行い、追加可能な好適ピクチャがなくなければ、ＢＡを終了する。カメラ推定パラメータ及びシーンの幾何情報を得る。つまり、スパース３Ｄポイントクラウド（ポイントクラウドマップ）を得る。

（３）ＲＡＮＳＡＣアルゴリズム
ランダムサンプルコンセンサスアルゴリズム（ｒａｎｄｏｍｓａｍｐｌｅｃｏｎｓｅｎｓｕｓ，ＲＡＮＳＡＣ）は、反復の方式で、アウトライアを含む一組の観測されるデータから、数学的モデルのパラメータを推算する。ＲＡＮＳＡＣアルゴリズムの基本的仮定は、サンプルにインライア（ｉｎｌｉｅｒｓ：モデルにより記述される可能なデータ）が含まれ、アウトライア（ｏｕｔｌｉｅｒｓ：正常な範囲から大きく外れて数学的モデルに適応できないデータ）も含まれ、つまり、データ集合に騒音が含まれることである。これらのアウトライアは、誤った測定、誤った仮定、誤った演算により発生したものである可能性がある。ＲＡＮＳＡＣアルゴリズムの入力は、一組の観測データ、観測データを解釈であるか又は観測データに適応できるパラメータ化モデル、幾つかの信頼できるパラメータである。ＲＡＮＳＡＣは、データにおける一組のランダム部分集合を繰り返して選択することでターゲットを達成する。選択された部分集合は、インライアポイントと過程され、下記方法で検証される。ステップ１において、１つのモデルが仮設したインライアポイントに適応し、つまり、全ての未知パラメータは、いずれも仮設したインライアポイントにより算出されることが可能である。ステップ２において、ステップ１で得られたモデルにより、全ての他のデータをテストする。あるポイントが推定したモデルに適用可能であれば、これもインライアポイントと認める。ステップ３において、仮設したインライアポイントと分類されたポイントが十分に多ければ、推定したモデルは、十分に合理的である。ステップ４において、モデルが初期仮設インライアポイントのみにより推定されたため、仮設した全てのインライアポイントにより、モデルを再推定する。ステップ５において、最後に、インライアポイントとモデルの誤り率を推定することでモデルを評価する。該プロセスは、所定の回数で繰り返して実行される。各回で発生したモデルは、インライアポイントが少な過ぎるため捨てられるか又は既存のモデルより好適であるため利用される。

（４）語彙ツリー
語彙ツリーは、視覚的語彙（視覚的ワードとも呼ばれる）に基づいて画像を検出するための効率的なデータ構造である。膨大な画像ライブラリに対して、１つのツリー構造は、マッチングした画像を探すために全てのキーワードを走査することなく、準線形時間内で行われるキーワード検索を許容する。従って、検索速度を大幅に向上させることができる。以下、語彙ツリーの構築工程を紹介する。ステップ１において、全ての訓練画像のＯＲＢ特徴を抽出する。各訓練画像に対して約３０００個の特徴を抽出する。訓練画像は、測位されるべきシーンから収集される。ステップ２において、Ｋ平均法（ｋ－ｍｅａｎ）により、抽出された全ての特徴をＫ個のクラスタにクラスタリングする。各クラスタに対して同様な方式で、Ｋ個のクラスタにクラスタリングしてＬ層まで継続し、各層における各クラスタ中心を保留し、最終的に語彙ツリーを生成する。Ｋ及びＬはいずれも１より大きい整数である。例えば、Ｋは、１０であり、Ｌは、６である。リーフノードである第Ｌ層のノードは、最終的視覚的ワードである。語彙ツリーにおける１つのノードは、１つのクラスタ中心である。図１は、本願の実施例による語彙ツリーを示す概略図である。図１に示すように、語彙ツリーは、計（Ｌ＋１）層を含み、第１層は、１つのルートノードを含み、最終層は、複数のリーフノードを含む。

図２は、本願の実施例による視覚的測位方法を示す。図２に示すように、該方法は以下を含んでもよい。

２０１において、視覚的測位装置が画像ライブラリから第１候補画像シーケンスを決定する。

該視覚的測位装置は、サーバであってもよく、携帯電話、タブレットなどのような画像を収集できる携帯端末であってもよい。該画像ライブラリは、電子マップを構築するためのものである。該第１候補画像シーケンスは、Ｍ個の画像を含み、該第１候補画像シーケンスにおける各フレームの画像は、第１画像とのマッチング度の順番に応じてソートされる。該第１画像は、ターゲット機器のカメラにより収集された画像であり、Ｍは、１より大きい整数である。例えば、Ｍは、５、６又は８等である。該ターゲット機器は、携帯電話、タブレットなどのような画像及び／又は映像を収集できる機器であってもよい。該実現形態において、まず、視覚的ワードベクトルの類似度を算出することで、複数の候補画像を選び出し、更に、該複数の候補画像から、第１画像とマッチングした特徴の数が最も多いＭ個の画像を取得する。画像検索効率が高い。

幾つかの実施例において、該第１候補画像シーケンスにおける１フレーム目の画像の、該第１画像とマッチングした特徴の数は、最も多い。該第１候補画像シーケンスにおける最終フレームの画像の、該第１画像とマッチングした特徴の数は、最も少ない。

幾つかの実施例において、該第１候補画像シーケンスにおける１フレーム目の画像の、該第１画像とマッチングした特徴の数は、最も少ない。該第１候補画像シーケンスにおける最終フレームの画像の、該第１画像とマッチングした特徴の数は、最も多い。

幾つかの実施例において、視覚的測位装置はサーバであり、第１画像は、受信した、携帯電話などの携帯端末からの画像である。該第１画像は、携帯端末により測位されるべきシーンで収集された画像であってもよい。

幾つかの実施例において、視覚的測位装置は、携帯電話、タブレットなどの画像を収集できる携帯端末であり、第１画像は、該視覚的測位装置により測位されるべきシーンで抽出された画像である。

このような方式によれば、画像ライブラリから幾つかの画像をスクリーニングし、これらの画像から、対応する視覚的ワードベクトルと該第１画像の視覚的ワードベクトルとの類似度が最も高い複数の候補画像を選択することができる。画像検出の効率を大幅に向上させることができる。

ステップ２０２において、ターゲットウィンドウに応じて、第１候補画像シーケンスにおける各フレームの画像の順番を調整し、第２候補画像シーケンスを得る。該ターゲットウィンドウは、画像ライブラリから決定された、ターゲットフレームの画像を含む連続した複数フレームの画像を含む。該ターゲットフレームの画像は、該画像ライブラリにおける、第２画像とマッチングした画像であり、該第２画像は、該カメラにより第１画像を収集する前に収集された画像である。

幾つかの実施例において、ターゲットウィンドウに応じて、第１候補画像シーケンスにおける各フレームの画像の順番を調整し、第２候補画像シーケンスを得るための実現形態は、以下のとおりである。該第１候補画像シーケンスにおける各フレームの画像が該第１画像とのマッチング度の昇順に応じてソートされた場合、該第１候補画像シーケンスにおける、該ターゲットウィンドウに位置する画像を、該第１候補画像シーケンスの最終位置に調整する。該第１候補画像シーケンスにおける各フレームの画像が該第１画像とのマッチング度の降順に応じてソートされた場合、該第１候補画像シーケンスにおける、該ターゲットウィンドウに位置する画像を、該第１候補画像シーケンスの先頭位置に調整する。視覚的測位装置に画像ライブラリが記憶されてもよく、又は画像ライブラリが関連付けられてもよい。該画像ライブラリにおける画像は、測位されるべきシーンのポイントクラウドマップを構築するためのものである。

幾つかの実施例において、該画像ライブラリは、１つ又は複数の画像シーケンスを含む。各画像シーケンスは、該測位されるべきシーンの１つの領域を収集することで得られた連続した複数フレームの画像を含む。各画像シーケンスは、１つのサブポイントクラウドマップの構築に用いられる。つまり、１つの領域のポイントクラウドマップの構築に用いられる。これらのサブポイントクラウドマップは、該ポイントクラウドマップを構成する。該画像ライブラリにおける画像は、連続したものであってもよいことが理解されるべきである。実際の適用において、測位されるべきシーンに対して領域分割を行い、各領域に対して多角度の画像シーケンスを収集する。各領域は、少なくとも正逆両方向の画像シーケンスを必要とする。

該ターゲットウィンドウは、該ターゲットフレームの画像を含む１つの画像シーケンスであってもよく、該ターゲットフレームの画像を含む画像シーケンスの一部であってもよい。例えば、該ターゲットウィンドウは、６１フレームの画像を含む。つまり、ターゲット画像及び該ターゲットフレームの画像の前後各３０フレームの画像を含む。本願の実施例において、ターゲットウィンドウの大きさを限定しない。第１候補画像シーケンスにおける画像が順に画像１、画像２、画像３、画像４及び画像５であり、画像３及び画像５がキャリブレーション画像であるとすれば、該第２候補画像シーケンスにおける画像は、順に画像３、画像５、画像１、画像２及び画像４である。図２における方法のプロセスは、連続したフレームの測位を実現させ、視覚的測位装置は、ステップ２０１、ステップ２０３、ステップ２０４及びステップ２０５を実行することで単一のフレームの測位を実現させることができることが理解されるべきである。

２０３において、該第２候補画像シーケンスに基づいて、該第１画像を収集する時の該カメラのターゲット姿勢を決定する。

ここのターゲット姿勢は、少なくとも、第１画像を収集する時のカメラの位置を含んでもよい。別の幾つかの実施例において、該ターゲット姿勢は、第１画像を収集する時のカメラの位置及び姿勢を含んでもよい。該カメラの姿勢は、カメラの向きを含むが、これに限定されない。

幾つかの実施例において、該第２候補画像シーケンスに基づいて、該第１画像を収集する時の該カメラのターゲット姿勢を決定するための実現形態は以下のとおりである。第１画像シーケンス及び該第１画像に基づいて、該カメラの第１姿勢を決定する。該第１画像シーケンスは、該画像ライブラリにおける、第１参照フレーム画像に隣接する連続した複数フレームの画像を含み、該第１参照フレーム画像は、前記第２候補画像シーケンスに含まれる。該第１姿勢に基づいて該カメラの位置を測位することに成功したと判定した場合、該第１姿勢を該ターゲット姿勢として決定する。該第１姿勢に基づいて該カメラの位置を測位することに失敗したと判定した場合、第２画像シーケンス及び該第１画像に基づいて、該カメラの第２姿勢を決定する。該第２画像シーケンスは、該画像ライブラリにおける、第２参照フレーム画像に隣接する連続した複数フレームの画像を含み、該第２参照フレーム画像は、該第２候補画像シーケンスにおける、該第１参照フレーム画像の１フレーム後の画像又は１フレーム前の画像である。

幾つかの実施例において、該第１画像シーケンスは、該第１参照フレーム画像の前のＫ１フレームの画像、該第１参照フレーム画像及び該第１参照フレーム画像の後のＫ１フレームの画像を含む。Ｋ１は、１より大きい整数であり、例えば、Ｋ１は、１０である。

幾つかの実施例において、第１画像シーケンス及び該第１画像に基づいて、該カメラの第１姿勢を決定することは、該第１画像シーケンスにおける各画像から抽出された特徴のうち、該第１画像から抽出された特徴とマッチングしたＦ個の特徴を決定することであって、Ｆは、０より大きい整数である、ことと、該Ｆ個の特徴、ポイントクラウドマップでの、該Ｆ個の特徴に対応する空間座標点及び該カメラの内部パラメータに基づいて、該第１姿勢を決定することであって、該ポイントクラウドマップは、測位されるべきシーンの電子マップであり、該測位されるべきシーンは、該カメラが該第１画像を収集する時に所在するシーンである、ことと、を含んでもよい。

例えば、視覚的測位装置は、ＰｎＰアルゴリズムを用いて、該Ｆ個の特徴、ポイントクラウドマップでの、該Ｆ個の特徴に対応する空間座標点及び該カメラの内部パラメータに基づいて、該第１姿勢を決定することができる。該Ｆ個の特徴のうちの各特徴は、画像における１つの特徴点に対応する。各特徴は、１つの２Ｄ参照点（即ち、画像での、特徴点の二次元座標）に対応する。２Ｄ参照点と空間座標点（即ち、３Ｄ参照点）に対してマッチングを行うことで各２Ｄ参照点に対応する空間座標点を決定することができる。これにより、２Ｄ参照点と空間座標点との一対一関係を知ることができる。各特徴が１つの２Ｄ参照点に対応し、各２Ｄ参照点が１つの空間座標点とマッチングしたため、各特徴に対応する空間座標点を知ることができる。視覚的測位装置は、他の方式により、ポイントクラウドマップでの、各特徴に対応する空間座標点を決定することもでき、本願は、これを限定するものではない。ポイントクラウドマップでの、該Ｆ個の特徴に対応する空間座標点は、Ｆ個のワールド座標系における３Ｄ参照点（即ち、空間座標点）である。パースペクティブｎポイント（Ｐｅｒｓｐｅｃｔｉｖｅ－ｎ－Ｐｏｉｎｔ：ＰｎＰ）は、３Ｄから２Ｄポイント対への運動を求める方法である。つまり、Ｆ個の３Ｄ空間点が与えられる場合、カメラの姿勢を求める。ＰｎＰの既知要件は、Ｆ個のワールド座標系における３Ｄ参照点（３Ｄｒｅｆｅｒｅｎｃｅｐｏｉｎｔｓ）座標と、該Ｆ個の３Ｄ点に対応する、画像に投影された２Ｄ参照点（２Ｄｒｅｆｅｒｅｎｃｅｐｏｉｎｔｓ）座標と、カメラの内部パラメータと、を含み、Ｆは、０より大きい整数である。ＰｎＰ課題を解くことで、カメラ（カメラであってもよい）の姿勢を得ることができる。ＰｎＰ課題を解くための方式は、例えば、Ｐ３Ｐ、直接的線形変換（ＤＬＴ），ＥＰｎＰ（ＥｆｆｉｃｉｅｎｔＰｎＰ）、ＵＰｎＰ及び非線形最適化方法などのような様々な方式を含む。従って、視覚的測位装置は、ＰｎＰ課題を解くためのいずれか１つの方式により、Ｆ個の特徴、ポイントクラウドマップでの、該Ｆ個の特徴に対応する空間座標点及び前記カメラの内部パラメータに基づいて、カメラの第２姿勢を決定することができる。なお、特徴の誤マッチングが存在することを考慮すると、ここで、Ｒａｎｓａｃアルゴリズムを利用して反復を行い、各回の反復で内点の数を統計する。内点の数は所定の比例を満たすか又は反復を所定回数実行した後、反復を終了し、内点の数が最大になる解（Ｒ及びｔ）を返送する。ここで、Ｒは、回転行列であり、ｔは、並進ベクトルである。これらは、カメラの姿勢に含まれる２組のパラメータである。本願の実施例において、カメラは、カメラ及び他の画像又は映像収集装置に相当する。

本願の実施例は、連続フレームによる測位方法を提供する。第１画像の前の、カメラの第１姿勢を測位した１フレームの画像を利用して、第１候補画像シーケンスにおける各画像の順番を調整する。タイムシーケンスでの、画像の連続性を十分に利用して、該第１画像とマッチングする可能性が最もかい画像を該第１候補画像シーケンスの先頭にソートすることができる。従って、該第１画像とマッチングする画像をより迅速に見付けることができる。

幾つかの実施例において、視覚的測位装置は、ステップ２０３を実行した後、変換行列及び該カメラのターゲット姿勢に基づいて、該カメラの三次元位置を決定することもできる。ここで、該変換行列は、ポイントクラウドマップの角度及び位置を変換し、該ポイントクラウドマップの輪郭と屋内平面図をアライメントすることで得られたものである、具体的には、回転行列Ｒと並進ベクトルｔを組み合わせて４＊４の行列

を形成し、左から該行列

を変換行列

で乗算することで、新たな行列

を得る。Ｔを

で表す。

は、カメラの最終的な三次元位置である。該実現形態において、カメラの三次元位置を正確に決定することができ、実現しやすい。

本願の実施例は、連続フレームによる測位方法を提供する。第１画像の前の、カメラの第１姿勢を測位した１フレームの画像を利用して、第１候補画像シーケンスにおける各画像の順番を調整する。タイムシーケンスでの、画像の連続性を十分に利用して、該第１画像とマッチングする可能性が最もかい画像を該第１候補画像シーケンスの先頭にソートすることができる。従って、該第１画像とマッチングする画像をより迅速に見付けることができ、更により迅速に測位することができる。

一実施形態において、第１姿勢に基づいてカメラの位置を測位することに成功したと判定したことは、Ｌ対の特徴点の位置関係がいずれも該第１姿勢に合致すると判定することであって、各対の特徴点のうちの１つの特徴点は前記第１画像から抽出されたものであり、もう１つの特徴点は、該第１画像シーケンスにおける画像から抽出されたものであり、Ｌは、１より大きい整数である、ことを含んでもよい。例示的には、該第１姿勢に基づいて、Ｒａｎｓａｃアルゴリズムにより、ＰｎＰを反復的に解く。各回の反復において、内点の数を統計する。内点の数がターゲット閾値（例えば、１２）より大きい場合、第１姿勢に基づいて該カメラの位置を測位することに成功したと判定する。内点の数が該ターゲット閾値（例えば、１２）以下である場合、第１姿勢に基づいて該カメラの位置を測位することに失敗したと判定する。実施例の適用において、視覚的測位装置は、第２候補画像シーケンスにおける１フレームの画像により該カメラの位置を測位することに失敗した場合、該第２候補画像シーケンスにおける該フレームの画像の次のフレームの画像により測位を行う。

該第２候補画像シーケンスにおける各フレームの画像により該カメラの位置を測位することに失敗した場合、測位失敗を返信する。本願の実施例で提供される方法は、連続フレームによる測位方法である。第１画像によりカメラの位置を測位することに成功した場合、引き続き、カメラにより収集された該第１画像の次のフレームの画像により測位を行う。

実際の適用において、視覚的測位装置は、第２候補シーケンスにおける各フレームの画像の順番に応じて、各フレームの画像を順次利用してカメラの位置を測位し、該カメラの位置の測位に成功するまで継続することができる。該第２候補画像シーケンスにおける各フレームの画像により該カメラの位置を測位することに失敗した場合、測位失敗を返信する。例えば、視覚的測位装置は、まず、第２候補画像シーケンスにおける１フレーム目の画像により測位を行う。測位に成功した場合、今回の測位を終了する。測位に失敗した場合、該第２候補画像シーケンスにおける２フレーム目の画像により測位を行う。このように類推する。画像シーケンス及び第１画像シーケンスによりカメラのターゲット姿勢を測位する方法は、いずれも同じであってもよい。

以下、画像ライブラリから第１候補画像シーケンスを如何に決定するかについて説明する。つまり、ステップ２０１の実現形態を説明する。

一実現形態において、画像ライブラリから第１候補画像シーケンスを決定することは、語彙ツリーを利用して、該第１画像から抽出された特徴をターゲットワードベクトルに変換することと、該ターゲットワードベクトルと画像ライブラリにおける各画像に対応するワードベクトルとの類似性スコアを算出することと、該画像ライブラリに含まれる各画像シーケンスにおける、該第１画像との類似性スコアが最も高い上位１０フレームの画像を取得し、予備選択画像シーケンスを得ることと、類似性スコアの降順に応じて、該予備選択画像シーケンスにおける各画像をソートした場合、上位２０％の画像を取り出して中間選択画像シーケンスとし、１０フレーム未満であると、上位１０フレームを直接的に取り出すことと、該中間選択画像シーケンスにおける各フレームの画像と該第１画像に対して特徴マッチングを行うことと、該中間選択画像シーケンスにおける各フレームの画像の、該第１画像とマッチングした特徴の数の降順に応じてソートした後、最初のＭ個の画像を取り、第１候補画像シーケンスを得ることと、を含んでもよい。

一実施形態において、画像ライブラリから第１候補画像シーケンスを決定することは、画像ライブラリにおける、対応する視覚的ワードベクトルと該第１画像に対応する視覚的ワードベクトルとの類似度（即ち、類似性スコア）が最も高い複数の候補画像を決定することと、該複数の候補画像と該第１画像に対して特徴マッチングをそれぞれ行い、各候補画像の、該第１画像とマッチングした特徴の数を得ることと、該複数の候補画像のうち、該第１画像とマッチングした特徴の数が最も多い該Ｍ個の画像を取得し、該第１候補画像シーケンスを得ることと、を含んでもよい。

幾つかの実施例において、Ｍは５である。該画像ライブラリにおけるいずれか１つの画像は、１つの視覚的ワードベクトルに対応し、該画像ライブラリにおける画像は、該ターゲット機器が該第１画像を収集する時に所在する測位されるべきシーンの電子マップを構築するためのものである。

幾つかの実施例において、該画像ライブラリにおける、対応する視覚的ワードベクトルと該第１画像に対応する視覚的ワードベクトルとの類似度が最も高い複数の候補画像を決定することは、該画像ライブラリにおける、対応する視覚的ワードの少なくとも１つが該第１画像に対応する視覚的ワードと同じである画像を決定し、複数の予備選択画像を得ることと、該複数の予備選択画像のうち、対応する視覚的ワードベクトルと該第１画像に対応する視覚的ワードベクトルとの類似度が最も高い上位Ｑパーセントの画像を決定し、該複数の候補画像を得ることであって、Ｑは、０より大きい実数である、ことと、を含んでもよい。例えば、Ｑは１０、１５、２０、３０等であってもよい。該画像ライブラリにおけるいずれか１つの画像は、少なくとも１つの視覚的ワードに対応し、該第１画像は、少なくとも１つの視覚的ワードに対応する。

幾つかの実施例において、視覚的測位装置は、下記方式で複数の候補画像を得る。語彙ツリーを利用して、該第１画像から抽出された特徴をターゲットワードベクトルに変換する。該ターゲットワードベクトルと該複数の予備選択画像のうちの各予備選択画像に対応する視覚的ワードベクトルとの類似度をそれぞれ算出する。該複数の予備選択画像のうち、対応する視覚的ワードベクトルと前記ターゲットワードベクトルとの類似度が最も高い上位Ｑパーセントの画像を決定し、該複数の候補画像を得る。該語彙ツリーは、該測位されるべきシーンで収集された訓練画像から抽出された特徴をクラスタリングすることで得られたものである。該複数の予備選択画像のうちのいずれか１つの予備選択画像に対応する視覚的ワードベクトルは、該語彙ツリーを利用して、該いずれか１つの予備選択画像から抽出された特徴により得た視覚的ワードベクトルである。

幾つかの実施例において、該複数の候補画像と該第１画像に対して特徴マッチングを行い、該第１画像とマッチングした各候補画像の特徴の数を得ることは、語彙ツリーに基づいて、該第１画像から抽出された第３特徴を参照リーフノードに分類することと、該第３特徴と第４特徴に対して特徴マッチングを行い、該第３特徴とマッチングした特徴を得ることと、を含んでもよい。該語彙ツリーは、該測位されるべきシーンで収集された画像から抽出された特徴をクラスタリングすることで得られたものである。該語彙ツリーの最終層のノードは、リーフノードであり、各リーフノードは、複数の特徴を含む。該第４特徴は、該参照リーフノードに含まれ、且つターゲット候補画像から抽出された特徴である。該ターゲット候補画像は、該第１候補画像シーケンスに含まれる。第１画像から抽出された１つの特徴が参照リーフノード（語彙ツリーにおけるいずれか１つのリーフノード）に対応すると、視覚的測位装置は、該特徴と１つの候補画像から抽出された特徴に対して特徴マッチングを行う場合、該特徴と、該候補画像から抽出された特徴のうち、該参照リーフノードに対応する特徴と、のみに対して特徴マッチングを行う必要があり、該特徴と他の特徴に対して特徴マッチングを行う必要がない。

視覚的測位装置に、各視覚的ワード（即ち、リーフノード）に対応する画像インデックス及び特徴インデックスが事前記憶されてもよい。幾つかの実施例において、対応する画像インデックス及び特徴インデックスを各視覚的ワードに追加する。これらのインデックスは、特徴マッチングを速くするためのものである。例えば、画像ライブラリにおける１００個の画像がいずれも１つの視覚的ワードに対応する場合、該視覚的ワードに該１００個の画像のインデックス（即ち、画像インデックス）及び該１００個の画像における、該視覚的ワードに対応するリーフノードに入る特徴のインデックス（即ち、特徴インデックス）を追加する。また例えば、第１画像から抽出された参照特徴点が参照ノードに入り、該参照特徴と複数の候補画像から抽出された特徴に対して特徴マッチングする場合、まず該複数の候補画像のうち、該参照ノードの画像インデックスにより指示されるターゲット候補画像を決定し、特徴インデックスに基づいて、該ターゲット候補画像の、該参照ノードに入る特徴を決定する。該参照特徴と該ターゲット候補画像の、該参照ノードに入る特徴に対してマッチングを行う。このような方式で特徴マッチングの演算量を低減させ、特徴マッチングの速度を大幅に向上させる。

以下、語彙ツリーを利用して、第１画像から抽出された特徴を如何にターゲットワードベクトルに変換するかについて説明する。

語彙ツリーを利用して、第１画像から抽出された特徴をターゲットワードベクトルに変換することは、第１画像から抽出された特徴、ターゲット視覚的ワードの重み及び該ターゲット視覚的ワードに対応するクラスタ中心に基づいて、該第１画像での、該ターゲット視覚的ワードに対応するターゲット重みを算出するであって、該ターゲットワードベクトルは、該第１画像での、語彙ツリーに対応する各視覚的ワードに対応する重みを含み、該ターゲット重みは、該ターゲット視覚的ワードの重みと正に相関する。該実現形態において、残余重みにより、ワードベクトルを算出する。同一の視覚的ワードに入る特徴の相違性を考慮し、区分性を増加させ、ＴＦ－ＩＤＦ（ｔｅｒｍｆｒｅｑｕｅｎｃｙ－ｉｎｖｅｒｓｅｄｏｃｕｍｅｎｔｆｒｅｑｕｅｎｃｙ）フレームワークにアクセスしやすく、画像検出及び特徴マッチングの速度を向上させることができる。

幾つかの実施例において、下記式により、語彙ツリーを利用して、該第１画像から抽出された特徴をターゲットワードベクトルに変換する。

ただし、

は、ｉ番目の視覚的ワード自体の重みであり、

は、特徴

からｉ番目の視覚的ワードのクラスタ中心

までのハミング距離であり、ｎは、該第１画像から抽出された特徴のうち、ｉ番目の視覚的ワードに対応するノードに入る特徴の数を表す。

は、該第１画像での、ｉ番目の視覚的ワードに対応する重みを表す。語彙ツリーにおける１つのリーフノードは、１つの視覚的ワードに対応し、該ターゲットワードベクトルは、該第１画像での、該語彙ツリーに対応する各視覚的ワードに対応する重みを含む。該語彙ツリーの１つのノードは、１つのクラスタ中心に対応する。例えば、語彙ツリーは、１０００個のリーフノードを含み、各リーフノードは、１つの視覚的ワードに対応する。視覚的測位装置は、該第１画像のターゲットワードベクトルを得るために、該第１画像での、各視覚的ワードに対応する重みを算出する必要がある。幾つかの実施例において、視覚的測位装置は、該第１画像での、該語彙ツリーにおける各リーフノードに対応する視覚的ワードに対応する重みを算出し、該第１画像での、該各リーフノードに対応する視覚的ワードに対応する重みを組み合わせてベクトルを形成し、該ターゲットワードベクトルを得ることができる。同じ方式で、画像ライブラリにおける各画像に対応するワードベクトルを算出して、上記各予備選択画像に対応する視覚的ワードベクトルを得ることができる。ｉ及びｎはいずれも１より大きい整数である。特徴

は、該第１画像から抽出されたいずれか１つの特徴である。いずれか１つの特徴は、１つのバイナリストリングに対応する。つまり、

は、１つのバイナリストリングである。各視覚的ワード中心は、１つのバイナリストリングに対応する。つまり、

は、１つのバイナリストリングである。従って、特徴

からｉ番目の視覚的ワード中心

までのハミング距離を算出することができる。ハミング距離は、２つの（長さが同じである）ワード間で、対応する位置にある異なった文字数を表す。換言すれば、これは、１つの文字列をもう１つの文字列に変換する場合、置き換えられるべき文字の数を表す。例えば、１０１１１０１と１００１００１とのハミング距離は２である。幾つかの実施例において、語彙ツリーにおける各視覚的ワード自体の重みは、それに対応するノードに含まれる特徴の数と負に相関する。幾つかの実施例において、

が０でないと、対応する画像のインデックスをｉ番目の視覚的ワードに追加する。該インデックスは、画像の検出を速くするためのものである。

幾つかの実施例において、第１画像抽出された特徴、ターゲット視覚的ワードの重み及び該ターゲット視覚的ワードに対応するクラスタ中心に基づいて、該第１画像での、該ターゲット視覚的ワードに対応するターゲット重みを算出することは、語彙ツリーを利用して、該第１画像から抽出された特徴を分類し、ターゲットリーフノードに分類された中間特徴を得ることと、該中間特徴、該ターゲット視覚的ワードの重み及び該ターゲット視覚的ワードに対応するクラスタ中心に基づいて、該第１画像での、該ターゲット視覚的ワードに対応するターゲット重みを算出することと、を含む。ここで、該ターゲットリーフノードは、該ターゲット視覚的ワードに対応する。式（１）から分かるように、該ターゲット重みは、該中間特徴に含まれる各特徴に対応する重みパラメータの和である。例えば、特徴

に対応する重みパラメータは、

である。該中間特徴は、第１特徴及び第２特徴を含んでもよい。該第１特徴と該クラスタ中心とのハミング距離は、第１距離であり、該第２特徴と該クラスタ中心とのハミング距離は、第２距離である。該第１距離と該第２距離が異なると、該第１特徴に対応する第１重みパラメータは、該第２特徴に対応する第２重みパラメータと異なる。

該実現形態において、残余重みにより、ワードベクトルを算出する。同一の視覚的ワードに入る特徴の相違性を考慮し、区分性を増加させ、ＴＦ－ＩＤＦ（ｔｅｒｍｆｒｅｑｕｅｎｃｙ－ｉｎｖｅｒｓｅｄｏｃｕｍｅｎｔｆｒｅｑｕｅｎｃｙ）フレームワークにアクセスしやすく、画像検出及び特徴マッチングの速度を向上させることができる。

以下、単一の画像に基づいて測位を行う具体的な例を説明する。図３は、本願の実施例によるもう１つの視覚的測位方法を示す図である。該方法は、以下を含んでもよい。

３０１において、端末が一枚のターゲット画像を取る。

該端末は、携帯電話及び他の撮像機能及び／又は写真撮り機能を持つ機器であってもよい。

３０２において、端末がＯＲＢアルゴリズムを利用してターゲット画像のＯＲＢ特徴を抽出する。

幾つかの実施例において、端末が他の特徴抽出方式で該ターゲット画像の特徴を抽出する。

３０３において、端末がターゲット画像から抽出されたＯＲＢ特徴及びカメラの内部パラメータをサーバに伝送する。

ステップ３０２からステップ３０３は、端末がターゲット画像及びカメラの内部パラメータをサーバに伝送するステップで置き換えられてもよい。従って、サーバにより該画像のＯＲＢ特徴を抽出することで、端末の演算量を低減させることができる。実際の適用において、ユーザは、端末におけるターゲットアプリケーションを起動し、該ターゲットアプリケーションによりカメラを利用してターゲット画像を収集し、該ターゲット画像をサーバに伝送することができる。カメラの内部パラメータは、該端末のカメラの内部パラメータであってもよい。

３０４において、サーバは、ＯＲＢ特徴を中間ワードベクトルに変換する。

サーバは、ＯＲＢ特徴を中間ワードベクトルに変換する方式は、前記実施例における語彙ツリーを利用して第１画像から抽出された特徴をターゲットワードベクトルに変換する方式と同じである。ここで、詳細な説明を省略する。

３０５において、サーバが中間ワードベクトルに基づいて各画像シーケンスにおける、ターゲット画像と最も類似した上位Ｈ枚の画像を決定し、各画像シーケンスにおける、該ターゲット画像との類似性スコアが最も高い上位Ｈ枚の画像に対応する類似性スコアを得る。

各画像シーケンスは、いずれも画像ライブラリに含まれる。各画像シーケンスは、サブポイントクラウドマップを構築するためのものである。これらのサブポイントクラウドマップは、測位されるべきシーンに対応するポイントクラウドマップを構成する。ステップ３０５において、画像ライブラリの各画像シーケンスにおける、ターゲット画像と最も類似した上位Ｈ枚の画像を検索する。Ｈは、１より大きい整数であり、例えば、Ｈは１０である。各画像シーケンスは、該測位されるべきシーンの１つ又は複数の領域を収集すること得られたものであってもよい。サーバは、中間ワードベクトルに基づいて、各画像シーケンスにおける各画像とターゲット画像との類似性スコアを算出する。類似性スコアの式は、以下のとおりであってもよい。

ただし、

は、視覚的ワードベクトル

と視覚的ワードベクトル

との類似性スコアを表す。視覚的ワードベクトル

は、ターゲット画像から抽出されたＯＲＢ特徴に基づいて、式（１）により算出されたワードベクトルであってもよい。視覚的ワードベクトル

は、画像ライブラリにおけるいずれか１つの画像から抽出されたＯＲＢ特徴に基づいて、式（１）により算出されたワードベクトルであってもよい。語彙ツリーは、Ｌ個のリーフノードを含み、各リーフノードは、１つの視覚的ワードに対応し、

であり、ただし、

は、該ターゲット画像での、Ｌ番目の視覚的ワードに対応する重みを表し、Ｌは、１より大きい整数である。視覚的ワードベクトル

と視覚的ワードベクトル

の次元数が同じであることは理解されるべきである。サーバに画像ライブラリにおける各画像に対応する視覚的ワードベクトル（上記参照ワードベクトルに対応する）が記憶されてもよい。各画像に対応する視覚的ワードベクトルは、該画像から抽出された特徴に基づいて式（１）で算出されたものである。サーバは、画像ライブラリにおける各画像シーケンスに含まれる画像に対応する視覚的ワードベクトルを算出する必要がなく、ターゲット画像に対応する視覚的ワードベクトルのみを算出する必要があることは理解されるべきである。

幾つかの実施例において、中間ワードベクトルと同一の視覚的ワードを有する画像のみを検索する。即ち、中間ワードベクトルにおける非ゼロ項に対応するリーフノードにおける画像インデックス宇のみに基づいて、類似度を比較する。つまり、画像ライブラリにおける、対応する視覚的ワードの少なくとも１つがターゲット画像に対応する視覚的ワードと同じである画像を決定し、複数の予備選択画像を得て、中間ワードベクトルに基づいて、該複数の予備選択画像のうち、該ターゲット画像と最も類似した上位Ｈフレームの画像を検索する。例えば、ターゲット画像での、ｉ番目の視覚的ワードに対応する重み及び１つの予備選択画像での、対応する重みがいずれも０でないと、該ターゲット画像と該予備選択画像は、いずれも該ｉ番目の視覚的ワードに対応する。

３０６において、サーバが各画像シーケンスにおける、ターゲット画像との類似性スコアが最も高い上位Ｈ枚の画像に対応する類似性スコアの降順に応じて、該ターゲット画像との類似性スコアが高い複数枚の画像を取り出して候補画像とする。

幾つかの実施例において、画像ライブラリは、Ｆ個の画像シーケンスを含む。（Ｆ×Ｈ）枚の画像のうち、該ターゲット画像との類似性スコアが最も高い上位２０％の画像を取り出して候補画像とする。該（Ｆ×Ｈ）枚の画像は、各画像シーケンスにおける、該ターゲット画像との類似性スコアが最も高い上位Ｈ枚の画像を含む。該上位２０％の画像の数が１０枚未満であると、上位１０枚の画像を直接的に取る。ステップ３０６において、候補画像の選別操作を行う。

３０７において、サーバが候補画像における各画像とターゲット画像に対して特徴マッチングを行い、マッチングした特徴の数が最も多い上位Ｇ枚の画像を決定する。

Ｇは、１より大きい整数であり、例えば、Ｇは、５である。幾つかの実施例において、まず、ターゲット画像の特徴を一個ずつＬ層の１つのノードに分類する。分類方式は、ルートノードから、現在の特徴との距離（ハミング距離）が最も短いクラスタ中心点（ツリーにおけるノード）を層ごとに選択する。各分類された特徴ついて、対応するノードに特徴インデックスが存在し且つその属する画像が候補画像の特徴のみに対してマッチングを行う。従って、特徴マッチングを速くすることができる。ステップ３０７は、候補画像における各画像とターゲット画像に対して特徴マッチングを行うプロセスである。従って、ステップ３０７は、２枚の画像に対する特徴マッチングプロセスと見做される。

３０８において、サーバが参照画像シーケンスにおける連続した（２Ｋ＋１）の画像を取得する。

該参照画像シーケンスにおける画像は収集順に応じてソートされる。該参照画像シーケンスは、該上位Ｇ枚の画像のうちのいずれか一枚の画像、該（２Ｋ＋１）枚の画像（局所的ポイントクラウドマップに対応する）は、該いずれか１枚の画像、該いずれか１枚の画像の前のＫ枚の画像及び該いずれか一枚の画像の後のＫ枚の画像を含む。ステップ３０８は、局所的ポイントクラウドマップの決定プロセスである。

３０９において、サーバが（２Ｋ＋１）枚の画像から抽出された特徴のうち、ターゲット画像から抽出された特徴とマッチングした複数の特徴を決定する。

該参照画像シーケンスにおける連続した（２Ｋ＋１）枚の画像は、１つの局所的ポイントクラウドマップに対応する。従って、ステップ３０９は、ターゲット画像と該局所的ポイントクラウドマップとのマッチングプロセス、即ち、図３におけるフレーム－局所的ポイントクラウドマップのマッチングと見做される。幾つかの実施例において、まず、語彙ツリーを利用して、対応する類似性スコアから抽出された特徴を分類し、続いて、ターゲット画像から抽出された特徴に対して同様な処理を行い、同一のノードに入る両部分の特徴のマッチングのみを考慮する。従って、特徴マッチングを速くすることができる。ここで、該両部分のうちの一部分は、ターゲット画像であり、もう１つの部分は、該（２Ｋ＋１）枚の画像である。

３１０において、サーバが複数の特徴、ポイントクラウドマップでの、該複数の特徴に対応する空間座標点及びカメラの内部パラメータに基づいて、カメラの姿勢を決定する。

ステップ３１０は、図２におけるステップ２０３と類似し、ここで、詳細な説明を省略する。サーバがステップ３１０を実行し、カメラの姿勢の測位に失敗した場合、上位Ｇ枚の画像における別の１枚の画像を利用してステップ３０８からステップ３１０を再実行し、該カメラの姿勢の測位に成功するまで継続する。例えば、まず、上位Ｇ枚の画像における１枚目の画像に基づいて（２Ｋ＋１）枚の画像を決定し、該（２Ｋ＋１）枚の画像を利用してカメラの姿勢を決定する。カメラの姿勢の決定に失敗した場合、上位Ｇ枚の画像のうちの２枚目の画像に基づいて新たな（２Ｋ＋１）枚の画像を決定し、新たな（２Ｋ＋１）枚の画像を利用してカメラの姿勢を決定する。上記操作を繰り返して実行し、該カメラの姿勢の測位に成功するまで継続する。

３１１、サーバがカメラの姿勢の決定に成功した場合、端末にカメラの位置情報を送信する。

該位置情報は、該カメラの三次元位置及び該カメラの方向を含んでもよい。サーバがカメラの姿勢の決定に成功した場合、変換行列及び該カメラの姿勢に基づいて、該カメラの三次元位置を決定し、該位置情報を生成することができる。

３１２において、サーバがカメラの姿勢の決定に失敗した場合、ステップ３０８を実行する。

サーバはステップ３０８を実行するたびに、上位Ｇ枚の画像における１枚の画像に基づいて、連続した（２Ｋ＋１）枚の画像を決定する必要もある。サーバがステップ３０８を実行するたびに決定した連続した（２Ｋ＋１）枚の画像が異なることに留意されたい。

３１３において、端末が電子マップにカメラの位置を表示する。

幾つかの実施例において、端末は、電子マップにカメラの位置及び方向を表示する。カメラ（即ち、カメラ）が端末に搭載され、該カメラの位置は、該端末の位置である。ユーザは、該カメラの位置及び方向に基づいて、自己が所在する位置及び方向を正確かつ迅速に決定することができる。

本願の実施例において、端末とサーバは、協働する。該端末は、画像収集及び特徴抽出を行う。該サーバは、測位を行い、測位結果（即ち、位置情報）を該端末に送信する。ユーザは、端末によりサーバに一枚の画像を送信すれば、自己が所在する位置を正確に決定することができる。

図３は、単一の画像に基づいて測位を行う具体的な例を説明する。実際の適用において、サーバは、端末からの連続した複数フレームの画像又は連続した複数フレームの画像の特徴に基づいて測位を行うこともできる。以下、複数フレームの画像に基づいて測位を行う具体的な例を説明する。図４は、本願の実施例によるもう１つの視覚的測位方法を示す。図４に示すように、該方法は以下を含んでもよい。

４０１において、サーバが端末により収集された連続した複数フレームの画像又は複数組の特徴を取得する。

各組の特徴は、１フレームの画像から抽出された特徴であってもよい。該複数組の特徴は、順に、連続した複数フレームの画像から抽出された特徴である。該連続した複数フレームの画像は、収集順に応じてソートされる。

４０２において、サーバが１フレーム目の画像又は該１フレーム目の画像から抽出された特徴に基づいて、カメラの姿勢を決定する。

該１フレーム目の画像は、連続した複数フレームの画像のうちの１フレーム目の画像である。ステップ４０２は、図３における単一の画像に基づいた測位方法に対応する。つまり、サーバは、図３における方法で、該１フレーム目の画像によりカメラの姿勢を決定することができる。連続した複数フレームの画像のうちの１フレーム目の画像による測位は、単一の画像に基づいた測位と同じである。つまり、連続した複数フレームによる測位における１フレーム目による測位は、単一の画像に基づいた測位と同じである。測位に成功した場合、連続フレームによる測位へ進み、測位に失敗した場合、単一の画像に基づいた測位を引き続き実行する。

４０３において、サーバが１フレーム前の画像に基づいてカメラの姿勢を決定することに成功した場合、ターゲット画像シーケンスにおけるＮフレームの連続した画像を決定する。

１フレーム前の画像に基づいてカメラの姿勢を決定することに成功したことは、サーバがステップ４０２を実行し、該カメラの姿勢の決定に成功したことを指す。該ターゲット画像シーケンスは、１フレーム前の画像に基づいてカメラの姿勢を決定することに成功した場合に用いられる特徴の属する画像シーケンスである。例えば、サーバは、ターゲット画像シーケンスにおける一枚の画像の前のＫ枚の画像、該画像及び該画像の後のＫ枚の画像と１フレーム前の画像に対して特徴マッチングを行い、マッチングした特徴点を利用してカメラの姿勢を測位するに成功した。サーバは、該ターゲット画像シーケンスにおける該画像の前の３０枚の画像の、該画像及び該画像の後の３０枚の画像を取得する。つまり、連続したＮフレームの画像を取得する。

４０４において、サーバが、ターゲット画像シーケンスにおけるＮフレームの連続した画像に基づいて、カメラの姿勢を決定する。

ステップ４０４は、図３におけるステップ３０８からステップ３１０に対応する。

４０５において、サーバは、１フレーム前の画像に基づいてカメラの姿勢を決定することに失敗した場合、複数枚の候補画像を決定する。

該複数枚の候補画像は、サーバにより１フレーム前の画像に基づいて決定された候補画像である。つまり、１フレーム前の画像に基づいてカメラの姿勢を決定することに失敗した場合、サーバは、１フレーム前の候補画像を現在のフレームの画像の候補画像とすることができる。従って、画像検出の工程を減少させ、時間を節約することができる。

４０６において、サーバが１フレーム前の候補画像に基づいて、カメラの姿勢を決定する。

ステップ４０６は、図３におけるステップ３０７からステップ３１０に対応する。

サーバは、連続フレームによる測位に進んだ後、主に、１フレーム前による測位の成功経験を利用して、現在のフレームとマッチングした画像が前回測位に成功した画像の附近にある可能性があることを導き出す。従って、前回測位に成功した画像の附近に１つのウィンドウを開き、該ウィンドウに入ったこれらフレームの画像を優先的に考慮する。ウィンドウの大きさは、最大６１フレームであり、前後に各３０フレームがある。３０フレーム未満である場合、カットオフする。測位に成功した場合、ウィンドウを伝達する。測位に失敗した場合、単一フレームの候補画像に基づいて測位を行う。本願の実施例において、連続フレームスライディングウィンドウメカニズムにより、タイムシーケンスでの連続した情報を利用して、演算量を効果的に減少させ、測位の成功率を向上させることができる。

本願の実施例において、サーバが連続フレームによる測位を行う場合、１フレーム前による測位の成功経験を利用して、後続の測位操作を速くすることができる。

図４は、連続フレームによる測位を説明する。以下、連続フレームによる測位の適用実施例を説明する。図５は、本願の実施例による測位ナビゲーション方法を示す図である。図５に示すように、該方法は、以下を含んでもよい。

５０１において、端末がターゲットアプリケーションを起動する。

該ターゲットアプリケーションは、屋内での正確な測位を実現させるために特別に開発されたアプリケーシである。実際の適用において、ユーザは、端末のディスプレイでの、ターゲットアプリケーションに対応するアイコンをクリックした後、該ターゲットアプリケーションを起動する。

５０２において、端末がターゲットインタフェースにより、ユーザから入力された宛先アドレスを受信する。

該ターゲットインタフェースは、端末が該ターゲットアプリケーションを起動した後、該端末のスクリーンに表示されたインタフェースである。つまり、ターゲットアプリケーションのインタフェースである。該宛先アドレスは、レストラン、カフェ、映画館などであってもよい。

５０３において、端末が、現在収集された画像を表示し、収集された画像又は収集された画像から抽出された特徴をサーバに伝送する。

端末は、ユーザから入力された宛先アドレスを受信した後、リアルタイム又はほぼリアルタイムにカメラ（即ち、該端末におけるカメラ）により周囲環境の画像を収集し、収集された画像を所定の間隔でサーバに伝送することができる。幾つかの実施例において、端末は、収集された画像の特徴を抽出し、抽出された特徴を所定の間隔でサーバに伝送する。

５０４において、サーバが受信された画像又は特徴に基づいて、カメラの姿勢を決定する。

ステップ５０４は、図４におけるステップ４０１からステップ４０６に対応する。つまり、サーバは、図４における測位方法で、受信された各フレームの画像又は各フレームの画像の特徴に基づいて、カメラの姿勢を決定する。サーバは、端末からの画像シーケンス又は特徴シーケンスに基づいて、順に、カメラの姿勢を決定し、更に該カメラの位置を決定することができることは理解されるべきである。つまり、サーバは、リアルタイム又はほぼリアルタイムにカメラの姿勢を決定することができる。

ステップ５０５において、サーバが変換行列及びカメラの姿勢に基づいて、該カメラの三次元位置を決定する。

ここで、該変換行列は、ポイントクラウドマップの角度及び位置を変換し、該ポイントクラウドマップの輪郭と屋内平面図をアライメントすることで得られたものである、具体的には、回転行列Ｒと並進ベクトルｔを組み合わせて４＊４の行列

を形成し、左から該行列

を変換行列

で乗算することで、新たな行列

を得る。Ｔを

で表す。

は、カメラの最終的な三次元位置である。

５０６において、サーバが端末に位置情報を送信する。

該位置情報は、該カメラの三次元情報、該カメラの方向及びマーキング情報を含んでもよい。該マーキング情報は、ユーザが現在の位置から宛先アドレスに到着するための経路を示す。幾つかの実施例において、マーキング情報は、ターゲット距離内の経路のみを示す。該ターゲット距離は、現在表示された画像における道路との最大距離である。該ターゲット距離は、１０メートル、２０メートル、５０メートルなどであってもよい。サーバがカメラの姿勢の測位に成功した場合、変換行列及び該カメラの姿勢に基づいて、該カメラの三次元位置を決定することができる。サーバは、ステップ５０６を実行する前に、該カメラの位置、宛先アドレス及び電子マップに基づいて、該マーキング情報を生成することができる。

５０７において、端末が収集された画像をリアルタイムに表示し、ユーザが到着すべき宛先アドレスを示すマークを表示する。

例えば、ユーザがデパートにおいて迷っているか又はある店に行きたい場合、該ユーザは、携帯電話におけるターゲットアプリケーションを起動し、到着すべき宛先アドレスを入力する。該ユーザは、携帯電話をかざして前方に向けて画像を収集する。収集された画像を該携帯電話にリアルタイムで表示し、例えば矢印のような、該ユーザが到着すべき宛先アドレスを示すマークを表示する。

本願の実施例において、サーバは、カメラの位置を正確に測位し、ユーザにナビゲーション情報を提供することができる。該ユーザは、案内に基づいて、宛先アドレスに迅速に到着することができる。

前記実施例において、サーバがカメラの姿勢を決定する場合、ポイントクラウドマップを用いる必要がある。以下、ポイントクラウドマップ構築の具体的な例を説明する。図６は、本願の実施例によるポイントクラウドマップ構築方法を示す図である。図６に示すように、該方法は以下を含んでもよい。

６０１において、サーバが複数のビデオシーケンスを取得する。

ユーザは、測位されるべきシーンに対して領域分割を行い、各領域に対して多角度のビデオシーケンスを収集する。各領域は、少なくとも正逆両方向のビデオシーケンスを必要とする。該複数のビデオシーケンスは、測位されるべきシーンにおける領域を多角度から撮影することで得られたビデオシーケンスである。

６０２において、サーバが複数のビデオシーケンスにおける各ビデオシーケンスに対してターゲットフレームレートで画像を抽出し、複数の画像シーケンスを得る。

サーバは、ターゲットフレームレートで１つのビデオシーケンスを抽出することで、１つの画像シーケンスを得ることができる。該ターゲットフレームレートは、３０フレーム／秒であってもよい。各画像シーケンスは、１つのサブポイントクラウドマップを構築するためのものである。

６０３において、サーバは、各画像シーケンスを利用してポイントクラウドマップを構築する。

サーバは、ＳＦＭアルゴリズムで、各画像シーケンスを利用してサブポイントクラウドマップを構築することができる。全てのサブポイントクラウドマップは、該ポイントクラウドマップを構成する。

本願の実施例において、測位されるべきシーンを複数の領域に分割し、各領域に対してサブポイントクラウドマップを構築する。従って、測位されるべきシーンにおける１つの領域が変換された後、測位されるべきシーン全体のポイントクラウドマップを構築する必要がなく、該領域のビデオシーケンスを収集して該領域のサブポイントクラウドマップを構築すればよい。作業量を効果的に減少させることができる。

サーバは、測位されるべきシーンのポイントクラウドマップを構築するための複数の画像シーケンスを得た後、該複数の画像シーケンスを画像ライブラリに記憶し、語彙ツリーを利用して該複数の画像シーケンスにおける各画像に対応する視覚的ワードベクトルを決定することができる。サーバは、該複数の画像シーケンスにおける各画像に対応する視覚的ワードベクトルを記憶することができる。幾つかの実施例において、語彙ツリーに含まれる各視覚的ワードに、対応する画像のインデックスを追加する。例えば、画像ライブラリにおける１つの画像での、語彙ツリーにおける１つの視覚的ワードに対応する重みが０ではないと、該視覚的ワードに該画像のインデックスを追加する。幾つかの実施例において、サーバは、語彙ツリーに含まれる各視覚的ワードに、対応する画像のインデックス及び特徴インデックスを追加する。サーバは、語彙ツリーを利用して、各画像の各特徴をリーフノードに分類することができる。各リーフノードは、１つの視覚的ワードに対応する。例えば、各画像シーケンスにおける画像から抽出された特徴のうち、１００個の特徴が１つのリーフノードに入ると、該リーフノードに対応する視覚的ワードで該１００個の特徴の特徴インデックスを調整する。該特徴インデックスは、該１００個の特徴を示す。

以下、画像シーケンス及び第１画像に基づいてカメラのターゲット姿勢を測位する具体的な例を提供する。それは、前記画像ライブラリに基づいて、前記第１画像シーケンスに基づいて構築されたサブポイントクラウドマップを決定することであって、サブポイントクラウドマップは、３Ｄ座標及び前記３Ｄ座標に対応する３Ｄ記述子を含む、ことと、前記第１画像の２Ｄ座標及び前記２Ｄ座標に対応する２Ｄ記述子を決定することと、前記２Ｄ座標及び前記２Ｄ記述子を前記３Ｄ座標及び３Ｄ記述とマッチングすることと、マッチングに成功した前記２Ｄ座標及び２Ｄ記述子と３Ｄ座標及び３Ｄ記述子との変換関係に基づいて、第１姿勢又は第２姿勢などのようなカメラ測位に利用可能な姿勢を決定することと、を含んでもよい。３Ｄ記述子は、３Ｄ座標の記述情報であってもよく、該３Ｄ座標に隣接する座標及び／又は隣接する座標の属性情報を含む。２Ｄ記述子は、２Ｄ座標の記述情報であってもよい。例えば、ｐｎｐアルゴリズムで、上記変換関係によりカメラの第１姿勢又は第２姿勢を決定する。

図７は、本願の実施例による視覚的測位装置の構造を示す概略図である。図７に示すように、該視覚的測位装置は、
画像ライブラリから、第１候補画像シーケンスを決定するように構成される選別ユニットであって、該画像ライブラリは、電子マップを構築するためのものであり、該第１候補画像シーケンスにおける各フレームの画像は、第１画像とのマッチング度の順番に応じてソートされ、該第１画像は、カメラにより収集された画像である、選別ユニット７０１を備え、
選別ユニット７０１は更に、ターゲットウィンドウに応じて、該第１候補画像シーケンスにおける各フレームの画像の順番を調整し、第２候補画像シーケンスを得るように構成され、該ターゲットウィンドウは、画像ライブラリから決定された、ターゲットフレームの画像を含む連続した複数フレームの画像であり、該ターゲットフレームの画像は、該画像ライブラリにおける、第２画像とマッチングした画像であり、該第２画像は、該カメラにより第１画像を収集する前に収集された画像であり、
該装置は、該第２候補画像シーケンスに基づいて、該第１画像を収集する時の該カメラのターゲット姿勢を決定するように構成される決定ユニット７０２を更に備える。

幾つかの実施例の実現形態において、決定ユニット７０２は、第１画像シーケンス及び該第１画像に基づいて、該カメラの第１姿勢を決定するように構成され、該第１画像シーケンスは、該画像ライブラリにおける、第１参照フレーム画像に隣接する連続した複数フレームの画像を含み、該第１参照フレーム画像は、該第２候補画像シーケンスに含まれ、
決定ユニット７０２は、該第１姿勢に基づいて該カメラの位置を測位することに成功したと判定した場合、該第１姿勢を該ターゲット姿勢として決定するように構成される。

幾つかの実施例の実現形態において、決定ユニット７０２は、該第１姿勢に基づいて該カメラの位置を測位することに失敗したと判定した場合、第２画像シーケンス及び該第１画像に基づいて、該カメラの第２姿勢を決定するように構成され、該第２画像シーケンスは、該画像ライブラリにおける、第２参照フレーム画像に隣接する連続した複数フレームの画像を含み、該第２参照フレーム画像は、該第２候補画像シーケンスにおける、該第１参照フレーム画像の１フレーム後の画像又は１フレーム前の画像であり、決定ユニット７０２は、該第２姿勢に基づいて該カメラの位置を測位することに成功したと判定した場合、該第２姿勢を該ターゲット姿勢として決定するように構成される。

幾つかの実施例の実現形態において、決定ユニット７０２は、該第１画像シーケンスにおける各画像から抽出された特徴のうち、該第１画像から抽出された特徴とマッチングしたＦ個の特徴を決定するように構成され、Ｆは、０より大きい整数であり、
決定ユニット７０２は、該Ｆ個の特徴、ポイントクラウドマップでの、該Ｆ個の特徴に対応する空間座標点及び該カメラの内部パラメータに基づいて、該第１姿勢を決定するように構成され、該ポイントクラウドマップは、測位されるべきシーンの電子マップであり、該測位されるべきシーンは、該カメラが前記第１画像を収集する時に所在するシーンである。

幾つかの実施例の実現形態において、選別ユニット７０１は、該第１候補画像シーケンスにおける各フレームの画像が該第１画像とのマッチング度の昇順に応じてソートされた場合、該第１候補画像シーケンスにおける、該ターゲットウィンドウに位置する画像を、該第１候補画像シーケンスの最終位置に調整し、
該第１候補画像シーケンスにおける各フレームの画像が該第１画像とのマッチング度の降順に応じてソートされた場合、該第１候補画像シーケンスにおける、該ターゲットウィンドウに位置する画像を、該第１候補画像シーケンスの先頭位置に調整するように構成される。

幾つかの実施例の実現形態において、選別ユニット７０１は、該第１候補画像シーケンスにおける各フレームの画像が該第１画像とのマッチング度の昇順に応じてソートされた場合、該第１候補画像シーケンスにおける、該ターゲットウィンドウに位置する画像を、該第１候補画像シーケンスの最終位置に調整し、該第１候補画像シーケンスにおける各フレームの画像が該第１画像とのマッチング度の降順に応じてソートされた場合、該第１候補画像シーケンスにおける、該ターゲットウィンドウに位置する画像を、該第１候補画像シーケンスの先頭位置に調整するように構成される。

幾つかの実施例の実現形態において、選別ユニット７０１は、該画像ライブラリにおける、対応する視覚的ワードの少なくとも１つが該第１画像に対応する視覚的ワードと同じである画像を決定し、複数の予備選択画像を得るように構成され、該画像ライブラリにおけるいずれか１つの画像は、少なくとも１つ視覚的ワードに対応し、該第１画像は、少なくとも１つの視覚的ワードに対応し、選別ユニット７０１は、該複数の予備選択画像のうち、対応する視覚的ワードベクトルと該第１画像に対応する視覚的ワードベクトルとの類似度が最も高い複数の候補画像を決定するように構成される。

幾つかの実施例の実現形態において、選別ユニット７０１は、該複数の予備選択画像のうち、対応する視覚的ワードベクトルと前記第１画像に対応する視覚的ワードベクトルとの類似度が最も高い上位Ｑパーセントの画像を決定し、該複数の候補画像を得るように構成され、Ｑは、０より大きい実数である。

幾つかの実施例の実現形態において、選別ユニット７０１は、語彙ツリーを利用して、該第１画像から抽出された特徴をターゲットワードベクトルに変換するように構成され、該語彙ツリーは、該測位されるべきシーンで収集された訓練画像から抽出された特徴をクラスタリングすることで得られたものであり、
選別ユニット７０１は、該ターゲットワードベクトルと該複数の予備選択画像のうちの各予備選択画像に対応する視覚的ワードベクトルとの類似度をそれぞれ算出するように構成され、該複数の予備選択画像のうちのいずれか１つの予備選択画像に対応する視覚的ワードベクトルは、該語彙ツリーを利用して、該いずれか１つの予備選択画像から抽出された特徴により得た視覚的ワードベクトルであり、
選別ユニット７０１は、該複数の予備選択画像のうち、対応する視覚的ワードベクトルと該ターゲットワードベクトルとの類似度が最も高い複数の候補画像を決定するように構成される。

幾つかの実施例の実現形態において、該語彙ツリーにおける各リーフノードは、１つの視覚的ワードに対応し、該語彙ツリーにおける最終層のノードは、リーフノードであり、
選別ユニット７０１は、該第１画像での、該語彙ツリーにおける各リーフノードに対応する視覚的ワードに対応する重みを算出し、該第１画像での、該各リーフノードに対応する視覚的ワードに対応する重みを組み合わせて１つのベクトルを形成し、該ターゲットワードベクトルを得るように構成される。

幾つかの実施例の実現形態において、該語彙ツリーの各ノードは、１つのクラスタ中心に対応し、
選別ユニット７０１は、該語彙ツリーを利用して、該第１画像から抽出された特徴を分類し、ターゲットリーフノードに分類された中間特徴を得るように構成され、該ターゲットリーフノードは、該語彙ツリーにおけるいずれか１つのリーフノードであり、ターゲットリーフノードは、ターゲット視覚的ワードに対応し、
選別ユニット７０１は、該中間特徴、該ターゲット視覚的ワードの重み及び該ターゲット視覚的ワードに対応するクラスタ中心に基づいて、該第１画像での、該ターゲット視覚的ワードに対応するターゲット重みを算出するように構成され、該ターゲット重みは、該ターゲット視覚的ワードの重みと正に相関し、該ターゲット視覚的ワードの重みは、該語彙ツリーを生成する時に該ターゲット視覚的ワードに対応する特徴の数に基づいて決定される。

幾つかの実施例の実現形態において、選別ユニット７０１は、語彙ツリーに基づいて、該第１画像から抽出された第３特徴をリーフノードに分類するように構成され、該語彙ツリーは、該測位されるべきシーンで抽出された画像から抽出された特徴をクラスタリングすることで得られたものであり、該語彙ツリーの最終層のノードは、リーフノードであり、各リーフノードは、複数の特徴を含み、
選別ユニット７０１は、各該リーフノードにおける該第３特徴と第４特徴に対して特徴マッチングを行い、各該リーフノードにおける、該第３特徴とマッチングした第４特徴を得るように構成され、該第４特徴は、ターゲット候補画像から抽出された特徴であり、該ターゲット候補画像は、該第１候補画像シーケンスに含まれるいずれか１つの画像であり、
選別ユニット７０１は、各該リーフノードにおける、該第３特徴とマッチングした第４特徴に基づいて、該ターゲット候補画像の、該第１画像とマッチングした特徴の数を得るように構成される。

幾つかの実施例の実現形態において、決定ユニット７０２は更に、変換行列及び該第１姿勢に基づいて、該カメラの三次元位置を決定するように構成され、該変換行列は、該ポイントクラウドマップの角度及び位置を変換し、該ポイントクラウドマップの輪郭と屋内平面図をアライメントすることで得られたものである。

幾つかの実施例の実現形態において、決定ユニット７０２は、Ｌ対の特徴点の位置関係がいずれも該第１姿勢に合致すると判定するように構成され、各対の特徴点のうちの１つの特徴点は該第１画像から抽出されたものであり、もう１つの特徴点は、該第１画像シーケンスにおける画像から抽出されたものであり、Ｌは、１より大きい整数である。

幾つかの実施例の実現形態において、該装置は、
複数の画像シーケンスを取得するように構成される第１取得ユニット７０３であって、各画像シーケンスは、測位されるべきシーンにおける１つ又は複数の領域を収集することで得られたものである、第１取得ユニット７０３と、
該複数の画像シーケンスに基づいて、該ポイントクラウドマップを構築するように構成される地図構築ユニット７０４であって、該複数の画像シーケンスのうちのいずれか１つの画像シーケンスは、１つ又は複数の領域のサブポイントクラウドマップを構築するためのものであり、該ポイントクラウドマップは、該第１電子マップ及び該第２電子マップを含む、地図構築ユニット７０４と、を更に備える。

幾つかの実施例の実現形態において、該装置は、
該測位されるべきシーンに対して撮影を行うことで得られた複数枚の訓練画像を取得するように構成される第２取得ユニット７０５と、
該複数枚の訓練画像に対して特徴抽出を行い、訓練特徴集合を得るように構成される特徴抽出ユニット７０６と、
該訓練特徴集合における特徴に対して複数回のクラスタリングを行い、該語彙ツリーを得るように構成されるクラスタリングユニット７０７と、を更に備える。第２取得ユニット７０５と第１取得ユニット７０３は、同一のユニットであってもよく、異なるユニットであってもよい。

幾つかの実施例の実現形態において、該視覚的測位装置は、サーバであり、該装置は、ターゲット機器からの該第１画像を受信するように構成される受信ユニット７０８であって、該ターゲット機器に該カメラが搭載された、受信ユニット７０８を更に備える。

幾つかの実施例の実現形態において、該装置は、
該カメラの位置情報を該ターゲット機器に送信するように構成される送信ユニット７０９を更に備える。

図８は、本願の実施例による端末の構造を示す概略図である。図８に示すように、該端末は、
ターゲット画像を収集するように構成されるカメラ８０１と、
サーバにターゲット情報を送信するように構成される送信ユニット８０２であって、該ターゲット情報は、該ターゲット画像又は該ターゲット画像から抽出された特徴シーケンス、及び該カメラの内部パラメータを含む、送信ユニット８０２と、
位置情報を受信するように構成される受信ユニット８０３であって、該位置情報は、該カメラの位置及び方向を示すためのものであり、該位置情報は、該サーバにより第２候補画像シーケンスに基づいて決定された、該ターゲット画像を収集する時の該カメラの位置情報であり、該第２候補画像シーケンスは、該サーバによりターゲットウィンドウに基づいて第１候補画像シーケンスにおける各フレームの画像の順番を調整することで得られたものであり、該ターゲットウィンドウは、画像ライブラリから決定された、ターゲットフレーム画像を含む連続した複数フレームの画像であり、該画像ライブラリは、電子マップを構築するためのものであり、該ターゲットフレーム画像は、該画像ライブラリにおける、第２画像とマッチングした画像であり、該第２画像は、該カメラにより第１画像を収集する前に収集された画像であり、該第１候補画像シーケンスにおける各フレームの画像は、該第１画像とのマッチング度の順番に応じてソートされる、受信ユニット８０３と、
電子マップを表示するように構成される表示ユニット８０４であって、該電子マップに該カメラの位置及び方向が含まれる、表示ユニット８０４と、を備える。

幾つかの実施例において、該端末は、該ターゲット画像における特徴を抽出するように構成される特徴抽出ユニット８０５を更に備える。

該位置情報は、該カメラの三次元位置及び該カメラの方向を含んでもよい。カメラ８０１は具体的には、ステップ３０１で言及した方法及び均等物による置き換え可能な方法を実行するように構成されてもよい。特徴抽出ユニット８０５は具体的には、ステップ３０２で言及した方法及び均等物による置き換え可能な方法を実行するように構成されてもよい。送信ユニット８０２は具体的には、ステップ３０３で言及した方法及び均等物による置き換え可能な方法を実行するように構成されてもよい。表示ユニット８０４は具体的には、ステップ３１３及び５０７で言及した方法及び均等物による置き換え可能な方法を実行するように構成されてもよい。図８における端末は、図３及び図５における端末により実行される動作を実現させることができることは、理解されるべきである。

上記視覚的測位装置及び端末における各ユニットの分割は、ただロジック機能の分割であり、実際に実現する時、その全て又は一部は、１つの物理的エンティティに集積されてもよく、物理的に別個のものであってもよい。例えば、上記各ユニットは、単独で配置された処理ユニットであってもよく、同一のチップに集積されて実現してもよい。なお、プログラムコードの形態でコントローラの記憶素子に記憶されてもよく、プロセッサの処理素子により上記各ユニットの機能を呼び出して実行する。なお、各ユニットは、集積されてもよく、独立で実現してもよい。ここの処理は、信号処理能力を持つ集積回路チップであってもよい。実現プロセスにおいて、上記方法の各工程又は上記各ユニットは、実現する過程において、プロセッサ素子におけるハードウェアの集積論理回路又はソフトウェアの形の指令により完成することができる。該処理素子は、例えば、中央演算装置（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ：ＣＰＵと略称）のような汎用プロセッサであってもよく、１つ又は複数の特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｒｇｒａｔｅｄＣｉｒｃｕｉｔ：ＡＳＩＣと略称）、１つ又は複数のマイクロプロセッサ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ：ＤＳＰと略称）又は１つ又は複数のフィールドプログラマブルゲートアレイ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ：ＦＰＧＡと略称）などのような前記方法を実行するように構成される１つ又は複数の集積回路であってもよい。

図９は、本願の実施例によるもう１つの端末の構造を示す概略図である。図９に示すように、本実施例における端末は、１つ又は複数のプロセッサ９０１、メモリ９０２、送受信機９０３、カメラ９０４及び入力出力装置９０５を備えてもよい。上記プロセッサ９０１、送受信機９０３、メモリ９０２、カメラ９０４及び入力出力装置９０５は、バス９０６を介して接続される。メモリ９０２は、メモリを記憶するように構成され、プロセッサ９０１は、メモリ９０２に記憶された命令を実行するように構成される。送受信機９０３は、データを送受信するように構成される。カメラ９０４は、画像を収集するように構成される。プロセッサ９０１は、送受信機９０３、カメラ９０４及び入力出力装置を制御し、図３及び図５における端末により実行される操作を実現させるように構成される。

本願の実施例において、前記プロセッサ９０１は、中央演算装置（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ：ＣＰＵ）であってもよく、該プロセッサは、他の汎用プロセッサ、デジタル信号プロセッサ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ：ＤＳＰ）、特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ：ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ：ＦＰＧＡ）又は他のプログラマブルロジックデバイス、ディスクリートゲート又はトランジスタロジックデバイス、ディスクリートハードウェアコンポーネント等であってもよい。汎用プロセッサはマイクロプロセッサであってもよいし、該プロセッサはマイクロプロセッサであってもよく、又は、該プロセッサは、如何なる従来のプロセッサ等であってもよい。

該メモリ９０２は、読み出し専用メモリ及びランダムアクセスメモリを含んでもよく、それは、プロセッサ９０１に命令及びデータを供給する。メモリ９０２の一は、不揮発性ランダムアクセスメモリを含んでもよい。例えば、メモリ９０２は、装置タイプ情報を記憶することもできる。

具体的な実現において、本願の実施例で記述されるプロセッサ９０１、メモリ９０２、送受信機９０３、カメラ９０４及び入力出力装置９０５は、前記いずれか１つの実施例に記載の端末の実現形態を実行することができ、ここで、詳細な説明を省略する。具体的には、送受信機９０３は送信ユニット８０２及び受信ユニット８０３の機能を実現させることができる。プロセッサ９０１は、特徴抽出ユニット８０５の機能を実現させることができる。入力出力装置９０５は、表示ユニット８０４の機能を実現させるように構成され、入力出力装置９０５は、ディスプレイであってもよい。

図１０は、本願の実施例によるサーバの構造を示す概略図である。該サーバ１１００は、構成又は特性により大きく相違することがある。１つ又は１つ以上の中央演算装置（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔｓ：ＣＰＵ）１０２２（例えば、１つ又は１つ以上のプロセッサ）及びメモリ１０３２、１つ又は１つ以上の、アプリケーションプログラム１０４２又はデータ１０４４を記憶するための記憶媒体１０３０（例えば、１つ又は１つ以上の大容量記憶装置）を備えてもよい。ここで、メモリ１０３２及び記憶媒体１０３０は、一時的記憶媒体又は永続的な記憶媒体であってもよい。記憶媒体１０３０に記憶されたプログラムは、１つ又は１つ以上のモジュール（図示されず）を含んでもよい。各モジュールは、サーバにおける一連の命令操作を含んでもよい。更に、中央演算装置１０２２は、記憶媒体１０３０と通信し、サーバ１１００で記憶媒体１０３０に記憶された一連の命令操作を実行するように構成されてもよい。

サーバ１１００は、１つ又は１つ以上の電源１０２６、１つ又は１つ以上の有線又は無線ネットワークインタフェース１０５０、１つ又は１つ以上の入力出力インタフェース１０５８及び／又は１つ又は１つ以上の、例えばＷｉｎｄｏｗｓ（登録商標）ＳｅｒｖｅｒＴＭ、ＭａｃＯＳＸＴＭ、Ｕｎｉｘ（登録商標）、Ｌｉｎｕｘ（登録商標）、ＦｒｅｅＢＳＤＴＭなどのようなオペレーティングシステム１０４１を更に備えてもよい。

上記実施例において、サーバにより実行される工程は、該図１０に示したサーバ構造によるものであってもよい。具体的には、入力出力インタフェース１０５８は、受信ユニット７０８及び送信ユニット７０９の機能を実現させることができる。中央演算装置１０２２は、選別ユニット７０１、決定ユニット７０２、第１取得ユニット７０３、地図構築ユニット７０４、第２取得ユニット７０５、特徴抽出ユニット７０６、クラスタリングユニット７０７の機能を実現させることができる。

本願の実施例において、コンピュータ可読記憶媒体を提供する。上記コンピュータ可読記憶媒体にコンピュータプログラムが記憶されており、上記コンピュータプログラムがプロセッサにより実行される時、画像ライブラリから、第１候補画像シーケンスを決定することであって、前記画像ライブラリは、電子マップを構築するためのものであり、前記第１候補画像シーケンスにおける各フレームの画像は、第１画像とのマッチング度の順番に応じてソートされ、前記第１画像は、カメラにより収集された画像である、ことと、ターゲットウィンドウに応じて、前記第１候補画像シーケンスにおける各フレームの画像の順番を調整し、第２候補画像シーケンスを得ることであって、前記ターゲットウィンドウは、画像ライブラリから決定された、ターゲットフレームの画像を含む連続した複数フレームの画像であり、前記ターゲットフレームの画像は、前記画像ライブラリにおける、第２画像とマッチングした画像であり、前記第２画像は、前記カメラにより第１画像を収集する前に収集された画像である、ことと、前記第２候補画像シーケンスに基づいて、前記第１画像を収集する時の前記カメラのターゲット姿勢を決定することと、を実現させる。

本願の実施例において、もう１つのコンピュータ可読記憶媒体を提供する。上記コンピュータ可読記憶媒体にコンピュータプログラムが記憶されており、上記コンピュータプログラムがプロセッサにより実行される時、カメラによりターゲット画像を収集することと、サーバにターゲット情報を送信することであって、前記ターゲット情報は、前記ターゲット画像又は前記ターゲット画像から抽出された特徴シーケンス、及び前記カメラの内部パラメータを含む、ことと、位置情報を受信することであって、前記位置情報は、前記カメラの位置及び方向を示すためのものであり、前記位置情報は、前記サーバにより第２候補画像シーケンスに基づいて決定された、前記ターゲット画像を収集する時の前記カメラの位置情報であり、前記第２候補画像シーケンスは、前記サーバによりターゲットウィンドウに基づいて第１候補画像シーケンスにおける各フレームの画像の順番を調整することで得られたものであり、前記ターゲットウィンドウは、画像ライブラリから決定された、ターゲットフレーム画像を含む連続した複数フレームの画像であり、前記画像ライブラリは、電子マップを構築するためのものであり、前記ターゲットフレーム画像は、前記画像ライブラリにおける、第２画像とマッチングした画像であり、前記第２画像は、前記カメラにより第１画像を収集する前に収集された画像であり、前記第１候補画像シーケンスにおける各フレームの画像は、前記第１画像とのマッチング度の順番に応じてソートされる、ことと、電子マップを表示することであって、前記電子マップに前記カメラの位置及び方向が含まれる、ことと、を実現させる。以上は本願の具体的な実施形態に過ぎず、本願の保護の範囲はそれらに制限されるものではなく、当業者が本願に開示された技術範囲内で容易に想到しうる変更や置換はいずれも、本願の保護範囲内に含まれるべきである。従って、本願の保護範囲は特許請求の範囲の保護範囲を基準とするべきである。

Claims

電子機器が実行する視覚的測位方法であって、前記視覚的測位方法は、
画像ライブラリから、第１候補画像シーケンスを決定することであって、前記画像ライブラリは、電子マップを構築するためのものであり、前記第１候補画像シーケンスにおける各フレームの画像は、第１画像とのマッチング度の順番に応じてソートされ、前記第１画像は、カメラにより収集された画像である、ことと、
ターゲットウィンドウに応じて、前記第１候補画像シーケンスにおける各フレームの画像の順番を調整し、第２候補画像シーケンスを得ることであって、前記ターゲットウィンドウは、画像ライブラリから決定された、ターゲットフレームの画像と、前記ターゲットフレームの画像の前後の連続した複数フレームの画像とを含み、前記ターゲットフレームの画像は、前記画像ライブラリにおける、第２画像とマッチングした画像であり、前記第２画像は、前記カメラにより第１画像を収集する前に収集された画像である、ことと、
前記第２候補画像シーケンスに基づいて、前記第１画像を収集する時の前記カメラのターゲット姿勢を決定することと
を含み、
前記ターゲットウィンドウに応じて、前記第１候補画像シーケンスにおける各フレームの画像の順番を調整し、第２候補画像シーケンスを得ることは、
前記第１候補画像シーケンスにおける各フレームの画像が前記第１画像とのマッチング度の昇順に応じてソートされた場合、前記第１候補画像シーケンスにおける、前記ターゲットウィンドウに位置する画像を、前記第１候補画像シーケンスの最終位置に調整することと、
前記第１候補画像シーケンスにおける各フレームの画像が前記第１画像とのマッチング度の降順に応じてソートされた場合、前記第１候補画像シーケンスにおける、前記ターゲットウィンドウに位置する画像を、前記第１候補画像シーケンスの先頭位置に調整することと
を含み、
前記第２候補画像シーケンスに基づいて、前記第１画像を収集する時の前記カメラのターゲット姿勢を決定することは、
第１画像シーケンスおよび前記第１画像に基づいて、前記カメラの第１姿勢を決定することであって、前記第１画像シーケンスは、前記画像ライブラリにおける、第１参照フレーム画像に隣接する連続した複数フレームの画像を含み、前記第１参照フレーム画像は、前記第２候補画像シーケンスに含まれる、ことと、
前記第１姿勢に基づいて前記カメラの位置を測位することに成功したと判定した場合、前記第１姿勢を前記ターゲット姿勢として決定することと
を含み、
前記第１画像シーケンスおよび前記第１画像に基づいて、前記カメラの第１姿勢を決定することは、
前記第１画像シーケンスにおける各画像から抽出された特徴のうち、前記第１画像から抽出された特徴とマッチングしたＦ個の特徴を決定することであって、Ｆは、０より大きい整数である、ことと、
パースペクティブｎポイント（ＰｎＰ）アルゴリズムを用いて、前記Ｆ個の特徴、ポイントクラウドマップでの、前記Ｆ個の特徴に対応する空間座標点および前記カメラの内部パラメータに基づいて、前記第１姿勢を決定することであって、前記ポイントクラウドマップは、測位されるべきシーンの電子マップであり、前記測位されるべきシーンは、前記カメラが前記第１画像を収集する時に所在するシーンである、ことと
を含む、視覚的測位方法。
前記第１画像シーケンスおよび前記第１画像に基づいて、前記カメラの第１姿勢を決定した後、前記視覚的測位方法は、
前記第１姿勢に基づいて前記カメラの位置を測位することに失敗したと判定した場合、第２画像シーケンスおよび前記第１画像に基づいて、前記カメラの第２姿勢を決定することであって、前記第２画像シーケンスは、前記画像ライブラリにおける、第２参照フレーム画像に隣接する連続した複数フレームの画像を含み、前記第２参照フレーム画像は、前記第２候補画像シーケンスにおける、前記第１参照フレーム画像の１フレーム後の画像または１フレーム前の画像である、ことと、
前記第２姿勢に基づいて前記カメラの位置を測位することに成功したと判定した場合、前記第２姿勢を前記ターゲット姿勢として決定することと
を更に含む、請求項１に記載の視覚的測位方法。
前記画像ライブラリから、第１候補画像シーケンスを決定することは、
前記画像ライブラリにおける、対応する視覚的ワードベクトルと前記第１画像に対応する視覚的ワードベクトルとの類似度が最も高い複数の候補画像を決定することであって、前記画像ライブラリにおけるいずれか１つの画像は、１つの視覚的ワードベクトルに対応し、前記画像ライブラリにおける画像は、ターゲット機器が前記第１画像を収集する時に所在する測位されるべきシーンの電子マップを構築するためのものである、ことと、
前記複数の候補画像をそれぞれ前記第１画像と特徴マッチングし、各候補画像の、前記第１画像とマッチングした特徴の数を得ることと、
前記複数の候補画像のうち、前記第１画像とマッチングした特徴の数が最も多いＭ個の画像を取得し、前記第１候補画像シーケンスを得ることと
を含む、請求項１または請求項２に記載の視覚的測位方法。
前記画像ライブラリにおける、対応する視覚的ワードベクトルと前記第１画像に対応する視覚的ワードベクトルとの類似度が最も高い複数の候補画像を決定することは、
前記画像ライブラリにおける、対応する視覚的ワードの少なくとも１つが前記第１画像に対応する視覚的ワードと同じである画像を決定し、複数の予備選択画像を得ることであって、前記画像ライブラリにおけるいずれか１つの画像は、少なくとも１つ視覚的ワードに対応し、前記第１画像は、少なくとも１つの視覚的ワードに対応する、ことと、
前記複数の予備選択画像のうち、対応する視覚的ワードベクトルと前記第１画像に対応する視覚的ワードベクトルとの類似度が最も高い複数の候補画像を決定することと
を含み、
前記複数の予備選択画像のうち、対応する視覚的ワードベクトルと前記第１画像に対応する視覚的ワードベクトルとの類似度が最も高い複数の候補画像を決定することは、
前記複数の予備選択画像のうち、対応する視覚的ワードベクトルと前記第１画像に対応する視覚的ワードベクトルとの類似度が最も高い上位Ｑパーセントの画像を決定し、前記複数の候補画像を得ることを含み、Ｑは、０より大きい実数である、請求項３に記載の視覚的測位方法。
前記複数の予備選択画像のうち、対応する視覚的ワードベクトルと前記第１画像に対応する視覚的ワードベクトルとの類似度が最も高い複数の候補画像を決定することは、
語彙ツリーを利用して、前記第１画像から抽出された特徴をターゲットワードベクトルに変換することであって、前記語彙ツリーは、前記測位されるべきシーンで収集された訓練画像から抽出された特徴をクラスタリングすることで得られたものである、ことと、
前記ターゲットワードベクトルと前記複数の予備選択画像のうちの各予備選択画像に対応する視覚的ワードベクトルとの類似度をそれぞれ算出することであって、前記複数の予備選択画像のうちのいずれか１つの予備選択画像に対応する視覚的ワードベクトルは、前記語彙ツリーを利用して、前記いずれか１つの予備選択画像から抽出された特徴により得た視覚的ワードベクトルである、ことと、
前記複数の予備選択画像のうち、対応する視覚的ワードベクトルと前記ターゲットワードベクトルとの類似度が最も高い複数の候補画像を決定することと
を含む、請求項４に記載の視覚的測位方法。
前記語彙ツリーにおける各リーフノードは、１つの視覚的ワードに対応し、前記語彙ツリーにおける最終層のノードは、リーフノードであり、語彙ツリーを利用して、前記第１画像から抽出された特徴をターゲットワードベクトルに変換することは、
前記第１画像での、前記語彙ツリーにおける各リーフノードに対応する視覚的ワードに対応する重みを算出することと、
前記第１画像での、前記各リーフノードに対応する視覚的ワードに対応する重みを組み合わせて１つのベクトルを形成し、前記ターゲットワードベクトルを得ることと
を含み、
前記語彙ツリーの各ノードは、１つのクラスタ中心に対応し、前記第１画像での、前記語彙ツリーに対応する各視覚的ワードに対応する重みを算出することは、
前記語彙ツリーを利用して、前記第１画像から抽出された特徴を分類し、ターゲットリーフノードに分類された中間特徴を得ることであって、前記ターゲットリーフノードは、前記語彙ツリーにおけるいずれか１つのリーフノードであり、ターゲットリーフノードは、ターゲット視覚的ワードに対応する、ことと、
前記中間特徴、前記ターゲット視覚的ワードの重みおよび前記ターゲット視覚的ワードに対応するクラスタ中心に基づいて、前記第１画像での、前記ターゲット視覚的ワードに対応するターゲット重みを算出することであって、前記ターゲット重みは、前記ターゲット視覚的ワードの重みと正に相関し、前記ターゲット視覚的ワードの重みは、前記語彙ツリーを生成する時に前記ターゲット視覚的ワードに対応する特徴の数に基づいて決定される、ことと
を含み、
前記中間特徴は、少なくとも１つのサブ特徴を含み、前記ターゲット重みは、前記中間特徴に含まれる各サブ特徴に対応する重みパラメータの和であり、前記サブ特徴に対応する重みパラメータは、特徴距離と負に相関し、前記特徴距離は、前記サブ特徴と対応するクラスタ中心とのハミング距離である、請求項５に記載の視覚的測位方法。
前記複数の候補画像と前記第１画像とに対して特徴マッチングを行い、前記第１画像とマッチングした各候補画像の特徴の数を得ることは、
語彙ツリーに基づいて、前記第１画像から抽出された第３特徴をリーフノードに分類す
ることであって、前記語彙ツリーは、前記測位されるべきシーンで抽出された画像から抽出された特徴をクラスタリングすることで得られたものであり、前記語彙ツリーの最終層のノードは、リーフノードであり、各リーフノードは、複数の特徴を含む、ことと、
各前記リーフノードにおける前記第３特徴と第４特徴とに対して特徴マッチングを行い、各前記リーフノードにおける、前記第３特徴とマッチングした第４特徴を得ることであって、前記第４特徴は、ターゲット候補画像から抽出された特徴であり、前記ターゲット候補画像は、前記第１候補画像シーケンスに含まれるいずれか１つの画像である、ことと、
各前記リーフノードにおける、前記第３特徴とマッチングした第４特徴に基づいて、前記ターゲット候補画像の、前記第１画像とマッチングした特徴の数を得ることと
を含む、請求項３～６のいずれか一項に記載の視覚的測位方法。
前記Ｆ個の特徴、ポイントクラウドマップでの、前記Ｆ個の特徴に対応する空間座標点および前記カメラの内部パラメータに基づいて、前記第１姿勢を決定した後、前記視覚的測位方法は、
変換行列および前記第１姿勢に基づいて、前記カメラの三次元位置を決定することをさらに含み、前記変換行列は、前記ポイントクラウドマップの角度および位置を変換し、前記ポイントクラウドマップの輪郭と屋内平面図をアライメントすることで得られたものである、請求項１～７のいずれか一項に記載の視覚的測位方法。
前記第１姿勢に基づいて前記カメラの位置を測位することに成功したと判定したことは、Ｌ対の特徴点の位置関係がいずれも前記第１姿勢に合致すると判定することを含み、各対の特徴点のうちの１つの特徴点は、前記第１画像から抽出されたものであり、もう１つの特徴点は、前記第１画像シーケンスにおける画像から抽出されたものであり、Ｌは、１より大きい整数である、請求項１～８のいずれか一項に記載の視覚的測位方法。
前記第１画像シーケンスおよび前記第１画像に基づいて前記カメラの第１姿勢を決定する前に、前記視覚的測位方法は、
複数の画像シーケンスを取得することであって、各画像シーケンスは、測位されるべきシーンにおける１つまたは複数の領域を収集することで得られたものである、ことと、
前記複数の画像シーケンスに基づいて、前記ポイントクラウドマップを構築することであって、前記複数の画像シーケンスのうちのいずれか１つの画像シーケンスは、１つまたは複数の領域のサブポイントクラウドマップを構築するためのものであり、前記ポイントクラウドマップは、第１電子マップおよび第２電子マップを含む、ことと
を更に含む、請求項１～９のいずれか一項に記載の視覚的測位方法。
前記語彙ツリーを利用して、前記第１画像から抽出された特徴をターゲットワードベクトルに変換する前に、前記視覚的測位方法は、
前記測位されるべきシーンに対して撮影を行うことで得られた複数枚の訓練画像を取得することと、
前記複数枚の訓練画像に対して特徴抽出を行い、訓練特徴集合を得ることと、
前記訓練特徴集合における特徴に対して複数回のクラスタリングを行い、前記語彙ツリーを得ることと
を更に含む、請求項５または請求項６に記載の視覚的測位方法。
前記視覚的測位方法がサーバに適用され、前記画像ライブラリから第１候補画像シーケンスを決定する前に、前記視覚的測位方法は、
ターゲット機器からの前記第１画像を受信することであって、前記ターゲット機器に前記カメラが搭載された、ことを更に含み、
前記第１姿勢に基づいて前記カメラの位置を測位することに成功したと判定した後、前
記視覚的測位方法は、
前記カメラの位置情報を前記ターゲット機器に送信することを更に含む、請求項１～１１のいずれか一項に記載の視覚的測位方法。
視覚的測位方法であって、
カメラによりターゲット画像を収集することと、
サーバにターゲット情報を送信することであって、前記ターゲット情報は、前記ターゲット画像または前記ターゲット画像から抽出された特徴シーケンスと、前記カメラの内部パラメータとを含む、ことと、
位置情報を受信することであって、前記位置情報は、前記カメラの位置および方向を示すためのものであり、前記位置情報は、前記サーバにより第２候補画像シーケンスに基づいて決定された、前記ターゲット画像を収集する時の前記カメラの位置情報であり、前記第２候補画像シーケンスは、前記サーバによりターゲットウィンドウに基づいて第１候補画像シーケンスにおける各フレームの画像の順番を調整することで得られたものであり、前記ターゲットウィンドウは、画像ライブラリから決定された、ターゲットフレームの画像と、前記ターゲットフレームの画像の前後の連続した複数フレームの画像とを含み、前記画像ライブラリは、電子マップを構築するためのものであり、前記ターゲットフレームの画像は、前記画像ライブラリにおける、第２画像とマッチングした画像であり、前記第２画像は、前記カメラにより第１画像を収集する前に収集された画像であり、前記第１候補画像シーケンスにおける各フレームの画像は、前記第１画像とのマッチング度の順番に応じてソートされる、ことと、
電子マップを表示することであって、前記電子マップに前記カメラの位置および方向が含まれる、ことと
を含み、
前記サーバによりターゲットウィンドウに基づいて第１候補画像シーケンスにおける各フレームの画像の順番を調整することは、前記第１候補画像シーケンスにおける各フレームの画像が前記第１画像とのマッチング度の昇順に応じてソートされた場合、前記第１候補画像シーケンスにおける、前記ターゲットウィンドウに位置する画像を、前記第１候補画像シーケンスの最終位置に調整することと、前記第１候補画像シーケンスにおける各フレームの画像が前記第１画像とのマッチング度の降順に応じてソートされた場合、前記第１候補画像シーケンスにおける、前記ターゲットウィンドウに位置する画像を、前記第１候補画像シーケンスの先頭位置に調整することとを含む、視覚的測位方法。
視覚的測位装置であって、
前記視覚的測位装置は、画像ライブラリから、第１候補画像シーケンスを決定するように構成されている選別ユニットを備え、前記画像ライブラリは、電子マップを構築するためのものであり、前記第１候補画像シーケンスにおける各フレームの画像は、第１画像とのマッチング度の順番に応じてソートされ、前記第１画像は、カメラにより収集された画像であり、
前記選別ユニットは、ターゲットウィンドウに応じて、前記第１候補画像シーケンスにおける各フレームの画像の順番を調整し、第２候補画像シーケンスを得るように更に構成されており、前記ターゲットウィンドウは、画像ライブラリから決定された、ターゲットフレームの画像と、前記ターゲットフレームの画像の前後の連続した複数フレームの画像とを含み、前記ターゲットフレームの画像は、前記画像ライブラリにおける、第２画像とマッチングした画像であり、前記第２画像は、前記カメラにより第１画像を収集する前に収集された画像であり、
前記視覚的測位装置は、前記第２候補画像シーケンスに基づいて、前記第１画像を収集する時の前記カメラのターゲット姿勢を決定するように構成されている決定ユニットを更に備え、
前記選別ユニットは、前記第１候補画像シーケンスにおける各フレームの画像が前記第
１画像とのマッチング度の昇順に応じてソートされた場合、前記第１候補画像シーケンスにおける、前記ターゲットウィンドウに位置する画像を、前記第１候補画像シーケンスの最終位置に調整し、前記第１候補画像シーケンスにおける各フレームの画像が前記第１画像とのマッチング度の降順に応じてソートされた場合、前記第１候補画像シーケンスにおける、前記ターゲットウィンドウに位置する画像を、前記第１候補画像シーケンスの先頭位置に調整するように更に構成されており、
前記決定ユニットは、第１画像シーケンスおよび前記第１画像に基づいて、前記カメラの第１姿勢を決定し、前記第１画像シーケンスは、前記画像ライブラリにおける、第１参照フレーム画像に隣接する連続した複数フレームの画像を含み、前記第１参照フレーム画像は、前記第２候補画像シーケンスに含まれ、前記第１姿勢に基づいて前記カメラの位置を測位することに成功したと判定した場合、前記第１姿勢を前記ターゲット姿勢として決定するように更に構成されており、
前記決定ユニットは、前記第１画像シーケンスにおける各画像から抽出された特徴のうち、前記第１画像から抽出された特徴とマッチングしたＦ個の特徴を決定し、Ｆは、０より大きい整数であり、パースペクティブｎポイント（ＰｎＰ）アルゴリズムを用いて、前記Ｆ個の特徴、ポイントクラウドマップでの、前記Ｆ個の特徴に対応する空間座標点および前記カメラの内部パラメータに基づいて、前記第１姿勢を決定するように更に構成されており、前記ポイントクラウドマップは、測位されるべきシーンの電子マップであり、前記測位されるべきシーンは、前記カメラが前記第１画像を収集する時に所在するシーンである、視覚的測位装置。
端末装置であって、前記端末装置は、
ターゲット画像を収集するように構成されているカメラと、
サーバにターゲット情報を送信するように構成されている送信ユニットであって、前記ターゲット情報は、前記ターゲット画像または前記ターゲット画像から抽出された特徴シーケンスと、前記カメラの内部パラメータとを含む、送信ユニットと、
位置情報を受信するように構成されている受信ユニットであって、前記位置情報は、前記カメラの位置および方向を示すためのものであり、前記位置情報は、前記サーバにより第２候補画像シーケンスに基づいて決定された、前記ターゲット画像を収集する時の前記カメラの位置情報であり、前記第２候補画像シーケンスは、前記サーバによりターゲットウィンドウに基づいて第１候補画像シーケンスにおける各フレームの画像の順番を調整することで得られたものであり、前記ターゲットウィンドウは、画像ライブラリから決定された、ターゲットフレームの画像と、前記ターゲットフレームの画像の前後の連続した複数フレームの画像とを含み、前記画像ライブラリは、電子マップを構築するためのものであり、前記ターゲットフレームの画像は、前記画像ライブラリにおける、第２画像とマッチングした画像であり、前記第２画像は、前記カメラにより第１画像を収集する前に収集された画像であり、前記第１候補画像シーケンスにおける各フレームの画像は、前記第１画像とのマッチング度の順番に応じてソートされる、受信ユニットと、
電子マップを表示するように構成されている表示ユニットであって、前記電子マップに前記カメラの位置および方向が含まれる、表示ユニットと
を備え、
前記サーバによりターゲットウィンドウに基づいて第１候補画像シーケンスにおける各フレームの画像の順番を調整することは、前記第１候補画像シーケンスにおける各フレームの画像が前記第１画像とのマッチング度の昇順に応じてソートされた場合、前記第１候補画像シーケンスにおける、前記ターゲットウィンドウに位置する画像を、前記第１候補画像シーケンスの最終位置に調整することと、前記第１候補画像シーケンスにおける各フレームの画像が前記第１画像とのマッチング度の降順に応じてソートされた場合、前記第１候補画像シーケンスにおける、前記ターゲットウィンドウに位置する画像を、前記第１候補画像シーケンスの先頭位置に調整することとを含む、端末装置。
電子機器であって、
プログラムを記憶するためのメモリと、
請求項１～１２のいずれか一項に記載の視覚的測位方法または請求項１３に記載の視覚的測位方法を実行するために、前記メモリに記憶された前記プログラムを実行するように構成されているプロセッサと
を備える、電子機器。
コンピュータ読み取り可能な記憶媒体であって、前記コンピュータ読み取り可能な記憶媒体には、コンピュータプログラムが記憶されており、前記コンピュータプログラムは、プログラム命令を含み、前記プログラム命令は、プロセッサによって実行されると、請求項１～１２のいずれか一項に記載の視覚的測位方法または請求項１３に記載の視覚的測位方法を実行することを前記プロセッサに行わせる、コンピュータ読み取り可能な記憶媒体。
請求項１～１２のいずれか一項に記載の視覚的測位方法または請求項１３に記載の視覚的測位方法を実行することをコンピュータに行わせる、コンピュータプログラム製品。