JP2023523364A - 視覚測位方法、装置、機器及び可読記憶媒体 - Google Patents

視覚測位方法、装置、機器及び可読記憶媒体 Download PDF

Info

Publication number
JP2023523364A
JP2023523364A JP2022566049A JP2022566049A JP2023523364A JP 2023523364 A JP2023523364 A JP 2023523364A JP 2022566049 A JP2022566049 A JP 2022566049A JP 2022566049 A JP2022566049 A JP 2022566049A JP 2023523364 A JP2023523364 A JP 2023523364A
Authority
JP
Japan
Prior art keywords
positioning
candidate
photos
neural network
wide
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022566049A
Other languages
English (en)
Other versions
JP7446643B2 (ja
Inventor
尊裕 陳
▲じゅえ▼其 呉
斯洋 胡
欣 陳
沛謙 呉
仲文 張
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mapxus Technology Holding Ltd
Original Assignee
Mapxus Technology Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mapxus Technology Holding Ltd filed Critical Mapxus Technology Holding Ltd
Publication of JP2023523364A publication Critical patent/JP2023523364A/ja
Application granted granted Critical
Publication of JP7446643B2 publication Critical patent/JP7446643B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/97Determining parameters from multiple pictures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本出願は視覚測位方法、装置、機器及び可読記憶媒体を開示している。当該方法は、広角写真を取得して、広角写真をランダムに分割することで、測定対象となる画像セットを取得するステップ(S101)と、測定対象となる画像セットを、ライブマップにおけるパノラマ写真によって訓練されたニューラルネットワークモデルである測位モデルに入力し、測位して認識することで、複数の候補測位を取得するステップ(S102)と、複数の候補測位によって、最終測位を決定するステップ(S103)と、を含む。ライブマップにおけるパノラマ写真に基づいてニューラルネットワークモデルを訓練することで、測位モデルを取得でき、当該測位モデルに基づいて、視覚測位を完成でき、視覚測位において訓練サンプルの採集が困難であるという問題を解決する。

Description

本出願は測位技術分野に関して、特に視覚測位方法、装置、機器及び可読記憶媒体に関している。
機械学習による視覚測位原理において、位置マーカーが付けられた大量の実際シーン写真を使用して訓練することで、入力が写真(RGB数値行列)であり、出力が具体的な位置であるニューラルネットワークモデルを取得する。訓練後のニューラルネットワークモデルを取得した後、ユーザーが環境に対して1枚の写真を撮影すれば、具体的な撮影位置を取得できる。
このような方法は、訓練データセットとして、使用環境に対して大量の写真サンプルを採集する。例えば、いくつかの文献の記載によれば、35メートルの幅を有する小さな商店に対する視覚測位を実現するために、330枚の写真を採集し、また、140メートルの街路(1側のみを測位する)に対する視覚測位を実現するために、1500枚以上の写真を採集し、また、ある工場に対する測位を実現するために、工場を18個の領域に分割し、各領域に対して200枚の画像を撮影する。このように、視覚測位効果を保証するために、訓練データとして、大量の現場写真を採集し、これらの写真は、シーンにおける隅々まで撮影されることを保証しなければならないため、非常に時間及び労力がかかる。
以上のように、視覚測位においてサンプル採集が困難であるなどの問題を如何に解決するかということは、現在、当業者が解决しようとする技術問題である。
本出願は、視覚測位方法、装置、機器及び可読記憶媒体を提供することを目的とし、ライブマップにおけるパノラマ写真を使用してニューラルネットワークモデルを訓練することで、視覚測位においてサンプル採集が困難であるという問題を解決できる。
上記の技術問題を解决するために、本出願は以下の技術的解決策を提供し、
視覚測位方法であって、
広角写真を取得して、前記広角写真をランダムに分割することで、測定対象となる画像セットを取得するステップと、
前記測定対象となる画像セットを、ライブマップにおけるパノラマ写真によって訓練されたニューラルネットワークモデルである測位モデルに入力し、測位して認識することで、複数の候補測位を取得するステップと、
複数の前記候補測位によって、最終測位を決定するステップと、を含む。
好ましくは、前記複数の前記候補測位によって、最終測位を決定するステップは、
複数の前記候補測位に対してクラスタリング処理を行って、クラスタリング結果によって、複数の前記候補測位を選別するステップと、
選別されたいくつかの候補測位によって、幾何グラフィックスを構築するステップと、
前記幾何グラフィックスの幾何中心を前記最終測位とするステップと、を含む。
好ましくは、
前記最終測位によって、複数の前記候補測位の標準分散を計算するステップと、
前記標準分散を前記最終測位の測位誤差とするステップと、をさらに含む。
好ましくは、前記ニューラルネットワークモデルの訓練過程は、
前記ライブマップからいくつかの前記パノラマ写真を取得して、各前記実景写真の地理位置を決定するステップと、
いくつかの前記パノラマ写真に対してデワーピング変換を行って、同一アスペクト比を有する複数組の平面投影写真を取得するステップと、
前記パノラマ写真との対応関係に基づいて、各組の前記平面投影写真に、地理位置及び具体的な方向が含まれる地理マーカーを付けるステップと、
地理マーカーが付けられた平面投影写真を訓練サンプルとするステップと、
前記訓練サンプルによって、前記ニューラルネットワークモデルを訓練して、訓練後の前記ニューラルネットワークモデルを前記測位モデルに決定するステップと、を含む。
好ましくは、前記いくつかの前記パノラマ写真に対してデワーピング変換を行って、同一アスペクト比を有する複数組の平面投影写真を取得するステップは、
デワーピング変換において、異なる焦点距離パラメータに基づいて、各前記パノラマ写真を分割して、異なる視野角を有する複数組の平面投影写真を取得するステップを含む。
好ましくは、前記デワーピング変換において、異なる焦点距離パラメータに基づいて、各前記パノラマ写真を分割して、異なる視野角を有する複数組の平面投影写真を取得するステップは、
対応する原画像のカバレッジが所定割合より大きい分割数に基づいて、各前記パノラマ写真を分割して、隣接ピクチャには重畳視野角が存在する複数組の平面投影写真を取得するステップを含む。
好ましくは、前記ニューラルネットワークモデルの訓練過程は、
インターネットから取得されたシーン写真、又は測位環境に対して採集された環境写真を使用して、前記訓練サンプルを補充するステップをさらに含む。
好ましくは、前記広角写真をランダムに分割することで、測定対象となる画像セットを取得するステップは、
分割数に基づいて、前記広角写真に対して、原画像カバレッジが所定割合より大きいランダム分割を行って、前記分割数にマッチングする測定対象となる画像セットを取得するステップを含む。
視覚測位装置であって、
広角写真を取得して、前記広角写真をランダムに分割することで、測定対象となる画像セットを取得する測定対象となる画像セット取得モジュールと、
前記測定対象となる画像セットを、ライブマップにおけるパノラマ写真によって訓練されたニューラルネットワークモデルである測位モデルに入力し、測位して認識することで、複数の候補測位を取得する候補測位取得モジュールと、
複数の前記候補測位によって、最終測位を決定する測位出力モジュールと、を含む。
視覚測位機器であって、
コンピュータプログラムを記憶するメモリと、
前記コンピュータプログラムを実行する時、上記の視覚測位方法を実現するプロセッサーと、を含む。
可読記憶媒体であって、前記可読記憶媒体にはコンピュータプログラムが記憶され、前記コンピュータプログラムはプロセッサーにより実行されると、上記の視覚測位方法を実現する。
本出願の実施例が提供する方法によれば、広角写真を取得して、広角写真をランダムに分割することで、測定対象となる画像セットを取得するステップと、測定対象となる画像セットを、ライブマップにおけるパノラマ写真によって訓練されたニューラルネットワークモデルである測位モデルに入力し、測位して認識することで、複数の候補測位を取得するステップと、複数の候補測位によって、最終測位を決定するステップと、を含む。
ライブマップは実際街並みが見えるマップであり、ライブマップには360度の実景が含まれる。ライブマップにおけるパノラマ写真は、実際街並みのマップであり、視覚測位の応用環境と互いに重畳する。これに基づいて、本方法において、ライブマップにおけるパノラマ写真を使用してニューラルネットワークモジュールを訓練することで、視覚測位のための測位モデルを取得できる。広角写真を取得した後、広角写真をランダムに分割することで、測定対象となる画像セットを取得できる。測定対象となる画像セットを測位モデルに入力し、測位して認識することで、複数の候補測位を取得できる。これらの候補測位に基づいて、最終測位を決定できる。このように、本方法において、ライブマップにおけるパノラマ写真に基づいてニューラルネットワークモデルを訓練することで、測位モデルを取得でき、当該測位モデルに基づいて、視覚測位を完成でき、視覚測位において訓練サンプルの採集が困難であるという問題を解決する。
相応的に、本出願の実施例は、上記の視覚測位方法に対応する装置、機器及び可読記憶媒体をさらに提供し、上記の技術効果を具備するため、ここで、贅言していない。
本出願の実施例又は従来技術における技術的解決策をより明らかに説明するために、以下、実施例又は従来技術の記載の必要な図面を簡単に紹介し、当業者にとって、進歩性に値する労働をしないことを前提として、これらの図面に基づいて他の図面を取得できる。
本出願の実施例における視覚測位方法の実施フローチャートである。 本出願の実施例における視野角分割概略図である。 本出願の実施例における視覚測位装置の構成概略図である。 本出願の実施例における視覚測位装置の構成概略図である。 本出願の実施例における視覚測位装置の具体的な構成概略図である。
当業者が本出願の解決策をよりよく理解するために、以下、図面及び具体的な実施形態を結合して、本出願をさらに詳しく説明する。本出願の実施例に基づいて、当業者は進歩性に値する労働をしないことを前提として、取得した他の全ての実施例は、何れも本出願の保護範囲に属している。
ここで、ニューラルネットワークモデルはクラウド又はロカール機器に記憶されるため、本発明の実施例が提供する視覚測位方法は直接的にクラウドサーバーに適用されてもよいし、ロカール機器に適用されてもよい。測位を必要とする装置は撮影、ネットワーク接続機能を有すると、1つの広角写真によって測位を実現できる。
図1を参照して、図1は本出願の実施例における視覚測位方法のフローチャートであり、当該方法は以下のステップを含み、即ち、
S101:広角写真を取得して、広角写真をランダムに分割することで、測定対象となる画像セットを取得する。
広角、即ち、広角レンズ又はパノラマモードで撮影されたピクチャである。簡単に言えば、焦点距離が小さいほど、視野が広く、写真内の収容可能な景物の範囲も広くなっている。
発明が提供する視覚測位方法において、ライブマップにおけるパノラマ写真を使用してニューラルネットワークモデルを訓練する。従って、視覚測位をよりよく行うために、測位モデルによって視覚測位を行う場合、必要な写真も広角写真である。例えば、ユーザーは測位を必要とする位置に、広角モード(又は超広角モード)又はパノラマモードで周辺環境に対して、視野角が120度以上(無論、例えば140度、180度などの他の度数であってもよい)の1枚の広角写真を撮影する。
広角写真を取得した後、ランダムに分割して、分割されたいくつかの写真からなる測定対象となる画像セットを取得する。
特に、具体的に、当該広角写真を何枚の写真に分割するかということは、全地球測位モデルの訓練効果及び実際測位精度要求に基づいて、設定すればよい。一般的に、認識可能範囲内(写真の大きさが小さすぎると、関連測位特徴がなく、効果的な認識を行うことができないという問題が存在する)で、分割数が大きいほど、測位精度が高く、無論、モデルの訓練反復回数が多く、訓練時間が長い。
好ましくは、測位精度を向上させるために、広角写真を分割する場合、分割数に基づいて、広角写真に対して原画像カバレッジが所定割合より大きいランダム分割を行うことで、分割数にマッチングする測定対象となる画像セットを取得する。具体的に、測定対象となる画像セットとして、広角写真を、アスペクト比が1:1(ここで、アスペクト比は他の比であってもよく、当該アスペクト比は、測位モデル訓練のための訓練サンプルのアスペクト比と同様であればよい)であり、高さが当該広角写真の高さの1/3~1/2であるN枚の画像にランダムに分割する。訓練の効果及び測位精度のニーズに基づいて、Nの数を設定し、訓練効果が少し悪く、測位精度の要求が高い場合、より高いN値を選択し、一般的に、Nの数は100に設定されてもよい(無論、例えば、50、80などの他の数値を選択してもよく、ここで、一々列挙していない)。一般的に、ランダム分割結果は、原画像(即ち、当該広角写真)に対するカバレッジが95%より大きいと要求される(無論、他の割合を設定してもよく、ここで、一々列挙していない)。
S102:測定対象となる画像セットを測位モデルに入力し、測位して認識することで、複数の候補測位を取得する。
測位モデルは、ライブマップにおけるパノラマ写真によって訓練されたニューラルネットワークモデルである。
より正確な測位効果を取得するために、本実施例において、測定対象となる画像セットにおける、分割による各写真を測位モデルにそれぞれ入力し、測位して認識し、各写真に対して、測位結果に関する1つの出力を取得する。本実施例において、分割による各写真に対応する測位結果を候補測位とする。
ここで、実際に応用する前、訓練して測位モデルを取得する。ニューラルネットワークモデルの訓練は以下のステップを含み、
ステップ1:ライブマップからいくつかのパノラマ写真を取得して、各実景写真の地理位置を決定する;
ステップ2:いくつかのパノラマ写真に対してデワーピング変換を行って、同一アスペクト比を有する複数組の平面投影写真を取得する;
ステップ3:パノラマ写真との対応関係に基づいて、各組の平面投影写真に、地理位置及び具体的な方向が含まれる地理マーカーを付ける;
ステップ4:地理マーカーが付けられた平面投影写真を訓練サンプルとする;
ステップ5:訓練サンプルによって、ニューラルネットワークモデルを訓練することで、訓練後のニューラルネットワークモデルを測位モデルに決定する。
記載を便利にするために、上記の5つのステップを結合して説明する。
パノラマ写真の視野角は360度に近接するため、本実施例において、パノラマ写真に対してデワーピング変換を行って、同一の長さ比を有する複数組の平面投影写真を取得する。ライブマップにおけるパノラマ写真と地理位置とは対応関係を有するため、本実施例において、同一のパノラマ写真から分割された1組の平面投影写真の地理位置をパノラマ写真の地理位置に対応させる。また、パノラマ写真を分割する場合、視野角に基づいて分割するため、分割による写真の方向は明瞭であり、本実施例において、地理位置及び具体的な方向を地理マーカーとして追加する。つまり、各平面投影写真は何れも対応する地理位置及び具体的な方向を有する。
地理マーカーを有する平面投影写真を訓練サンプルとし、当該訓練サンプルによってニューラルネットワークモデルを訓練し、訓練後のニューラルネットワークモデルは測位モデルである。具体的に、具体的な位置、具体的な方向を有する写真セットをデータプールとする。当該データプールからランダムに抽出された80%を訓練セットとし、残りの20%をテストセットとする。当該比は、実際の訓練状況に基づいて調整してもよい。訓練セットを、初期化された又は大規模のピクチャセットによって事前訓練されたニューラルネットワークモデルに入力して訓練し、テストセットによって訓練結果を検証する。選択可能な通常ニューラルネットワーク構成は、CNN(Convolutional Neural Network、畳み込みニューラルネットワークであって、即ち、畳み込み層(alternating convolutional layer)及びプーリング層(pooling layer)を含むフィードフォワードニューラルネットワーク)、その派生構成、LSTM(Long Short―Term Memory、長短期記憶ネットワークであって、時間再帰型ニューラルネットワーク(RNN))及び混合構成などを有する。本出願の実施例において、具体的にどんなニューラルネットワークを使用するかということについて、限定していない。訓練を完成した後、当該ライブマップデータソースサイトに適用されるニューラルネットワークモデル、即ち、測位モデルを取得する。
好ましくは、実際応用において、異なるピクチャ採集装置の焦点距離(即ち、視野角)に適するために、パノラマ写真を分割する場合、異なる焦点距離パラメータに基づいて分割することで、訓練サンプルとして、視野角の大きさが異なっている平面投影写真を取得する。具体的に、デワーピング変換において、異なる焦点距離パラメータに基づいて、各パノラマ写真を分割することで、異なる視野角を有する複数組の平面投影写真を取得する。即ち、焦点距離パラメータFに基づいて分割の数nを決定する。焦点距離パラメータが小さいと、視野角が大きく、分割の数nはより小さくなってもよい。図2を参照して、図2は本出願の実施例における視野角分割概略図であり、最も通常の焦点距離パラメータF=0.5であり、視野角は90度であり、分割数n=4であると、360度の全角度をカバーできる。異なる視野角を有する複数の平面投影写真を必要とする場合、焦点距離パラメータFを例えば1.0及び1.3などの他の数値に変更することで、他の視野角の平面投影写真を取得する。
好ましくは、視野角測位の精度を向上させるために、パノラマ写真を分割する場合、対応する原画像のカバレッジが所定割合より大きい分割数に基づいて、パノラマ写真を分割してもよい。即ち、同一視野角で、隣接ピクチャがカバー角度を有する平面投影写真を取得する。具体的に、対応する原画像のカバレッジが所定割合より大きい分割数に基づいて、各パノラマ写真を分割して、隣接ピクチャには重畳視野角が存在する複数組の平面投影写真を取得する。即ち、写真の撮影角度を豊かにするために、焦点距離が一定である場合、分割数が均等分割の数より大きくされるように推奨する。即ち、パノラマ写真投影球面の、地面に垂直する軸を回転軸とし、視線中心方向(例えば、図2の矢印)を45度だけ回転したごとに、視野角が90度である1枚の平面投影写真を分割し、この場合、隣接ピクチャは45度の重畳視野角を有する。視線中心方向角度に基づいて、得られた平面投影写真に方向データをマーキングする。Fの値は1.0及び1.3であってもよく、視野角はそれぞれ約60度、30度であるため、n値に対して12及び24を選択してもよい。より多くのF値を設定し、nの数を増やすことで、訓練セットのカバレッジをさらに向上させてもよい。一般的に、カバレッジが95%より大きいことを保証できる。
好ましくは、実際応用において、パノラマ写真のみによって訓練すると、ライブマップの更新頻度が低いなどの原因で、視覚測位の認識効果が悪くなる恐れがあり、従って、ニューラルネットワークモデルの訓練過程で、インターネットから取得されたシーン写真、又は測位環境に対して採集された環境写真を使用して、訓練サンプルを補充してもよい。
S103:複数の候補測位によって、最終測位を決定する。
複数の候補測位を取得した後、これらの候補測位に基づいて、最終測位を決定する。最終測位を取得した後、ユーザーがチェックするために、それを出力する。
具体的に、最終測位として、候補測位から1つの測位をランダムに選択してもよいし、候補測位からいくつかの候補測位をランダムに選択してもよく、これらのいくつかの候補測位に対応する幾何グラフィックスの幾何中心を最終測位とする。無論、高さが重畳するいくつかの候補測位を最終測位としてもよい。
好ましくは、候補測位には、特別な個別測位が出現する可能性があると考えて、最終的な測位の精度を向上させるために、候補測位に対してクラスタリング選別を行って、大多数の測位位置に遊離する候補測位を除去して、残された候補測位に基づいて最終測位を決定する。具体的に、実現過程は以下のステップを含み、
ステップ1:複数の候補測位に対してクラスタリング処理を行って、クラスタリング結果によって、複数の候補測位を選別する;
ステップ2:選別されたいくつかの候補測位によって、幾何グラフィックスを構築する;
ステップ3:幾何グラフィックスの幾何中心を最終測位とする。
具体的に、DBSCAN(Density―Based Spatial Clustering of Applications with Noise:ノイズを伴うアプリケーションの密度ベースの空間クラスタリング)のようなクラスタリングアルゴリズムを使用して、候補測位に対して分類を行って、隣接する位置データを1類に分ける。分類パラメータについて、ε近隣エリア=1であり、最少点数minPts=5であるように設定される。数が最も多い1類の位置結果を確実な結果と見なし、最終的な測位結果として、当該種類の全ての候補測位に対応する幾何グラフィックスの幾何中心を計算する。
好ましくは、測位状況をよりよく展示するために、測位誤差を決定してもよい。具体的に、最終測位によって、複数の候補測位の標準分散を計算して、標準分散を最終測位の測位誤差とする。即ち、各候補測位と最終測位との間の分散を計算して累算し、最終的な測位誤差を取得する。
本出願の実施例が提供する方法によれば、広角写真を取得して、広角写真をランダムに分割することで、測定対象となる画像セットを取得するステップと、測定対象となる画像セットを、ライブマップにおけるパノラマ写真によって訓練されたニューラルネットワークモデルである測位モデルに入力し、測位して認識することで、複数の候補測位を取得するステップと、複数の候補測位によって、最終測位を決定するステップと、を含む。
ライブマップは、実際街並みが見えるマップであり、ライブマップには360度の実景が含まれる。ライブマップにおけるパノラマ写真は、実際街並みのマップであり、視覚測位の応用環境と互いに重畳する。これに基づいて、本方法において、ライブマップにおけるパノラマ写真を使用してニューラルネットワークモジュールを訓練することで、視覚測位のための測位モデルを取得できる。広角写真を取得した後、広角写真をランダムに分割することで、測定対象となる画像セットを取得できる。測定対象となる画像セットを測位モデルに入力し、測位して認識することで、複数の候補測位を取得できる。これらの候補測位に基づいて、最終測位を決定できる。このように、本方法において、ライブマップにおけるパノラマ写真に基づいてニューラルネットワークモデルを訓練することで、測位モデルを取得でき、当該測位モデルに基づいて、視覚測位を完成でき、視覚測位において訓練サンプルの採集が困難であるという問題を解決する。
ここで、上記の実施例に基づいて、本出願の実施例は相応的な改良解決策をさらに提供する。好適/改良実施例において、上記の実施例と同様又は対応するステップの間は、互いに参照してもよく、相応的な有益効果について、互いに参照してもよく、本明細書の好適/改良実施例において、贅言していない。
以上の方法実施例に対応して、本出願の実施例は視覚測位装置をさらに提供し、以下に記載の視覚測位装置と、以上に記載の視覚測位方法とは互いに対応するように参照すればよい。
図3を参照して、当該視覚測位装置は、
広角写真を取得して、広角写真をランダムに分割することで、測定対象となる画像セットを取得する測定対象となる画像セット取得モジュール101と、
測定対象となる画像セットを、ライブマップにおけるパノラマ写真によって訓練されたニューラルネットワークモデルである測位モデルに入力し、測位して認識することで、複数の候補測位を取得する候補測位取得モジュール102と、
複数の候補測位によって、最終測位を決定する測位出力モジュール103と、を含む。
本出願の実施例が提供する装置によれば、広角写真を取得して、広角写真をランダムに分割することで、測定対象となる画像セットを取得し、測定対象となる画像セットを、ライブマップにおけるパノラマ写真によって訓練されたニューラルネットワークモデルである測位モデルに入力し、測位して認識することで、複数の候補測位を取得し、複数の候補測位によって、最終測位を決定する。
ライブマップは、実際街並みが見えるマップであり、ライブマップには360度の実景が含まれる。ライブマップにおけるパノラマ写真は、実際街並みのマップであり、視覚測位の応用環境と互いに重畳する。これに基づいて、本装置において、ライブマップにおけるパノラマ写真を使用してニューラルネットワークモジュールを訓練することで、視覚測位のための測位モデルを取得できる。広角写真を取得した後、広角写真をランダムに分割することで、測定対象となる画像セットを取得できる。測定対象となる画像セットを測位モデルに入力し、測位して認識することで、複数の候補測位を取得できる。これらの候補測位に基づいて、最終測位を決定できる。このように、本装置において、ライブマップにおけるパノラマ写真に基づいてニューラルネットワークモデルを訓練することで、測位モデルを取得でき、当該測位モデルに基づいて、視覚測位を完成でき、視覚測位において訓練サンプルの採集が困難であるという問題を解決する。
本出願の具体的な実施形態において、測位出力モジュール103は具体的に、
複数の候補測位に対してクラスタリング処理を行って、クラスタリング結果によって、複数の候補測位を選別する測位選別ユニットと、
選別されたいくつかの候補測位によって、幾何グラフィックスを構築する幾何グラフィックス構築ユニットと、
幾何グラフィックスの幾何中心を最終測位とする最終測位決定ユニットと、を含む。
本出願の具体的な実施形態において、測位出力モジュール103は、
最終測位によって、複数の候補測位の標準分散を計算し、標準分散を最終測位の測位誤差とする測位誤差決定ユニットをさらに含む。
本出願の具体的な実施形態において、モデル訓練モジュールは、
ライブマップからいくつかのパノラマ写真を取得して、各実景写真の地理位置を決定するパノラマ写真取得ユニットと、
いくつかのパノラマ写真に対してデワーピング変換を行って、同一アスペクト比を有する複数組の平面投影写真を取得するデワーピング変換ユニットと、
パノラマ写真との対応関係に基づいて、各組の平面投影写真に、地理位置及び具体的な方向が含まれる地理マーカーを付ける地理マーカー付けユニットと、
地理マーカーが付けられた平面投影写真を訓練サンプルとする訓練サンプル決定ユニットと、
訓練サンプルによって、ニューラルネットワークモデルを訓練することで、訓練後のニューラルネットワークモデルを測位モデルに決定するモデル訓練ユニットと、を含む。
本出願の具体的な実施形態において、デワーピング変換ユニットは具体的に、デワーピング変換において、異なる焦点距離パラメータに基づいて、各パノラマ写真を分割して、異なる視野角を有する複数組の平面投影写真を取得する。
本出願の具体的な実施形態において、デワーピング変換ユニットは具体的に、対応する原画像のカバレッジが所定割合より大きい分割数に基づいて、各パノラマ写真を分割して、隣接ピクチャには重畳視野角が存在する複数組の平面投影写真を取得する。
本出願の具体的な実施形態において、モデル訓練モジュールは、
インターネットから取得されたシーン写真、又は測位環境に対して採集された環境写真を使用して、訓練サンプルを補充するサンプル補充ユニットをさらに含む。
本出願の具体的な実施形態において、測定対象となる画像セット取得モジュール101は具体的に、分割数に基づいて、広角写真に対して、原画像カバレッジが所定割合より大きいランダム分割を行って、分割数にマッチングする測定対象となる画像セットを取得する。
以上の方法実施例に対応して、本出願の実施例は視覚測位機器をさらに提供し、以下に記載の視覚測位機器と、以上に記載の視覚測位方法とは、互いに対応するように参照すればよい。
図4を参照して、当該視覚測位機器は、
コンピュータプログラムを記憶するメモリ410と、
コンピュータプログラムを実行すると、上記の方法実施例が提供する視覚測位方法のステップを実現するプロセッサー420と、を含む。
具体的に、図5を参照して、本実施例が提供する視覚測位機器の具体的な構成概略図であり、配置又は性能の異なることのため、当該視覚測位機器は大きな差を有する可能性があり、1つ又は1つ以上のプロセッサー(central processing units、CPU)420(例えば、1つ又は1つ以上のプロセッサー)及びメモリ410を含み、1つ又は1つ以上のコンピュータアプリケーションプログラム413又はデータ412を記憶する。メモリ410は短期記憶又は持続記憶であってもよい。当該コンピュータアプリケーションプログラムは1つ又は1つ以上のモジュール(図示せず)を含み、各モジュールは、データ処理機器に対する一連の指令操作を含む。さらに、中央演算処理装置420は、メモリ410と通信して、視覚測位装置301でメモリ410における一連の指令操作を実行するように配置されてもよい。
視覚測位機器400は1つ又は1つ以上の電源430、1つ又は1つ以上の有線又は無線ネットワークインターフェース440、1つ又は1つ以上の入力出力インターフェース450、及び/又は1つ又は1つ以上のオペレーティングシステム411を含む。
以上に記載の視覚測位方法におけるステップは、視覚測位機器の構成によって実現される。
以上の方法実施例に対応して、本出願の実施例は可読記憶媒体をさらに提供し、以下に記載の可読記憶媒体と、以上に記載の視覚測位方法とは、互いに対応するように参照すればよい。
コンピュータプログラムが記憶される可読記憶媒体であって、コンピュータプログラムはプロセッサーにより実行されると、上記の方法実施例が提供する視覚測位方法のステップを実現する。
当該可読記憶媒体は具体的に、Uディスク、ポータブルハードディスク、読み取り専用メモリ(Read―Only Memory、ROM)、ランダムアクセスメモリ(Random Access Memory、RAM)、磁気ディスク又は光ディスクなどの、プログラムコードを記憶できる各種の可読記憶媒体であってもよい。
当業者がさらに意識できるように、本明細書が開示した実施例を結合して記載された各例示のユニット及アルゴリズムステップは、電子ハードウェア、コンピュータソフトウェア又は両者の結合で実現され、ハードウェアとソフトウェアとの互換性を明らかに説明するために、上記の説明において、機能に従って、各例示の構成及ステップを一般的に説明する。これらの機能は、ハードウェア、それともソフトウェアの方式で実行されるかということは、技術的解決策の特定の応用及び設計の約束条件に依存する。当業者は、各特定の応用に対して、異なる方法を使用して記載される機能を実現してもよいが、このような実現は、本出願の範囲を超えていない。

Claims (11)

  1. 視覚測位方法であって、
    広角写真を取得して、前記広角写真をランダムに分割することで、測定対象となる画像セットを取得するステップと、
    前記測定対象となる画像セットを、ライブマップにおけるパノラマ写真によって訓練されたニューラルネットワークモデルである測位モデルに入力し、測位して認識することで、複数の候補測位を取得するステップと、
    複数の前記候補測位によって、最終測位を決定するステップと、を含むことを特徴とする視覚測位方法。
  2. 前記複数の前記候補測位によって、最終測位を決定するステップは、
    複数の前記候補測位に対してクラスタリング処理を行って、クラスタリング結果によって、複数の前記候補測位を選別するステップと、
    選別されたいくつかの候補測位によって、幾何グラフィックスを構築するステップと、
    前記幾何グラフィックスの幾何中心を前記最終測位とするステップと、を含むことを特徴とする請求項1に記載の視覚測位方法。
  3. 前記最終測位によって、複数の前記候補測位の標準分散を計算するステップと、
    前記標準分散を前記最終測位の測位誤差とするステップと、をさらに含むことを特徴とする請求項2に記載の視覚測位方法。
  4. 前記ニューラルネットワークモデルの訓練過程は、
    前記ライブマップからいくつかの前記パノラマ写真を取得して、各実景写真の地理位置を決定するステップと、
    いくつかの前記パノラマ写真に対してデワーピング変換を行って、同一アスペクト比を有する複数組の平面投影写真を取得するステップと、
    前記パノラマ写真との対応関係に基づいて、各組の前記平面投影写真に、地理位置及び具体的な方向が含まれる地理マーカーを付けるステップと、
    地理マーカーが付けられた平面投影写真を訓練サンプルとするステップと、
    前記訓練サンプルによって、前記ニューラルネットワークモデルを訓練して、訓練後の前記ニューラルネットワークモデルを前記測位モデルに決定するステップと、を含むことを特徴とする請求項1に記載の視覚測位方法。
  5. 前記いくつかの前記パノラマ写真に対してデワーピング変換を行って、同一アスペクト比を有する複数組の平面投影写真を取得するステップは、
    デワーピング変換において、異なる焦点距離パラメータに基づいて、各前記パノラマ写真を分割して、異なる視野角を有する複数組の平面投影写真を取得するステップを含むことを特徴とする請求項4に記載の視覚測位方法。
  6. 前記デワーピング変換において、異なる焦点距離パラメータに基づいて、各前記パノラマ写真を分割して、異なる視野角を有する複数組の平面投影写真を取得するステップは、
    対応する原画像のカバレッジが所定割合より大きい分割数に基づいて、各前記パノラマ写真を分割して、隣接ピクチャには重畳視野角が存在する複数組の平面投影写真を取得するステップを含むことを特徴とする請求項5に記載の視覚測位方法。
  7. 前記ニューラルネットワークモデルの訓練過程は、
    インターネットから取得されたシーン写真、又は測位環境に対して採集された環境写真を使用して、前記訓練サンプルを補充するステップをさらに含むことを特徴とする請求項4に記載の視覚測位方法。
  8. 前記広角写真をランダムに分割することで、測定対象となる画像セットを取得するステップは、
    分割数に基づいて、前記広角写真に対して、原画像カバレッジが所定割合より大きいランダム分割を行って、前記分割数にマッチングする測定対象となる画像セットを取得するステップを含むことを特徴とする請求項1に記載の視覚測位方法。
  9. 視覚測位装置であって、
    広角写真を取得して、前記広角写真をランダムに分割することで、測定対象となる画像セットを取得する測定対象となる画像セット取得モジュールと、
    前記測定対象となる画像セットを、ライブマップにおけるパノラマ写真によって訓練されたニューラルネットワークモデルである測位モデルに入力し、測位して認識することで、複数の候補測位を取得する候補測位取得モジュールと、
    複数の前記候補測位によって、最終測位を決定する測位出力モジュールと、を含むことを特徴とする視覚測位装置。
  10. 視覚測位機器であって、
    コンピュータプログラムを記憶するメモリと、
    前記コンピュータプログラムを実行する時、請求項1~8の何れか1項に記載の視覚測位方法を実現するプロセッサーと、を含むことを特徴とする視覚測位機器。
  11. 可読記憶媒体であって、前記可読記憶媒体にはコンピュータプログラムが記憶され、前記コンピュータプログラムはプロセッサーにより実行されると、請求項1~8の何れか1項に記載の視覚測位方法を実現することを特徴とする可読記憶媒体。
JP2022566049A 2020-05-26 2020-05-26 視覚測位方法、装置、機器及び可読記憶媒体 Active JP7446643B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2020/092284 WO2021237443A1 (zh) 2020-05-26 2020-05-26 一种视觉定位方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
JP2023523364A true JP2023523364A (ja) 2023-06-02
JP7446643B2 JP7446643B2 (ja) 2024-03-11

Family

ID=72713357

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022566049A Active JP7446643B2 (ja) 2020-05-26 2020-05-26 視覚測位方法、装置、機器及び可読記憶媒体

Country Status (3)

Country Link
JP (1) JP7446643B2 (ja)
CN (1) CN111758118B (ja)
WO (1) WO2021237443A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113724284A (zh) * 2021-09-03 2021-11-30 四川智胜慧旅科技有限公司 一种位置锁定装置、山岳型景区的搜救系统及搜救方法
CN117289626B (zh) * 2023-11-27 2024-02-02 杭州维讯机器人科技有限公司 一种用于工业化的虚拟仿真方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009588A (zh) * 2017-12-01 2018-05-08 深圳市智能现实科技有限公司 定位方法及装置、移动终端
JP2019125227A (ja) * 2018-01-18 2019-07-25 光禾感知科技股▲ふん▼有限公司 屋内測位方法及びシステム、ならびにその屋内マップを作成するデバイス
CN110298320A (zh) * 2019-07-01 2019-10-01 北京百度网讯科技有限公司 一种视觉定位方法、装置及存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3650578B2 (ja) * 2000-09-28 2005-05-18 株式会社立山アールアンドディ 画像の歪みを補正するためのニューラル・ネットワークを用いたパノラマ画像ナビゲーションシステム
JP4264380B2 (ja) * 2004-04-28 2009-05-13 三菱重工業株式会社 自己位置同定方法及び該装置
CN202818503U (zh) * 2012-09-24 2013-03-20 天津市亚安科技股份有限公司 多方向监控区域预警定位自动跟踪监控装置
CN104200188B (zh) * 2014-08-25 2017-02-15 北京慧眼智行科技有限公司 一种快速定位qr码位置探测图形的方法和系统
CN109308678B (zh) * 2017-07-28 2023-10-27 株式会社理光 利用全景图像进行重定位的方法、装置及设备
CN110298370A (zh) * 2018-03-21 2019-10-01 北京猎户星空科技有限公司 网络模型训练方法、装置及物体位姿确定方法、装置
US11195010B2 (en) * 2018-05-23 2021-12-07 Smoked Sp. Z O. O. Smoke detection system and method
KR102227583B1 (ko) * 2018-08-03 2021-03-15 한국과학기술원 딥 러닝 기반의 카메라 캘리브레이션 방법 및 장치
CN109285178A (zh) * 2018-10-25 2019-01-29 北京达佳互联信息技术有限公司 图像分割方法、装置及存储介质
CN109829406A (zh) * 2019-01-22 2019-05-31 上海城诗信息科技有限公司 一种室内空间识别方法
CN110136136B (zh) * 2019-05-27 2022-02-08 北京达佳互联信息技术有限公司 场景分割方法、装置、计算机设备及存储介质
CN110503037A (zh) * 2019-08-22 2019-11-26 三星电子(中国)研发中心 一种在区域内定位物品的方法及系统
CN110636274A (zh) * 2019-11-11 2019-12-31 成都极米科技股份有限公司 超短焦画幕对齐方法、装置和超短焦投影机及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009588A (zh) * 2017-12-01 2018-05-08 深圳市智能现实科技有限公司 定位方法及装置、移动终端
JP2019125227A (ja) * 2018-01-18 2019-07-25 光禾感知科技股▲ふん▼有限公司 屋内測位方法及びシステム、ならびにその屋内マップを作成するデバイス
CN110298320A (zh) * 2019-07-01 2019-10-01 北京百度网讯科技有限公司 一种视觉定位方法、装置及存储介质

Also Published As

Publication number Publication date
JP7446643B2 (ja) 2024-03-11
CN111758118A (zh) 2020-10-09
CN111758118B (zh) 2024-04-16
WO2021237443A1 (zh) 2021-12-02

Similar Documents

Publication Publication Date Title
US10922844B2 (en) Image positioning method and system thereof
CN109520500B (zh) 一种基于终端拍摄图像匹配的精确定位及街景库采集方法
CN112444242B (zh) 一种位姿优化方法及装置
CN108810473B (zh) 一种在移动平台上实现gps映射摄像机画面坐标的方法及系统
CN106529538A (zh) 一种飞行器的定位方法和装置
CN109523471A (zh) 一种地面坐标和广角摄像机画面坐标的转换方法、系统以及装置
CN110260857A (zh) 视觉地图的校准方法、装置及存储介质
WO2021052121A1 (zh) 一种基于激光雷达和摄像头的物体识别方法和装置
CN111383204A (zh) 视频图像融合方法、融合装置、全景监控系统及存储介质
CN113139031B (zh) 用于自动驾驶的交通标识的生成方法及相关装置
JP2023523364A (ja) 視覚測位方法、装置、機器及び可読記憶媒体
CN110807431A (zh) 对象定位方法、装置、电子设备及存储介质
Kwiatek et al. Immersive photogrammetry in 3D modelling
CN112529957A (zh) 确定摄像设备位姿的方法和装置、存储介质、电子设备
JP2006350553A (ja) 対応点探索方法、相互標定方法、3次元画像計測方法、対応点探索装置、相互標定装置、3次元画像計測装置、対応点探索プログラム及び対応点探索プログラムを記録したコンピュータ読み取り可能な記録媒体
US20150154736A1 (en) Linking Together Scene Scans
JP7220784B2 (ja) 測量用サンプリング点の計画方法、装置、制御端末及び記憶媒体
CN113034347B (zh) 倾斜摄影图像处理方法、装置、处理设备及存储介质
US9852542B1 (en) Methods and apparatus related to georeferenced pose of 3D models
Abrams et al. Webcams in context: Web interfaces to create live 3D environments
Schaffland et al. An interactive web application for the creation, organization, and visualization of repeat photographs
CN117253022A (zh) 一种对象识别方法、装置及查验设备
JP2004139294A (ja) 多視点画像処理プログラム、システム及びマーカ
Božić-Štulić et al. Complete model for automatic object detection and localisation on aerial images using convolutional neural networks
Liu et al. Th SIFT features matching for spherical panoramic images

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221028

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230822

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231117

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240130

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240220

R150 Certificate of patent or registration of utility model

Ref document number: 7446643

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150