JP2023528530A - 訓練装置、制御方法、及びプログラム - Google Patents

訓練装置、制御方法、及びプログラム Download PDF

Info

Publication number
JP2023528530A
JP2023528530A JP2022575285A JP2022575285A JP2023528530A JP 2023528530 A JP2023528530 A JP 2023528530A JP 2022575285 A JP2022575285 A JP 2022575285A JP 2022575285 A JP2022575285 A JP 2022575285A JP 2023528530 A JP2023528530 A JP 2023528530A
Authority
JP
Japan
Prior art keywords
image
aerial
ground
level negative
imagery
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022575285A
Other languages
English (en)
Other versions
JP7347696B2 (ja
Inventor
ロイストン ロドリゲス
真宏 谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JP2023528530A publication Critical patent/JP2023528530A/ja
Application granted granted Critical
Publication of JP7347696B2 publication Critical patent/JP7347696B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/02Affine transformations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/77Retouching; Inpainting; Scratch removal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/17Terrestrial scenes taken from planes or by drones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10032Satellite or aerial image; Remote sensing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Remote Sensing (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

訓練装置(2000)は、識別器10の第1フェーズ訓練及び第2フェーズ訓練を行う。識別器(10)は、地上画像及び空撮画像を取得して、取得した地上画像と取得した空撮画像とがマッチするか否かを判定する。第1フェーズ訓練は、地上画像と、空撮画像の第1レベル負例とを用いて行われる。空撮画像の第1レベル負例は、地上画像に含まれる景色とは異なる種類の景色を含む。第2フェーズ訓練は、地上画像と、空撮画像の第2レベル負例とを用いて行われる。空撮画像の第2レベル負例は、地上画像に含まれる景色と同じ種類の景色を含む。【選択図】図1

Description

本開示は、全体として、画像マッチング、特に、地上画像と空撮画像との間のマッチングに関する。
グラウンド・トゥー・エアリアル・クロスビューマッチング(地上画像と空撮画像のマッチング)を行うシステムが開発されている。例えば、非特許文献1は、比較すべき地上画像と空撮画像から特徴量を抽出するための CNN(Convolutional Neural Network)のセットを開示している。具体的には、一つの CNN が、地上画像とそれに対応する方向情報を取得して、地上画像と方向情報が含まれる混合信号から結合特徴量を算出する。他方の CNN が、空撮画像とそれに対応する方向情報を取得して、空撮画像と方向情報が含まれる混合信号から結合特徴量を算出する。そして、算出された結合特徴量に基づいて、地上画像が空撮画像とマッチするか否かを判定する。
Liu Liu 及び Hongdong Li、「Lending Orientation to Neural Networks for Cross-view Geo-localization」、Computer Research Repository、2019年4月2日
非特許文献1は、シャムネットワークの訓練において利用される空撮画像の順序について開示していない。これは、ネットワークを訓練する際、複数の空撮画像が任意の順序でシャムネットワークに入力されることを意味する。
しかしながら、グラウンド・トゥー・エアリアル・クロスビューマッチングを行う識別器の訓練について、本発明の発明者は、正確なグラウンド・トゥー・エアリアル・クロスビューマッチングの実現のためには、空撮画像を識別器に入力する順序が重要であると考えた。
本開示の目的の一つは、地上画像と空撮画像のマッチングを行う識別器の精度を向上させる技術を提供することである。
本開示によって提供される訓練装置は、少なくとも一つのプロセッサと、命令が格納されている記憶要素とを有し、前記少なくとも一つのプロセッサは、前記命令を実行することにより、識別器の第1フェーズ訓練を実行し、前記識別器は、地上画像と空撮画像を取得し、前記地上画像と前記空撮画像とがマッチするか否かを判定し、前記識別器の第2フェーズ訓練を実行するように構成される。
前記第1フェーズ訓練は、地上画像と、前記空撮画像の正例と、前記空撮画像の第1レベル負例とを用いて行われ、前記空撮画像の前記第1レベル負例は、前記地上画像に含まれる景色とは異なる種類の景色を含む。
前記第2フェーズ訓練は、前記地上画像と、前記空撮画像の正例と、前記空撮画像の第2レベル負例とを用いて行われ、前記空撮画像の前記第2レベル負例は、前記地上画像に含まれる景色と同じ種類の景色を含む。
本開示によってさらに提供される制御方法は、コンピュータによって実行される。コンピュータによって実行される当該制御方法は、識別器の第1フェーズ訓練を実行し、前記識別器は、地上画像と空撮画像を取得し、前記地上画像と前記空撮画像とがマッチするか否かを判定し、前記識別器の第2フェーズ訓練を実行することを含む。
前記第1フェーズ訓練は、地上画像と、前記空撮画像の正例と、前記空撮画像の第1レベル負例とを用いて行われ、前記空撮画像の前記第1レベル負例は、前記地上画像に含まれる景色とは異なる種類の景色を含む。
前記第2フェーズ訓練は、前記地上画像と、前記空撮画像の正例と、前記空撮画像の第2レベル負例とを用いて行われ、前記空撮画像の前記第2レベル負例は、前記地上画像に含まれる景色と同じ種類の景色を含む。
本開示によってさらに提供される非一時的なコンピュータ可読媒体はプログラムを格納している。当該プログラムは、識別器の第1フェーズ訓練を実行し、前記識別器は、地上画像と空撮画像を取得し、前記地上画像と前記空撮画像とがマッチするか否かを判定し、前記識別器の第2フェーズ訓練を実行することをコンピュータに実行させる。
前記第1フェーズ訓練は、地上画像と、前記空撮画像の正例と、前記空撮画像の第1レベル負例とを用いて行われ、前記空撮画像の前記第1レベル負例は、前記地上画像に含まれる景色とは異なる種類の景色を含む。
前記第2フェーズ訓練は、前記地上画像と、前記空撮画像の正例と、前記空撮画像の第2レベル負例とを用いて行われ、前記空撮画像の前記第2レベル負例は、前記地上画像に含まれる景色と同じ種類の景色を含む。
本開示によれば、地上画像と空撮画像のマッチングを行う識別器の精度を向上させる技術を提供することができる。
図1は、実施形態1の訓練装置の概要を示す。 図2は、識別器の訓練に利用される訓練データセットの例を示す。 図3は、実施形態1の訓練装置の機能構成の例を示すブロック図である。 図4は、訓練装置を実現するコンピュータのハードウエア構成の例を示すブロック図である。 図5は、実施形態1の訓練装置によって実行される処理の流れの例を示すフローチャートである。 図6は、ニューラルネットワークで実装される識別器の基本構造を示す。 図7は、識別器を含むジオローカライゼーションシステムを示す。 図8は、実施形態2の訓練装置の概要を示す。 図9は、実施形態2の訓練装置の機能構成の例を示すブロック図である。 図10は、実施形態2の訓練装置によって実行される処理の流れを示すフローチャートである。 図11は、例生成部の実装を示す図である。
以下、本開示に係る実施形態について、図面を参照しながら説明する。複数の図を通して同じ要素には同じ符号が付され、冗長な説明は必要に応じて省略される。
実施形態1
図1は、実施形態1の訓練装置2000の概要を示す。なお、図1は、訓練装置2000の可能な動作の例を示すものであり、訓練装置2000の動作を限定しない。
訓練装置2000は、識別器10の訓練に利用される。識別器10は、地上画像と空撮画像のマッチング(いわゆるグラウンド・トゥー・エアリアル・クロスビューマッチング)を行う。地上画像は、或る場所のグラウンドビューを含む画像である。例えば、地上画像は、歩行者や車から撮像される。地上画像は、パノラマ(360°の画角)であってもよいし、限られた画角(360°未満)であってもよい。空撮画像は、或る場所の平面視が含まれる画像である。例えば、空撮画像は、ドローン、飛行機、又は人工衛星などから撮像される。具体的には、識別器10は、地上画像と空撮画像を取得し、取得した地上画像と取得した空撮画像とがマッチするか否かを判定する。ここで、「地上画像と空撮画像とがマッチする」とは、地上画像の撮像が行われた場所が空撮画像に含まれていることを意味する。
なお、識別器10は、訓練装置2000の内部に実装されてもよいし、他の装置の中に実装されてもよい。図1では、識別器10の外部に設けられている訓練装置2000が表されている。
訓練装置2000は、前述したマッチングが行えるように、識別器10の訓練を行う。具体的には、訓練装置2000は、識別器10の訓練に利用する1つ以上の訓練データセットを取得する。訓練データセットは、地上画像、正例の空撮画像(以下、正例)、第1レベルの負例の空撮画像(以下、第1レベル負例)、及び第2レベルの負例の空撮画像(以下、第2レベル負例)を含む。正例は、対応する地上画像(その正例と共に訓練データセットに含まれる地上画像)とマッチする空撮画像である。一方、負例は、対応する地上画像(その正例と共に訓練データセットに含まれる地上画像)とマッチしない空撮画像である。
地上画像に対する第1レベル負例の類似度は、地上画像に対する第2レベル負例の類似度と異なる。具体的には、第1レベル負例は、対応する地上画像に含まれる景色の種類とは異なる種類の景色を含むのに対し、第2レベル負例は、対応する地上画像に含まれる景色と同じ種類の景色を含む。これは、対応する地上画像に対する第1レベル負例の類似度は、対応する地上画像に対する第2レベル負例の類似度よりも低いことを意味する。
訓練データセット S1 が、地上画像 G1、正例 P1、第1レベル負例 N1、及び第2レベル負例 N2 を含むとする。さらに、地上画像 S1 には(正例 P1 にも)、「住宅エリア」という種類の景色が含まれるとする。この場合、第1レベル負例は、「住宅エリア」以外の種類の景色(例えば高速道路、高架交差路、又はラウンドアバウト)を含む。一方で、第2レベル負例は、「住宅エリア」という種類の景色を含む。
図2は、識別器10の訓練に利用される訓練データセットの例を示す。地上画像は、住宅エリアに分類される場所を含み、正例は同じ場所を含む。第2レベル負例に含まれる景色は、住宅エリアに分類されるが、撮像されている場所は地上画像や正例に撮像されている場所とは異なる。第1レベル負例に含まれる景色は、住宅エリアには分類されず、ラウンドアバウトと高架交差路である。
訓練装置2000によって行われる識別器10の訓練は、第1フェーズ訓練と第2フェーズ訓練を含む。第1フェーズ訓練では、地上画像、正例、及び第1レベル負例の1つ以上のセットが、識別器10の訓練に利用される。第1フェーズ訓練では、地上画像、正例、及び第2レベル負例の1つ以上のセットが、識別器10の訓練に利用される。
<作用効果の例>
本実施形態の訓練装置2000によれば、対応する地上画像に含まれる景色とは異なる種類の景色が含まれる第1レベル負例を利用して、識別器10が訓練される。さらに、対応する地上画像に含まれる景色と同じ種類の景色が含まれる第2レベル負例を利用して、識別器10が訓練される。
複数フェーズで識別器を訓練する方法は、「カリキュラム学習」と呼ばれる。カリキュラム学習において、識別器の訓練は複数のフェーズに分けられ、各フェーズで利用される訓練データは、そのデータの識別の難易度という点で異なる。具体的には、早いフェーズほど、そのフェーズで利用される訓練データの識別が用意である。第1レベルの例に含まれる景色の種類は地上画像に含まれる景色の種類と異なる一方で、第2レベルの例に含まれる景色の種類は地上画像に含まれる景色の種類と同じであるため、訓練装置2000によって行われる訓練において、第1レベル負例の識別は第2レベル負例の識別よりも容易である。
識別器10の訓練にカリキュラム学習の概念を適用することにより、訓練装置2000は、カリキュラム学習を用いずに訓練された識別器よりも高い精度で地上画像と空撮画像のマッチングを行えるように、識別器10を訓練することができる。
以下、訓練装置2000のより詳細な説明が記述される。
<機能構成の例>
図3は、実施形態1の訓練装置2000の機能構成の例を示すブロック図である。訓練装置2000は、取得部2020、第1フェーズ訓練部2040、及び第2フェーズ訓練部2060を有する。取得部2020は、訓練データセットを取得する。第1フェーズ訓練部2040は、取得した訓練データセット内の地上画像、正例、及び第1レベル負例を用いて、識別器10の第1フェーズ訓練を行う。第2フェーズ訓練部2060は、取得した訓練データセット内の地上画像、正例、及び第2レベル負例を用いて、識別器10の第2フェーズ訓練を行う。
<ハードウエア構成の例>
訓練装置2000は、1つ以上のコンピュータで実現されうる。それら1つ以上のコンピュータのそれぞれは、訓練装置2000を実現するために作成された専用のコンピュータであってもよいし、パーソナルコンピュータ(PC: Personal Computer)、サーバマシン又はモバイルデバイスなどの汎用のコンピュータであってもよい。訓練装置2000は、コンピュータにアプリケーションをインストールすることで実現されうる。そのアプリケーションは、コンピュータを訓練装置2000として機能させるプログラムで実現される。言い換えれば、そのプログラムは、訓練装置2000の機能構成部を実装したものである。
図4は、訓練装置2000を実現するコンピュータ1000のハードウエア構成の例を示すブロック図である。図4において、コンピュータ1000は、バス1020、プロセッサ1040、メモリ1060、ストレージデバイス1080、入出力インタフェース1100、及びネットワークインタフェース1120を有する。
バス1020は、プロセッサ1040、メモリ1060、ストレージデバイス1080、入出力インタフェース1100、及びネットワークインタフェース1120が相互にデータの送信及び受信をするためのデータ通信路である。プロセッサ1040は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、又は FPGA(Field-Programmable Gate Array)などといったプロセッサである。メモリ1060は、RAM(Random Access Memory)又は ROM(Read Only Memory)などの主記憶要素である。ストレージデバイス1080は、ハードディスク、SSD(Solid State Drive)、又はメモリカードなどの補助記憶要素である。入出力インタフェース1100は、コンピュータ1000と周辺デバイス(キーボード、マウス、又はディスプレイデバイスなど)との間のインタフェースである。ネットワークインタフェース1120は、コンピュータ1000とネットワークとの間のインタフェースである。ネットワークは、LAN(Local Area Network)でもよいし、WAN(Wide Area Network)でもよい。
ストレージデバイス1080は、前述したプログラムを格納しうる。CPU1040は、訓練装置2000の各機能構成部を実現するためにそのプログラムを実行する。さらに、ストレージデバイス1080は、訓練データセット、識別器10(識別器10のプログラム及びそれによって使用されるパラメータ)、又はそれらの双方を格納しうる。
コンピュータ1000のハードウエア構成は、図4に示される構成に限定されない。
例えば、前述したように、訓練装置2000は複数のコンピュータで実現されうる。この場合、それらのコンピュータは、ネットワークを介して互いに接続されうる。
<識別器10のハードウエア構成>
前述したように、識別器10は、訓練装置2000の中に実装されてもよいし、他の装置の中に実装されてもよい。後者の場合、他のコンピュータが、その中に識別器10が実装されている装置を実装するために利用される。このコンピュータのハードウエア構成は、図4に示されているコンピュータ1000と同様の構成を持ちうる。
<処理の流れ>
図5は、実施形態1の訓練装置2000によって実行される処理の流れの例を示すフローチャートである。取得部2020は、1つ以上の訓練データセットを取得する(S102)。第1フェーズ訓練部2040は、識別器10の第1フェーズ訓練を行う(S104)。第2フェーズ訓練部2060は、識別器10の第2フェーズ訓練を行う(S106)。
<識別器10の詳細>
識別器10は、地上画像と空撮画像を取得し、地上画像と空撮画像とがマッチするか否かを判定する。この判定は様々な方法で実現しうる。例えば、識別器10は、地上画像の特徴量と空撮画像の特徴量を抽出し、地上画像の特徴量と空撮画像の特徴量の類似度を算出する。算出した類似度が高い(例えば、所定の閾値以上である)場合、地上画像と空撮画像とがマッチすると判定される。一方、算出した類似度が低い(例えば、所定の閾値未満である)場合、地上画像と空撮画像とがマッチしないと判定される。
識別器10の実装には様々なものがある。例えば識別器10は、1つ以上のニューラルネットワークとして構成される。非特許文献1に開示されているシャムネットワークは、識別器10の具体的な実装の例として利用されうる。
図6は、ニューラルネットワークで実装される識別器10の基本構造を示す図である。識別器10は、抽出ネットワーク12、第2抽出ネットワーク14、及び判定ネットワーク16を有する。抽出ネットワーク12は、地上画像を取得して、地上画像の1つ以上の特徴マップを生成し(すなわち、地上画像の特徴を抽出し)、生成された特徴マップを出力する。抽出ネットワーク14は、空撮画像を取得して、空撮画像の1つ以上の特徴マップを生成し(すなわち、空撮画像の特徴を抽出し)、生成された特徴マップを出力する。
地上画像の特徴マップと空撮画像の特徴マップは、判定ネットワーク16に入力される。判定ネットワーク16は、入力された特徴マップを解析し、地上画像が空撮画像とマッチするか否かを表すデータ(例えばフラグ)を出力する。
<識別器10のアプリケーションの例>
識別器10のアプリケーションには様々なものがある。例えば識別器10は、画像ジオローカライゼーションを行うシステム(以下、ジオローカライゼーションシステム)の一部として利用することができる。画像ジオローカライゼーションは、入力された画像の撮像場所を特定する技術である。ここで、ジオローカライゼーションシステムはあくまで、識別器10のアプリケーションの一例であり、識別器10のアプリケーションは、ジオローカライゼーションシステムの中で利用されるものに限定されない。
図7は、識別器10が含まれるジオローカライゼーションシステム20を示す。ジオローカライゼーションシステム20は、識別器10及び位置データベース30を含む。位置データベース30は、それぞれに位置情報が付加された複数の空撮画像を含む。位置情報の例は、対応する空撮画像の撮像場所の GPS(Global Positioning System)座標でありうる。
ジオローカライゼーションシステム20は、クライアント(例えばユーザ端末)から地上画像を含むクエリを受信し、受信したクエリに含まれる地上画像とマッチする空撮画像を位置データベース30から探索し、これによって地上画像の撮像場所を特定する。具体的には、クエリに含まれる地上画像にマッチする空撮画像が検出されるまで、ジオローカライゼーションシステム20は、「位置データベース30から空撮画像を1つ取得し、地上画像と取得した空撮画像を識別器10に入力し、識別器10からの出力が、地上画像と空撮画像とがマッチすることを示しているか否かを判定する。」という処理を繰り返すこうすることで、ジオローカライゼーションシステム20は、地上画像の撮像場所が含まれる空撮画像を見つける。検出された空撮画像が GPS 座標などの位置情報に対応づけられているため、ジオローカライゼーションシステム20は、地上画像の撮像場所が、地上画像にマッチする空撮画像に対応づけられている位置情報によって示されている場所であると認識できる。
なお、ジオローカライゼーションシステム20は、1つ以上の、図4に示されているコンピュータなどによって実装されうる。
<訓練データの取得:S102>
取得部2020は、1つ以上の訓練データセットを取得する(S102)。前述したように、訓練データセットは、地上画像、正例、第1レベル負例、及び第2レベル負例を含む。ここで、複数の第1負例が訓練データセットには含まれうる。同様に、複数の第2負例が訓練データセットには含まれうる。以下、訓練データセットを取得する方法の例について説明する。
訓練データセットに含まれる正例は、同じ訓練データセットに含まれる地上画像にマッチする必要がある。一方、訓練データセットに含まれる負例は、同じ訓練データセットに含まれる地上画像にマッチしてはならない。これらの条件を満たす画像のセットを得るために、例えば、訓練装置2000からアクセス可能な記憶装置(以下、画像記憶装置)の中に予め、複数の地上画像と複数の空撮画像が用意される。画像記憶装置の中の各画像は、その画像の撮像場所の位置情報と対応づけられている。前述したように、GPS 座標が位置情報の例である。
訓練装置2000は、任意の地上画像を画像記憶装置から取得する。さらに、訓練装置2000は、取得した地上画像の位置情報によって表されている位置と同じ位置又は近い位置を表す位置情報を持つ空撮画像を取得する。なお、「或る位置が他の位置から近い」とは、それらの位置(例えば GPS 座標)間の距離が所定の閾値以下であることを意味しうる。
負例に関しては、訓練装置2000は、地上画像によって表されている位置とは異なる位置を表す位置情報を持つ複数の空撮画像を取得する。なお、「或る位置が他の位置と異なる」とは、それらの位置(例えば GPS 座標)が異なるか、又は、それらの位置の間の距離が所定の閾値より大きいことを意味しうる。
負例を用意する際、各負例内の景色の種類を考慮する必要がある。例えば、画像記憶装置において、各空撮画像は、その空撮画像に含まれる景色の種類を示す情報(以下、種類情報)と対応づけられて格納されうる。この場合、訓練装置2000は、正例の種類情報に示されている景色の種類とは異なる景色の種類が示されている種類情報を持つ、1つ以上の空撮画像を、第1レベル負例として取得する。一方、訓練装置2000は、正例の種類情報に示されている景色の種類と同じ景色の種類が示されている種類情報を持つ、1つ以上の空撮画像を、第2レベル負例として取得する。
種類情報は、必ずしも、画像記憶装置に格納されている空撮画像に予め付加されている必要はない。種類情報が空撮画像に付加されていない場合、例えば訓練装置2000は、複数の負例を画像記憶装置から取得し、取得した各負例について、景色の種類を特定する。さらに訓練装置2000は、その景色の種類が正例の景色の種類とは異なると特定された1つ以上の空撮画像を、第1負例として選ぶ。一方、訓練装置2000は、その景色の種類が正例の景色の種類と同じであると特定された1つ以上の空撮画像を、第2負例として選ぶ。
上述した負例の景色の種類の特定は、種々の方法で実現される。例えば訓練装置2000は、景色分類器を更に有する。景色分類器は、その中に入力された空撮画像に含まれる景色の種類を、所定の複数の景色の種類の中から特定することができるように、予め訓練されている分類器である。この場合、訓練装置2000は、複数の空撮画像を順に、景色分類器に入力することで、各空撮画像に含まれる景色の種類を把握する。
<第1フェーズ訓練:S104>
第1フェーズ訓練部2040は、識別器10の第1フェーズ訓練を行う。以下、第1フェーズ訓練を行う方法の例が記述される。
例えば識別器10は、地上画像と正例を識別器10に入力し、識別器10からの出力を用いて、識別器10のパラメータを更新しうる。同様に、識別器10は、地上画像と第1レベル負例を識別器10に入力し、識別器10からの出力を用いて、識別器10のパラメータを更新しうる。訓練デーセットが複数の第1レベル負例を含む場合、各第1レベル負例が順に利用される。
識別器10が図6に示されるニューラルネットワークのセットで構成されるとする。この場合、識別器10の訓練(更新)の各回で、第1フェーズ訓練部2040は以下のように動作する。第1に、第1フェーズ訓練部2040は、地上画像、正例、及び正例用の損失関数(以下、正損失関数)を用いて、ニューラルネットワークのセットを更新する。正損失関数は、地上画像と正例について、正しくより高い類似度を出力するように識別器10を訓練できるように、設計されている。具体的には、第1フェーズ訓練部2040は、地上画像と正例をそれぞれ、抽出ネットワーク12と抽出ネットワーク14に入力する。さらに、第1フェーズ訓練部2040は、ニューラルネットワークのセットからの出力を正損失関数に入力し、算出された損失に基づいて、識別器10を構成するニューラルネットワーク内のノード間の各コネクションに与えられているパラメータ(重み)を更新する。
第2に、第1フェーズ訓練部2040は、地上画像、負例、及び負例用の損失関数(以下、負損失関数)を用いて、ニューラルネットワークのセットを訓練する。負損失関数は、地上画像と負例について、正しくより低い類似度を出力するように識別器10を訓練できるように、設計されている。具体的には、第1フェーズ訓練部2040は、地上画像と負例をそれぞれ、抽出ネットワーク12と抽出ネットワーク14に入力する。さらに、第1フェーズ訓練部2040は、ニューラルネットワークのセットからの出力を負損失関数に入力し、算出された損失に基づいて、識別器10を構成するニューラルネットワーク内のノード間の各コネクションに与えられているパラメータ(重み)を更新する。
なお、第1フェーズ訓練はバッチ式で行うことができる。具体的には、正例のバッチを識別器10に入力することで、正例の損失が更新される。さらに、負例のバッチを識別器10に入力することで、負例を利用して算出された損失に基づき、識別器10の重みが更新される。なお、同様のことが他のフェーズの訓練にも適用できる。
<第2フェーズ訓練:S106>
第2フェーズ訓練部2060は、識別器10の第2フェーズ訓練を行う(S106)。第2レベル負例を用いなければならないことを除き、第2フェーズ訓練の実行方法は、第1フェーズ訓練の実行方法と同じである。具体的には、例えば識別器10は、訓練データセット内の地上画像と正例を識別器10に入力し、識別器10からの出力を用いて、識別器10のパラメータを更新しうる。同様に、識別器10は、地上画像と第2レベル負例を識別器10に入力し、識別器10からの出力を用いて、識別器10のパラメータを更新しうる。訓練デーセットが複数の第2レベル負例を含む場合、各第1レベル負例が順に利用される。なお、第2フェーズ訓練において、第1フェーズ訓練と同じ態様で、第1レベル負例がさらに用いられてもよい。
<マッチングのための付加データ>
識別器10は、地上画像と空撮画像のマッチングを行うために付加データを利用してもよい。付加データの例は、方向情報である。地上画像に対応する方向情報は、画像の各部分について、方位角と高度のセットを示しうる。一方、空撮画像に対応する方向情報は、画像の各部分について、ラジアル距離と方位角のセットを示しうる。そのような方向情報の例は、非特許文献1に開示されている。
識別器10が方向情報を利用する場合、識別器10の訓練に方向情報も利用される。そのため、訓練データセットは、画像だけでなく、それらに対応する訓練情報も含む。識別器10の訓練の際、地上画像、その地上画像に対応する方向情報、空撮画像、及びその空撮画像に対応する方向情報が、識別器10に入力される。そして、訓練装置2000は、識別器10からの出力に基づいて算出される損失を利用して、識別器10のパラメータを更新する。
<訓練装置2000からの出力>
訓練装置2000は、識別器10の訓練の結果を出力しうる。訓練の結果は様々な態様で出力されうる。例えば訓練装置2000は、識別器10の訓練済みのパラメータ(例えば、ニューラルネットワークの各コネクションに与えられた重み)を記憶装置に格納したり、識別器10が利用される装置へ訓練済みのパラメータを送信したりしうる。ここで、パラメータだけでなく、識別器10を実装するプログラムがさらに出力されてもよい。
識別器10が訓練装置2000の中に実装される場合、訓練装置は、訓練の結果を出力しなくてもよい。この場合、訓練装置2000のユーザにとっては、識別器10の訓練の完了を訓練装置2000がユーザに通知することが好ましい。
実施形態2
図8は、実施形態2の訓練装置2000の概要を示す。ここで、図8は、訓練装置2000の可能な動作の例を示すものであり、訓練装置2000の動作を限定しない。また、以下で説明される点を除き、実施形態2の訓練装置2000は、実施形態1の訓練装置2000と同じ機能を持ちうる。
実施形態2の訓練装置2000は、第1フェーズ訓練及び第2フェーズ訓練に加え、識別器10の第3フェーズ訓練を行う。第3フェーズ訓練は、地上画像、空撮画像、正例、及び空撮画像の第3レベルの負例(以下、第3レベル負例)を用いて行われる。第3レベル負例は、地上画像との類似度が、第2レベル負例と地上画像の類似度よりも高くなるように、第2レベル負例に基づいて生成される。
なお、第3レベル負例は、ユーザによって人手で生成されてもよいし、コンピュータによって自動で生成されてもよい。図8は、第3レベル負例が訓練装置2000によって生成されるケースを描いている。第3レベル負例を自動的に生成することで、訓練装置2000のユーザの負荷を軽減できる。
<作用効果の例>
実施形態2の訓練装置2000によって行われる識別器10の訓練は、実施形態1の訓練装置2000によって行われるものよりも多くのフェーズを含む。そのため、実施形態2の訓練装置2000は、実施形態1の訓練装置2000によって訓練された識別器10よりも高い精度で地上画像と空撮画像とのマッチングを行えるように、識別器10を訓練することができる。
<機能構成の例>
図9は、実施形態2の訓練装置2000の機能構成の例を示すブロック図である。実施形態2の訓練装置2000は、第3フェーズ訓練部2080をさらに有する。第3フェーズ訓練部2080は、地上画像、正例、及び第3レベル負例を用いて、識別器10の第3フェーズ訓練を行う。
<ハードウエア構成の例>
実施形態2の訓練装置2000のハードウエア構成は、実施形態1の訓練装置2000のハードウエア構成と同様に、図4で表されうる。しかしながら、実施形態2のストレージデバイス1080は、実施形態2の訓練装置2000の機能を実現するプログラムを格納している。
<処理の流れ>
図10は、実施形態2の訓練装置2000によって実行される処理の流れを示すフローチャートである。第2フェーズ訓練の後、第3フェーズ訓練部2080は、第3レベル負例を用いて第3フェーズ訓練を行う(S202)。
<第3レベル負例について>
前述したように、第3レベル負例は、地上画像との類似度が、第2レベル負例と地上画像の類似度よりも高くなるように、第2レベル負例に基づいて生成される。地上画像と空撮画像との類似度は、それらの特徴量(画像に含まれる各物体の位置、方向、及びサイズなど)の類似に基づくものである。画像に含まれる物体は、例えば、道路、建物、駐車場、矢印マーク、標識、及び草木などでありうる。その他にも例えば、画像の特徴量は、画像内の線の位置、方向、及びサイズ、並びにエッジでありうる。
そのため例えば第3レベル負例は、第2レベル負例における1つ以上の前述した特徴量が、地上画像におけるそれらとより似たものになるように、第2レベル負例を変更することで生成される。第3フェーズ訓練部2080が第3レベル負例を生成する場合、例えば第3フェーズ訓練部2080は、地上画像と第2レベル負例の特徴量を抽出し、これらの特徴量の比較によって変換パラメータを生成し、変換パラメータに基づいて第2レベル負例を変換することで、第3レベル負例を生成する。
変換パラメータは、第2レベル負例に適用されるべき変換を表す。変換の例は、クロップ、アフィン変換、色変更、及び画像インペインティング(画像内の穴、空白領域、又は欠落したピクセル値を埋める)でありうる。クロップ処理に関する変換パラメータは、第2レベル負例のどの部分を切り出すべきかを表しうる。アフィン変換に関する変換パラメータは、第2レベル負例に適用されるべきアフィン変換に用いられるアフィン変換行列を表しうる。
色変更に関する変換パラメータは、色変更の必要がある第2レベル負例のピクセルの位置(xy 座標)と、対応するピクセルに適用されるべき色変更を表す変更パラメータのセットを表しうる。変更パラメータは、色の特徴(強度、ヒュー、及び明るさなど)についての変更を表しうる。例えば、色変更を扱うパラメータ生成部2086は、2つのニューラルネットワークを含みうる。第1のニューラルネットワークは、変更の必要がある第2レベル負例のピクセルの位置を自動的に見つけるように訓練される。第2のニューラルネットワークは、第1のニューラルネットワークによって変更されるべきであると特定された各ピクセルについて、どのように色を変更するのかを自動的に決定する。
画像インペインティングに関する変換パラメータは、第2レベル負例に含まれる対象のピクセルの位置(xy 座標)と、対応するピクセルに設定すべき新たなピクセル値とのセットを表しうる。例えば画像インペインティングを扱うパラメータ生成部2086は、2つのニューラルネットワークを含みうる。第1のニューラルネットワークは、対象のピクセルの位置を自動的に見つけるように訓練される。対象のピクセルを見つけた後、各対象のピクセルのピクセル値は0(黒色)に設定される。第2のニューラルネットワークは、各対象のピクセルのピクセル値を新たな値に自動的に変更するように訓練される。
第2レベル負例から第3レベル負例の生成は、複数のアフィン変換を含みうる。この場合、変換パラメータは、複数のアフィン変換行列を含みうる。第3レベル負例は、例えば、変換された複数の画像の重み付き結合又は平均として生成されうる。
第2レベル負例に適用されるべき変換は、前述したものに限定されない。例えば、GAN(generative adversarial network)を用いて第3レベル負例が生成されてもよい。
図11は、例生成部2082の実装例を示す。例生成部2082は、第3レベル負例を生成する機能構成部である。例生成部は、抽出部2084、抽出部2085、パラメータ生成部2086、及び変換部2087を有する。抽出部2084は、地上画像を取得し、地上画像の特徴量(1つ以上の特徴マップ)を抽出する。抽出部2084の実装の例は、CNN などのニューラルネットワークである。なお、抽出部2084によって抽出される特徴量は、図6に示される抽出ネットワーク12によって抽出される特徴マップと同じでもよいし、異なってもよい。
抽出部2085は、第2レベル負例を取得し、第2レベル負例の特徴量(1つ以上の特徴マップ)を抽出する。抽出部2085の実装の例も、CNN などのニューラルネットワークである。なお、抽出部2085によって抽出される特徴量は、図6に示される抽出ネットワーク14によって抽出される特徴マップと同じでもよいし、異なってもよい。
パラメータ生成部2086は、抽出部2084からの出力(すなわち、地上画像の特徴量)と抽出部2085からの出力(すなわち、第2レベル負例の特徴量)を取得し、変換パラメータを生成する。変換パラメータは、例えば、1つ以上の行列で構成される。パラメータ生成部2086の実装例は、ニューラルネットワークである。
変換部2087は、変換パラメータと、抽出部2085に対して入力された第2レベル負例と同じ第2レベル負例とを取得し、変換パラメータを利用してその第2レベル負例を変換することにより、第3レベル負例を生成する。変換パラメータが、クロップ処理用の第1パラメータと、アフィン変換用の第2パラメータとに分けられるとする。この場合、例えば変換部2087は、第2レベル負例に対するクロップ処理に、第1パラメータを利用した後、第1パラメータに基づいて第2レベル負例から切り出された画像領域に対するアフィン変換に、第2パラメータを利用する。
抽出部2084、抽出部2085、及びパラメータ生成部2086は、前述したように動作するように、予め訓練される。理論的には、第3負例は、実際には地上画像とマッチしない空撮画像であるものの、第2フェーズ訓練まで訓練された識別器10により、地上画像とマッチすると判定される空撮画像として、生成されるべきである。そのため例えば、例生成部2082によって生成された空撮画像の品質は、第2フェーズ訓練まで訓練済みの識別器(シャムネットワークなど)によって評価されてもよい。この訓練済み識別器は、識別器10と同様に動作する。
評価のため、地上画像と、訓練中の例生成部2082によって生成された空撮画像とが、訓練済み識別器に入力される。訓練済み識別器によって算出される類似度が、例生成部2082によって生成された空撮画像と地上画像とがマッチすると例生成部2082によって判定されるために十分な高さとなるように、例生成部2082が訓練される(抽出部2084、抽出部2085、及びパラメータ生成部2086の重みが更新される)。
なお、例生成部2082は、第3負例の生成に、正例をさらに利用してもよい。この場合、例生成部2082は、正例から特徴量を抽出する他の抽出部を有する。パラメータ生成部2086は、地上画像から抽出された特徴量、第2レベル負例から抽出された特徴量、及び正例から抽出された特徴量を取得し、入力されたこれらの特徴量に基づいて、変換パラメータを生成する。
上述したように、第3レベル負例は、手動で生成されうる。この場合、例えば例生成部2082は、地上画像と第2レベル負例をユーザに提供し、画像編集アプリケーションを利用した第2負例の編集をユーザに行わせる。例生成部2082は、ユーザによって編集された画像を、第3負例として取得する。
その他にも例えば、第3レベル負例は、訓練装置2000の外部で生成されてもよい。例えば例生成部2082は、他の装置(以下、例生成装置)の中で実装される。この場合、例えば訓練装置2000は、地上画像と第2負例が含まれるリクエストを、例生成装置に送信する。例生成装置はリクエストを受信し、例生成部2082に対して地上画像と第2負例を入力することによって第3負例を生成し、第3負例が含まれるレスポンスを訓練装置2000へ送信する。
その他にも例えば、第3レベル負例は、取得部2020が取得する訓練データセットに含まれていてもよい。言い換えれば、第3レベル負例は予め用意されていてもよい。この場合、第3レベル負例は、ユーザによって手動で生成されてもよいし、例生成装置によって自動的に生成されてもよい。
<第3フェーズ訓練>
第3フェーズ訓練部2080は、識別器10の第3フェーズ訓練を行う(S202)。第3フェーズ訓練は、第3フェーズ訓練では第3レベル負例が用いられるという点で、第1フェーズ訓練及び第2フェーズ訓練と異なる。そのため、第1レベル負例や第2レベル負例の代わりに第3レベル負例が用いられるという点を除き、第3フェーズ訓練を行う方法は、第1フェーズ訓練を行う方法や第2フェーズ訓練を行う方法と同じである。具体的には、例えば、識別器10は、訓練データセットに含まれる地上画像と正例を識別器10に入力し、識別器10からの出力を用いて、識別器10のパラメータを更新しうる。同様に、識別器10は、地上画像と第3レベル負例を識別器10に入力し、識別器10からの出力を用いて、識別器10のパラメータを更新しうる。
ここで、複数の第3レベル負例が存在しうる。例えば、訓練データセットが複数の第2レベル負例を含む場合、例生成部2082は、複数の第2レベル負例のそれぞれについて、第3レベル負例を生成しうる。この場合、第3フェーズ訓練部2080は、複数の第3レベル負例のそれぞれを順に利用して、識別器10を訓練する。
プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに提供することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えば、フレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば、光磁気ディスク)、CD-ROM、CD-R、CD-R/W、半導体メモリ(例えば、マスク ROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM)を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに提供されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
実施形態を参照して本開示について説明されているが、本開示は上述した実施形態に限定されない。発明の範囲内で、当業者が理解できる種々の変形を本開示の構成や詳細に対して行うことができる。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
少なくとも一つのプロセッサと、命令が格納されている記憶要素とを有し、
前記少なくとも一つのプロセッサは、前記命令を実行することにより、
識別器の第1フェーズ訓練を実行し、前記識別器は、地上画像と空撮画像を取得し、前記地上画像と前記空撮画像とがマッチするか否かを判定し、
前記識別器の第2フェーズ訓練を実行するように構成され、
前記第1フェーズ訓練は、地上画像と、前記空撮画像の正例と、前記空撮画像の第1レベル負例とを用いて行われ、前記空撮画像の前記第1レベル負例は、前記地上画像に含まれる景色とは異なる種類の景色を含み、
前記第2フェーズ訓練は、前記地上画像と、前記空撮画像の正例と、前記空撮画像の第2レベル負例とを用いて行われ、前記空撮画像の前記第2レベル負例は、前記地上画像に含まれる景色と同じ種類の景色を含む、訓練装置。
(付記2)
前記少なくとも一つのプロセッサは、
前記空撮画像の正例及び空撮画像の複数の負例を取得し、
各前記取得した空撮画像の景色の種類を特定し、
前記空撮画像の前記正例の景色とは異なる種類の景色を持つことが特定された前記空撮画像の前記負例を、前記空撮画像の前記第1レベル負例として用い、
前記空撮画像の前記正例の景色と同じ種類の景色を持つことが特定された前記空撮画像の前記負例を、前記空撮画像の前記第2レベル負例として用いるようにさらに構成されている、付記1に記載の訓練装置。
(付記3)
前記少なくとも一つのプロセッサは、
前記地上画像に対する類似度が、前記地上画像に対する前記空撮画像の前記第2レベル負例の類似度よりも高い、前記空撮画像の第3レベル負例を取得し、
前記地上画像と前記空撮画像の前記第3レベル負例とを用いて、前記識別器の第3フェーズ訓練を行うように、さらに構成されている、付記1又は2に記載の訓練装置。
(付記4)
前記少なくとも1つのプロセッサは、
前記地上画像と、前記空撮画像の前記第2レベル負例との特徴量を抽出し、
前記地上画像と、前記空撮画像の前記第2レベル負例との前記抽出された特徴量に基づいて、変換パラメータを生成し、
前記変換パラメータに基づいて、前記空撮画像の前記第2レベル負例を前記空撮画像の前記第3レベル負例に変換することにより、前記第3レベル負例を取得するように、さらに構成されている、付記3に記載の訓練装置。
(付記5)
前記変換は、クロップ処理、アフィン変換、色変更、又は画像インペインティングを含み、
前記変換がクロップ処理を含む場合、前記変換パラメータは、切り出されるべき空撮画像の前記第2レベル負例の部分を指定し、
前記変換がアフィン変換を含む場合、前記変換パラメータは、前記空撮画像の前記第2レベル負例に対して行われる前記アフィン変換に用いられる変換行列を含み、
前記変換が色変更を含む場合、前記変換パラメータは、前記空撮画像の前記第2レベル負例のピクセルの位置と、前記対応するピクセルに対して適用されるべき色の特徴の変更とのセットを含み、
前記変換が画像インペインティングを含む場合、前記変換パラメータは、前記空撮画像の前記第2レベル負例のピクセルの位置と、前記対応するピクセルに設定されるべき新たなピクセル値とのセットを含む、付記4に記載の訓練装置。
(付記6)
前記識別器は、第1ニューラルネットワークと、第2ニューラルネットワークと、第3ニューラルネットワークとを含み、
前記第1ニューラルネットワークは、前記地上画像を取得して、前記地上画像の特徴マップを出力し、
前記第2ニューラルネットワークは、前記空撮画像を取得して、前記空撮画像の特徴マップを出力し、
前記第3ニューラルネットワークは、前記地上画像の特徴マップと前記空撮画像の特徴マップとを取得し、前記地上画像と前記空撮画像とがマッチするか否かを示すデータを出力する、付記1から5いずれか一項に記載の訓練装置。
(付記7)
識別器の第1フェーズ訓練を実行し、前記識別器は、地上画像と空撮画像を取得し、前記地上画像と前記空撮画像とがマッチするか否かを判定し、
前記識別器の第2フェーズ訓練を実行することを含み、
前記第1フェーズ訓練は、地上画像と、前記空撮画像の正例と、前記空撮画像の第1レベル負例とを用いて行われ、前記空撮画像の前記第1レベル負例は、前記地上画像に含まれる景色とは異なる種類の景色を含み、
前記第2フェーズ訓練は、前記地上画像と、前記空撮画像の正例と、前記空撮画像の第2レベル負例とを用いて行われ、前記空撮画像の前記第2レベル負例は、前記地上画像に含まれる景色と同じ種類の景色を含む、コンピュータによって実行される制御方法。
(付記8)
前記空撮画像の正例及び空撮画像の複数の負例を取得し、
各前記取得した空撮画像の景色の種類を特定し、
前記空撮画像の前記正例の景色とは異なる種類の景色を持つことが特定された前記空撮画像の前記負例を、前記空撮画像の前記第1レベル負例として用い、
前記空撮画像の前記正例の景色と同じ種類の景色を持つことが特定された前記空撮画像の前記負例を、前記空撮画像の前記第2レベル負例として用いることをさらに含む、付記7に記載の制御方法。
(付記9)
前記地上画像に対する類似度が、前記地上画像に対する前記空撮画像の前記第2レベル負例の類似度よりも高い、前記空撮画像の第3レベル負例を取得し、
前記地上画像と前記空撮画像の前記第3レベル負例とを用いて、前記識別器の第3フェーズ訓練を行うことをさらに含む、付記7又は8に記載の制御方法。
(付記10)
前記地上画像と、前記空撮画像の前記第2レベル負例との特徴量を抽出し、
前記地上画像と、前記空撮画像の前記第2レベル負例との前記抽出された特徴量に基づいて、変換パラメータを生成し、
前記変換パラメータに基づいて、前記空撮画像の前記第2レベル負例を前記空撮画像の前記第3レベル負例に変換することにより、前記第3レベル負例を取得することをさらに含む、付記9に記載の制御方法。
(付記11)
前記変換は、クロップ処理、アフィン変換、色変更、又は画像インペインティングを含み、
前記変換がクロップ処理を含む場合、前記変換パラメータは、切り出されるべき空撮画像の前記第2レベル負例の部分を指定し、
前記変換がアフィン変換を含む場合、前記変換パラメータは、前記空撮画像の前記第2レベル負例に対して行われる前記アフィン変換に用いられる変換行列を含み、
前記変換が色変更を含む場合、前記変換パラメータは、前記空撮画像の前記第2レベル負例のピクセルの位置と、前記対応するピクセルに対して適用されるべき色の特徴の変更とのセットを含み、
前記変換が画像インペインティングを含む場合、前記変換パラメータは、前記空撮画像の前記第2レベル負例のピクセルの位置と、前記対応するピクセルに設定されるべき新たなピクセル値とのセットを含む、付記10に記載の制御方法。
(付記12)
前記識別器は、第1ニューラルネットワークと、第2ニューラルネットワークと、第3ニューラルネットワークとを含み、
前記第1ニューラルネットワークは、前記地上画像を取得して、前記地上画像の特徴マップを出力し、
前記第2ニューラルネットワークは、前記空撮画像を取得して、前記空撮画像の特徴マップを出力し、
前記第3ニューラルネットワークは、前記地上画像の特徴マップと前記空撮画像の特徴マップとを取得し、前記地上画像と前記空撮画像とがマッチするか否かを示すデータを出力する、付記7から11いずれか一項に記載の制御方法。
(付記13)
識別器の第1フェーズ訓練を実行し、前記識別器は、地上画像と空撮画像を取得し、前記地上画像と前記空撮画像とがマッチするか否かを判定し、
前記識別器の第2フェーズ訓練を実行することをコンピュータに実行させるプログラムが格納されており、
前記第1フェーズ訓練は、地上画像と、前記空撮画像の正例と、前記空撮画像の第1レベル負例とを用いて行われ、前記空撮画像の前記第1レベル負例は、前記地上画像に含まれる景色とは異なる種類の景色を含み、
前記第2フェーズ訓練は、前記地上画像と、前記空撮画像の正例と、前記空撮画像の第2レベル負例とを用いて行われ、前記空撮画像の前記第2レベル負例は、前記地上画像に含まれる景色と同じ種類の景色を含む、非一時的なコンピュータ可読媒体。
(付記14)
前記プログラムは、
前記空撮画像の正例及び空撮画像の複数の負例を取得し、
各前記取得した空撮画像の景色の種類を特定し、
前記空撮画像の前記正例の景色とは異なる種類の景色を持つことが特定された前記空撮画像の前記負例を、前記空撮画像の前記第1レベル負例として用い、
前記空撮画像の前記正例の景色と同じ種類の景色を持つことが特定された前記空撮画像の前記負例を、前記空撮画像の前記第2レベル負例として用いることを、さらに前記コンピュータに実行させる、付記13に記載の非一時的なコンピュータ可読媒体。
(付記15)
前記プログラムは、
前記地上画像に対する類似度が、前記地上画像に対する前記空撮画像の前記第2レベル負例の類似度よりも高い、前記空撮画像の第3レベル負例を取得し、
前記地上画像と前記空撮画像の前記第3レベル負例とを用いて、前記識別器の第3フェーズ訓練を行うことを、前記コンピュータにさらに実行させる、付記13又は14に記載の非一時的なコンピュータ可読媒体。
(付記16)
前記プログラムは、
前記地上画像と、前記空撮画像の前記第2レベル負例との特徴量を抽出し、
前記地上画像と、前記空撮画像の前記第2レベル負例との前記抽出された特徴量に基づいて、変換パラメータを生成し、
前記変換パラメータに基づいて、前記空撮画像の前記第2レベル負例を前記空撮画像の前記第3レベル負例に変換することにより、前記第3レベル負例を取得することを、前記コンピュータにさらに実行させる、付記15に記載の非一時的なコンピュータ可読媒体。
(付記17)
前記変換は、クロップ処理、アフィン変換、色変更、又は画像インペインティングを含み、
前記変換がクロップ処理を含む場合、前記変換パラメータは、切り出されるべき空撮画像の前記第2レベル負例の部分を指定し、
前記変換がアフィン変換を含む場合、前記変換パラメータは、前記空撮画像の前記第2レベル負例に対して行われる前記アフィン変換に用いられる変換行列を含み、
前記変換が色変更を含む場合、前記変換パラメータは、前記空撮画像の前記第2レベル負例のピクセルの位置と、前記対応するピクセルに対して適用されるべき色の特徴の変更とのセットを含み、
前記変換が画像インペインティングを含む場合、前記変換パラメータは、前記空撮画像の前記第2レベル負例のピクセルの位置と、前記対応するピクセルに設定されるべき新たなピクセル値とのセットを含む、付記16に記載の非一時的なコンピュータ可読媒体。
(付記18)
前記識別器は、第1ニューラルネットワークと、第2ニューラルネットワークと、第3ニューラルネットワークとを含み、
前記第1ニューラルネットワークは、前記地上画像を取得して、前記地上画像の特徴マップを出力し、
前記第2ニューラルネットワークは、前記空撮画像を取得して、前記空撮画像の特徴マップを出力し、
前記第3ニューラルネットワークは、前記地上画像の特徴マップと前記空撮画像の特徴マップとを取得し、前記地上画像と前記空撮画像とがマッチするか否かを示すデータを出力する、付記13から17いずれか一項に記載の非一時的なコンピュータ可読媒体。
10 識別器
12 抽出ネットワーク
14 抽出ネットワーク
16 判定ネットワーク
20 ジオローカライゼーションシステム
30 位置データベース
1000 コンピュータ
1020 バス
1040 プロセッサ
1060 メモリ
1080 ストレージデバイス
1100 入出力インタフェース
1120 ネットワークインタフェース
2000 訓練装置
2020 取得部
2040 第1フェーズ訓練部
2060 第2フェーズ訓練部
2080 第3フェーズ訓練部
2082 例生成部
2084 抽出部
2085 抽出部
2086 パラメータ生成部
2087 変換部
訓練データセット S1 が、地上画像 G1、正例 P1、第1レベル負例 N1、及び第2レベル負例 N2 を含むとする。さらに、地上画像 G1 には(正例 P1 にも)、「住宅エリア」という種類の景色が含まれるとする。この場合、第1レベル負例は、「住宅エリア」以外の種類の景色(例えば高速道路、高架交差路、又はラウンドアバウト)を含む。一方で、第2レベル負例は、「住宅エリア」という種類の景色を含む。
複数フェーズで識別器を訓練する方法は、「カリキュラム学習」と呼ばれる。カリキュラム学習において、識別器の訓練は複数のフェーズに分けられ、各フェーズで利用される訓練データは、そのデータの識別の難易度という点で異なる。具体的には、早いフェーズほど、そのフェーズで利用される訓練データの識別が用意である。第1レベル例に含まれる景色の種類は地上画像に含まれる景色の種類と異なる一方で、第2レベル例に含まれる景色の種類は地上画像に含まれる景色の種類と同じであるため、訓練装置2000によって行われる訓練において、第1レベル負例の識別は第2レベル負例の識別よりも容易である。
ストレージデバイス1080は、前述したプログラムを格納しうる。プロセッサ1040は、訓練装置2000の各機能構成部を実現するためにそのプログラムを実行する。さらに、ストレージデバイス1080は、訓練データセット、識別器10(識別器10のプログラム及びそれによって使用されるパラメータ)、又はそれらの双方を格納しうる。
図6は、ニューラルネットワークで実装される識別器10の基本構造を示す図である。識別器10は、抽出ネットワーク12、抽出ネットワーク14、及び判定ネットワーク16を有する。抽出ネットワーク12は、地上画像を取得して、地上画像の1つ以上の特徴マップを生成し(すなわち、地上画像の特徴を抽出し)、生成された特徴マップを出力する。抽出ネットワーク14は、空撮画像を取得して、空撮画像の1つ以上の特徴マップを生成し(すなわち、空撮画像の特徴を抽出し)、生成された特徴マップを出力する。
例えば第1フェーズ訓練部2040は、地上画像と正例を識別器10に入力し、識別器10からの出力を用いて、識別器10のパラメータを更新しうる。同様に、第1フェーズ訓練部2040は、地上画像と第1レベル負例を識別器10に入力し、識別器10からの出力を用いて、識別器10のパラメータを更新しうる。訓練デーセットが複数の第1レベル負例を含む場合、各第1レベル負例が順に利用される。
<第2フェーズ訓練:S106>
第2フェーズ訓練部2060は、識別器10の第2フェーズ訓練を行う(S106)。第2レベル負例を用いなければならないことを除き、第2フェーズ訓練の実行方法は、第1フェーズ訓練の実行方法と同じである。具体的には、例えば第2フェーズ訓練部2060は、訓練データセット内の地上画像と正例を識別器10に入力し、識別器10からの出力を用いて、識別器10のパラメータを更新しうる。同様に、第2フェーズ訓練部2060は、地上画像と第2レベル負例を識別器10に入力し、識別器10からの出力を用いて、識別器10のパラメータを更新しうる。訓練デーセットが複数の第2レベル負例を含む場合、各第1レベル負例が順に利用される。なお、第2フェーズ訓練において、第1フェーズ訓練と同じ態様で、第1レベル負例がさらに用いられてもよい。
<第3フェーズ訓練>
第3フェーズ訓練部2080は、識別器10の第3フェーズ訓練を行う(S202)。第3フェーズ訓練は、第3フェーズ訓練では第3レベル負例が用いられるという点で、第1フェーズ訓練及び第2フェーズ訓練と異なる。そのため、第1レベル負例や第2レベル負例の代わりに第3レベル負例が用いられるという点を除き、第3フェーズ訓練を行う方法は、第1フェーズ訓練を行う方法や第2フェーズ訓練を行う方法と同じである。具体的には、例えば、第3フェーズ訓練部2080は、訓練データセットに含まれる地上画像と正例を識別器10に入力し、識別器10からの出力を用いて、識別器10のパラメータを更新しうる。同様に、第3フェーズ訓練部2080は、地上画像と第3レベル負例を識別器10に入力し、識別器10からの出力を用いて、識別器10のパラメータを更新しうる。

Claims (18)

  1. 少なくとも一つのプロセッサと、命令が格納されている記憶要素とを有し、
    前記少なくとも一つのプロセッサは、前記命令を実行することにより、
    識別器の第1フェーズ訓練を実行し、前記識別器は、地上画像と空撮画像を取得し、前記地上画像と前記空撮画像とがマッチするか否かを判定し、
    前記識別器の第2フェーズ訓練を実行するように構成され、
    前記第1フェーズ訓練は、地上画像と、前記空撮画像の正例と、前記空撮画像の第1レベル負例とを用いて行われ、前記空撮画像の前記第1レベル負例は、前記地上画像に含まれる景色とは異なる種類の景色を含み、
    前記第2フェーズ訓練は、前記地上画像と、前記空撮画像の正例と、前記空撮画像の第2レベル負例とを用いて行われ、前記空撮画像の前記第2レベル負例は、前記地上画像に含まれる景色と同じ種類の景色を含む、訓練装置。
  2. 前記少なくとも一つのプロセッサは、
    前記空撮画像の正例及び空撮画像の複数の負例を取得し、
    各前記取得した空撮画像の景色の種類を特定し、
    前記空撮画像の前記正例の景色とは異なる種類の景色を持つことが特定された前記空撮画像の前記負例を、前記空撮画像の前記第1レベル負例として用い、
    前記空撮画像の前記正例の景色と同じ種類の景色を持つことが特定された前記空撮画像の前記負例を、前記空撮画像の前記第2レベル負例として用いるようにさらに構成されている、請求項1に記載の訓練装置。
  3. 前記少なくとも一つのプロセッサは、
    前記地上画像に対する類似度が、前記地上画像に対する前記空撮画像の前記第2レベル負例の類似度よりも高い、前記空撮画像の第3レベル負例を取得し、
    前記地上画像と前記空撮画像の前記第3レベル負例とを用いて、前記識別器の第3フェーズ訓練を行うように、さらに構成されている、請求項1又は2に記載の訓練装置。
  4. 前記少なくとも1つのプロセッサは、
    前記地上画像と、前記空撮画像の前記第2レベル負例との特徴量を抽出し、
    前記地上画像と、前記空撮画像の前記第2レベル負例との前記抽出された特徴量に基づいて、変換パラメータを生成し、
    前記変換パラメータに基づいて、前記空撮画像の前記第2レベル負例を前記空撮画像の前記第3レベル負例に変換することにより、前記第3レベル負例を取得するように、さらに構成されている、請求項3に記載の訓練装置。
  5. 前記変換は、クロップ処理、アフィン変換、色変更、又は画像インペインティングを含み、
    前記変換がクロップ処理を含む場合、前記変換パラメータは、切り出されるべき空撮画像の前記第2レベル負例の部分を指定し、
    前記変換がアフィン変換を含む場合、前記変換パラメータは、前記空撮画像の前記第2レベル負例に対して行われる前記アフィン変換に用いられる変換行列を含み、
    前記変換が色変更を含む場合、前記変換パラメータは、前記空撮画像の前記第2レベル負例のピクセルの位置と、前記対応するピクセルに対して適用されるべき色の特徴の変更とのセットを含み、
    前記変換が画像インペインティングを含む場合、前記変換パラメータは、前記空撮画像の前記第2レベル負例のピクセルの位置と、前記対応するピクセルに設定されるべき新たなピクセル値とのセットを含む、請求項4に記載の訓練装置。
  6. 前記識別器は、第1ニューラルネットワークと、第2ニューラルネットワークと、第3ニューラルネットワークとを含み、
    前記第1ニューラルネットワークは、前記地上画像を取得して、前記地上画像の特徴マップを出力し、
    前記第2ニューラルネットワークは、前記空撮画像を取得して、前記空撮画像の特徴マップを出力し、
    前記第3ニューラルネットワークは、前記地上画像の特徴マップと前記空撮画像の特徴マップとを取得し、前記地上画像と前記空撮画像とがマッチするか否かを示すデータを出力する、請求項1から5いずれか一項に記載の訓練装置。
  7. 識別器の第1フェーズ訓練を実行し、前記識別器は、地上画像と空撮画像を取得し、前記地上画像と前記空撮画像とがマッチするか否かを判定し、
    前記識別器の第2フェーズ訓練を実行することを含み、
    前記第1フェーズ訓練は、地上画像と、前記空撮画像の正例と、前記空撮画像の第1レベル負例とを用いて行われ、前記空撮画像の前記第1レベル負例は、前記地上画像に含まれる景色とは異なる種類の景色を含み、
    前記第2フェーズ訓練は、前記地上画像と、前記空撮画像の正例と、前記空撮画像の第2レベル負例とを用いて行われ、前記空撮画像の前記第2レベル負例は、前記地上画像に含まれる景色と同じ種類の景色を含む、コンピュータによって実行される制御方法。
  8. 前記空撮画像の正例及び空撮画像の複数の負例を取得し、
    各前記取得した空撮画像の景色の種類を特定し、
    前記空撮画像の前記正例の景色とは異なる種類の景色を持つことが特定された前記空撮画像の前記負例を、前記空撮画像の前記第1レベル負例として用い、
    前記空撮画像の前記正例の景色と同じ種類の景色を持つことが特定された前記空撮画像の前記負例を、前記空撮画像の前記第2レベル負例として用いることをさらに含む、請求項7に記載の制御方法。
  9. 前記地上画像に対する類似度が、前記地上画像に対する前記空撮画像の前記第2レベル負例の類似度よりも高い、前記空撮画像の第3レベル負例を取得し、
    前記地上画像と前記空撮画像の前記第3レベル負例とを用いて、前記識別器の第3フェーズ訓練を行うことをさらに含む、請求項7又は8に記載の制御方法。
  10. 前記地上画像と、前記空撮画像の前記第2レベル負例との特徴量を抽出し、
    前記地上画像と、前記空撮画像の前記第2レベル負例との前記抽出された特徴量に基づいて、変換パラメータを生成し、
    前記変換パラメータに基づいて、前記空撮画像の前記第2レベル負例を前記空撮画像の前記第3レベル負例に変換することにより、前記第3レベル負例を取得することをさらに含む、請求項9に記載の制御方法。
  11. 前記変換は、クロップ処理、アフィン変換、色変更、又は画像インペインティングを含み、
    前記変換がクロップ処理を含む場合、前記変換パラメータは、切り出されるべき前記空撮画像の前記第2レベル負例の部分を指定し、
    前記変換がアフィン変換を含む場合、前記変換パラメータは、前記空撮画像の前記第2レベル負例に対して行われる前記アフィン変換に用いられる変換行列を含み、
    前記変換が色変更を含む場合、前記変換パラメータは、前記空撮画像の前記第2レベル負例のピクセルの位置と、前記対応するピクセルに対して適用されるべき色の特徴の変更とのセットを含み、
    前記変換が画像インペインティングを含む場合、前記変換パラメータは、前記空撮画像の前記第2レベル負例のピクセルの位置と、前記対応するピクセルに設定されるべき新たなピクセル値とのセットを含む、請求項10に記載の制御方法。
  12. 前記識別器は、第1ニューラルネットワークと、第2ニューラルネットワークと、第3ニューラルネットワークとを含み、
    前記第1ニューラルネットワークは、前記地上画像を取得して、前記地上画像の特徴マップを出力し、
    前記第2ニューラルネットワークは、前記空撮画像を取得して、前記空撮画像の特徴マップを出力し、
    前記第3ニューラルネットワークは、前記地上画像の特徴マップと前記空撮画像の特徴マップとを取得し、前記地上画像と前記空撮画像とがマッチするか否かを示すデータを出力する、請求項7から11いずれか一項に記載の制御方法。
  13. 識別器の第1フェーズ訓練を実行し、前記識別器は、地上画像と空撮画像を取得し、前記地上画像と前記空撮画像とがマッチするか否かを判定し、
    前記識別器の第2フェーズ訓練を実行することをコンピュータに実行させるプログラムが格納されており、
    前記第1フェーズ訓練は、地上画像と、前記空撮画像の正例と、前記空撮画像の第1レベル負例とを用いて行われ、前記空撮画像の前記第1レベル負例は、前記地上画像に含まれる景色とは異なる種類の景色を含み、
    前記第2フェーズ訓練は、前記地上画像と、前記空撮画像の正例と、前記空撮画像の第2レベル負例とを用いて行われ、前記空撮画像の前記第2レベル負例は、前記地上画像に含まれる景色と同じ種類の景色を含む、非一時的なコンピュータ可読媒体。
  14. 前記プログラムは、
    前記空撮画像の正例及び空撮画像の複数の負例を取得し、
    各前記取得した空撮画像の景色の種類を特定し、
    前記空撮画像の前記正例の景色とは異なる種類の景色を持つことが特定された前記空撮画像の前記負例を、前記空撮画像の前記第1レベル負例として用い、
    前記空撮画像の前記正例の景色と同じ種類の景色を持つことが特定された前記空撮画像の前記負例を、前記空撮画像の前記第2レベル負例として用いることを、さらに前記コンピュータに実行させる、請求項13に記載の非一時的なコンピュータ可読媒体。
  15. 前記プログラムは、
    前記地上画像に対する類似度が、前記地上画像に対する前記空撮画像の前記第2レベル負例の類似度よりも高い、前記空撮画像の第3レベル負例を取得し、
    前記地上画像と前記空撮画像の前記第3レベル負例とを用いて、前記識別器の第3フェーズ訓練を行うことを、前記コンピュータにさらに実行させる、請求項13又は14に記載の非一時的なコンピュータ可読媒体。
  16. 前記プログラムは、
    前記地上画像と、前記空撮画像の前記第2レベル負例との特徴量を抽出し、
    前記地上画像と、前記空撮画像の前記第2レベル負例との前記抽出された特徴量に基づいて、変換パラメータを生成し、
    前記変換パラメータに基づいて、前記空撮画像の前記第2レベル負例を前記空撮画像の前記第3レベル負例に変換することにより、前記第3レベル負例を取得することを、前記コンピュータにさらに実行させる、請求項15に記載の非一時的なコンピュータ可読媒体。
  17. 前記変換は、クロップ処理、アフィン変換、色変更、又は画像インペインティングを含み、
    前記変換がクロップ処理を含む場合、前記変換パラメータは、切り出されるべき前記空撮画像の前記第2レベル負例の部分を指定し、
    前記変換がアフィン変換を含む場合、前記変換パラメータは、前記空撮画像の前記第2レベル負例に対して行われる前記アフィン変換に用いられる変換行列を含み、
    前記変換が色変更を含む場合、前記変換パラメータは、前記空撮画像の前記第2レベル負例のピクセルの位置と、前記対応するピクセルに対して適用されるべき色の特徴の変更とのセットを含み、
    前記変換が画像インペインティングを含む場合、前記変換パラメータは、前記空撮画像の前記第2レベル負例のピクセルの位置と、前記対応するピクセルに設定されるべき新たなピクセル値とのセットを含む、請求項16に記載の非一時的なコンピュータ可読媒体。
  18. 前記識別器は、第1ニューラルネットワークと、第2ニューラルネットワークと、第3ニューラルネットワークとを含み、
    前記第1ニューラルネットワークは、前記地上画像を取得して、前記地上画像の特徴マップを出力し、
    前記第2ニューラルネットワークは、前記空撮画像を取得して、前記空撮画像の特徴マップを出力し、
    前記第3ニューラルネットワークは、前記地上画像の特徴マップと前記空撮画像の特徴マップとを取得し、前記地上画像と前記空撮画像とがマッチするか否かを示すデータを出力する、請求項13から17いずれか一項に記載の非一時的なコンピュータ可読媒体。
JP2022575285A 2020-06-11 2020-06-11 訓練装置、制御方法、及びプログラム Active JP7347696B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/023020 WO2021250850A1 (en) 2020-06-11 2020-06-11 Training apparatus, control method, and non-transitory computer-readable storage medium

Publications (2)

Publication Number Publication Date
JP2023528530A true JP2023528530A (ja) 2023-07-04
JP7347696B2 JP7347696B2 (ja) 2023-09-20

Family

ID=78847094

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022575285A Active JP7347696B2 (ja) 2020-06-11 2020-06-11 訓練装置、制御方法、及びプログラム

Country Status (3)

Country Link
US (1) US20230215144A1 (ja)
JP (1) JP7347696B2 (ja)
WO (1) WO2021250850A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114491135A (zh) * 2022-04-06 2022-05-13 成都考拉悠然科技有限公司 一种基于变分信息瓶颈的跨视角地理图像检索方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200134844A1 (en) * 2018-10-26 2020-04-30 Here Global B.V. Method, apparatus, and system for generating feature correspondence between image views

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200134844A1 (en) * 2018-10-26 2020-04-30 Here Global B.V. Method, apparatus, and system for generating feature correspondence between image views

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SIXING HU: "CVM-Net: Cross-View Matching Network for Image-Based Ground-to-Aerial Geo-Localization", 2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, JPN6023032046, 18 June 2018 (2018-06-18), pages 7258 - 7267, XP033473645, ISSN: 0005125708, DOI: 10.1109/CVPR.2018.00758 *
YICONG TIAN: "Cross-View Image Matching for Geo-localization in Urban Environments", 2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), JPN6023032045, 22 March 2017 (2017-03-22), pages 3608 - 3616, ISSN: 0005125709 *

Also Published As

Publication number Publication date
JP7347696B2 (ja) 2023-09-20
US20230215144A1 (en) 2023-07-06
WO2021250850A1 (en) 2021-12-16

Similar Documents

Publication Publication Date Title
TWI798305B (zh) 用於更新高度自動化駕駛地圖的系統和方法
US10430691B1 (en) Learning method and learning device for object detector based on CNN, adaptable to customers' requirements such as key performance index, using target object merging network and target region estimating network, and testing method and testing device using the same to be used for multi-camera or surround view monitoring
CN113989450B (zh) 图像处理方法、装置、电子设备和介质
CN108596108B (zh) 基于三元组语义关系学习的航拍遥感图像变化检测方法
US10423860B1 (en) Learning method and learning device for object detector based on CNN to be used for multi-camera or surround view monitoring using image concatenation and target object merging network, and testing method and testing device using the same
CN102959946A (zh) 基于相关3d点云数据来扩充图像数据的技术
KR102507501B1 (ko) 인공지능 기반 수계오염원 모니터링 시스템 및 방법
CN110909724B (zh) 一种多目标图像的缩略图生成方法
CN112581443A (zh) 一种风力发电机叶片表面损伤轻量化识别方法
KR102321998B1 (ko) 환경 변화에 강인한 이미지의 위치 및 방향 추정 방법 및 시스템
Pham et al. Road damage detection and classification with YOLOv7
Hu et al. Research on a single-tree point cloud segmentation method based on UAV tilt photography and deep learning algorithm
CN115375868B (zh) 地图显示和遥感地图显示方法、计算设备以及存储介质
CN113096181B (zh) 设备位姿的确定方法、装置、存储介质及电子装置
CN107578003B (zh) 一种基于地理标记图像的遥感图像迁移学习方法
KR20170143439A (ko) 3차원 공간 정보 구축을 위한 빅데이터 시스템의 연계 장치 및 방법
CN115423968A (zh) 基于点云数据和实景三维模型的输电通道优化方法
JP7347696B2 (ja) 訓練装置、制御方法、及びプログラム
US10430459B2 (en) Server and method for providing city street search service
KR20220033695A (ko) 항공영상 기반 도로객체 추출장치 및 그 방법
JP2022511147A (ja) 地理情報の生成を容易にするためのシステム及び方法
JP7485200B2 (ja) 画像拡張装置、制御方法、及びプログラム
Ying et al. Fully Convolutional Networks tor Street Furniture Identification in Panorama Images.
JP7388595B2 (ja) 画像拡張装置、制御方法、及びプログラム
Li Lidar-based 3D object detection for autonomous driving

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221206

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221206

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230808

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230821

R151 Written notification of patent or utility model registration

Ref document number: 7347696

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151