JP2023528530A

JP2023528530A - 訓練装置、制御方法、及びプログラム

Info

Publication number: JP2023528530A
Application number: JP2022575285A
Authority: JP
Inventors: ロイストンロドリゲス; 真宏谷
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2020-06-11
Filing date: 2020-06-11
Publication date: 2023-07-04
Anticipated expiration: 2040-06-11
Also published as: JP7347696B2; US20230215144A1; WO2021250850A1

Abstract

訓練装置（２０００）は、識別器１０の第１フェーズ訓練及び第２フェーズ訓練を行う。識別器（１０）は、地上画像及び空撮画像を取得して、取得した地上画像と取得した空撮画像とがマッチするか否かを判定する。第１フェーズ訓練は、地上画像と、空撮画像の第１レベル負例とを用いて行われる。空撮画像の第１レベル負例は、地上画像に含まれる景色とは異なる種類の景色を含む。第２フェーズ訓練は、地上画像と、空撮画像の第２レベル負例とを用いて行われる。空撮画像の第２レベル負例は、地上画像に含まれる景色と同じ種類の景色を含む。【選択図】図１

Description

本開示は、全体として、画像マッチング、特に、地上画像と空撮画像との間のマッチングに関する。

グラウンド・トゥー・エアリアル・クロスビューマッチング（地上画像と空撮画像のマッチング）を行うシステムが開発されている。例えば、非特許文献１は、比較すべき地上画像と空撮画像から特徴量を抽出するための CNN（Convolutional Neural Network）のセットを開示している。具体的には、一つの CNN が、地上画像とそれに対応する方向情報を取得して、地上画像と方向情報が含まれる混合信号から結合特徴量を算出する。他方の CNN が、空撮画像とそれに対応する方向情報を取得して、空撮画像と方向情報が含まれる混合信号から結合特徴量を算出する。そして、算出された結合特徴量に基づいて、地上画像が空撮画像とマッチするか否かを判定する。

Liu Liu 及び Hongdong Li、「Lending Orientation to Neural Networks for Cross-view Geo-localization」、Computer Research Repository、２０１９年４月２日

非特許文献１は、シャムネットワークの訓練において利用される空撮画像の順序について開示していない。これは、ネットワークを訓練する際、複数の空撮画像が任意の順序でシャムネットワークに入力されることを意味する。

しかしながら、グラウンド・トゥー・エアリアル・クロスビューマッチングを行う識別器の訓練について、本発明の発明者は、正確なグラウンド・トゥー・エアリアル・クロスビューマッチングの実現のためには、空撮画像を識別器に入力する順序が重要であると考えた。

本開示の目的の一つは、地上画像と空撮画像のマッチングを行う識別器の精度を向上させる技術を提供することである。

本開示によって提供される訓練装置は、少なくとも一つのプロセッサと、命令が格納されている記憶要素とを有し、前記少なくとも一つのプロセッサは、前記命令を実行することにより、識別器の第１フェーズ訓練を実行し、前記識別器は、地上画像と空撮画像を取得し、前記地上画像と前記空撮画像とがマッチするか否かを判定し、前記識別器の第２フェーズ訓練を実行するように構成される。
前記第１フェーズ訓練は、地上画像と、前記空撮画像の正例と、前記空撮画像の第１レベル負例とを用いて行われ、前記空撮画像の前記第１レベル負例は、前記地上画像に含まれる景色とは異なる種類の景色を含む。
前記第２フェーズ訓練は、前記地上画像と、前記空撮画像の正例と、前記空撮画像の第２レベル負例とを用いて行われ、前記空撮画像の前記第２レベル負例は、前記地上画像に含まれる景色と同じ種類の景色を含む。

本開示によってさらに提供される制御方法は、コンピュータによって実行される。コンピュータによって実行される当該制御方法は、識別器の第１フェーズ訓練を実行し、前記識別器は、地上画像と空撮画像を取得し、前記地上画像と前記空撮画像とがマッチするか否かを判定し、前記識別器の第２フェーズ訓練を実行することを含む。
前記第１フェーズ訓練は、地上画像と、前記空撮画像の正例と、前記空撮画像の第１レベル負例とを用いて行われ、前記空撮画像の前記第１レベル負例は、前記地上画像に含まれる景色とは異なる種類の景色を含む。
前記第２フェーズ訓練は、前記地上画像と、前記空撮画像の正例と、前記空撮画像の第２レベル負例とを用いて行われ、前記空撮画像の前記第２レベル負例は、前記地上画像に含まれる景色と同じ種類の景色を含む。

本開示によってさらに提供される非一時的なコンピュータ可読媒体はプログラムを格納している。当該プログラムは、識別器の第１フェーズ訓練を実行し、前記識別器は、地上画像と空撮画像を取得し、前記地上画像と前記空撮画像とがマッチするか否かを判定し、前記識別器の第２フェーズ訓練を実行することをコンピュータに実行させる。
前記第１フェーズ訓練は、地上画像と、前記空撮画像の正例と、前記空撮画像の第１レベル負例とを用いて行われ、前記空撮画像の前記第１レベル負例は、前記地上画像に含まれる景色とは異なる種類の景色を含む。
前記第２フェーズ訓練は、前記地上画像と、前記空撮画像の正例と、前記空撮画像の第２レベル負例とを用いて行われ、前記空撮画像の前記第２レベル負例は、前記地上画像に含まれる景色と同じ種類の景色を含む。

本開示によれば、地上画像と空撮画像のマッチングを行う識別器の精度を向上させる技術を提供することができる。

図１は、実施形態１の訓練装置の概要を示す。図２は、識別器の訓練に利用される訓練データセットの例を示す。図３は、実施形態１の訓練装置の機能構成の例を示すブロック図である。図４は、訓練装置を実現するコンピュータのハードウエア構成の例を示すブロック図である。図５は、実施形態１の訓練装置によって実行される処理の流れの例を示すフローチャートである。図６は、ニューラルネットワークで実装される識別器の基本構造を示す。図７は、識別器を含むジオローカライゼーションシステムを示す。図８は、実施形態２の訓練装置の概要を示す。図９は、実施形態２の訓練装置の機能構成の例を示すブロック図である。図１０は、実施形態２の訓練装置によって実行される処理の流れを示すフローチャートである。図１１は、例生成部の実装を示す図である。

以下、本開示に係る実施形態について、図面を参照しながら説明する。複数の図を通して同じ要素には同じ符号が付され、冗長な説明は必要に応じて省略される。

実施形態１
図１は、実施形態１の訓練装置２０００の概要を示す。なお、図１は、訓練装置２０００の可能な動作の例を示すものであり、訓練装置２０００の動作を限定しない。

訓練装置２０００は、識別器１０の訓練に利用される。識別器１０は、地上画像と空撮画像のマッチング（いわゆるグラウンド・トゥー・エアリアル・クロスビューマッチング）を行う。地上画像は、或る場所のグラウンドビューを含む画像である。例えば、地上画像は、歩行者や車から撮像される。地上画像は、パノラマ（360°の画角）であってもよいし、限られた画角（360°未満）であってもよい。空撮画像は、或る場所の平面視が含まれる画像である。例えば、空撮画像は、ドローン、飛行機、又は人工衛星などから撮像される。具体的には、識別器１０は、地上画像と空撮画像を取得し、取得した地上画像と取得した空撮画像とがマッチするか否かを判定する。ここで、「地上画像と空撮画像とがマッチする」とは、地上画像の撮像が行われた場所が空撮画像に含まれていることを意味する。

なお、識別器１０は、訓練装置２０００の内部に実装されてもよいし、他の装置の中に実装されてもよい。図１では、識別器１０の外部に設けられている訓練装置２０００が表されている。

訓練装置２０００は、前述したマッチングが行えるように、識別器１０の訓練を行う。具体的には、訓練装置２０００は、識別器１０の訓練に利用する１つ以上の訓練データセットを取得する。訓練データセットは、地上画像、正例の空撮画像（以下、正例）、第１レベルの負例の空撮画像（以下、第１レベル負例）、及び第２レベルの負例の空撮画像（以下、第２レベル負例）を含む。正例は、対応する地上画像（その正例と共に訓練データセットに含まれる地上画像）とマッチする空撮画像である。一方、負例は、対応する地上画像（その正例と共に訓練データセットに含まれる地上画像）とマッチしない空撮画像である。

地上画像に対する第１レベル負例の類似度は、地上画像に対する第２レベル負例の類似度と異なる。具体的には、第１レベル負例は、対応する地上画像に含まれる景色の種類とは異なる種類の景色を含むのに対し、第２レベル負例は、対応する地上画像に含まれる景色と同じ種類の景色を含む。これは、対応する地上画像に対する第１レベル負例の類似度は、対応する地上画像に対する第２レベル負例の類似度よりも低いことを意味する。

訓練データセット S1 が、地上画像 G1、正例 P1、第１レベル負例 N1、及び第２レベル負例 N2 を含むとする。さらに、地上画像 S1 には（正例 P1 にも）、「住宅エリア」という種類の景色が含まれるとする。この場合、第１レベル負例は、「住宅エリア」以外の種類の景色（例えば高速道路、高架交差路、又はラウンドアバウト）を含む。一方で、第２レベル負例は、「住宅エリア」という種類の景色を含む。

図２は、識別器１０の訓練に利用される訓練データセットの例を示す。地上画像は、住宅エリアに分類される場所を含み、正例は同じ場所を含む。第２レベル負例に含まれる景色は、住宅エリアに分類されるが、撮像されている場所は地上画像や正例に撮像されている場所とは異なる。第１レベル負例に含まれる景色は、住宅エリアには分類されず、ラウンドアバウトと高架交差路である。

訓練装置２０００によって行われる識別器１０の訓練は、第１フェーズ訓練と第２フェーズ訓練を含む。第１フェーズ訓練では、地上画像、正例、及び第１レベル負例の１つ以上のセットが、識別器１０の訓練に利用される。第１フェーズ訓練では、地上画像、正例、及び第２レベル負例の１つ以上のセットが、識別器１０の訓練に利用される。

＜作用効果の例＞
本実施形態の訓練装置２０００によれば、対応する地上画像に含まれる景色とは異なる種類の景色が含まれる第１レベル負例を利用して、識別器１０が訓練される。さらに、対応する地上画像に含まれる景色と同じ種類の景色が含まれる第２レベル負例を利用して、識別器１０が訓練される。

複数フェーズで識別器を訓練する方法は、「カリキュラム学習」と呼ばれる。カリキュラム学習において、識別器の訓練は複数のフェーズに分けられ、各フェーズで利用される訓練データは、そのデータの識別の難易度という点で異なる。具体的には、早いフェーズほど、そのフェーズで利用される訓練データの識別が用意である。第１レベルの例に含まれる景色の種類は地上画像に含まれる景色の種類と異なる一方で、第２レベルの例に含まれる景色の種類は地上画像に含まれる景色の種類と同じであるため、訓練装置２０００によって行われる訓練において、第１レベル負例の識別は第２レベル負例の識別よりも容易である。

識別器１０の訓練にカリキュラム学習の概念を適用することにより、訓練装置２０００は、カリキュラム学習を用いずに訓練された識別器よりも高い精度で地上画像と空撮画像のマッチングを行えるように、識別器１０を訓練することができる。

以下、訓練装置２０００のより詳細な説明が記述される。

＜機能構成の例＞
図３は、実施形態１の訓練装置２０００の機能構成の例を示すブロック図である。訓練装置２０００は、取得部２０２０、第１フェーズ訓練部２０４０、及び第２フェーズ訓練部２０６０を有する。取得部２０２０は、訓練データセットを取得する。第１フェーズ訓練部２０４０は、取得した訓練データセット内の地上画像、正例、及び第１レベル負例を用いて、識別器１０の第１フェーズ訓練を行う。第２フェーズ訓練部２０６０は、取得した訓練データセット内の地上画像、正例、及び第２レベル負例を用いて、識別器１０の第２フェーズ訓練を行う。

＜ハードウエア構成の例＞
訓練装置２０００は、１つ以上のコンピュータで実現されうる。それら１つ以上のコンピュータのそれぞれは、訓練装置２０００を実現するために作成された専用のコンピュータであってもよいし、パーソナルコンピュータ（PC: Personal Computer）、サーバマシン又はモバイルデバイスなどの汎用のコンピュータであってもよい。訓練装置２０００は、コンピュータにアプリケーションをインストールすることで実現されうる。そのアプリケーションは、コンピュータを訓練装置２０００として機能させるプログラムで実現される。言い換えれば、そのプログラムは、訓練装置２０００の機能構成部を実装したものである。

図４は、訓練装置２０００を実現するコンピュータ１０００のハードウエア構成の例を示すブロック図である。図４において、コンピュータ１０００は、バス１０２０、プロセッサ１０４０、メモリ１０６０、ストレージデバイス１０８０、入出力インタフェース１１００、及びネットワークインタフェース１１２０を有する。

バス１０２０は、プロセッサ１０４０、メモリ１０６０、ストレージデバイス１０８０、入出力インタフェース１１００、及びネットワークインタフェース１１２０が相互にデータの送信及び受信をするためのデータ通信路である。プロセッサ１０４０は、CPU（Central Processing Unit）、GPU（Graphics Processing Unit）、又は FPGA（Field-Programmable Gate Array）などといったプロセッサである。メモリ１０６０は、RAM（Random Access Memory）又は ROM（Read Only Memory）などの主記憶要素である。ストレージデバイス１０８０は、ハードディスク、SSD（Solid State Drive）、又はメモリカードなどの補助記憶要素である。入出力インタフェース１１００は、コンピュータ１０００と周辺デバイス（キーボード、マウス、又はディスプレイデバイスなど）との間のインタフェースである。ネットワークインタフェース１１２０は、コンピュータ１０００とネットワークとの間のインタフェースである。ネットワークは、LAN（Local Area Network）でもよいし、WAN（Wide Area Network）でもよい。

ストレージデバイス１０８０は、前述したプログラムを格納しうる。ＣＰＵ１０４０は、訓練装置２０００の各機能構成部を実現するためにそのプログラムを実行する。さらに、ストレージデバイス１０８０は、訓練データセット、識別器１０（識別器１０のプログラム及びそれによって使用されるパラメータ）、又はそれらの双方を格納しうる。

コンピュータ１０００のハードウエア構成は、図４に示される構成に限定されない。
例えば、前述したように、訓練装置２０００は複数のコンピュータで実現されうる。この場合、それらのコンピュータは、ネットワークを介して互いに接続されうる。

＜識別器１０のハードウエア構成＞
前述したように、識別器１０は、訓練装置２０００の中に実装されてもよいし、他の装置の中に実装されてもよい。後者の場合、他のコンピュータが、その中に識別器１０が実装されている装置を実装するために利用される。このコンピュータのハードウエア構成は、図４に示されているコンピュータ１０００と同様の構成を持ちうる。

＜処理の流れ＞
図５は、実施形態１の訓練装置２０００によって実行される処理の流れの例を示すフローチャートである。取得部２０２０は、１つ以上の訓練データセットを取得する（Ｓ１０２）。第１フェーズ訓練部２０４０は、識別器１０の第１フェーズ訓練を行う（Ｓ１０４）。第２フェーズ訓練部２０６０は、識別器１０の第２フェーズ訓練を行う（Ｓ１０６）。

＜識別器１０の詳細＞
識別器１０は、地上画像と空撮画像を取得し、地上画像と空撮画像とがマッチするか否かを判定する。この判定は様々な方法で実現しうる。例えば、識別器１０は、地上画像の特徴量と空撮画像の特徴量を抽出し、地上画像の特徴量と空撮画像の特徴量の類似度を算出する。算出した類似度が高い（例えば、所定の閾値以上である）場合、地上画像と空撮画像とがマッチすると判定される。一方、算出した類似度が低い（例えば、所定の閾値未満である）場合、地上画像と空撮画像とがマッチしないと判定される。

識別器１０の実装には様々なものがある。例えば識別器１０は、１つ以上のニューラルネットワークとして構成される。非特許文献１に開示されているシャムネットワークは、識別器１０の具体的な実装の例として利用されうる。

図６は、ニューラルネットワークで実装される識別器１０の基本構造を示す図である。識別器１０は、抽出ネットワーク１２、第２抽出ネットワーク１４、及び判定ネットワーク１６を有する。抽出ネットワーク１２は、地上画像を取得して、地上画像の１つ以上の特徴マップを生成し（すなわち、地上画像の特徴を抽出し）、生成された特徴マップを出力する。抽出ネットワーク１４は、空撮画像を取得して、空撮画像の１つ以上の特徴マップを生成し（すなわち、空撮画像の特徴を抽出し）、生成された特徴マップを出力する。

地上画像の特徴マップと空撮画像の特徴マップは、判定ネットワーク１６に入力される。判定ネットワーク１６は、入力された特徴マップを解析し、地上画像が空撮画像とマッチするか否かを表すデータ（例えばフラグ）を出力する。

＜識別器１０のアプリケーションの例＞
識別器１０のアプリケーションには様々なものがある。例えば識別器１０は、画像ジオローカライゼーションを行うシステム（以下、ジオローカライゼーションシステム）の一部として利用することができる。画像ジオローカライゼーションは、入力された画像の撮像場所を特定する技術である。ここで、ジオローカライゼーションシステムはあくまで、識別器１０のアプリケーションの一例であり、識別器１０のアプリケーションは、ジオローカライゼーションシステムの中で利用されるものに限定されない。

図７は、識別器１０が含まれるジオローカライゼーションシステム２０を示す。ジオローカライゼーションシステム２０は、識別器１０及び位置データベース３０を含む。位置データベース３０は、それぞれに位置情報が付加された複数の空撮画像を含む。位置情報の例は、対応する空撮画像の撮像場所の GPS（Global Positioning System）座標でありうる。

ジオローカライゼーションシステム２０は、クライアント（例えばユーザ端末）から地上画像を含むクエリを受信し、受信したクエリに含まれる地上画像とマッチする空撮画像を位置データベース３０から探索し、これによって地上画像の撮像場所を特定する。具体的には、クエリに含まれる地上画像にマッチする空撮画像が検出されるまで、ジオローカライゼーションシステム２０は、「位置データベース３０から空撮画像を１つ取得し、地上画像と取得した空撮画像を識別器１０に入力し、識別器１０からの出力が、地上画像と空撮画像とがマッチすることを示しているか否かを判定する。」という処理を繰り返すこうすることで、ジオローカライゼーションシステム２０は、地上画像の撮像場所が含まれる空撮画像を見つける。検出された空撮画像が GPS 座標などの位置情報に対応づけられているため、ジオローカライゼーションシステム２０は、地上画像の撮像場所が、地上画像にマッチする空撮画像に対応づけられている位置情報によって示されている場所であると認識できる。

なお、ジオローカライゼーションシステム２０は、１つ以上の、図４に示されているコンピュータなどによって実装されうる。

＜訓練データの取得：Ｓ１０２＞
取得部２０２０は、１つ以上の訓練データセットを取得する（Ｓ１０２）。前述したように、訓練データセットは、地上画像、正例、第１レベル負例、及び第２レベル負例を含む。ここで、複数の第１負例が訓練データセットには含まれうる。同様に、複数の第２負例が訓練データセットには含まれうる。以下、訓練データセットを取得する方法の例について説明する。

訓練データセットに含まれる正例は、同じ訓練データセットに含まれる地上画像にマッチする必要がある。一方、訓練データセットに含まれる負例は、同じ訓練データセットに含まれる地上画像にマッチしてはならない。これらの条件を満たす画像のセットを得るために、例えば、訓練装置２０００からアクセス可能な記憶装置（以下、画像記憶装置）の中に予め、複数の地上画像と複数の空撮画像が用意される。画像記憶装置の中の各画像は、その画像の撮像場所の位置情報と対応づけられている。前述したように、GPS 座標が位置情報の例である。

訓練装置２０００は、任意の地上画像を画像記憶装置から取得する。さらに、訓練装置２０００は、取得した地上画像の位置情報によって表されている位置と同じ位置又は近い位置を表す位置情報を持つ空撮画像を取得する。なお、「或る位置が他の位置から近い」とは、それらの位置（例えば GPS 座標）間の距離が所定の閾値以下であることを意味しうる。

負例に関しては、訓練装置２０００は、地上画像によって表されている位置とは異なる位置を表す位置情報を持つ複数の空撮画像を取得する。なお、「或る位置が他の位置と異なる」とは、それらの位置（例えば GPS 座標）が異なるか、又は、それらの位置の間の距離が所定の閾値より大きいことを意味しうる。

負例を用意する際、各負例内の景色の種類を考慮する必要がある。例えば、画像記憶装置において、各空撮画像は、その空撮画像に含まれる景色の種類を示す情報（以下、種類情報）と対応づけられて格納されうる。この場合、訓練装置２０００は、正例の種類情報に示されている景色の種類とは異なる景色の種類が示されている種類情報を持つ、１つ以上の空撮画像を、第１レベル負例として取得する。一方、訓練装置２０００は、正例の種類情報に示されている景色の種類と同じ景色の種類が示されている種類情報を持つ、１つ以上の空撮画像を、第２レベル負例として取得する。

種類情報は、必ずしも、画像記憶装置に格納されている空撮画像に予め付加されている必要はない。種類情報が空撮画像に付加されていない場合、例えば訓練装置２０００は、複数の負例を画像記憶装置から取得し、取得した各負例について、景色の種類を特定する。さらに訓練装置２０００は、その景色の種類が正例の景色の種類とは異なると特定された１つ以上の空撮画像を、第１負例として選ぶ。一方、訓練装置２０００は、その景色の種類が正例の景色の種類と同じであると特定された１つ以上の空撮画像を、第２負例として選ぶ。

上述した負例の景色の種類の特定は、種々の方法で実現される。例えば訓練装置２０００は、景色分類器を更に有する。景色分類器は、その中に入力された空撮画像に含まれる景色の種類を、所定の複数の景色の種類の中から特定することができるように、予め訓練されている分類器である。この場合、訓練装置２０００は、複数の空撮画像を順に、景色分類器に入力することで、各空撮画像に含まれる景色の種類を把握する。

＜第１フェーズ訓練：Ｓ１０４＞
第１フェーズ訓練部２０４０は、識別器１０の第１フェーズ訓練を行う。以下、第１フェーズ訓練を行う方法の例が記述される。

例えば識別器１０は、地上画像と正例を識別器１０に入力し、識別器１０からの出力を用いて、識別器１０のパラメータを更新しうる。同様に、識別器１０は、地上画像と第１レベル負例を識別器１０に入力し、識別器１０からの出力を用いて、識別器１０のパラメータを更新しうる。訓練デーセットが複数の第１レベル負例を含む場合、各第１レベル負例が順に利用される。

識別器１０が図６に示されるニューラルネットワークのセットで構成されるとする。この場合、識別器１０の訓練（更新）の各回で、第１フェーズ訓練部２０４０は以下のように動作する。第１に、第１フェーズ訓練部２０４０は、地上画像、正例、及び正例用の損失関数（以下、正損失関数）を用いて、ニューラルネットワークのセットを更新する。正損失関数は、地上画像と正例について、正しくより高い類似度を出力するように識別器１０を訓練できるように、設計されている。具体的には、第１フェーズ訓練部２０４０は、地上画像と正例をそれぞれ、抽出ネットワーク１２と抽出ネットワーク１４に入力する。さらに、第１フェーズ訓練部２０４０は、ニューラルネットワークのセットからの出力を正損失関数に入力し、算出された損失に基づいて、識別器１０を構成するニューラルネットワーク内のノード間の各コネクションに与えられているパラメータ（重み）を更新する。

第２に、第１フェーズ訓練部２０４０は、地上画像、負例、及び負例用の損失関数（以下、負損失関数）を用いて、ニューラルネットワークのセットを訓練する。負損失関数は、地上画像と負例について、正しくより低い類似度を出力するように識別器１０を訓練できるように、設計されている。具体的には、第１フェーズ訓練部２０４０は、地上画像と負例をそれぞれ、抽出ネットワーク１２と抽出ネットワーク１４に入力する。さらに、第１フェーズ訓練部２０４０は、ニューラルネットワークのセットからの出力を負損失関数に入力し、算出された損失に基づいて、識別器１０を構成するニューラルネットワーク内のノード間の各コネクションに与えられているパラメータ（重み）を更新する。

なお、第１フェーズ訓練はバッチ式で行うことができる。具体的には、正例のバッチを識別器１０に入力することで、正例の損失が更新される。さらに、負例のバッチを識別器１０に入力することで、負例を利用して算出された損失に基づき、識別器１０の重みが更新される。なお、同様のことが他のフェーズの訓練にも適用できる。

＜第２フェーズ訓練：Ｓ１０６＞
第２フェーズ訓練部２０６０は、識別器１０の第２フェーズ訓練を行う（Ｓ１０６）。第２レベル負例を用いなければならないことを除き、第２フェーズ訓練の実行方法は、第１フェーズ訓練の実行方法と同じである。具体的には、例えば識別器１０は、訓練データセット内の地上画像と正例を識別器１０に入力し、識別器１０からの出力を用いて、識別器１０のパラメータを更新しうる。同様に、識別器１０は、地上画像と第２レベル負例を識別器１０に入力し、識別器１０からの出力を用いて、識別器１０のパラメータを更新しうる。訓練デーセットが複数の第２レベル負例を含む場合、各第１レベル負例が順に利用される。なお、第２フェーズ訓練において、第１フェーズ訓練と同じ態様で、第１レベル負例がさらに用いられてもよい。

＜マッチングのための付加データ＞
識別器１０は、地上画像と空撮画像のマッチングを行うために付加データを利用してもよい。付加データの例は、方向情報である。地上画像に対応する方向情報は、画像の各部分について、方位角と高度のセットを示しうる。一方、空撮画像に対応する方向情報は、画像の各部分について、ラジアル距離と方位角のセットを示しうる。そのような方向情報の例は、非特許文献１に開示されている。

識別器１０が方向情報を利用する場合、識別器１０の訓練に方向情報も利用される。そのため、訓練データセットは、画像だけでなく、それらに対応する訓練情報も含む。識別器１０の訓練の際、地上画像、その地上画像に対応する方向情報、空撮画像、及びその空撮画像に対応する方向情報が、識別器１０に入力される。そして、訓練装置２０００は、識別器１０からの出力に基づいて算出される損失を利用して、識別器１０のパラメータを更新する。

＜訓練装置２０００からの出力＞
訓練装置２０００は、識別器１０の訓練の結果を出力しうる。訓練の結果は様々な態様で出力されうる。例えば訓練装置２０００は、識別器１０の訓練済みのパラメータ（例えば、ニューラルネットワークの各コネクションに与えられた重み）を記憶装置に格納したり、識別器１０が利用される装置へ訓練済みのパラメータを送信したりしうる。ここで、パラメータだけでなく、識別器１０を実装するプログラムがさらに出力されてもよい。

識別器１０が訓練装置２０００の中に実装される場合、訓練装置は、訓練の結果を出力しなくてもよい。この場合、訓練装置２０００のユーザにとっては、識別器１０の訓練の完了を訓練装置２０００がユーザに通知することが好ましい。

実施形態２
図８は、実施形態２の訓練装置２０００の概要を示す。ここで、図８は、訓練装置２０００の可能な動作の例を示すものであり、訓練装置２０００の動作を限定しない。また、以下で説明される点を除き、実施形態２の訓練装置２０００は、実施形態１の訓練装置２０００と同じ機能を持ちうる。

実施形態２の訓練装置２０００は、第１フェーズ訓練及び第２フェーズ訓練に加え、識別器１０の第３フェーズ訓練を行う。第３フェーズ訓練は、地上画像、空撮画像、正例、及び空撮画像の第３レベルの負例（以下、第３レベル負例）を用いて行われる。第３レベル負例は、地上画像との類似度が、第２レベル負例と地上画像の類似度よりも高くなるように、第２レベル負例に基づいて生成される。

なお、第３レベル負例は、ユーザによって人手で生成されてもよいし、コンピュータによって自動で生成されてもよい。図８は、第３レベル負例が訓練装置２０００によって生成されるケースを描いている。第３レベル負例を自動的に生成することで、訓練装置２０００のユーザの負荷を軽減できる。

＜作用効果の例＞
実施形態２の訓練装置２０００によって行われる識別器１０の訓練は、実施形態１の訓練装置２０００によって行われるものよりも多くのフェーズを含む。そのため、実施形態２の訓練装置２０００は、実施形態１の訓練装置２０００によって訓練された識別器１０よりも高い精度で地上画像と空撮画像とのマッチングを行えるように、識別器１０を訓練することができる。

＜機能構成の例＞
図９は、実施形態２の訓練装置２０００の機能構成の例を示すブロック図である。実施形態２の訓練装置２０００は、第３フェーズ訓練部２０８０をさらに有する。第３フェーズ訓練部２０８０は、地上画像、正例、及び第３レベル負例を用いて、識別器１０の第３フェーズ訓練を行う。

＜ハードウエア構成の例＞
実施形態２の訓練装置２０００のハードウエア構成は、実施形態１の訓練装置２０００のハードウエア構成と同様に、図４で表されうる。しかしながら、実施形態２のストレージデバイス１０８０は、実施形態２の訓練装置２０００の機能を実現するプログラムを格納している。

＜処理の流れ＞
図１０は、実施形態２の訓練装置２０００によって実行される処理の流れを示すフローチャートである。第２フェーズ訓練の後、第３フェーズ訓練部２０８０は、第３レベル負例を用いて第３フェーズ訓練を行う（Ｓ２０２）。

＜第３レベル負例について＞
前述したように、第３レベル負例は、地上画像との類似度が、第２レベル負例と地上画像の類似度よりも高くなるように、第２レベル負例に基づいて生成される。地上画像と空撮画像との類似度は、それらの特徴量（画像に含まれる各物体の位置、方向、及びサイズなど）の類似に基づくものである。画像に含まれる物体は、例えば、道路、建物、駐車場、矢印マーク、標識、及び草木などでありうる。その他にも例えば、画像の特徴量は、画像内の線の位置、方向、及びサイズ、並びにエッジでありうる。

そのため例えば第３レベル負例は、第２レベル負例における１つ以上の前述した特徴量が、地上画像におけるそれらとより似たものになるように、第２レベル負例を変更することで生成される。第３フェーズ訓練部２０８０が第３レベル負例を生成する場合、例えば第３フェーズ訓練部２０８０は、地上画像と第２レベル負例の特徴量を抽出し、これらの特徴量の比較によって変換パラメータを生成し、変換パラメータに基づいて第２レベル負例を変換することで、第３レベル負例を生成する。

変換パラメータは、第２レベル負例に適用されるべき変換を表す。変換の例は、クロップ、アフィン変換、色変更、及び画像インペインティング（画像内の穴、空白領域、又は欠落したピクセル値を埋める）でありうる。クロップ処理に関する変換パラメータは、第２レベル負例のどの部分を切り出すべきかを表しうる。アフィン変換に関する変換パラメータは、第２レベル負例に適用されるべきアフィン変換に用いられるアフィン変換行列を表しうる。

色変更に関する変換パラメータは、色変更の必要がある第２レベル負例のピクセルの位置（xy 座標）と、対応するピクセルに適用されるべき色変更を表す変更パラメータのセットを表しうる。変更パラメータは、色の特徴（強度、ヒュー、及び明るさなど）についての変更を表しうる。例えば、色変更を扱うパラメータ生成部２０８６は、２つのニューラルネットワークを含みうる。第１のニューラルネットワークは、変更の必要がある第２レベル負例のピクセルの位置を自動的に見つけるように訓練される。第２のニューラルネットワークは、第１のニューラルネットワークによって変更されるべきであると特定された各ピクセルについて、どのように色を変更するのかを自動的に決定する。

画像インペインティングに関する変換パラメータは、第２レベル負例に含まれる対象のピクセルの位置（xy 座標）と、対応するピクセルに設定すべき新たなピクセル値とのセットを表しうる。例えば画像インペインティングを扱うパラメータ生成部２０８６は、２つのニューラルネットワークを含みうる。第１のニューラルネットワークは、対象のピクセルの位置を自動的に見つけるように訓練される。対象のピクセルを見つけた後、各対象のピクセルのピクセル値は０（黒色）に設定される。第２のニューラルネットワークは、各対象のピクセルのピクセル値を新たな値に自動的に変更するように訓練される。

第２レベル負例から第３レベル負例の生成は、複数のアフィン変換を含みうる。この場合、変換パラメータは、複数のアフィン変換行列を含みうる。第３レベル負例は、例えば、変換された複数の画像の重み付き結合又は平均として生成されうる。

第２レベル負例に適用されるべき変換は、前述したものに限定されない。例えば、GAN（generative adversarial network）を用いて第３レベル負例が生成されてもよい。

図１１は、例生成部２０８２の実装例を示す。例生成部２０８２は、第３レベル負例を生成する機能構成部である。例生成部は、抽出部２０８４、抽出部２０８５、パラメータ生成部２０８６、及び変換部２０８７を有する。抽出部２０８４は、地上画像を取得し、地上画像の特徴量（１つ以上の特徴マップ）を抽出する。抽出部２０８４の実装の例は、CNN などのニューラルネットワークである。なお、抽出部２０８４によって抽出される特徴量は、図６に示される抽出ネットワーク１２によって抽出される特徴マップと同じでもよいし、異なってもよい。

抽出部２０８５は、第２レベル負例を取得し、第２レベル負例の特徴量（１つ以上の特徴マップ）を抽出する。抽出部２０８５の実装の例も、CNN などのニューラルネットワークである。なお、抽出部２０８５によって抽出される特徴量は、図６に示される抽出ネットワーク１４によって抽出される特徴マップと同じでもよいし、異なってもよい。

パラメータ生成部２０８６は、抽出部２０８４からの出力（すなわち、地上画像の特徴量）と抽出部２０８５からの出力（すなわち、第２レベル負例の特徴量）を取得し、変換パラメータを生成する。変換パラメータは、例えば、１つ以上の行列で構成される。パラメータ生成部２０８６の実装例は、ニューラルネットワークである。

変換部２０８７は、変換パラメータと、抽出部２０８５に対して入力された第２レベル負例と同じ第２レベル負例とを取得し、変換パラメータを利用してその第２レベル負例を変換することにより、第３レベル負例を生成する。変換パラメータが、クロップ処理用の第１パラメータと、アフィン変換用の第２パラメータとに分けられるとする。この場合、例えば変換部２０８７は、第２レベル負例に対するクロップ処理に、第１パラメータを利用した後、第１パラメータに基づいて第２レベル負例から切り出された画像領域に対するアフィン変換に、第２パラメータを利用する。

抽出部２０８４、抽出部２０８５、及びパラメータ生成部２０８６は、前述したように動作するように、予め訓練される。理論的には、第３負例は、実際には地上画像とマッチしない空撮画像であるものの、第２フェーズ訓練まで訓練された識別器１０により、地上画像とマッチすると判定される空撮画像として、生成されるべきである。そのため例えば、例生成部２０８２によって生成された空撮画像の品質は、第２フェーズ訓練まで訓練済みの識別器（シャムネットワークなど）によって評価されてもよい。この訓練済み識別器は、識別器１０と同様に動作する。

評価のため、地上画像と、訓練中の例生成部２０８２によって生成された空撮画像とが、訓練済み識別器に入力される。訓練済み識別器によって算出される類似度が、例生成部２０８２によって生成された空撮画像と地上画像とがマッチすると例生成部２０８２によって判定されるために十分な高さとなるように、例生成部２０８２が訓練される（抽出部２０８４、抽出部２０８５、及びパラメータ生成部２０８６の重みが更新される）。

なお、例生成部２０８２は、第３負例の生成に、正例をさらに利用してもよい。この場合、例生成部２０８２は、正例から特徴量を抽出する他の抽出部を有する。パラメータ生成部２０８６は、地上画像から抽出された特徴量、第２レベル負例から抽出された特徴量、及び正例から抽出された特徴量を取得し、入力されたこれらの特徴量に基づいて、変換パラメータを生成する。

上述したように、第３レベル負例は、手動で生成されうる。この場合、例えば例生成部２０８２は、地上画像と第２レベル負例をユーザに提供し、画像編集アプリケーションを利用した第２負例の編集をユーザに行わせる。例生成部２０８２は、ユーザによって編集された画像を、第３負例として取得する。

その他にも例えば、第３レベル負例は、訓練装置２０００の外部で生成されてもよい。例えば例生成部２０８２は、他の装置（以下、例生成装置）の中で実装される。この場合、例えば訓練装置２０００は、地上画像と第２負例が含まれるリクエストを、例生成装置に送信する。例生成装置はリクエストを受信し、例生成部２０８２に対して地上画像と第２負例を入力することによって第３負例を生成し、第３負例が含まれるレスポンスを訓練装置２０００へ送信する。

その他にも例えば、第３レベル負例は、取得部２０２０が取得する訓練データセットに含まれていてもよい。言い換えれば、第３レベル負例は予め用意されていてもよい。この場合、第３レベル負例は、ユーザによって手動で生成されてもよいし、例生成装置によって自動的に生成されてもよい。

＜第３フェーズ訓練＞
第３フェーズ訓練部２０８０は、識別器１０の第３フェーズ訓練を行う（Ｓ２０２）。第３フェーズ訓練は、第３フェーズ訓練では第３レベル負例が用いられるという点で、第１フェーズ訓練及び第２フェーズ訓練と異なる。そのため、第１レベル負例や第２レベル負例の代わりに第３レベル負例が用いられるという点を除き、第３フェーズ訓練を行う方法は、第１フェーズ訓練を行う方法や第２フェーズ訓練を行う方法と同じである。具体的には、例えば、識別器１０は、訓練データセットに含まれる地上画像と正例を識別器１０に入力し、識別器１０からの出力を用いて、識別器１０のパラメータを更新しうる。同様に、識別器１０は、地上画像と第３レベル負例を識別器１０に入力し、識別器１０からの出力を用いて、識別器１０のパラメータを更新しうる。

ここで、複数の第３レベル負例が存在しうる。例えば、訓練データセットが複数の第２レベル負例を含む場合、例生成部２０８２は、複数の第２レベル負例のそれぞれについて、第３レベル負例を生成しうる。この場合、第３フェーズ訓練部２０８０は、複数の第３レベル負例のそれぞれを順に利用して、識別器１０を訓練する。

プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに提供することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えば、フレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば、光磁気ディスク）、CD-ROM、CD-R、CD-R/W、半導体メモリ（例えば、マスク ROM、PROM（Programmable ROM）、EPROM（Erasable PROM）、フラッシュROM、RAM）を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに提供されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

実施形態を参照して本開示について説明されているが、本開示は上述した実施形態に限定されない。発明の範囲内で、当業者が理解できる種々の変形を本開示の構成や詳細に対して行うことができる。

上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
（付記１）
少なくとも一つのプロセッサと、命令が格納されている記憶要素とを有し、
前記少なくとも一つのプロセッサは、前記命令を実行することにより、
識別器の第１フェーズ訓練を実行し、前記識別器は、地上画像と空撮画像を取得し、前記地上画像と前記空撮画像とがマッチするか否かを判定し、
前記識別器の第２フェーズ訓練を実行するように構成され、
前記第１フェーズ訓練は、地上画像と、前記空撮画像の正例と、前記空撮画像の第１レベル負例とを用いて行われ、前記空撮画像の前記第１レベル負例は、前記地上画像に含まれる景色とは異なる種類の景色を含み、
前記第２フェーズ訓練は、前記地上画像と、前記空撮画像の正例と、前記空撮画像の第２レベル負例とを用いて行われ、前記空撮画像の前記第２レベル負例は、前記地上画像に含まれる景色と同じ種類の景色を含む、訓練装置。
（付記２）
前記少なくとも一つのプロセッサは、
前記空撮画像の正例及び空撮画像の複数の負例を取得し、
各前記取得した空撮画像の景色の種類を特定し、
前記空撮画像の前記正例の景色とは異なる種類の景色を持つことが特定された前記空撮画像の前記負例を、前記空撮画像の前記第１レベル負例として用い、
前記空撮画像の前記正例の景色と同じ種類の景色を持つことが特定された前記空撮画像の前記負例を、前記空撮画像の前記第２レベル負例として用いるようにさらに構成されている、付記１に記載の訓練装置。
（付記３）
前記少なくとも一つのプロセッサは、
前記地上画像に対する類似度が、前記地上画像に対する前記空撮画像の前記第２レベル負例の類似度よりも高い、前記空撮画像の第３レベル負例を取得し、
前記地上画像と前記空撮画像の前記第３レベル負例とを用いて、前記識別器の第３フェーズ訓練を行うように、さらに構成されている、付記１又は２に記載の訓練装置。
（付記４）
前記少なくとも１つのプロセッサは、
前記地上画像と、前記空撮画像の前記第２レベル負例との特徴量を抽出し、
前記地上画像と、前記空撮画像の前記第２レベル負例との前記抽出された特徴量に基づいて、変換パラメータを生成し、
前記変換パラメータに基づいて、前記空撮画像の前記第２レベル負例を前記空撮画像の前記第３レベル負例に変換することにより、前記第３レベル負例を取得するように、さらに構成されている、付記３に記載の訓練装置。
（付記５）
前記変換は、クロップ処理、アフィン変換、色変更、又は画像インペインティングを含み、
前記変換がクロップ処理を含む場合、前記変換パラメータは、切り出されるべき空撮画像の前記第２レベル負例の部分を指定し、
前記変換がアフィン変換を含む場合、前記変換パラメータは、前記空撮画像の前記第２レベル負例に対して行われる前記アフィン変換に用いられる変換行列を含み、
前記変換が色変更を含む場合、前記変換パラメータは、前記空撮画像の前記第２レベル負例のピクセルの位置と、前記対応するピクセルに対して適用されるべき色の特徴の変更とのセットを含み、
前記変換が画像インペインティングを含む場合、前記変換パラメータは、前記空撮画像の前記第２レベル負例のピクセルの位置と、前記対応するピクセルに設定されるべき新たなピクセル値とのセットを含む、付記４に記載の訓練装置。
（付記６）
前記識別器は、第１ニューラルネットワークと、第２ニューラルネットワークと、第３ニューラルネットワークとを含み、
前記第１ニューラルネットワークは、前記地上画像を取得して、前記地上画像の特徴マップを出力し、
前記第２ニューラルネットワークは、前記空撮画像を取得して、前記空撮画像の特徴マップを出力し、
前記第３ニューラルネットワークは、前記地上画像の特徴マップと前記空撮画像の特徴マップとを取得し、前記地上画像と前記空撮画像とがマッチするか否かを示すデータを出力する、付記１から５いずれか一項に記載の訓練装置。
（付記７）
識別器の第１フェーズ訓練を実行し、前記識別器は、地上画像と空撮画像を取得し、前記地上画像と前記空撮画像とがマッチするか否かを判定し、
前記識別器の第２フェーズ訓練を実行することを含み、
前記第１フェーズ訓練は、地上画像と、前記空撮画像の正例と、前記空撮画像の第１レベル負例とを用いて行われ、前記空撮画像の前記第１レベル負例は、前記地上画像に含まれる景色とは異なる種類の景色を含み、
前記第２フェーズ訓練は、前記地上画像と、前記空撮画像の正例と、前記空撮画像の第２レベル負例とを用いて行われ、前記空撮画像の前記第２レベル負例は、前記地上画像に含まれる景色と同じ種類の景色を含む、コンピュータによって実行される制御方法。
（付記８）
前記空撮画像の正例及び空撮画像の複数の負例を取得し、
各前記取得した空撮画像の景色の種類を特定し、
前記空撮画像の前記正例の景色とは異なる種類の景色を持つことが特定された前記空撮画像の前記負例を、前記空撮画像の前記第１レベル負例として用い、
前記空撮画像の前記正例の景色と同じ種類の景色を持つことが特定された前記空撮画像の前記負例を、前記空撮画像の前記第２レベル負例として用いることをさらに含む、付記７に記載の制御方法。
（付記９）
前記地上画像に対する類似度が、前記地上画像に対する前記空撮画像の前記第２レベル負例の類似度よりも高い、前記空撮画像の第３レベル負例を取得し、
前記地上画像と前記空撮画像の前記第３レベル負例とを用いて、前記識別器の第３フェーズ訓練を行うことをさらに含む、付記７又は８に記載の制御方法。
（付記１０）
前記地上画像と、前記空撮画像の前記第２レベル負例との特徴量を抽出し、
前記地上画像と、前記空撮画像の前記第２レベル負例との前記抽出された特徴量に基づいて、変換パラメータを生成し、
前記変換パラメータに基づいて、前記空撮画像の前記第２レベル負例を前記空撮画像の前記第３レベル負例に変換することにより、前記第３レベル負例を取得することをさらに含む、付記９に記載の制御方法。
（付記１１）
前記変換は、クロップ処理、アフィン変換、色変更、又は画像インペインティングを含み、
前記変換がクロップ処理を含む場合、前記変換パラメータは、切り出されるべき空撮画像の前記第２レベル負例の部分を指定し、
前記変換がアフィン変換を含む場合、前記変換パラメータは、前記空撮画像の前記第２レベル負例に対して行われる前記アフィン変換に用いられる変換行列を含み、
前記変換が色変更を含む場合、前記変換パラメータは、前記空撮画像の前記第２レベル負例のピクセルの位置と、前記対応するピクセルに対して適用されるべき色の特徴の変更とのセットを含み、
前記変換が画像インペインティングを含む場合、前記変換パラメータは、前記空撮画像の前記第２レベル負例のピクセルの位置と、前記対応するピクセルに設定されるべき新たなピクセル値とのセットを含む、付記１０に記載の制御方法。
（付記１２）
前記識別器は、第１ニューラルネットワークと、第２ニューラルネットワークと、第３ニューラルネットワークとを含み、
前記第１ニューラルネットワークは、前記地上画像を取得して、前記地上画像の特徴マップを出力し、
前記第２ニューラルネットワークは、前記空撮画像を取得して、前記空撮画像の特徴マップを出力し、
前記第３ニューラルネットワークは、前記地上画像の特徴マップと前記空撮画像の特徴マップとを取得し、前記地上画像と前記空撮画像とがマッチするか否かを示すデータを出力する、付記７から１１いずれか一項に記載の制御方法。
（付記１３）
識別器の第１フェーズ訓練を実行し、前記識別器は、地上画像と空撮画像を取得し、前記地上画像と前記空撮画像とがマッチするか否かを判定し、
前記識別器の第２フェーズ訓練を実行することをコンピュータに実行させるプログラムが格納されており、
前記第１フェーズ訓練は、地上画像と、前記空撮画像の正例と、前記空撮画像の第１レベル負例とを用いて行われ、前記空撮画像の前記第１レベル負例は、前記地上画像に含まれる景色とは異なる種類の景色を含み、
前記第２フェーズ訓練は、前記地上画像と、前記空撮画像の正例と、前記空撮画像の第２レベル負例とを用いて行われ、前記空撮画像の前記第２レベル負例は、前記地上画像に含まれる景色と同じ種類の景色を含む、非一時的なコンピュータ可読媒体。
（付記１４）
前記プログラムは、
前記空撮画像の正例及び空撮画像の複数の負例を取得し、
各前記取得した空撮画像の景色の種類を特定し、
前記空撮画像の前記正例の景色とは異なる種類の景色を持つことが特定された前記空撮画像の前記負例を、前記空撮画像の前記第１レベル負例として用い、
前記空撮画像の前記正例の景色と同じ種類の景色を持つことが特定された前記空撮画像の前記負例を、前記空撮画像の前記第２レベル負例として用いることを、さらに前記コンピュータに実行させる、付記１３に記載の非一時的なコンピュータ可読媒体。
（付記１５）
前記プログラムは、
前記地上画像に対する類似度が、前記地上画像に対する前記空撮画像の前記第２レベル負例の類似度よりも高い、前記空撮画像の第３レベル負例を取得し、
前記地上画像と前記空撮画像の前記第３レベル負例とを用いて、前記識別器の第３フェーズ訓練を行うことを、前記コンピュータにさらに実行させる、付記１３又は１４に記載の非一時的なコンピュータ可読媒体。
（付記１６）
前記プログラムは、
前記地上画像と、前記空撮画像の前記第２レベル負例との特徴量を抽出し、
前記地上画像と、前記空撮画像の前記第２レベル負例との前記抽出された特徴量に基づいて、変換パラメータを生成し、
前記変換パラメータに基づいて、前記空撮画像の前記第２レベル負例を前記空撮画像の前記第３レベル負例に変換することにより、前記第３レベル負例を取得することを、前記コンピュータにさらに実行させる、付記１５に記載の非一時的なコンピュータ可読媒体。
（付記１７）
前記変換は、クロップ処理、アフィン変換、色変更、又は画像インペインティングを含み、
前記変換がクロップ処理を含む場合、前記変換パラメータは、切り出されるべき空撮画像の前記第２レベル負例の部分を指定し、
前記変換がアフィン変換を含む場合、前記変換パラメータは、前記空撮画像の前記第２レベル負例に対して行われる前記アフィン変換に用いられる変換行列を含み、
前記変換が色変更を含む場合、前記変換パラメータは、前記空撮画像の前記第２レベル負例のピクセルの位置と、前記対応するピクセルに対して適用されるべき色の特徴の変更とのセットを含み、
前記変換が画像インペインティングを含む場合、前記変換パラメータは、前記空撮画像の前記第２レベル負例のピクセルの位置と、前記対応するピクセルに設定されるべき新たなピクセル値とのセットを含む、付記１６に記載の非一時的なコンピュータ可読媒体。
（付記１８）
前記識別器は、第１ニューラルネットワークと、第２ニューラルネットワークと、第３ニューラルネットワークとを含み、
前記第１ニューラルネットワークは、前記地上画像を取得して、前記地上画像の特徴マップを出力し、
前記第２ニューラルネットワークは、前記空撮画像を取得して、前記空撮画像の特徴マップを出力し、
前記第３ニューラルネットワークは、前記地上画像の特徴マップと前記空撮画像の特徴マップとを取得し、前記地上画像と前記空撮画像とがマッチするか否かを示すデータを出力する、付記１３から１７いずれか一項に記載の非一時的なコンピュータ可読媒体。

１０識別器
１２抽出ネットワーク
１４抽出ネットワーク
１６判定ネットワーク
２０ジオローカライゼーションシステム
３０位置データベース
１０００コンピュータ
１０２０バス
１０４０プロセッサ
１０６０メモリ
１０８０ストレージデバイス
１１００入出力インタフェース
１１２０ネットワークインタフェース
２０００訓練装置
２０２０取得部
２０４０第１フェーズ訓練部
２０６０第２フェーズ訓練部
２０８０第３フェーズ訓練部
２０８２例生成部
２０８４抽出部
２０８５抽出部
２０８６パラメータ生成部
２０８７変換部

訓練データセット S1 が、地上画像 G1、正例 P1、第１レベル負例 N1、及び第２レベル負例 N2 を含むとする。さらに、地上画像 G1 には（正例 P1 にも）、「住宅エリア」という種類の景色が含まれるとする。この場合、第１レベル負例は、「住宅エリア」以外の種類の景色（例えば高速道路、高架交差路、又はラウンドアバウト）を含む。一方で、第２レベル負例は、「住宅エリア」という種類の景色を含む。

複数フェーズで識別器を訓練する方法は、「カリキュラム学習」と呼ばれる。カリキュラム学習において、識別器の訓練は複数のフェーズに分けられ、各フェーズで利用される訓練データは、そのデータの識別の難易度という点で異なる。具体的には、早いフェーズほど、そのフェーズで利用される訓練データの識別が用意である。第１レベル負例に含まれる景色の種類は地上画像に含まれる景色の種類と異なる一方で、第２レベル負例に含まれる景色の種類は地上画像に含まれる景色の種類と同じであるため、訓練装置２０００によって行われる訓練において、第１レベル負例の識別は第２レベル負例の識別よりも容易である。

ストレージデバイス１０８０は、前述したプログラムを格納しうる。プロセッサ１０４０は、訓練装置２０００の各機能構成部を実現するためにそのプログラムを実行する。さらに、ストレージデバイス１０８０は、訓練データセット、識別器１０（識別器１０のプログラム及びそれによって使用されるパラメータ）、又はそれらの双方を格納しうる。

図６は、ニューラルネットワークで実装される識別器１０の基本構造を示す図である。識別器１０は、抽出ネットワーク１２、抽出ネットワーク１４、及び判定ネットワーク１６を有する。抽出ネットワーク１２は、地上画像を取得して、地上画像の１つ以上の特徴マップを生成し（すなわち、地上画像の特徴を抽出し）、生成された特徴マップを出力する。抽出ネットワーク１４は、空撮画像を取得して、空撮画像の１つ以上の特徴マップを生成し（すなわち、空撮画像の特徴を抽出し）、生成された特徴マップを出力する。

例えば第１フェーズ訓練部２０４０は、地上画像と正例を識別器１０に入力し、識別器１０からの出力を用いて、識別器１０のパラメータを更新しうる。同様に、第１フェーズ訓練部２０４０は、地上画像と第１レベル負例を識別器１０に入力し、識別器１０からの出力を用いて、識別器１０のパラメータを更新しうる。訓練デーセットが複数の第１レベル負例を含む場合、各第１レベル負例が順に利用される。

＜第２フェーズ訓練：Ｓ１０６＞
第２フェーズ訓練部２０６０は、識別器１０の第２フェーズ訓練を行う（Ｓ１０６）。第２レベル負例を用いなければならないことを除き、第２フェーズ訓練の実行方法は、第１フェーズ訓練の実行方法と同じである。具体的には、例えば第２フェーズ訓練部２０６０は、訓練データセット内の地上画像と正例を識別器１０に入力し、識別器１０からの出力を用いて、識別器１０のパラメータを更新しうる。同様に、第２フェーズ訓練部２０６０は、地上画像と第２レベル負例を識別器１０に入力し、識別器１０からの出力を用いて、識別器１０のパラメータを更新しうる。訓練デーセットが複数の第２レベル負例を含む場合、各第１レベル負例が順に利用される。なお、第２フェーズ訓練において、第１フェーズ訓練と同じ態様で、第１レベル負例がさらに用いられてもよい。

＜第３フェーズ訓練＞
第３フェーズ訓練部２０８０は、識別器１０の第３フェーズ訓練を行う（Ｓ２０２）。第３フェーズ訓練は、第３フェーズ訓練では第３レベル負例が用いられるという点で、第１フェーズ訓練及び第２フェーズ訓練と異なる。そのため、第１レベル負例や第２レベル負例の代わりに第３レベル負例が用いられるという点を除き、第３フェーズ訓練を行う方法は、第１フェーズ訓練を行う方法や第２フェーズ訓練を行う方法と同じである。具体的には、例えば、第３フェーズ訓練部２０８０は、訓練データセットに含まれる地上画像と正例を識別器１０に入力し、識別器１０からの出力を用いて、識別器１０のパラメータを更新しうる。同様に、第３フェーズ訓練部２０８０は、地上画像と第３レベル負例を識別器１０に入力し、識別器１０からの出力を用いて、識別器１０のパラメータを更新しうる。

Claims

少なくとも一つのプロセッサと、命令が格納されている記憶要素とを有し、
前記少なくとも一つのプロセッサは、前記命令を実行することにより、
識別器の第１フェーズ訓練を実行し、前記識別器は、地上画像と空撮画像を取得し、前記地上画像と前記空撮画像とがマッチするか否かを判定し、
前記識別器の第２フェーズ訓練を実行するように構成され、
前記第１フェーズ訓練は、地上画像と、前記空撮画像の正例と、前記空撮画像の第１レベル負例とを用いて行われ、前記空撮画像の前記第１レベル負例は、前記地上画像に含まれる景色とは異なる種類の景色を含み、
前記第２フェーズ訓練は、前記地上画像と、前記空撮画像の正例と、前記空撮画像の第２レベル負例とを用いて行われ、前記空撮画像の前記第２レベル負例は、前記地上画像に含まれる景色と同じ種類の景色を含む、訓練装置。
前記少なくとも一つのプロセッサは、
前記空撮画像の正例及び空撮画像の複数の負例を取得し、
各前記取得した空撮画像の景色の種類を特定し、
前記空撮画像の前記正例の景色とは異なる種類の景色を持つことが特定された前記空撮画像の前記負例を、前記空撮画像の前記第１レベル負例として用い、
前記空撮画像の前記正例の景色と同じ種類の景色を持つことが特定された前記空撮画像の前記負例を、前記空撮画像の前記第２レベル負例として用いるようにさらに構成されている、請求項１に記載の訓練装置。
前記少なくとも一つのプロセッサは、
前記地上画像に対する類似度が、前記地上画像に対する前記空撮画像の前記第２レベル負例の類似度よりも高い、前記空撮画像の第３レベル負例を取得し、
前記地上画像と前記空撮画像の前記第３レベル負例とを用いて、前記識別器の第３フェーズ訓練を行うように、さらに構成されている、請求項１又は２に記載の訓練装置。
前記少なくとも１つのプロセッサは、
前記地上画像と、前記空撮画像の前記第２レベル負例との特徴量を抽出し、
前記地上画像と、前記空撮画像の前記第２レベル負例との前記抽出された特徴量に基づいて、変換パラメータを生成し、
前記変換パラメータに基づいて、前記空撮画像の前記第２レベル負例を前記空撮画像の前記第３レベル負例に変換することにより、前記第３レベル負例を取得するように、さらに構成されている、請求項３に記載の訓練装置。
前記変換は、クロップ処理、アフィン変換、色変更、又は画像インペインティングを含み、
前記変換がクロップ処理を含む場合、前記変換パラメータは、切り出されるべき空撮画像の前記第２レベル負例の部分を指定し、
前記変換がアフィン変換を含む場合、前記変換パラメータは、前記空撮画像の前記第２レベル負例に対して行われる前記アフィン変換に用いられる変換行列を含み、
前記変換が色変更を含む場合、前記変換パラメータは、前記空撮画像の前記第２レベル負例のピクセルの位置と、前記対応するピクセルに対して適用されるべき色の特徴の変更とのセットを含み、
前記変換が画像インペインティングを含む場合、前記変換パラメータは、前記空撮画像の前記第２レベル負例のピクセルの位置と、前記対応するピクセルに設定されるべき新たなピクセル値とのセットを含む、請求項４に記載の訓練装置。
前記識別器は、第１ニューラルネットワークと、第２ニューラルネットワークと、第３ニューラルネットワークとを含み、
前記第１ニューラルネットワークは、前記地上画像を取得して、前記地上画像の特徴マップを出力し、
前記第２ニューラルネットワークは、前記空撮画像を取得して、前記空撮画像の特徴マップを出力し、
前記第３ニューラルネットワークは、前記地上画像の特徴マップと前記空撮画像の特徴マップとを取得し、前記地上画像と前記空撮画像とがマッチするか否かを示すデータを出力する、請求項１から５いずれか一項に記載の訓練装置。
識別器の第１フェーズ訓練を実行し、前記識別器は、地上画像と空撮画像を取得し、前記地上画像と前記空撮画像とがマッチするか否かを判定し、
前記識別器の第２フェーズ訓練を実行することを含み、
前記第１フェーズ訓練は、地上画像と、前記空撮画像の正例と、前記空撮画像の第１レベル負例とを用いて行われ、前記空撮画像の前記第１レベル負例は、前記地上画像に含まれる景色とは異なる種類の景色を含み、
前記第２フェーズ訓練は、前記地上画像と、前記空撮画像の正例と、前記空撮画像の第２レベル負例とを用いて行われ、前記空撮画像の前記第２レベル負例は、前記地上画像に含まれる景色と同じ種類の景色を含む、コンピュータによって実行される制御方法。
前記空撮画像の正例及び空撮画像の複数の負例を取得し、
各前記取得した空撮画像の景色の種類を特定し、
前記空撮画像の前記正例の景色とは異なる種類の景色を持つことが特定された前記空撮画像の前記負例を、前記空撮画像の前記第１レベル負例として用い、
前記空撮画像の前記正例の景色と同じ種類の景色を持つことが特定された前記空撮画像の前記負例を、前記空撮画像の前記第２レベル負例として用いることをさらに含む、請求項７に記載の制御方法。
前記地上画像に対する類似度が、前記地上画像に対する前記空撮画像の前記第２レベル負例の類似度よりも高い、前記空撮画像の第３レベル負例を取得し、
前記地上画像と前記空撮画像の前記第３レベル負例とを用いて、前記識別器の第３フェーズ訓練を行うことをさらに含む、請求項７又は８に記載の制御方法。
前記地上画像と、前記空撮画像の前記第２レベル負例との特徴量を抽出し、
前記地上画像と、前記空撮画像の前記第２レベル負例との前記抽出された特徴量に基づいて、変換パラメータを生成し、
前記変換パラメータに基づいて、前記空撮画像の前記第２レベル負例を前記空撮画像の前記第３レベル負例に変換することにより、前記第３レベル負例を取得することをさらに含む、請求項９に記載の制御方法。
前記変換は、クロップ処理、アフィン変換、色変更、又は画像インペインティングを含み、
前記変換がクロップ処理を含む場合、前記変換パラメータは、切り出されるべき前記空撮画像の前記第２レベル負例の部分を指定し、
前記変換がアフィン変換を含む場合、前記変換パラメータは、前記空撮画像の前記第２レベル負例に対して行われる前記アフィン変換に用いられる変換行列を含み、
前記変換が色変更を含む場合、前記変換パラメータは、前記空撮画像の前記第２レベル負例のピクセルの位置と、前記対応するピクセルに対して適用されるべき色の特徴の変更とのセットを含み、
前記変換が画像インペインティングを含む場合、前記変換パラメータは、前記空撮画像の前記第２レベル負例のピクセルの位置と、前記対応するピクセルに設定されるべき新たなピクセル値とのセットを含む、請求項１０に記載の制御方法。
前記識別器は、第１ニューラルネットワークと、第２ニューラルネットワークと、第３ニューラルネットワークとを含み、
前記第１ニューラルネットワークは、前記地上画像を取得して、前記地上画像の特徴マップを出力し、
前記第２ニューラルネットワークは、前記空撮画像を取得して、前記空撮画像の特徴マップを出力し、
前記第３ニューラルネットワークは、前記地上画像の特徴マップと前記空撮画像の特徴マップとを取得し、前記地上画像と前記空撮画像とがマッチするか否かを示すデータを出力する、請求項７から１１いずれか一項に記載の制御方法。
識別器の第１フェーズ訓練を実行し、前記識別器は、地上画像と空撮画像を取得し、前記地上画像と前記空撮画像とがマッチするか否かを判定し、
前記識別器の第２フェーズ訓練を実行することをコンピュータに実行させるプログラムが格納されており、
前記第１フェーズ訓練は、地上画像と、前記空撮画像の正例と、前記空撮画像の第１レベル負例とを用いて行われ、前記空撮画像の前記第１レベル負例は、前記地上画像に含まれる景色とは異なる種類の景色を含み、
前記第２フェーズ訓練は、前記地上画像と、前記空撮画像の正例と、前記空撮画像の第２レベル負例とを用いて行われ、前記空撮画像の前記第２レベル負例は、前記地上画像に含まれる景色と同じ種類の景色を含む、非一時的なコンピュータ可読媒体。
前記プログラムは、
前記空撮画像の正例及び空撮画像の複数の負例を取得し、
各前記取得した空撮画像の景色の種類を特定し、
前記空撮画像の前記正例の景色とは異なる種類の景色を持つことが特定された前記空撮画像の前記負例を、前記空撮画像の前記第１レベル負例として用い、
前記空撮画像の前記正例の景色と同じ種類の景色を持つことが特定された前記空撮画像の前記負例を、前記空撮画像の前記第２レベル負例として用いることを、さらに前記コンピュータに実行させる、請求項１３に記載の非一時的なコンピュータ可読媒体。
前記プログラムは、
前記地上画像に対する類似度が、前記地上画像に対する前記空撮画像の前記第２レベル負例の類似度よりも高い、前記空撮画像の第３レベル負例を取得し、
前記地上画像と前記空撮画像の前記第３レベル負例とを用いて、前記識別器の第３フェーズ訓練を行うことを、前記コンピュータにさらに実行させる、請求項１３又は１４に記載の非一時的なコンピュータ可読媒体。
前記プログラムは、
前記地上画像と、前記空撮画像の前記第２レベル負例との特徴量を抽出し、
前記地上画像と、前記空撮画像の前記第２レベル負例との前記抽出された特徴量に基づいて、変換パラメータを生成し、
前記変換パラメータに基づいて、前記空撮画像の前記第２レベル負例を前記空撮画像の前記第３レベル負例に変換することにより、前記第３レベル負例を取得することを、前記コンピュータにさらに実行させる、請求項１５に記載の非一時的なコンピュータ可読媒体。
前記変換は、クロップ処理、アフィン変換、色変更、又は画像インペインティングを含み、
前記変換がクロップ処理を含む場合、前記変換パラメータは、切り出されるべき前記空撮画像の前記第２レベル負例の部分を指定し、
前記変換がアフィン変換を含む場合、前記変換パラメータは、前記空撮画像の前記第２レベル負例に対して行われる前記アフィン変換に用いられる変換行列を含み、
前記変換が色変更を含む場合、前記変換パラメータは、前記空撮画像の前記第２レベル負例のピクセルの位置と、前記対応するピクセルに対して適用されるべき色の特徴の変更とのセットを含み、
前記変換が画像インペインティングを含む場合、前記変換パラメータは、前記空撮画像の前記第２レベル負例のピクセルの位置と、前記対応するピクセルに設定されるべき新たなピクセル値とのセットを含む、請求項１６に記載の非一時的なコンピュータ可読媒体。
前記識別器は、第１ニューラルネットワークと、第２ニューラルネットワークと、第３ニューラルネットワークとを含み、
前記第１ニューラルネットワークは、前記地上画像を取得して、前記地上画像の特徴マップを出力し、
前記第２ニューラルネットワークは、前記空撮画像を取得して、前記空撮画像の特徴マップを出力し、
前記第３ニューラルネットワークは、前記地上画像の特徴マップと前記空撮画像の特徴マップとを取得し、前記地上画像と前記空撮画像とがマッチするか否かを示すデータを出力する、請求項１３から１７いずれか一項に記載の非一時的なコンピュータ可読媒体。