JP6950117B1

JP6950117B1 - 学習装置、情報処理装置、及び学習済の制御モデル

Info

Publication number: JP6950117B1
Application number: JP2021519184A
Authority: JP
Inventors: 満中澤; 順滝澤
Original assignee: Rakuten Group Inc
Current assignee: Rakuten Group Inc
Priority date: 2020-04-30
Filing date: 2020-09-25
Publication date: 2021-10-13
Anticipated expiration: 2040-09-25
Also published as: US20220308598A1; CN113892070A; CN113892070B; JPWO2021220528A1

Abstract

学習システムＳＹ１は、無人航空機Ｐの周辺環境、または無人航空機Ｐの飛行予定領域の環境における気象情報を含む環境情報を制御モデルＭへ入力することで制御モデルＭから出力された制御情報を取得し、無人航空機Ｐが当該制御情報に基づく行動をとった場合における当該行動の結果の評価を表す報酬rを用いて制御モデルＭの強化学習を行う。

Description

本発明は、無人で飛行可能な航空機の飛行制御を行うための制御情報を出力する制御モデルを強化学習する装置等の技術分野に関する。

従来、移動機の移動制御を行うために、機械学習の一種である強化学習を用いることが検討されている。例えば、特許文献１では、車やドローン等の移動機により撮影された画像を入力として、移動機の移動制御に関する強化学習を行う技術が開示されている。

特開2018-198012号公報

ところで、ドローンのような無人で飛行可能な航空機は、気象の影響を受けやすい。例えば上記のような技術で航空機の飛行制御を行ったとしても、風に逆らって飛行する場合には消費電力が大きくなったり、飛行が不安定になったりすることが考えられる。

そこで、無人で飛行可能な航空機の周辺環境等における気象の影響を低減する柔軟な飛行制御を行うための制御情報を得ることが可能な学習装置、情報処理装置、及び学習済の制御モデルを提供する。

上記課題を解決するために、請求項１に記載の発明は、無人で飛行可能な航空機の飛行制御を行うための制御情報を出力する制御モデルの強化学習を行う学習装置であって、前記航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報を取得する環境情報取得部と、前記環境情報を前記制御モデルへ入力することで前記制御モデルから出力された前記制御情報を取得する制御情報取得部と、前記航空機が前記制御情報に基づく行動をとった場合における当該行動の結果の評価を表す報酬を特定する報酬特定部と、前記報酬特定部により特定された前記報酬を用いて前記制御モデルの強化学習を制御する学習制御部と、を備え、前記報酬特定部は、前記航空機が前記行動をとった場合における当該航空機への累積降水量と当該航空機の防水性能に応じた閾値との関係に応じて異なる前記報酬を特定することを特徴とする。これにより、降雨の影響があっても航空機の防水性能に支障をきたさない飛行を当該航空機に行わせる制御情報を出力するように、制御モデルの学習を行うことができる。請求項２に記載の発明は、無人で飛行可能な航空機の飛行制御を行うための制御情報を出力する制御モデルの強化学習を行う学習装置であって、前記航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報を取得する環境情報取得部と、前記環境情報を前記制御モデルへ入力することで前記制御モデルから出力された前記制御情報を取得する制御情報取得部と、前記航空機が前記制御情報に基づく行動をとった場合における当該行動の結果の評価を表す報酬を特定する報酬特定部と、前記報酬特定部により特定された前記報酬を用いて前記制御モデルの強化学習を制御する学習制御部と、を備え、前記報酬特定部は、前記航空機が前記行動をとった場合における前記航空機のバッテリの残量または前記バッテリの消費量に応じて異なる前記報酬を特定することを特徴とする。これにより、気象の影響があってもバッテリの消費量を少なくする飛行を当該航空機に行わせる制御情報を出力するように、制御モデルの学習を行うことができる。請求項３に記載の発明は、無人で飛行可能な航空機の飛行制御を行うための制御情報を出力する制御モデルの強化学習を行う学習装置であって、前記航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報を取得する環境情報取得部と、前記環境情報を前記制御モデルへ入力することで前記制御モデルから出力された前記制御情報を取得する制御情報取得部と、前記航空機が前記制御情報に基づく行動をとった場合における当該行動の結果の評価を表す報酬を特定する報酬特定部と、前記報酬特定部により特定された前記報酬を用いて前記制御モデルの強化学習を制御する学習制御部と、を備え、前記報酬特定部は、前記航空機が前記行動をとった場合における前記航空機の周辺環境における地表属性に応じて異なる前記報酬を特定することを特徴とする。これにより、気象の影響があっても地表属性に応じた飛行を当該航空機に行わせる制御情報を出力するように、制御モデルの学習を行うことができる。請求項４に記載の発明は、無人で飛行可能な航空機の飛行制御を行うための制御情報を出力する制御モデルの強化学習を行う学習装置であって、前記航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報を取得する環境情報取得部と、前記環境情報を前記制御モデルへ入力することで前記制御モデルから出力された前記制御情報を取得する制御情報取得部と、前記航空機が前記制御情報に基づく行動をとった場合における当該行動の結果の評価を表す報酬を特定する報酬特定部と、前記報酬特定部により特定された前記報酬を用いて前記制御モデルの強化学習を制御する学習制御部と、を備え、前記報酬特定部は、前記航空機が前記行動をとった場合における前記航空機の移動状態に応じて異なる前記報酬を特定する。これにより、気象の影響があってもより効率的な飛行を当該航空機に行わせる制御情報を出力するように、制御モデルの学習を行うことができる。請求項５に記載の発明は、無人で飛行可能な航空機の飛行制御を行うための制御情報を出力する制御モデルの強化学習を行う学習装置であって、前記航空機の周辺環境において時系列で位置が変化する移動物体の行動を予測する行動予測部と、前記航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報であって、前記行動予測部により行動が予測された前記移動物体の行動予測情報を含む前記環境情報を取得する環境情報取得部と、前記移動物体の行動予測情報を含む前記環境情報を前記制御モデルへ入力することで前記制御モデルから出力された前記制御情報を取得する制御情報取得部と、前記航空機が前記制御情報に基づく行動をとった場合における当該行動の結果の評価を表す報酬を特定する報酬特定部と、前記報酬特定部により特定された前記報酬を用いて前記制御モデルの強化学習を制御する学習制御部と、を備えることを特徴とする。請求項６に記載の発明は、請求項５に記載の学習装置において、前記報酬特定部は、前記航空機が前記行動をとった場合における当該航空機と前記移動物体との位置関係に応じて異なる前記報酬を特定することを特徴とする。

請求項７に記載の発明は、請求項１乃至６の何れか一項に記載の学習装置において、前記報酬特定部は、前記航空機が前記行動をとった場合における当該航空機の姿勢に応じて異なる前記報酬を特定することを特徴とする。これにより、気象の影響があっても航空機の姿勢を安定に保つ飛行を当該航空機に行わせる制御情報を出力するように、制御モデルの学習を行うことができる。

請求項８に記載の発明は、請求項１乃至７の何れか一項に記載の学習装置において、前記報酬特定部は、前記航空機が前記行動をとった場合における当該航空機の飛行安定性に応じて異なる前記報酬を特定することを特徴とする。これにより、気象の影響があっても航空機の飛行安定性が高い飛行を当該航空機に行わせる制御情報を出力するように、制御モデルの学習を行うことができる。

請求項９に記載の発明は、請求項８に記載の学習装置において、前記飛行安定性は、前記航空機の振動に基づいて評価されることを特徴とする。

請求項１０に記載の発明は、請求項１乃至９の何れか一項に記載の学習装置において、前記報酬特定部は、前記航空機が前記行動をとった場合における当該航空機の高度に応じて異なる前記報酬を特定することを特徴とする。これにより、気象の影響があっても航空機の安全な高度を保つ飛行を当該航空機に行わせる制御情報を出力するように、制御モデルの学習を行うことができる。

請求項１１に記載の発明は、請求項１乃至１０の何れか一項に記載の学習装置において、前記報酬特定部は、前記航空機が前記行動をとった場合における当該航空機の高度が特定の高度範囲内に含まれるか否かに応じて異なる前記報酬を特定することを特徴とする。これにより、気象の影響があっても航空機の高度を特定の高度範囲内に保つ飛行を当該航空機に行わせる制御情報を出力するように、制御モデルの学習を行うことができる。

請求項１２に記載の発明は、請求項１１に記載の学習装置において、前記高度範囲は、前記航空機による上空からの非接触センシングにより得られたセンシングデータに基づいて動的に変化することを特徴とする。

請求項１３に記載の発明は、請求項１乃至１２の何れか一項に記載の学習装置において、前記環境情報取得部は、前記航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境における気象情報を含む環境情報を取得することを特徴とする。請求項１４に記載の発明は、請求項１乃至１３の何れか一項に記載の学習装置において、前記気象情報は、風に関する風情報を含むことを特徴とする。

請求項１５に記載の発明は、請求項１４に記載の学習装置において、前記風情報は、風速、風向き、風の有無、強風の有無、台風、および竜巻のうち少なくともいずれか一つに関する情報を含むことを特徴とする。

請求項１６に記載の発明は、無人で飛行可能な航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報を入力とし、前記航空機の飛行制御を行うための制御情報を出力とする学習済の制御モデルであって、前記制御情報に基づく行動を前記航空機がとった場合における当該航空機の行動の結果の評価を表す報酬を用いた強化学習を行うことで得られた制御モデルを記憶する記憶部と、前記気象情報を含む環境情報を前記制御モデルへ入力することで前記制御モデルから出力された前記制御情報を取得する制御情報取得部と、を備え、前記報酬は、前記航空機が前記行動をとった場合における当該航空機への累積降水量と当該航空機の防水性能に応じた閾値との関係に応じて異なることを特徴とする。

請求項１７に記載の発明は、無人で飛行可能な航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報を入力とし、前記航空機の飛行制御を行うための制御情報を出力とする学習済の制御モデルであって、前記制御情報に基づく行動を前記航空機がとった場合における当該航空機の行動の結果の評価を表す報酬を用いた強化学習を行うことで得られた制御モデルを記憶する記憶部と、前記気象情報を含む環境情報を前記制御モデルへ入力することで前記制御モデルから出力された前記制御情報を取得する制御情報取得部と、を備え、前記報酬は、前記航空機が前記行動をとった場合における前記航空機のバッテリの残量または前記バッテリの消費量に応じて異なることを特徴とする。請求項１８に記載の発明は、無人で飛行可能な航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報を入力とし、前記航空機の飛行制御を行うための制御情報を出力とする学習済の制御モデルであって、前記制御情報に基づく行動を前記航空機がとった場合における当該航空機の行動の結果の評価を表す報酬を用いた強化学習を行うことで得られた制御モデルを記憶する記憶部と、前記気象情報を含む環境情報を前記制御モデルへ入力することで前記制御モデルから出力された前記制御情報を取得する制御情報取得部と、を備え、前記報酬は、前記航空機が前記行動をとった場合における前記航空機の周辺環境における地表属性に応じて異なることを特徴とする。請求項１９に記載の発明は、無人で飛行可能な航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報を入力とし、前記航空機の飛行制御を行うための制御情報を出力とする学習済の制御モデルであって、前記制御情報に基づく行動を前記航空機がとった場合における当該航空機の行動の結果の評価を表す報酬を用いた強化学習を行うことで得られた制御モデルを記憶する記憶部と、前記気象情報を含む環境情報を前記制御モデルへ入力することで前記制御モデルから出力された前記制御情報を取得する制御情報取得部と、を備え、前記報酬は、前記航空機が前記行動をとった場合における前記航空機の移動状態に応じて異なることを特徴とする。請求項２０に記載の発明は、無人で飛行可能な航空機の周辺環境において時系列で位置が変化する移動物体の行動を予測する行動予測部と、前記航空機の周辺環境に関する環境情報であって、前記行動予測部により行動が予測された前記移動物体の行動予測情報を含む前記環境情報を取得する環境情報取得部と、前記環境情報取得部により取得された環境情報を入力とし、前記航空機の飛行制御を行うための制御情報を出力とする学習済の制御モデルであって、前記制御情報に基づく行動を前記航空機がとった場合における当該航空機の行動の結果の評価を表す報酬を用いた強化学習を行うことで得られた制御モデルを記憶する記憶部と、前記環境情報取得部により取得された環境情報を前記制御モデルへ入力することで前記制御モデルから出力された前記制御情報を取得する制御情報取得部と、を備えることを特徴とする。請求項２１に記載の発明は、請求項１６乃至２０の何れか一項に記載の情報処理装置において、前記制御情報に基づいて、前記航空機の飛行制御を行う飛行制御部を更に備えることを特徴とする。

請求項２２に記載の発明は、無人で飛行可能な航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報に基づいて、前記航空機の飛行制御を行うための制御情報を出力するよう、コンピュータを機能させるための学習済の制御モデルであって、前記環境情報は、前記制御モデルへ時系列で入力され、前記制御モデルは、前記制御モデルから出力された前記制御情報に基づく前記行動を前記航空機がとった場合における当該航空機の行動の結果の評価を表す報酬を用いて強化学習され、前記報酬は、前記航空機が前記行動をとった場合における当該航空機への累積降水量と当該航空機の防水性能に応じた閾値との関係に応じて異なり、前記入力された前記環境情報に対し、前記制御モデルを構成する関数に基づく演算を行い、前記制御モデルから前記制御情報を出力するよう、コンピュータを機能させる。請求項２３に記載の発明は、無人で飛行可能な航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報に基づいて、前記航空機の飛行制御を行うための制御情報を出力するよう、コンピュータを機能させるための学習済の制御モデルであって、前記環境情報は、前記制御モデルへ時系列で入力され、前記制御モデルは、前記制御モデルから出力された前記制御情報に基づく前記行動を前記航空機がとった場合における当該航空機の行動の結果の評価を表す報酬を用いて強化学習され、前記報酬は、前記航空機が前記行動をとった場合における前記航空機のバッテリの残量または前記バッテリの消費量に応じて異なり、前記入力された前記環境情報に対し、前記制御モデルを構成する関数に基づく演算を行い、前記制御モデルから前記制御情報を出力するよう、コンピュータを機能させる。請求項２４に記載の発明は、無人で飛行可能な航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報に基づいて、前記航空機の飛行制御を行うための制御情報を出力するよう、コンピュータを機能させるための学習済の制御モデルであって、前記環境情報は、前記制御モデルへ時系列で入力され、前記制御モデルは、前記制御モデルから出力された前記制御情報に基づく前記行動を前記航空機がとった場合における当該航空機の行動の結果の評価を表す報酬を用いて強化学習され、前記報酬は、前記航空機が前記行動をとった場合における前記航空機の周辺環境における地表属性に応じて異なり、前記入力された前記環境情報に対し、前記制御モデルを構成する関数に基づく演算を行い、前記制御モデルから前記制御情報を出力するよう、コンピュータを機能させる。請求項２５に記載の発明は、無人で飛行可能な航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報に基づいて、前記航空機の飛行制御を行うための制御情報を出力するよう、コンピュータを機能させるための学習済の制御モデルであって、前記環境情報は、前記制御モデルへ時系列で入力され、前記制御モデルは、前記制御モデルから出力された前記制御情報に基づく前記行動を前記航空機がとった場合における当該航空機の行動の結果の評価を表す報酬を用いて強化学習され、前記報酬は、前記航空機が前記行動をとった場合における前記航空機の移動状態に応じて異なり、前記入力された前記環境情報に対し、前記制御モデルを構成する関数に基づく演算を行い、前記制御モデルから前記制御情報を出力するよう、コンピュータを機能させる。請求項２６に記載の発明は、無人で飛行可能な航空機の周辺環境に関する環境情報に基づいて、前記航空機の飛行制御を行うための制御情報を出力するよう、コンピュータを機能させるための学習済の制御モデルであって、前記環境情報は、無人で飛行可能な航空機の周辺環境において時系列で位置が変化する移動物体の行動を予測する行動予測部により行動が予測された前記移動物体の行動予測情報を含み、当該環境情報は、前記制御モデルへ時系列で入力され、前記制御モデルは、前記制御モデルから出力された前記制御情報に基づく前記行動を前記航空機がとった場合における当該航空機の行動の結果の評価を表す報酬を用いて強化学習され、前記入力された前記環境情報に対し、前記制御モデルを構成する関数に基づく演算を行い、前記制御モデルから前記制御情報を出力するよう、コンピュータを機能させる。

本発明によれば、無人で飛行可能な航空機の周辺環境等における気象の影響を低減する柔軟な飛行制御を行うための制御情報を得ることができる。

目的地へ向かって飛行する無人航空機Ｐの周辺環境、及び飛行予定領域の環境における風の向き及び風の強さの一例を表した概念図である。本実施形態の学習システムＳＹ１の概要構成例を示す図である。本実施形態における強化学習の一例を示す概念図である。実無人航空機Ｐ１の概要構成例を示す図である。制御部１４における機能ブロック例を示す図である。学習装置Ｄの概要構成例を示す図である。制御部２３における機能ブロック例を示す図である。（Ａ）は、実無人航空機Ｐ１の処理の一例を示すフローチャートであり、（Ｂ）は、学習装置Ｄの処理の一例を示すフローチャートである。本実施形態の飛行制御システムＳＹ２の概要構成例を示す図である。

以下、図面を参照して本発明の一実施形態について説明する。

［１．無人航空機Ｐの飛行制御についての背景］
先ず、図１を参照して、無人航空機Ｐ（無人で飛行可能な航空機の一例）の飛行制御に関する背景について説明する。図１は、目的地へ向かって飛行する無人航空機Ｐの周辺環境、及び飛行予定領域（例えば、目的地を含む）の環境における風速及び風向きの一例を表した概念図である。なお、図１において、複数の矢印は、それぞれ、風速（風の強さ）及び風向きを表しており、矢印が長いほど、その位置での風が強い。無人航空機Ｐは、ドローン、またはマルチコプタとも呼ばれる。

無人航空機Ｐは限られた電力しか持ち合わせないため、図１に示すように、例えば飛行ルートＲ１に沿って、極力、短距離で目的地に到着することが望ましい。しかし、この場合、無人航空機Ｐは風に逆らって飛行することになるので、風に逆らわずに飛行する場合と比べて大きな推進力（前進するための推進力）が必要となり、却って無人航空機Ｐの消費電力が大きくなることが予想される。例えば、図１に示すように、無人航空機Ｐが飛行ルートＲ１よりも距離が長い飛行ルートＲ２に沿って追い風の状況下で飛行する方が無人航空機Ｐの消費電力が小さくなることが予想される。また、無人航空機Ｐは風に逆らって飛行すると、その飛行が不安定になることもある。従って、風に対して無人航空機Ｐの姿勢を細かく調整し安定させることが必要となり、そのために、より大きな電力が消費される。その結果、無人航空機Ｐの飛行距離が短くなってしまうことが懸念される。また、風速及び風向きは時々刻々変化しうるものである。

無人航空機Ｐが地上から操縦されるケースにおいて、たとえ熟練した操縦者であっても、上述したような風の影響を考慮して無人航空機Ｐを安定に保ちつつ、できるだけ消費電力が少なくなるように無人航空機Ｐを飛行制御することは容易ではない。さらに、無人航空機Ｐの周辺環境及び飛行予定領域の環境には、風以外にも、雨、雪、及び雷などがありえるので、これらの気象を考慮して無人航空機Ｐをより適切に飛行制御することはさらに容易ではない。無人航空機Ｐの自律的な飛行制御において、例えば風などの気象に対応した飛行制御を実現しようとすると、予め人により設計されたルールベースの制御は困難である。例えば、所定の条件を満たした場合に所定の飛行制御を行うといった制御は、ルールが複雑すぎて設計し難い。そこで、以下に説明する学習システムによって、無人航空機Ｐの周辺環境及び飛行予定領域の環境における気象の影響を低減する飛行制御を実現する。これにより、例えば、電力効率が良い飛行ルートを選出しながら目的地まで無人航空機Ｐを自律的に飛行させることが可能となり、さらに、機体の安定性や飛行高度などの安全面も踏まえた自律飛行が可能となる。

［２．学習システムＳＹ１の構成及び機能概要］
次に、図２及び図３を参照して、本実施形態の学習システムＳＹ１の構成及び機能概要について説明する。図２は、本実施形態の学習システムＳＹ１の概要構成例を示す図である。図３は、本実施形態における強化学習の一例を示す概念図である。学習システムＳＹ１は、図２に示すように、制御モデルＭの強化学習を行う学習装置Ｄを含む。制御モデルＭは、目的地に向かって飛行する無人航空機Ｐの周辺環境と無人航空機Ｐの飛行予定領域の環境との少なくとも何れか一方の環境Ｅに関する環境情報に基づいて、当該無人航空機Ｐの飛行制御を行うための制御情報を出力するよう、学習装置Ｄ（コンピュータの一例）を機能させるための機械学習モデルである。なお、制御モデルＭは、行動選択モデルともいう。

ここで、無人航空機Ｐの周辺環境とは、例えば、無人航空機Ｐを含む特定範囲（例えば、無人航空機Ｐから認識可能な範囲）内の環境を意味する。一方、無人航空機Ｐの飛行予定領域の環境とは、例えば、無人航空機Ｐが予定する飛行ルートを含む特定範囲（例えば、当該飛行ルート上の各地点から認識可能な範囲）内の環境を意味する。無人航空機Ｐを含む特定範囲の一部と、無人航空機Ｐが予定する飛行ルートを含む特定範囲の一部とは重複してもよい。また、無人航空機Ｐの周辺環境には、時系列で位置が変化する移動物体が存在する場合もある。時系列で位置が変化する移動物体とは、時間経過に伴い位置が変化する移動物体（つまり、移動中の移動物体）であることを意味する。移動物体は、無人航空機Ｐとは異なるものであり、例えば、人、動物、車両、列車、航空機、または船舶等である。そして、環境情報は、無人航空機Ｐの環境Ｅにおける気象情報を含む。気象情報は、風に関する風情報、降雨に関する降雨情報、降雪に関する降雨情報、及び発雷に関する発雷情報の少なくとも何れか１つを含む。風情報は、風速、風向き、風の有無、強風の有無、台風、および竜巻のうち少なくともいずれか一つに関する情報を含む。

図３に示すように、無人航空機Ｐの環境Ｅの観測により得られた観測データに対応する環境情報が環境Ｅの状態sとして制御モデルＭへ入力されると、当該無人航空機Ｐを制御するための制御情報が制御モデルＭから出力される。つまり、学習装置Ｄは、入力された環境情報に対し、制御モデルＭを構成する関数に基づく演算を行い、制御モデルＭから行動aとして制御情報を出力させる。そして、無人航空機Ｐが制御モデルＭから出力された制御情報に基づく行動aをとった後（つまり、当該制御情報により無人航空機Ｐが制御された後）、再度、無人航空機Ｐの環境Ｅの観測により得られた観測データに対応する環境情報が制御モデルＭへ入力される。ここで、無人航空機Ｐが行動aをとることで、その環境Ｅに関する環境情報が変化しうる。つまり、無人航空機Ｐの環境Ｅの状態sは変化しうる。

学習装置Ｄは、このような環境Ｅに存在する無人航空機Ｐが制御情報に基づく行動aをとった場合に得られる（つまり、特定される）報酬rに基づいて、より大きな報酬rが期待される制御情報を出力するように（換言すると、より大きな報酬rが得られるように）、制御モデルＭの強化学習を行う。ここで、「状態」、「行動」、及び「報酬」は、それぞれ、強化学習分野の当業者であれば明確に把握可能な技術用語である。なお、報酬rは、行動aの結果の評価（換言すると、行動の結果に応じたスコア）を表す。報酬rの例として、正（プラス）の報酬rと、負（マイナス）の報酬rとがある。負の報酬rは、ペナルティとも呼ばれる。

本実施形態の無人航空機Ｐとして、図２に示すように、実環境に実際に存在する実無人航空機Ｐ１と、仮想環境に仮想的に存在する仮想無人航空機Ｐ２との少なくとも何れか一方が適用される。実無人航空機Ｐ１が適用される場合、学習システムＳＹ１には実無人航空機Ｐ１が含まれる。ここで、実無人航空機Ｐ１の飛行計画は、例えば、図示しない運航管理システムにより管理される。実無人航空機Ｐ１の飛行計画には、実無人航空機Ｐ１の出発地から目的地までの飛行スケジュール等が含まれる。飛行スケジュールは、実無人航空機Ｐ１が出発地、経由地、及び目的地のうち少なくとも何れか１つの地点（つまり、飛行ルート上の所定地点）に存在する予定時刻の情報（時刻のほか、年月日が含まれてもよい）を含む。出発地、経由地、及び目的地のうち少なくとも何れか１つの地点は、例えば、地図上の地点であり、緯度及び経度で表される。かかる地点において、実無人航空機Ｐ１は空中に存在する（つまり、飛行状態、またはホバリング状態にある）場合もあるし、或いは地面に存在する（つまり、着陸状態にある）場合もある。実無人航空機Ｐ１の飛行計画を示す情報は、運航管理システムから学習装置Ｄへ提供される。なお、学習システムＳＹ１は、運航管理システムの内部に設けられてもよいし、運航管理システムの外部に設けられてもよい。

一方、仮想無人航空機Ｐ２が適用される場合、学習システムＳＹ１にはシミュレータＬが含まれる。仮想無人航空機Ｐ２の飛行計画は、例えば、シミュレータＬにより管理される。仮想無人航空機Ｐ２の飛行計画の内容は、実無人航空機Ｐ１の飛行計画と同様である。シミュレータＬは、仮想環境のシミュレーションを行う。例えば、シミュレータＬは、仮想無人航空機Ｐ２、上述した移動物体、不動物体（例えば、ビル、家、壁、木等）、及び地表面（例えば、多数のパターンの地形）を含む仮想環境を生成し、当該移動物体と仮想無人航空機Ｐ２との少なくとも何れか一方の移動に応じた仮想環境の更新を行う。仮想無人航空機Ｐ２の飛行計画を示す情報は、シミュレータＬから学習装置Ｄへ提供される。なお、シミュレータＬによる仮想環境の生成及び更新処理については公知のシミュレーション技術を用いて実現可能であるため詳細な説明を省略する。図２の例では、学習装置ＤとシミュレータＬとが別の装置である例を示しているが、学習装置ＤがシミュレータＬの機能を備えてもよい。また、学習システムＳＹ１には、実無人航空機Ｐ１とシミュレータＬとの双方が含まれてもよい。

実無人航空機Ｐ１の環境（換言すると、実環境）Ｅに関する環境情報の元となる観測データは、実無人航空機Ｐ１から学習装置Ｄへ時系列で提供される。そして、実無人航空機Ｐ１は、観測データの提供に応じて学習装置Ｄから時系列で提供された制御情報に基づいて実無人航空機Ｐ１の飛行制御部により飛行制御される。なお、飛行制御部は、学習装置Ｄに備えられてもよい。一方、仮想無人航空機Ｐ２の環境（換言すると、仮想環境）Ｅに関する環境情報の元となる観測データは、シミュレータＬから学習装置Ｄへ時系列で提供される。そして、仮想無人航空機Ｐ２は、観測データの提供に応じて学習装置Ｄから時系列で提供された制御情報に基づいてシミュレータＬにより飛行制御される。

なお、「時系列で提供される」とは、時間経過に伴い連続的に複数回提供されることを意味する。観測データまたは制御情報が提供される時間間隔（つまり、提供間隔）は、一定間隔であってもよいし、不定間隔であってもよい。また、制御情報は、例えば、無人航空機Ｐを進行させるか否か（換言すると、無人航空機Ｐを一時停止（例えば、ホバリング）させるか否か）の命令、無人航空機Ｐを進行させる場合の進行方向（どちらの方向に進むか）の命令、無人航空機Ｐを進行させる場合の速度態様（例えば、加速、等速、または減速）の命令、無人航空機Ｐの高度を変更させるか否かの命令、無人航空機Ｐの高度を変更させる場合の変更方向（例えば、上昇、または下降）の命令、及び無人航空機Ｐの姿勢角を変更させる（機体をどう傾けるか）命令などのうち少なくとも何れか１つの命令を含む。

［３．実無人航空機Ｐ１の構成及び機能概要］
次に、図３及び図４を参照して、実無人航空機Ｐ１の構成及び機能概要について説明する。図３は、実無人航空機Ｐ１の概要構成例を示す図である。実無人航空機Ｐ１は、図３に示すように、通信部１１、駆動部（推進部）１２、センサ部１３、及び制御部１４等を備える。なお、図示しないが、実無人航空機Ｐ１は、水平回転翼であるロータ（プロペラ）、及び実無人航空機Ｐ１の各部へ電力を供給するバッテリを備える。また、実無人航空機Ｐ１の防水性能は、実無人航空機Ｐ１の型式や仕様などによって異なる。つまり、防水性能の高い実無人航空機Ｐ１もあれば、防水性能の低い実無人航空機Ｐ１もある。通信部１１は、図示しない通信ネットワークを介して学習装置Ｄとの間で行われる通信の制御を担う。駆動部１２は、制御部１４から出力された制御信号に従って駆動するモータ及び回転軸等により複数のロータを回転させる。

センサ部１３には、測位センサ１３ａ、光学センサ１３ｂ、姿勢センサ１３ｃ、バッテリセンサ１３ｄ、及び気象センサ１３ｅ等が含まれる。これらのセンサは、実無人航空機Ｐ１の周辺環境の観測用などに用いられる。測位センサ１３ａは、実無人航空機Ｐ１の現在位置を検出するためのセンサである。測位センサ１３ａは、例えば、GNSS（Global Navigation Satellite System）の衛星から発信された電波を受信し、当該電波に基づいて実無人航空機Ｐ１の水平方向の現在位置（緯度及び経度）を検出する。なお、測位センサ１３ａは、図示しない気圧センサ等の高度センサにより実無人航空機Ｐ１の垂直方向の現在位置（高度）を検出してもよい。実無人航空機Ｐ１の現在位置は、時間経過に伴い連続的に複数回検出（つまり、時系列で検出）される。実無人航空機Ｐ１の現在位置が検出される時間間隔（つまり、検出間隔）は、一定間隔であってもよいし、不定間隔であってもよい。測位センサ１３ａにより検出された現在位置を示す位置情報は、制御部１４へ時系列で出力される。

光学センサ１３ｂは、実無人航空機Ｐ１の周辺環境を上空から光学的に非接触センシングするためのセンサである。光学センサ１３ｂには、例えば、カメラ（例えば、RGBカメラまたは赤外線カメラ）が用いられる。なお、光学センサ１３ｂには、LiDAR（Light Detection and Ranging、或いはLaser Imaging Detection and Ranging）が用いられてもよい。実無人航空機Ｐ１の周辺環境は、時間経過に伴い連続的に複数回センシング（つまり、時系列で非接触センシング）される。実無人航空機Ｐ１の周辺環境が非接触センシングされる時間間隔（つまり、センシング間隔）は、一定間隔であってもよいし、不定間隔であってもよい。光学センサ１３ｂにより非接触センシングされた結果を示すセンシングデータ（つまり、実無人航空機Ｐ１による上空からの非接触センシングにより得られたセンシングデータ）は、制御部１４へ時系列で出力される。センシングデータには、例えば、移動物体、不動物体、及び地表面を含む環境の画像データが含まれる。

姿勢センサ１３ｃは、実無人航空機Ｐ１の姿勢に関する姿勢データ（例えば、実無人航空機Ｐ１に関する角速度、及び加速度等）を取得するためのセンサである。姿勢センサ１３ｃには、例えば、３軸角速度センサ、３軸加速度センサ、及び３軸地磁気センサが用いられる。なお、姿勢センサ１３ｃには、IMU（Internal measurement unit）が用いられてもよい。また、姿勢センサ１３ｃは、実無人航空機Ｐ１の筐体の振動（加速度の微分絶対値）に関する振動データを取得してもよい。実無人航空機Ｐ１の姿勢データと振動データとの少なくとも何れか一方のデータは、時間経過に伴い連続的に複数回取得（つまり、時系列で取得）される。かかるデータが取得される時間間隔（つまり、取得間隔）は、一定間隔であってもよいし、不定間隔であってもよい。姿勢センサ１３ｃにより取得された姿勢データと振動データとの少なくとも何れか一方のデータは、制御部１４へ時系列で出力される。

バッテリセンサ１３ｄは、実無人航空機Ｐ１のバッテリの残量または消費量等を監視するためのセンサである。バッテリの残量または消費量は、時間経過に伴い連続的に複数回検出される。実無人航空機Ｐ１のバッテリの残量または消費量が検出される時間間隔は、一定間隔であってもよいし、不定間隔であってもよい。バッテリセンサ１３ｄにより検出されたバッテリの残量または消費量を示すバッテリ情報は、制御部１４へ時系列で出力される。

気象センサ１３ｅは、実無人航空機Ｐ１の周辺環境における風の有無（例えば、強風の有無）、風速、風向き、降雨量（降水量）などの気象を測定するためのセンサである。気象は、時間経過に伴い連続的に複数回測定される。気象が測定される時間間隔は、一定間隔であってもよいし、不定間隔であってもよい。気象センサ１３ｅにより測定された気象を示す気象情報（つまり、実無人航空機Ｐ１の周辺環境における気象情報）は、制御部１４へ時系列で出力される。

制御部１４は、プロセッサであるCPU（Central Processing Unit）、ROM（Read Only Memory）、RAM（Random Access Memory）、及び不揮発性メモリ等を備える。図６は、制御部１４における機能ブロック例を示す図である。制御部１４は、例えばROMまたは不揮発性メモリに記憶されたプログラム（プログラムコード群）に従って、図６に示すように、環境情報提供部１４ａ、制御情報取得部１４ｂ、及び飛行制御部１４ｃとして機能する。環境情報提供部１４ａは、センサ部１４から、位置情報、センシングデータ、姿勢データ、振動データ、バッテリ情報、及び気象情報を取得し、取得した位置情報、センシングデータ、姿勢データ、振動データ、バッテリ情報、及び気象情報の全部または一部を観測データとして学習装置Ｄへ通信部１１を介して時系列で提供する。

なお、観測データには、現在時刻を示す時刻情報が含まれてもよい。現在時刻は、制御部１４により時系列で取得されてもよい。また、観測データには、実無人航空機Ｐ１の飛行速度と飛行加速度との少なくとも何れか一方を示す速度情報が含まれてもよい。実無人航空機Ｐ１の飛行速度及び飛行加速度は、制御部１４により時系列で算出されてもよい。

制御情報取得部１４ｂは、学習装置Ｄから時系列で提供された制御情報を、通信部１１を介して取得する。飛行制御部１４ｃは、制御情報取得部１４ｂにより時系列で取得された制御情報に基づいて実無人航空機Ｐ１の飛行制御を行う。かかる飛行制御には、実無人航空機Ｐ１の位置、姿勢及び進行方向の制御が含まれる。なお、実無人航空機Ｐ１の飛行制御は、学習システムＳＹ１全体としての飛行制御ということもできる。

［４．学習装置Ｄの構成及び機能概要］
次に、図７を参照して、学習装置Ｄの構成及び機能概要について説明する。図７は、学習装置Ｄの概要構成例を示す図である。学習装置Ｄは、図７に示すように、通信部２１、記憶部２２、及び制御部２３等を備える。通信部２１は、図示しない通信ネットワークを介して実無人航空機Ｐ１とシミュレータＬとの少なくとも何れか一方との間で行われる通信の制御を担う。記憶部２２は、例えば、ハードディスクドライブ等を備える。記憶部２２は、環境情報を入力とし制御情報を出力とする制御モデルＭを記憶する。また、記憶部２２には、無人航空機Ｐの飛行予定領域を含む所定領域の地図を表す地図データが記憶される。地図データには、静的な飛行禁止エリア、障害物となりうる不動物体、及び地表面の属性等の情報が含まれてもよい。ここで、不動物体に関しては高さ情報が含まれるとよいので、地図データは３次元的な地図を表すことが望ましい。

また、記憶部２２には、無人航空機Ｐの飛行予定領域を含む所定領域における気象予測マップを表す気象予測マップデータが記憶される。気象予測マップは、飛行予定領域を含む所定領域において予測された風情報、降雨情報、降雪情報、及び発雷情報の少なくとも何れか１つの気象情報（つまり、無人航空機Ｐの飛行予定領域を含む所定領域における気象情報）を示すマップであり、例えば現在から所定時間先の未来にかけて、所定の単位時間ごとのマップであるとよい。かかるマップの例として、風予測マップ、降雨予測マップ、降雪予測マップ、及び発雷予測マップが挙げられる。ここで、風速及び風向き等は高度によって大きく異なることがあるため、風予測マップは、高度に応じて複数に区別されてもよい。つまり、風予測マップは、４次元的なマップ（水平２方向×高度×時間帯毎の風情報を格納した４次元配列）であってもよい。なお、気象予測マップデータは、気象観測サーバまたは気象予測サーバなどから取得することができる。

制御モデルＭは、どのような機械学習モデルであってもよい。例えば、少なくとも入力層と出力層を含む複数の層から構成され、当該複数の層の重み付け係数が報酬rを用いた強化学習により更新されるニューラルネットワークであるとよい。ここで、強化学習による「更新」の例として、「最適化」がある。ただし、「最適化」とは技術用語であって、必ずしも全ての観点で最適である必要はなく、特定の観点で、より適切であればよい。例えば、より多くの報酬rが得られるように、後述する行動価値、方策、または重み付け係数等の更新が行われる。

制御モデルＭの強化学習を行うための学習アルゴリズムの例として、Q-Learning、DQN（Deep Q-Network）、SARSA、A3C（Asynchronous Advantage Actor-Critic）、UNREAL（UNsupervised REinforcement and Auxiliary Learning）、Policy Gradient、TRPO（Trust Region Policy Optimization）、PPO（Proximal Policy Optimization）等があるが、特に限定されるものではない。学習アルゴリズムは、大別して、価値ベースの学習アルゴリズム（例えば、Q-Learning、DQN、SARSA等）と、方策ベースの学習アルゴリズム（例えば、Policy Gradient、TRPO、PPO等）とに分けることができるが、本実施形態にはどちらの学習アルゴリズムが適用されてもよい。

価値ベースの学習アルゴリズムは、報酬rを用いて行動価値（行動価値関数Ｑ（s,a）、またはＱ値ともいう）を更新（例えば、最適化）することにより制御モデルＭの強化学習を行う方法である。これにより、最適な方策π（つまり、報酬rを最適化する方策π）を得ることができる。価値ベースの学習アルゴリズムでは、状態sとして環境情報が制御モデルＭへ入力されると、制御モデルＭから制御情報として行動価値関数Ｑ（s,a）が複数出力（つまり、複数の候補が出力）される。こうして出力された複数の行動価値関数Ｑ（s,a）の中で相対的に値の大きい（例えば、最も大きい）行動価値関数Ｑ（s,a）に対応する制御情報に基づく行動aが選択される。

そして、選択された行動aを無人航空機Ｐがとった場合における行動aの結果の評価を表す報酬rが用いられて行動価値関数Ｑ（s,a）が更新される。この場合の報酬rは、例えば、状態sから行動aをとった場合に得られる瞬時報酬と、行動aにより遷移（ある遷移確率で遷移）された状態s+1から方策πに従って例えば最適行動をとり続けていった場合に得られる遅延報酬（例えば、割引率γが考慮された遅延報酬）との和である。ここで、瞬時報酬と遅延報酬との和は、Bellman最適方程式に基づく割引報酬和として近似されるとよい。この場合、更新前の行動価値関数Ｑ（s,a）と割引報酬和との差分（TD（Temporal Difference）誤差）が最小化されるように行動価値関数Ｑ（s,a）が更新される。

なお、ディープニューラルネットワークでモデル化されたDQNでは、当該ニューラルネットワークから、行動価値関数Ｑ（s,a）の近似関数Ｑ（s,a;ｗ）が出力される。ここで、ｗは当該ニューラルネットワークの複数の層の重み付け係数である。そして、近似関数Ｑ（s,a;ｗ）と割引報酬和との差分の２乗である誤差関数Ｌが確率的勾配法などで最小化されるように重み付け係数ｗが更新（例えば、最適化）されることで、制御モデルＭの学習が行われる。

一方、方策ベースの学習アルゴリズムは、報酬rを用いて方策π（例えば、θをパラメータとする方策関数π_θ（s））を更新（例えば、最適化）することにより制御モデルＭの強化学習を行う方法である。方策ベースの学習アルゴリズムでは、状態sとして環境情報が制御モデルＭへ入力されると、制御モデルＭから制御情報として行動aまたは行動aの確率分布が出力される。そして、出力された行動a（または確率分布に基づき選択された行動a）を無人航空機Ｐがとった場合における行動aの結果の評価を表す報酬rが用いられて方策πが更新される。この場合の報酬rは、例えば、状態sから方策πに従って例えば最適行動をとり続けていった場合に得られる期待累積報酬J（θ）である。この場合、方策πに対して期待累積報酬J（θ）が確率的勾配法などにより最大化されるように方策πが更新される。

制御部２３は、演算機能を有するプロセッサであるCPU、ROM、RAM、及び不揮発性メモリ等を備える。図７は、制御部２３における機能ブロック例を示す図である。制御部２３は、例えばROMまたは不揮発性メモリに記憶されたプログラム（プログラムコード群）に従って、図７に示すように、行動予測部２３ａ、環境情報取得部２３ｂ、制御情報取得部２３ｃ、報酬特定部２３ｄ、及び学習制御部２３ｅ等として機能する。

行動予測部２３ａは、実無人航空機Ｐ１から時系列で提供された観測データに基づいて、実無人航空機Ｐ１の周辺環境に存在する移動物体の行動を予測し、予測された行動についての行動予測情報（つまり、移動物体の行動予測情報）を得る。或いは、この行動予測情報に代えて（または加えて）、行動予測部２３ａは、シミュレータＬから時系列で提供された観測データに基づいて、仮想無人航空機Ｐ２の周辺環境に存在する移動物体の行動を予測し、予測された行動についての行動予測情報を得てもよい。ここで、行動予測情報は、例えば、移動物体の移動進路（軌道）及び移動速度を含む。移動物体の移動進路及び移動速度は、時系列で取得された観測データそれぞれに含まれる画像（フレーム）から検出された移動物体が追跡（例えば所定時間だけ追跡）されることで取得される。このとき、移動物体の種別（例えば、人、車両等）が特定されてもよい。なお、シミュレータＬから提供される観測データに含まれる情報項目は、実無人航空機Ｐ１から提供される観測データに含まれる情報項目（例えば、位置情報、センシングデータ、姿勢データ、振動データ、バッテリ情報、気象情報、時刻情報、及び速度情報）と同一であってもよいし異なってもよい。

さらに、行動予測部２３ａは、観測データに含まれる画像から移動物体を検出するとともに、当該観測データに含まれる画像から地表面の属性（例えば、歩道（歩行路）、車道（道路）、線路、畑、建物、川、海など）を推定してもよい。この場合、行動予測部２３ａは、検出された移動物体、及び推定された地表面の属性（以下、「地表属性」という）を用いて移動物体の行動を予測する。なお、地表属性の推定には、例えば、公知の画像認識技術が用いられる。人が移動する際には車両などの障害物を避けつつできるだけ歩道を移動することが考えられる。また、車両が移動する際には交通ルールなどの社会的規範により車道のみを移動することが考えられる。つまり、移動物体の行動は、その周辺環境に依存する。そのため、移動物体の周辺環境における地表属性を用いることで、より正確に移動物体の行動を予測することができる。このような地表属性が記憶部２２に記憶された地図データから特定できる場合、地表属性の推定を省略することも可能である。なお、人以外の移動物体の移動速度は、過去に推定された移動速度や車道の形状等が考慮されて予測されてもよい。このとき、車道の勾配情報が得られているのであれば、勾配情報に基づいて移動物体の移動速度が予測されてもよい。

環境情報取得部２３ｂは、実無人航空機Ｐ１から時系列で提供された観測データと、記憶部２２に記憶された気象予測マップデータとの少なくとも何れか一方のデータに基づいて、実無人航空機Ｐ１の環境Ｅに関する環境情報を時系列で取得する。ここで、環境情報が取得される時間間隔（つまり、取得間隔）は、一定間隔であってもよいし、不定間隔であってもよい。或いは、この環境情報に代えて（または加えて）、環境情報取得部２３ｂは、シミュレータＬから提供された観測データに基づいて、仮想無人航空機Ｐ２の環境Ｅに関する環境情報（つまり、仮想無人航空機Ｐ２の周辺環境における環境情報）を時系列で取得してもよい。なお、環境情報は、実無人航空機Ｐ１またはシミュレータＬから提供された観測データそのものであってもよい。この場合、環境情報取得部２３ｂは、当該環境情報として、例えば、無人航空機Ｐ（つまり、実無人航空機Ｐ１または仮想無人航空機Ｐ２）の環境Ｅにおける気象情報を取得する。さらに、環境情報取得部２３ｂは、当該環境情報として、無人航空機Ｐの位置（または、位置及び姿勢）、無人航空機Ｐのバッテリの残量（または、バッテリの消費量）、移動物体の位置、不動物体の位置、及び地形を取得してもよい。さらに、当該環境情報として、現在時刻が取得されてもよい。また、当該環境情報として、無人航空機Ｐの飛行速度と飛行加速度との少なくとも何れか一方が取得されてもよい。

また、環境情報取得部２３ｂは、上記観測データに基づいて、環境Ｅにおける地表属性を推定することで、当該地表属性を環境情報として取得してもよい。さらに、環境情報取得部２３ｂは、環境Ｅにおいて予め定められた飛行禁止領域（静的な飛行禁止領域）の位置情報（換言すると、範囲情報）を環境情報として取得してもよい。例えば、所定の属性の地表や不動物体の上空が静的な飛行禁止領域に設定されてもよいし、或いは、所定の属性の地表や不動物体から所定距離（例えば３０ｍ）以内が静的な飛行禁止領域に設定されてもよい。なお、静的な飛行禁止領域の位置情報は、例えば地図データから取得されてもよい。

或いは、環境情報は、実無人航空機Ｐ１またはシミュレータＬから時系列で提供された観測データと、記憶部２２に記憶された気象予測マップデータとの少なくとも何れか一方のデータに加えて、行動予測部２３ａから取得された行動予測情報（つまり、行動予測部２３ａにより行動が予測された移動物体の行動予測情報）であってもよい。かかる行動予測情報を環境情報として利用することで学習効率を向上することができる。この場合、環境情報取得部２３ｂは、当該環境情報として、例えば、無人航空機Ｐの環境Ｅにおける気象情報、環境Ｅにおける無人航空機Ｐの位置（または、位置及び姿勢）、無人航空機Ｐのバッテリの残量（または、バッテリの消費量）、移動物体の位置、不動物体の位置、地表属性及び地形等に加えて、移動物体の移動進路及び移動速度を取得する。なお、環境情報は、実無人航空機Ｐ１またはシミュレータＬから提供された観測データと、記憶部２２に記憶された気象予測マップデータとの少なくとも何れか一方のデータ（または、当該データ及び行動予測情報）が、制御情報取得部２３ｃや報酬特定部２３ｄにより処理され易いように変換（例えば、ファイル形式の変更、データ整形等の前処理）された情報であってもよい。

或いは、環境情報取得部２３ｂは、実無人航空機Ｐ１またはシミュレータＬから時系列で提供された観測データに基づいて、所定の情報処理を行うことにより環境情報を時系列で取得してもよい。この情報処理には、例えばSLAM（Simultaneous Localization and Mapping）処理が含まれるとよい。この場合、環境情報取得部２３ｂは、SLAM処理において、時系列で取得される観測データに基づいて、周辺環境における無人航空機Ｐの位置及び姿勢を推定すると共に、周辺環境における３次元マップ（例えば、風情報等の気象情報が反映された３次元マップ）を作成する。なお、SLAMの精度を向上させるため、観測データに含まれる画像上で移動物体にマスクをかけた（つまり、観測データから移動物体の情報が除去された）上でSLAM処理が行われるとよい。さらに、環境情報取得部２３ｂは、行動予測部２３ａから、移動物体の行動予測情報（つまり、周辺環境における移動物体の位置、移動進路及び移動速度）を取得する。

そして、環境情報取得部２３ｂは、無人航空機Ｐの位置及び姿勢と、移動物体の行動予測情報（つまり、周辺環境における移動物体の位置、移動進路及び移動速度）とを、上記作成された３次元マップへ統合する（つまり、移動物体等の情報を反映する）ことにより環境情報を時系列で取得する。このように時系列で取得される環境情報は、連続する複数の３次元マップの画像、つまり、３次元マップの動画像により構成される。このような動画像上において、少なくとも移動物体の位置は変化する。なお、環境情報取得部２３ｂは、上記情報処理において、観測データに基づいて、周辺環境における地表属性を推定してもよい。この場合、無人航空機Ｐの位置及び姿勢と、移動物体の行動予測情報とに加えて地表属性が上記作成された３次元マップへ統合されることにより環境情報が取得される。さらに、無人航空機Ｐの位置及び姿勢に加えて、無人航空機Ｐの飛行速度と飛行加速度との少なくとも何れか一方が上記作成された３次元マップへ統合されることにより環境情報が取得されてもよい。

制御情報取得部２３ｃは、環境情報取得部２３ｂにより取得された環境情報を状態sとして制御モデルＭに入力することで、制御モデルＭから出力された制御情報を取得する。ここで、環境情報は、時間経過に伴い連続的に複数回、制御モデルＭへ入力（つまり、時系列で入力）される。環境情報が入力される時間間隔（つまり、入力間隔）は、一定間隔であってもよいし、不定間隔であってもよい。制御モデルＭへの１回の入力において、例えば、少なくとも、無人航空機Ｐの位置（変数x1）、及び環境Ｅにおける気象情報（変数x2）が環境情報として入力される。これらに加えて、無人航空機Ｐの姿勢（変数x3）、無人航空機Ｐの筐体の振動（変数x4）、無人航空機Ｐのバッテリの残量（または、バッテリの消費量）（変数x5）、障害物（移動物体と不動物体の少なくとも何れか一方）の位置（変数x6）、地表属性（変数x7）、地形（変数x8）、移動物体の移動進路（変数x9）、及び移動速度（変数x10）のうち少なくとも何れか１つの情報が環境情報として入力されるように構成すれば、学習精度を高めることができる。

また、環境情報が移動物体の位置等の情報が統合された３次元マップである場合、制御モデルＭへの１回の入力において、例えば、当該３次元マップの画像を構成する各ボクセルの値が入力される。なお、環境情報として入力される３次元マップは、環境Ｅにおける気象情報、移動物体の行動予測情報、及び地表属性が統合された３次元マップであるように構成すれば、学習精度を高めることができる。ただし、制御モデルＭへの入力は、３次元マップではなく、例えば人、車両、建物、及び道路等を再現したＣＧ（Computer Graphics）により構成されたシミュレーション画像であってもよい。学習精度を高めるためには、十分なバリエーション（車種、道路や建物の形状、色、人の頭の種類等）のシミュレーションと、それに基づく強化学習が行われることが望ましい。

そして、制御情報取得部２３ｃは、制御モデルＭから取得した制御情報を、実無人航空機Ｐ１またはシミュレータＬへ通信部２１を介して時系列で提供する。ここで、制御情報は、制御モデルＭから出力される度に実無人航空機Ｐ１またはシミュレータＬへ提供されてもよい。或いは、制御モデルＭから出力される制御情報が、その出力間隔よりも長い間隔で実無人航空機Ｐ１またはシミュレータＬへ提供（つまり、出力される制御情報を間引いて提供）されてもよい。

報酬特定部２３ｄは、無人航空機Ｐが制御情報に基づく行動aをとった場合における当該行動aの結果の評価を表す報酬rを特定する。報酬rの特定には、例えば予め用意された報酬テーブルまたは報酬算出式が用いられるとよい。報酬テーブルは、複数の状態のそれぞれを表す状態情報に対して報酬が対応付けられたテーブルである。この報酬テーブルによれば、無人航空機Ｐが状態sで行動aをとった場合における遷移後の状態s+1を表す状態情報に対応付けられた報酬rが特定される。ただし、報酬テーブルは、ある状態sで行動aをとったときの当該状態sと当該行動aとの複数の組のそれぞれに対して報酬が対応付けられたテーブルであってもよい。一方、報酬算出式は、状態を表す状態情報を代入することで報酬を算出する式である。この報酬算出式によれば、無人航空機Ｐが状態sで行動aをとった場合における遷移後の状態s+1を表す状態情報が代入されることで報酬rが特定される。なお、上記状態情報は、例えば、制御モデルＭに入力された環境情報と、当該環境情報が入力されることで制御モデルＭから出力された制御情報とに基づいて特定される。

ここで、状態を表す状態情報の例として、(i)無人航空機Ｐの姿勢、(ii)無人航空機Ｐの飛行安定性、(iii)無人航空機Ｐの高度、(iv)無人航空機Ｐへの累積降水量と無人航空機Ｐの防水性能との関係、(v)無人航空機Ｐと障害物との位置関係、(vi)無人航空機Ｐと飛行禁止領域との位置関係、(vii)無人航空機Ｐのバッテリの残量、(viii)無人航空機Ｐの周辺環境における地表属性、(ix)無人航空機Ｐが所定地点に到達したか否かの状態（以下、「到達/未到達状態」という）、(x)無人航空機Ｐの移動状態、などが挙げられる。報酬特定部２３ｄは、このような状態情報に応じた報酬r（つまり、状態情報に応じて異なる報酬r）を特定する。以下に、それぞれの状態情報に応じた報酬rの特定例について説明する。

(i)無人航空機Ｐの姿勢に応じた報酬r
この場合、報酬特定部２３ｄは、制御モデルＭに入力された環境情報と、当該環境情報が入力されることで制御モデルＭから出力された制御情報とに基づいて、無人航空機Ｐが当該制御情報に基づく行動aをとった場合における無人航空機Ｐの姿勢（状態情報の一例）を特定する。つまり、行動aにより状態sから遷移した後の無人航空機Ｐの姿勢が特定される。無人航空機Ｐの姿勢は、例えば、無人航空機Ｐが地面と水平の状態から何度傾いたかを示す姿勢角度で特定することができる。かかる姿勢角度は、例えばロール角（左右の傾き）、またはピッチ角（前後の傾き）である。

そして、報酬特定部２３ｄは、例えば報酬テーブルまたは報酬算出式を用いて、無人航空機Ｐの姿勢から報酬rを特定する。つまり、報酬特定部２３ｄは、無人航空機Ｐが行動aをとった場合における無人航空機Ｐの姿勢に応じて異なる報酬rを特定する。例えば、無人航空機Ｐの姿勢角度が大きい（つまり、傾きが大きい）ほど、小さい報酬rが特定（換言すると、姿勢角度が小さいほど、大きい報酬rが特定）される。かかる報酬rにより、特に気象の影響があっても無人航空機Ｐの姿勢を安定に保つ飛行を当該無人航空機Ｐに行わせる制御情報を出力するように、制御モデルＭの学習を行うことができる。

また、例えば、無人航空機Ｐが第１の閾値（例えば、30°）以上傾くと、転覆リスクが高まるため、負の報酬r（例えば、r=-2）が特定され、さらに、無人航空機Ｐが第２の閾値（例えば、45°）以上傾くと、転覆したと考えられるため、より小さい負の報酬r（例えば、r=-7）が特定されてもよい。この場合において、第１の閾値（例えば、30°）から第２の閾値（例えば、45°）の間は、姿勢角度に応じて報酬rが単調減少（報酬rの絶対値は単調増加）するように（例えば、-3,-4,-5,-6のように）設計されてもよい。なお、姿勢角度の閾値については、無人航空機Ｐの種類や性能に応じて適宜設計されてよい。例えば、姿勢角度10°程度を維持して移動する機体もあれば、垂直に近い姿勢角度で飛行する機体もある。

(ii)無人航空機Ｐの飛行安定性に応じた報酬r
この場合、報酬特定部２３ｄは、制御モデルＭに入力された環境情報と、当該環境情報が入力されることで制御モデルＭから出力された制御情報とに基づいて、無人航空機Ｐが当該制御情報に基づく行動aをとった場合における無人航空機Ｐの飛行安定性（状態情報の一例）を特定する。つまり、行動aにより状態sから遷移した後の無人航空機Ｐの飛行安定性が特定される。無人航空機Ｐの飛行安定性は、無人航空機Ｐの振動（筐体の振動）に基づいて評価される。例えば無人航空機Ｐの振動が大きいほど飛行安定性は低くなる。

そして、報酬特定部２３ｄは、例えば報酬テーブルまたは報酬算出式を用いて、無人航空機Ｐの飛行安定性から報酬rを特定する。つまり、報酬特定部２３ｄは、無人航空機Ｐが行動aをとった場合における無人航空機Ｐの飛行安定性に応じて異なる報酬rを特定する。例えば、無人航空機Ｐの飛行安定性が低い（つまり、筐体の振動が大きい）ほど、小さい報酬r（例えば、負の報酬r）が特定（換言すると、飛行安定性が高いほど、大きい報酬rが特定）される。かかる報酬rにより、特に気象の影響があっても無人航空機Ｐの飛行安定性が高い飛行を当該無人航空機Ｐに行わせる制御情報を出力するように、制御モデルＭの学習を行うことができる。なお、無人航空機Ｐの振動が大きいと、飛行の安定だけでなく、無人航空機Ｐ内の各種機器への悪影響も考えられ、また、無人航空機Ｐが貨物を運んでいる場合には貨物への悪影響（衝撃）も考えられる。このため、無人航空機Ｐの飛行安定性が閾値より低い場合、負の報酬rが特定されるとよい。

(iii)無人航空機Ｐの高度に応じた報酬r
この場合、報酬特定部２３ｄは、制御モデルＭに入力された環境情報と、当該環境情報が入力されることで制御モデルＭから出力された制御情報とに基づいて、無人航空機Ｐが当該制御情報に基づく行動aをとった場合における無人航空機Ｐの高度（状態情報の一例）を特定する。つまり、行動aにより状態sから遷移した後の無人航空機Ｐの高度が特定される。なお、無人航空機Ｐの高度は、空中における無人航空機Ｐの位置から地面（つまり、無人航空機Ｐから垂直方向における地面）までの距離であるとよい。また、地面に障害物が存在する場合、無人航空機Ｐの位置から障害物までの距離であるとよい。これらの距離（つまり、３次元空間における距離）は、無人航空機Ｐが備える光学センサ１３ｂによる非接触センシングにより得られたセンシングデータから得られる。ただし、無人航空機Ｐの高度は、無人航空機Ｐが備える気圧センサにより検出された気圧に応じた高度（つまり、標高）であってもよい。

そして、報酬特定部２３ｄは、例えば報酬テーブルまたは報酬算出式を用いて、無人航空機Ｐの高度から報酬rを特定する。つまり、報酬特定部２３ｄは、無人航空機Ｐが行動aをとった場合における無人航空機Ｐの高度に応じて異なる報酬rを特定する。例えば、無人航空機Ｐの高度が低いほど、小さい報酬r（例えば、負の報酬r）が特定（換言すると、高度が高いほど、大きい報酬rが特定）される。これは、高度が低すぎると障害物と接触するリスクが高くなるためである。或いは、無人航空機Ｐの高度が高いほど、小さい報酬r（例えば、負の報酬r）が特定されてもよい。これは、高度が高すぎると有人航空機の空域と重なるリスクが高くなるためである。かかる報酬rにより、特に気象の影響があっても無人航空機Ｐの安全な高度を保つ飛行を当該航空機に行わせる制御情報を出力するように、制御モデルＭの学習を行うことができる。

また、報酬特定部２３ｄは、無人航空機Ｐが行動aをとった場合における無人航空機Ｐの高度が特定の高度範囲（例えば、地上から30m〜150m）内に含まれるか否かに応じて異なる報酬rを特定してもよい。例えば、無人航空機Ｐの高度が特定の高度範囲内に含まれない場合、小さい報酬r（例えば、負の報酬r=-2））が特定され、当該高度範囲内に含まれる場合、大きい報酬rが特定される。これにより、特に気象の影響があっても無人航空機Ｐの高度を特定の高度範囲内に保つ飛行を当該無人航空機Ｐに行わせる制御情報を出力するように、制御モデルＭの学習を行うことができる。なお、特定の高度範囲は、例えば法令等で定められた範囲である。

また、特定の高度範囲は、無人航空機Ｐによる上空からの非接触センシングにより得られたセンシングデータに基づいて動的に変化してもよい。例えば、センシングデータに基づいて無人航空機Ｐの直下及びその周辺に障害物が特定されない場合、当該高度範囲は、例えば地上から0m〜150mに設定される。一方、無人航空機Ｐの直下及びその周辺に障害物が特定された場合、当該高度範囲は、例えば地上から30m〜150mに設定される。ここで、当該高度範囲の下限値は、障害物の高さに応じて変更（つまり、障害物が高いほど、下限値は大きくなる）されてもよい。

(iv)無人航空機Ｐへの累積降水量と無人航空機Ｐの防水性能との関係に応じた報酬r
この場合、報酬特定部２３ｄは、制御モデルＭに入力された環境情報と、当該環境情報が入力されることで制御モデルＭから出力された制御情報とに基づいて、無人航空機Ｐが当該制御情報に基づく行動aをとった場合における無人航空機Ｐへの累積降水量と無人航空機Ｐの防水性能に応じた閾値とを特定する。つまり、行動aにより状態sから遷移した後の無人航空機Ｐへの累積降水量と無人航空機Ｐの防水性能に応じた閾値が特定される。ここで、無人航空機Ｐの防水性能に応じた閾値は、例えば、無人航空機Ｐの型式や仕様などによって特定される。

続いて、報酬特定部２３ｄは、上記特定された、無人航空機Ｐへの累積降水量と無人航空機Ｐの防水性能に応じた閾値とに基づいて、累積降水量と無人航空機Ｐの防水性能との関係（状態情報の一例）を特定する。ここで、累積降水量と無人航空機Ｐの防水性能との関係は、例えば、無人航空機Ｐへの累積降水量と、無人航空機Ｐの防水性能に応じた閾値との大小関係である。

そして、報酬特定部２３ｄは、例えば報酬テーブルまたは報酬算出式を用いて、無人航空機Ｐへの累積降水量と、無人航空機Ｐの防水性能に応じた閾値との関係から報酬rを特定する。つまり、報酬特定部２３ｄは、無人航空機Ｐが行動aをとった場合における無人航空機Ｐへの累積降水量と、無人航空機Ｐの防水性能に応じた閾値との関係に応じて異なる報酬rを特定する。例えば、無人航空機Ｐへの累積降水量が、無人航空機Ｐの防水性能に応じた閾値を超える場合、小さい報酬r（例えば、負の報酬r=-5）が特定される。かかる報酬rにより、特に降雨の影響があっても無人航空機Ｐの防水性能に支障をきたさない飛行を当該無人航空機Ｐに行わせる制御情報を出力するように、制御モデルＭの学習を行うことができる。なお、例えば、無人航空機Ｐへの累積降水量が、無人航空機Ｐの防水性能に応じた閾値を超える場合において、当該累積降水量と当該閾値との差が大きいほど、より小さい報酬rが特定されてもよい。

(v)無人航空機Ｐと障害物との位置関係に応じた報酬r
この場合、報酬特定部２３ｄは、制御モデルＭに入力された環境情報と、当該環境情報が入力されることで制御モデルＭから出力された制御情報とに基づいて、無人航空機Ｐが当該制御情報に基づく行動aをとった場合における無人航空機Ｐの位置と障害物（移動物体と不動物体の少なくとも何れか一方）の位置とを特定する。つまり、行動aにより状態sから遷移した後の無人航空機Ｐの位置と障害物の位置が特定される。

続いて、報酬特定部２３ｄは、上記特定された、無人航空機Ｐの位置と障害物の位置とに基づいて、無人航空機Ｐと障害物との位置関係（状態情報の一例）を特定する。ここで、無人航空機Ｐと障害物との位置関係は、例えば、無人航空機Ｐと障害物との間の距離と、無人航空機Ｐを視点とする障害物の方向との少なくとも何れか一方を示す情報である。なお、無人航空機Ｐと障害物との間の距離は、高度（つまり、高さ方向）を考慮した３次元空間における距離であってもよいし、高度を無視した２次元的な距離であってもよい。同様に、無人航空機Ｐを視点とする障害物の方向は、高度を考慮した３次元空間における方向であってもよいし、高度を無視した２次元的な方向であってもよい。

そして、報酬特定部２３ｄは、例えば報酬テーブルまたは報酬算出式を用いて、無人航空機Ｐと障害物との位置関係から報酬rを特定する。つまり、報酬特定部２３ｄは、無人航空機Ｐが行動aをとった場合における無人航空機Ｐと障害物との位置関係に応じて異なる報酬rを特定する。例えば、無人航空機Ｐと障害物との間の距離が短いほど、小さい報酬rが特定（換言すると、距離が長いほど、大きい報酬rが特定）される。かかる報酬rにより、特に気象の影響による（例えば、無人航空機Ｐが風に流されることによる）障害物への接近または接触を避けるような飛行を無人航空機Ｐに行わせる制御情報を出力するように、制御モデルＭの学習を行うことができる。なお、無人航空機Ｐと障害物との間の距離が閾値以下である場合（つまり、無人航空機Ｐから所定距離以内に障害物が存在する場合）、負の報酬rが特定されてもよい。また、無人航空機Ｐが障害物に接触する場合、最も小さい負の報酬rが特定されてもよい。

或いは、無人航空機Ｐを視点とする障害物の方向と無人航空機Ｐの進行方向（例えば目的地への方向）との角度差が小さいほど、小さい報酬rが特定（換言すると、角度差が大きいほど、大きい報酬rが特定）される。この場合、双方の方向の角度差に加えて、無人航空機Ｐと障害物との間の距離に応じて異なる報酬rが特定されてもよい。また、無人航空機Ｐを視点とする障害物の方向と無人航空機Ｐの進行方向との角度差が閾値以下である場合、負の報酬rが特定されてもよい。なお、無人航空機Ｐと障害物との位置関係は、例えば、障害物の上空に無人航空機Ｐが存在するか否かを示す情報であってもよい。この場合、例えば、障害物の上空に無人航空機Ｐが存在する場合に負の報酬rが特定されてもよい。

(vi)無人航空機Ｐと飛行禁止領域との位置関係に応じた報酬r
この場合、報酬特定部２３ｄは、制御モデルＭに入力された環境情報と、当該環境情報が入力されることで制御モデルＭから出力された制御情報とに基づいて、無人航空機Ｐが当該制御情報に基づく行動aをとった場合における無人航空機Ｐの位置と飛行禁止領域の範囲とを特定する。つまり、行動aにより状態sから遷移した後の無人航空機Ｐの位置と飛行禁止領域の範囲が特定される。ここで、飛行禁止領域の例として、予め定められた静的な飛行禁止領域と、移動物体の移動に応じて設定される動的な飛行禁止領域とがある。後者の場合、移動物体の上空が動的な飛行禁止領域に設定されてもよいし、或いは、移動物体から所定距離（例えば30m）以内が動的な飛行禁止領域に設定されてもよい。

続いて、報酬特定部２３ｄは、上記特定された、無人航空機Ｐの位置と飛行禁止領域の範囲とに基づいて、無人航空機Ｐと飛行禁止領域との位置関係（状態情報の一例）を特定する。ここで、無人航空機Ｐと飛行禁止領域との位置関係は、例えば、無人航空機Ｐと飛行禁止領域との間の距離と、無人航空機Ｐを視点とする飛行禁止領域の方向との少なくとも何れか一方を示す情報である。なお、無人航空機Ｐと飛行禁止領域との間の距離は、高度を考慮した３次元空間における距離であってもよいし、高度を無視した２次元的な距離であってもよい。同様に、無人航空機Ｐを視点とする飛行禁止領域の方向は、高度を考慮した３次元空間における方向であってもよいし、高度を無視した２次元的な方向であってもよい。

そして、報酬特定部２３ｄは、例えば報酬テーブルまたは報酬算出式を用いて、無人航空機Ｐと飛行禁止領域との位置関係から報酬rを特定する。つまり、報酬特定部２３ｄは、無人航空機Ｐが行動aをとった場合における無人航空機Ｐと飛行禁止領域との位置関係に応じて異なる報酬rを特定する。例えば、無人航空機Ｐと飛行禁止領域との間の距離が短いほど、小さい報酬rが特定される。かかる報酬rにより、特に気象の影響、例えば、無人航空機Ｐが風に流されることによる飛行禁止領域への接近または侵入を避けるような飛行を無人航空機Ｐに行わせる制御情報を出力するように、制御モデルＭの学習を行うことができる。なお、無人航空機Ｐと飛行禁止領域との間の距離が閾値以下である場合、負の報酬rが特定されてもよい。また、無人航空機Ｐが飛行禁止領域に侵入する場合、負の報酬rが特定されてもよい。

或いは、無人航空機Ｐを視点とする飛行禁止領域の方向と無人航空機Ｐの進行方向（例えば目的地への方向）との角度差が小さいほど、小さい報酬rが特定される。この場合、双方の方向の角度差に加えて、無人航空機Ｐと飛行禁止領域との間の距離に応じて異なる報酬rが特定されてもよい。また、無人航空機Ｐを視点とする飛行禁止領域の方向と無人航空機Ｐの進行方向との角度差が閾値以下である場合、負の報酬rが特定されてもよい。なお、無人航空機Ｐと飛行禁止領域との位置関係は、例えば、無人航空機Ｐが飛行禁止領域に滞在するか否かを示す情報であってもよい。この場合、例えば、無人航空機Ｐが飛行禁止領域に滞在する場合に負の報酬rが特定されてもよい。

また、報酬特定部２３ｄは、無人航空機Ｐが動的な飛行禁止領域に滞在する場合の報酬rを、無人航空機Ｐが静的な飛行禁止領域に滞在する場合の報酬rと同一になるように特定してもよいし、異なるように特定してもよい。後者の場合、例えば、無人航空機Ｐが動的な飛行禁止領域に滞在する場合の報酬rは、無人航空機Ｐが静的な飛行禁止領域に滞在する場合の報酬rよりも小さくなるように特定されるとよい。

(vii)無人航空機Ｐのバッテリの残量に応じた報酬r
この場合、報酬特定部２３ｄは、制御モデルＭに入力された環境情報と、当該環境情報が入力されることで制御モデルＭから出力された制御情報とに基づいて、無人航空機Ｐが当該制御情報に基づく行動aをとった場合における無人航空機Ｐのバッテリの残量（状態情報の一例）を特定する。つまり、行動aにより状態sから遷移した後の無人航空機Ｐのバッテリの残量が特定される。なお、無人航空機Ｐのバッテリの残量の代わりに、バッテリの消費量が特定されてもよい。

そして、報酬特定部２３ｄは、例えば報酬テーブルまたは報酬算出式を用いて、バッテリの残量（または、バッテリの消費量）から報酬rを特定する。つまり、報酬特定部２３ｄは、無人航空機Ｐが行動aをとった場合におけるバッテリの残量（または、バッテリの消費量）に応じて異なる報酬rを特定する。例えば、バッテリの残量が少ないほど（または、バッテリの消費量が多いほど）、小さい報酬rが特定される。かかる報酬rにより、特に気象の影響があってもバッテリの残量が多くなるような（または、バッテリの消費量が少なくなるような）飛行を無人航空機Ｐに行わせる制御情報を出力するように、制御モデルＭの学習を行うことができる。なお、バッテリの残量が閾値以下（または、バッテリの消費量が閾値以上）である場合、負の報酬rが特定されてもよい。

(viii)無人航空機Ｐの環境Ｅにおける地表属性に応じた報酬r
この場合、報酬特定部２３ｄは、制御モデルＭに入力された環境情報と、当該環境情報が入力されることで制御モデルＭから出力された制御情報とに基づいて、無人航空機Ｐが当該制御情報に基づく行動aをとった場合における無人航空機Ｐの環境Ｅにおける地表属性（状態情報の一例）を特定する。つまり、行動aにより状態sから遷移した後の無人航空機Ｐの環境Ｅにおける地表属性が特定される。

そして、報酬特定部２３ｄは、例えば報酬テーブルまたは報酬算出式を用いて、無人航空機Ｐの環境Ｅにおける地表属性から報酬rを特定する。つまり、報酬特定部２３ｄは、無人航空機Ｐが行動aをとった場合における無人航空機Ｐの環境Ｅにおける地表属性に応じて異なる報酬rを特定する。ここで、無人航空機Ｐの環境Ｅにおける地表属性とは、無人航空機Ｐの水平方向の位置を含む特定領域における地表属性であるとよい。

例えば、道路や線路等の地表属性は、移動物体が通行する蓋然性が他の地表属性よりも高いため、道路や線路の上空または道路や線路から所定距離以内の特定領域上の飛行は推奨されない。しかし、目的地によっては当該特定領域上を飛行することが避けられない場合もある。そこで、当該特定領域が飛行非推奨領域として動的に設定されるとよい。そして、当該飛行非推奨領域に無人航空機Ｐが滞在する場合に負の報酬rが特定されるとよい。ただし、飛行非推奨領域に無人航空機Ｐが滞在する場合の報酬r（例えば、r=-1）は、飛行禁止領域に無人航空機Ｐが滞在する場合の報酬r（例えば、r=-5）よりも大きいことが望ましい。かかる報酬rにより、特に気象の影響があっても地表属性に応じた飛行（例えば、飛行非推奨領域をできるだけ減らすような飛行）を無人航空機Ｐに行わせる制御情報を出力するように、制御モデルＭの学習を行うことができる。

(ix)無人航空機Ｐの到達/未到達状態に応じた報酬r
この場合、報酬特定部２３ｄは、制御モデルＭに入力された環境情報と、当該環境情報が入力されることで制御モデルＭから出力された制御情報とに基づいて、無人航空機Ｐが当該制御情報に基づく行動aをとった場合における無人航空機Ｐが所定地点に到達したか否かの到達/未到達状態（状態情報の一例）を特定する。つまり、行動aにより状態sから遷移した後の無人航空機Ｐの到達/未到達状態が特定される。なお、所定地点の位置は、例えば、上述した飛行計画から取得することができる。

そして、報酬特定部２３ｄは、例えば報酬テーブルまたは報酬算出式を用いて、無人航空機Ｐの到達/未到達状態から報酬rを特定する。つまり、報酬特定部２３ｄは、無人航空機Ｐが行動aをとった場合において無人航空機Ｐが所定地点に到達したか否かに応じて異なる報酬rを特定する。例えば、無人航空機Ｐが所定地点に到達した場合に正の報酬r（例えば、r=100）が特定される。一方、無人航空機Ｐが所定地点に到達していない場合にゼロの報酬r（例えば、r=0）が特定されるとよい。これにより、所定地点に適切に到達するような飛行を無人航空機Ｐに行わせる制御情報を出力するように、制御モデルＭの学習を行うことができる。

さらに、報酬特定部２３ｄは、無人航空機Ｐが行動aをとった場合において無人航空機Ｐが所定地点に到達した場合における所要飛行時間とバッテリの消費量との少なくとも何れか一方に応じて異なる報酬rを特定してもよい。例えば、所要飛行時間とバッテリの消費量との双方に応じた報酬rは、下記（１）式により特定することができる。

r＝X-f(t)-g(b)・・・（１）

ここで、Xは、所定地点（例えば、目的地）へ到達（到着）した場合の基準報酬であり、予め定められた正の値（例えば、＋100点）である。f(t)は、所要飛行時間tの関数である。所要飛行時間tは、無人航空機Ｐの飛行開始から所定地点に到達するまでに要する時間であり、環境情報に含まれる現在時刻に基づいて算出することができる。f(t)は、例えば、所要飛行時間tが長いほど、大きい値を出力するような単調増加関数である。これにより、所要飛行時間tが短いほど、大きい報酬rが特定される。かかる報酬rにより、特に気象の影響があっても所要飛行時間tをできるだけ短くするような飛行を無人航空機Ｐに行わせる制御情報を出力するように、制御モデルＭの学習を行うことができる。

或いは、f(t)は、所要飛行時間tと目標所要時間（予定飛行時間）との差分が大きいほど、大きい値を出力するような関数であってもよい。これにより、目標所要時間通りに飛行した方が、より大きい報酬rが特定される。かかる報酬rにより、特に気象の影響があっても所要飛行時間tをできるだけ目標所要時間に近づけるような飛行を無人航空機Ｐに行わせる制御情報を出力するように、制御モデルＭの学習を行うことができる。なお、目標所要時間は、例えば、上述した飛行計画から取得することができる。

また、g(b)は、バッテリの消費量bの関数である。g(b)は、例えば、バッテリの消費量bが大きいほど、大きい値を出力するような単調増加関数である。これにより、バッテリの消費量bが少ないほど、大きい報酬rが特定される。かかる報酬rにより、特に気象の影響があってもバッテリの消費量bをできるだけ減らすような飛行を無人航空機Ｐに行わせる制御情報を出力するように、制御モデルＭの学習を行うことができる。なお、g(b)は、バッテリの消費量bが所定の閾値以下である間は所定の値を出力し、バッテリの消費量bが所定の閾値を越えると、バッテリの消費量bに応じて単調増加（狭義の単調増加）する関数であってもよい。

或いは、g(b)は、バッテリの消費量bが所定の閾値以下である間は第１の値を出力し、バッテリの消費量bが所定の閾値を超えると第１の値より大きな第２の値を出力するような関数であってもよい。例えば、所定の閾値が無人航空機Ｐに搭載されたバッテリの最大容量と同一に設定され、第２の値が非常に大きな値（例えば、基準報酬X以上の値または無限大等）に設定される。かかる報酬rにより、特に気象の影響があってもバッテリの消費量bがバッテリの最大容量を超えないような飛行を無人航空機Ｐに行わせる制御情報を出力するように、制御モデルＭの学習を行うことができる。

(x)無人航空機Ｐの移動状態に応じた報酬r
この場合、報酬特定部２３ｄは、制御モデルＭに入力された環境情報と、当該環境情報が入力されることで制御モデルＭから出力された制御情報とに基づいて、無人航空機Ｐが当該制御情報に基づく行動aをとった場合における無人航空機Ｐの移動状態（状態情報の一例）を特定する。つまり、行動aにより状態sから遷移した後の無人航空機Ｐの移動状態が特定される。ここで、無人航空機Ｐの移動状態の例として、飛行状態（移動中の状態）、及び一時停止状態等が挙げられる。飛行状態は、さらに、等速移動中、加速中、または減速中の状態に区別することができる。これらの飛行状態は、環境情報に含まれる飛行速度または飛行加速度に基づいて特定することができる。また、一時停止状態は、さらに、ホバリング状態、または着陸状態（着陸中の状態）に区別することができる。着陸状態は、環境情報に含まれる高度に基づいて特定することができる。

そして、報酬特定部２３ｄは、例えば報酬テーブルまたは報酬算出式を用いて、無人航空機Ｐの移動状態から報酬rを特定する。つまり、報酬特定部２３ｄは、無人航空機Ｐが行動aをとった場合における無人航空機Ｐの移動状態に応じて異なる報酬rを特定する。例えば、無人航空機Ｐがホバリング状態の場合に負の報酬r（例えば、r=-2）が特定されるとよい。これは、無人航空機Ｐがホバリングすると、所要飛行時間やバッテリの消費量の観点で効率的でないからであり、特に気象の影響を受けると非効率的となる。かかる報酬rにより、特に気象の影響があっても所要飛行時間やバッテリの消費量の観点で、より効率的な飛行を無人航空機Ｐに行わせる制御情報を出力するように、制御モデルＭの学習を行うことができる。ただし、無人航空機Ｐが飛行禁止領域に滞在しておらず、かつ、ホバリング状態の場合に特定される報酬rは、無人航空機Ｐが飛行禁止領域に滞在する場合の報酬r（例えば、r=-5）よりも大きいことが望ましい。

なお、上述した(i)〜(x)の報酬rは、全てが用いられなくてもよい。例えば、(v)や(viii)などの報酬rが用いられなくても、(i)、(ii)、(ii)、(vii)などの報酬rが用いられれば、相当程度同様の効果を得ることは可能と考えられる。しかし、(v)や(viii)の報酬rを用いることで、学習効率が上がり、学習回数を減らす効果が期待できる。また、(i)〜(x)の報酬rのうち複数が用いられる場合、最終的な報酬は(i)〜(x)ごとに計算された報酬ｒの合計値であってもよいし、いずれか最も大きな報酬ｒ（または最も小さな報酬r）であってもよい。

学習制御部２３ｅは、報酬特定部２３ｄにより特定された報酬rを用いて制御モデルＭの強化学習を制御する。すなわち、学習制御部２３ｅは、報酬特定部２３ｄにより特定された報酬rに基づいて、より大きな報酬rが得られる制御情報を出力するように、制御モデルＭを更新する。このような更新が繰り返されることで、学習済の制御モデルＭが得られる。例えば、価値ベースの学習アルゴリズムを利用した強化学習の場合、報酬rに基づいて行動価値関数Ｑ（s,a）が更新されていきTD誤差が最小化（例えば、０に収束）されることで、学習済の制御モデルＭが得られる。また、制御モデルＭがニューラルネットワークにより構成される場合、当該ニューラルネットワークの複数の層の重み付け係数ｗが更新されていき誤差関数Ｌが最小化されることで、学習済の制御モデルＭが得られる。一方、方策ベースの学習アルゴリズムを利用した強化学習の場合、報酬rに基づいてように方策πが更新されていき期待累積報酬J（θ）が最大化されることで、学習済の制御モデルＭが得られる。なお、学習制御部２３ｅにより制御される強化学習については、周知の強化学習手法を適用することが可能であり、強化学習手法に応じた方法で重み付け係数の更新（例えば、最適化）が行われてもよい。

上述したように、学習システムＳＹ１は、実無人航空機Ｐ１とシミュレータＬのうち少なくとも一方を含めばよい。学習システムＳＹ１に実無人航空機Ｐ１のみが含まれる場合、学習装置Ｄは、実無人航空機Ｐ１から提供された観測データに基づいて強化学習を行いながら、実無人航空機Ｐ１に制御情報を提供する。実無人航空機Ｐ１を用いた強化学習によれば、より実運用に近い環境（実空間）で学習を行うことが可能であり、より高効率な制御が可能な制御モデルＭを得られることが期待される。一方、学習システムＳＹ１にシミュレータＬのみが含まれる場合、学習装置Ｄは、シミュレータＬから提供された観測データに基づいて強化学習を行いながら、シミュレータＬに制御情報を提供する。シミュレータＬを用いた強化学習によれば、実無人航空機Ｐ１を用いる必要がないため、より安全かつ低コストに様々なパターンの学習を行うことができる。そのため、実無人航空機Ｐ１及びシミュレータＬの両方を利用可能な場合、例えば先にシミュレータＬを用いてある程度強化学習させた制御モデルＭを、さらに実無人航空機Ｐ１を用いて強化学習させてもよい。このような順番で学習を行うことで、安全性や学習効率と、高効率な飛行制御とを両立しうる。

［５．学習装置Ｄの動作］
次に、図８を参照して、学習装置Ｄの動作について説明する。図８（Ａ）は、実無人航空機Ｐ１の処理の一例を示すフローチャートである。図８（Ｂ）は、学習装置Ｄの処理の一例を示すフローチャートである。なお、図８（Ａ）に示す処理は、シミュレータＬにも適用することができる。

図８（Ａ）に示す処理は、実無人航空機Ｐ１が出発地から出発する際に開始される。図８（Ａ）に示す処理が開始されると、制御部１４は、センサ部１４から、位置情報、センシングデータ、姿勢データ、振動データ、及びバッテリ情報を取得する（ステップＳ１）。次いで、制御部１４は、ステップＳ１で取得された位置情報、センシングデータ、姿勢データ、振動データ、及びバッテリ情報の全部または一部を含む観測データを、通信部１１を介して学習装置Ｄへ送信する（ステップＳ２）。これに応じて学習装置Ｄから送信された制御情報が通信部１１を介して受信されると（ステップＳ３）、制御部１４は、当該制御情報に基づいて実無人航空機Ｐ１の飛行制御を行う（ステップＳ４）。

次いで、制御部１４は、実無人航空機Ｐ１が目的地に到着したか否かを判定する（ステップＳ５）。実無人航空機Ｐ１が目的地に到着していないと判定された場合（ステップＳ５：ＮＯ）、処理はステップＳ１に戻る。一方、実無人航空機Ｐ１が目的地に到着したと判定された場合（ステップＳ５：ＹＥＳ）、図８（Ａ）に示す処理は終了する。

一方、学習装置Ｄは、実無人航空機Ｐ１からの観測データを受信すると、図８（Ｂ）に示す処理を開始する。図８（Ｂ）に示す処理が開始されると、制御部２３は、環境情報取得部２３ｂにより環境情報取得処理を実行する（ステップＳ１１）。環境情報取得処理は、受信された観測データに基づいて実無人航空機Ｐ１の環境Ｅに関する環境情報を取得するための処理である。

環境情報取得処理において、環境情報の取得のために今回受信された観測データのみが用いられてもよい。或いは、環境情報の取得のために今回受信された観測データとともに前回以前に受信された１以上の観測データが用いられてもよい。環境情報の取得のために必要な数の観測データが受信されていない場合、図８（Ｂ）に示す処理が終了してもよい。また、環境情報取得処理において、上述したように、行動予測部２３ａにより実無人航空機Ｐ１の環境Ｅに存在する移動物体の行動が予測されてもよい。この場合、今回受信された観測データを含む１以上の観測データとともに、移動物体の行動についての行動予測情報が、環境情報として取得される。

或いは、環境情報取得処理において、今回受信された観測データとともに前回以前に受信された１以上の観測データが用いられてSLAM処理が実行されることで環境Ｅの３次元マップが環境情報として作成されてもよい。環境情報として作成される３次元マップには、上述したように、実無人航空機Ｐ１の位置及び姿勢と、環境Ｅにおける移動物体の位置、移動進路及び移動速度とが統合されるとよい。さらに、環境情報として作成される３次元マップには、環境Ｅにおける地表属性が統合されるとよい。

次いで、制御部２３は、記憶部２２から制御モデルＭを読み出し、読み出した制御モデルＭに、ステップＳ１１で取得された環境情報を状態sとして入力し（ステップＳ１２）、制御モデルＭを構成する関数に基づく演算を行う（ステップＳ１３）。次いで、制御部２３は、制御モデルＭから出力された制御情報を取得する（ステップＳ１４）。次いで、制御部２３は、ステップＳ１４で取得された制御情報を、通信部２１を介して実無人航空機Ｐ１へ送信する（ステップＳ１５）。こうして送信された制御情報は、図８（Ａ）に示すステップＳ３で受信される。

次いで、制御部２３は、ステップＳ１２で制御モデルＭに入力された環境情報と、当該環境情報が入力されることで制御モデルＭから出力された制御情報とに基づいて、上述した状態情報を特定する（ステップＳ１６）。次いで、制御部２３は、ステップＳ１６で特定された状態情報に応じた報酬r（例えば、上述した(i)〜(x)の報酬rのうち何れか１つ以上）を報酬特定部２３ｄにより特定する（ステップＳ１７）。

次いで、制御部２３は、ステップＳ１７で特定された報酬rに基づいて、より大きな報酬rが得られる制御情報を出力するように、制御モデルＭを学習制御部２３ｅにより更新し（ステップＳ１８）、図８（Ｂ）に示す処理を終了する。このように、図８（Ｂ）に示す処理が実無人航空機Ｐ１から観測データが受信される度に行われ、強化学習が行われることにより、最終的に学習済の制御モデルＭが得られる。

［６．飛行制御システムＳＹ２の構成及び機能概要］
次に、図９を参照して、本実施形態の飛行制御システムＳＹ２の構成及び機能概要について説明する。図９は、本実施形態の飛行制御システムＳＹ２の概要構成例を示す図である。上述したように、学習システムＳＹ１による強化学習で得られた学習済の制御モデルＭが利用されることで、特に気象の影響があっても所要飛行時間やバッテリの消費量等の観点で効率的に飛行するよう、実無人航空機Ｐ１の飛行制御を行うことが可能となる。飛行制御システムＳＹ２は、図９に示すように、無人航空機Ｐｘと、情報処理装置Ｄｘとを含む。無人航空機Ｐｘと情報処理装置Ｄｘとは、図示しない通信ネットワークを介して通信可能になっている。

無人航空機Ｐｘは、図９に示すように、センサ部５１及び制御部５２を備える。なお、無人航空機Ｐｘは、図４に示す実無人航空機Ｐ１と同一の構成であってもよい。すなわち、センサ部５１及び制御部５２は、それぞれ、図４に示すセンサ部１３及び制御部１４に対応する。また、図９には示さないが、無人航空機Ｐｘは、図４に示す通信部１１及び駆動部１２を備える。無人航空機Ｐｘの制御部５２（飛行制御部）は、通信部１１を介して情報処理装置Ｄｘから受信された制御情報に基づいて無人航空機Ｐｘの飛行制御を行う。

情報処理装置Ｄｘは、図９に示すように、環境情報取得部６１、制御情報取得部６２、及び記憶部６３を備える。記憶部６３は、上述した報酬rを用いた強化学習を行うことで得られた学習済の制御モデルＭを記憶する。環境情報取得部６１及び制御情報取得部６２は、それぞれ、図７に示す環境情報取得部２３ｂ及び制御情報取得部２３ｃに対応する。すなわち、環境情報取得部６１は、無人航空機Ｐｘから時系列で提供された観測データに基づいて、無人航空機Ｐｘの環境Ｅに関する環境情報を時系列で取得する。制御情報取得部６２は、記憶部６３から学習済の制御モデルＭを読み出し、読み出した制御モデルＭに、環境情報取得部６１により取得された環境情報を状態sとして入力することで、学習済の制御モデルＭから出力された制御情報を取得する。

飛行制御システムＳＹ２においては、学習済の制御モデルＭを用いることにより無人航空機Ｐｘの高効率な飛行制御を実現するこができる。なお、制御部５２は、情報処理装置Ｄｘに備えられてもよい。また、無人航空機Ｐｘと情報処理装置Ｄｘとは一体の装置であってもよい。

以上説明したように、上記実施形態によれば、学習システムＳＹ１は、無人航空機Ｐの周辺環境と無人航空機Ｐの飛行予定領域の環境との少なくとも何れか一方の環境における気象情報を含む環境情報を制御モデルＭへ入力することで制御モデルＭから出力された制御情報を取得し、無人航空機Ｐが当該制御情報に基づく行動をとった場合における当該行動の結果の評価を表す報酬rを用いて制御モデルＭの強化学習を行うように構成したので、無人で飛行可能な航空機の周辺環境等における気象の影響を低減する柔軟な飛行制御を行うための制御情報を得ることができる。特に、無人航空機Ｐが行動aをとった場合における無人航空機Ｐの姿勢、飛行安定性、または高度等に応じて異なる報酬rが特定されるように構成したので、気象の影響があっても無人航空機Ｐの安定性や飛行高度など、安全を十分に確保する飛行を当該無人航空機Ｐに行わせる制御情報を出力するように、制御モデルＭの学習を行うことができる。

なお、上記実施形態は本発明の一実施形態であり、本発明は上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲で上記実施形態から種々構成等に変更を加えてもよく、その場合も本発明の技術的範囲に含まれる。例えば、上記実施形態においては、無人航空機Ｐの周辺環境と無人航空機Ｐの飛行予定領域の環境との少なくとも何れか一方の環境における気象情報を含む環境情報を制御モデルＭへ入力する構成について説明したが、制御モデルＭへ入力される環境情報に、無人航空機Ｐの周辺環境及び無人航空機Ｐの飛行予定領域の環境における気象情報が含まれない構成も考えられる。かかる場合の学習装置Ｄにおいても、上記実施形態と同様に(i)〜(x)の報酬rを特定すれば、気象等の考慮しない状況下においても無人航空機Ｐの安定性や飛行高度など、安全を十分に確保する飛行を当該無人航空機Ｐに行わせる制御情報を出力するように、制御モデルＭの学習を行うことができる。これにより、例えば、無人航空機Ｐの周辺環境または無人航空機Ｐの飛行予定領域の環境における粉塵や火山灰等、或いは未知の要素の影響を受けて飛行する場合に消費電力が大きくなったり、飛行が不安定になったりすることなどの課題を解決し、これらの影響を低減する柔軟な飛行制御を行うための制御情報を得ることが可能となる。また、上記実施形態においては、無人で飛行可能な航空機として無人航空機Ｐを例にとって説明したが、無人で飛行可能な航空機は、機内に操縦者（パイロット）が存在しなくても飛行することができる有人航空機に対しても適用可能である。

１１通信部
１２駆動部
１３センサ部
１３ａ測位センサ
１３ｂ光学センサ
１３ｃ姿勢センサ
１３ｄバッテリセンサ
１３ｅ気象センサ
１４制御部
１４ａ環境情報提供部
１４ｂ制御情報取得部
１４ｃ飛行制御部
２１通信部
２２記憶部
２３制御部
２３ａ行動予測部
２３ｂ環境情報取得部
２３ｃ制御情報取得部
２３ｄ報酬特定部、
２３ｅ学習制御部
５１センサ部
５２制御部
６１環境情報提供部
６２制御情報取得部
６３記憶部
Ｐ，Ｐｘ無人航空機
Ｐ１実無人航空機
Ｐ２仮想無人航空機
Ｌシミュレータ
Ｄ学習装置
Ｄｘ情報処理装置
ＳＹ１学習システム
ＳＹ２飛行制御システム

Claims

無人で飛行可能な航空機の飛行制御を行うための制御情報を出力する制御モデルの強化学習を行う学習装置であって、
前記航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報を取得する環境情報取得部と、
前記環境情報を前記制御モデルへ入力することで前記制御モデルから出力された前記制御情報を取得する制御情報取得部と、
前記航空機が前記制御情報に基づく行動をとった場合における当該行動の結果の評価を表す報酬を特定する報酬特定部と、
前記報酬特定部により特定された前記報酬を用いて前記制御モデルの強化学習を制御する学習制御部と、
を備え、
前記報酬特定部は、前記航空機が前記行動をとった場合における当該航空機への累積降水量と当該航空機の防水性能に応じた閾値との関係に応じて異なる前記報酬を特定することを特徴とする学習装置。
無人で飛行可能な航空機の飛行制御を行うための制御情報を出力する制御モデルの強化学習を行う学習装置であって、
前記航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報を取得する環境情報取得部と、
前記環境情報を前記制御モデルへ入力することで前記制御モデルから出力された前記制御情報を取得する制御情報取得部と、
前記航空機が前記制御情報に基づく行動をとった場合における当該行動の結果の評価を表す報酬を特定する報酬特定部と、
前記報酬特定部により特定された前記報酬を用いて前記制御モデルの強化学習を制御する学習制御部と、
を備え、
前記報酬特定部は、前記航空機が前記行動をとった場合における前記航空機のバッテリの残量または前記バッテリの消費量に応じて異なる前記報酬を特定することを特徴とする学習装置。
無人で飛行可能な航空機の飛行制御を行うための制御情報を出力する制御モデルの強化学習を行う学習装置であって、
前記航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報を取得する環境情報取得部と、
前記環境情報を前記制御モデルへ入力することで前記制御モデルから出力された前記制御情報を取得する制御情報取得部と、
前記航空機が前記制御情報に基づく行動をとった場合における当該行動の結果の評価を表す報酬を特定する報酬特定部と、
前記報酬特定部により特定された前記報酬を用いて前記制御モデルの強化学習を制御する学習制御部と、
を備え、
前記報酬特定部は、前記航空機が前記行動をとった場合における前記航空機の周辺環境における地表属性に応じて異なる前記報酬を特定することを特徴とする学習装置。
無人で飛行可能な航空機の飛行制御を行うための制御情報を出力する制御モデルの強化学習を行う学習装置であって、
前記航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報を取得する環境情報取得部と、
前記環境情報を前記制御モデルへ入力することで前記制御モデルから出力された前記制御情報を取得する制御情報取得部と、
前記航空機が前記制御情報に基づく行動をとった場合における当該行動の結果の評価を表す報酬を特定する報酬特定部と、
前記報酬特定部により特定された前記報酬を用いて前記制御モデルの強化学習を制御する学習制御部と、
を備え、
前記報酬特定部は、前記航空機が前記行動をとった場合における前記航空機の移動状態に応じて異なる前記報酬を特定する学習装置。
無人で飛行可能な航空機の飛行制御を行うための制御情報を出力する制御モデルの強化学習を行う学習装置であって、
前記航空機の周辺環境において時系列で位置が変化する移動物体の行動を予測する行動予測部と、
前記航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報であって、前記行動予測部により行動が予測された前記移動物体の行動予測情報を含む前記環境情報を取得する環境情報取得部と、
前記移動物体の行動予測情報を含む前記環境情報を前記制御モデルへ入力することで前記制御モデルから出力された前記制御情報を取得する制御情報取得部と、
前記航空機が前記制御情報に基づく行動をとった場合における当該行動の結果の評価を表す報酬を特定する報酬特定部と、
前記報酬特定部により特定された前記報酬を用いて前記制御モデルの強化学習を制御する学習制御部と、
を備えることを特徴とする学習装置。
前記報酬特定部は、前記航空機が前記行動をとった場合における当該航空機と前記移動物体との位置関係に応じて異なる前記報酬を特定することを特徴とする請求項５に記載の学習装置。
前記報酬特定部は、前記航空機が前記行動をとった場合における当該航空機の姿勢に応じて異なる前記報酬を特定することを特徴とする請求項１乃至６の何れか一項に記載の学習装置。
前記報酬特定部は、前記航空機が前記行動をとった場合における当該航空機の飛行安定性に応じて異なる前記報酬を特定することを特徴とする請求項１乃至７の何れか一項に記載の学習装置。
前記飛行安定性は、前記航空機の振動に基づいて評価されることを特徴とする請求項８に記載の学習装置。
前記報酬特定部は、前記航空機が前記行動をとった場合における当該航空機の高度に応じて異なる前記報酬を特定することを特徴とする請求項１乃至９の何れか一項に記載の学習装置。
前記報酬特定部は、前記航空機が前記行動をとった場合における当該航空機の高度が特定の高度範囲内に含まれるか否かに応じて異なる前記報酬を特定することを特徴とする請求項１乃至１０の何れか一項に記載の学習装置。
前記高度範囲は、前記航空機による上空からの非接触センシングにより得られたセンシングデータに基づいて動的に変化することを特徴とする請求項１１に記載の学習装置。
前記環境情報取得部は、前記航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境における気象情報を含む環境情報を取得することを特徴とする請求項１乃至１２の何れか一項に記載の学習装置。
前記気象情報は、風に関する風情報を含むことを特徴とする請求項１乃至１３の何れか一項に記載の学習装置。
前記風情報は、風速、風向き、風の有無、強風の有無、台風、および竜巻のうち少なくともいずれか一つに関する情報を含むことを特徴とする請求項１４に記載の学習装置。
無人で飛行可能な航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報を入力とし、前記航空機の飛行制御を行うための制御情報を出力とする学習済の制御モデルであって、前記制御情報に基づく行動を前記航空機がとった場合における当該航空機の行動の結果の評価を表す報酬を用いた強化学習を行うことで得られた制御モデルを記憶する記憶部と、
前記気象情報を含む環境情報を前記制御モデルへ入力することで前記制御モデルから出力された前記制御情報を取得する制御情報取得部と、
を備え、
前記報酬は、前記航空機が前記行動をとった場合における当該航空機への累積降水量と当該航空機の防水性能に応じた閾値との関係に応じて異なることを特徴とする情報処理装置。
無人で飛行可能な航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報を入力とし、前記航空機の飛行制御を行うための制御情報を出力とする学習済の制御モデルであって、前記制御情報に基づく行動を前記航空機がとった場合における当該航空機の行動の結果の評価を表す報酬を用いた強化学習を行うことで得られた制御モデルを記憶する記憶部と、
前記気象情報を含む環境情報を前記制御モデルへ入力することで前記制御モデルから出力された前記制御情報を取得する制御情報取得部と、
を備え、
前記報酬は、前記航空機が前記行動をとった場合における前記航空機のバッテリの残量または前記バッテリの消費量に応じて異なることを特徴とする情報処理装置。
無人で飛行可能な航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報を入力とし、前記航空機の飛行制御を行うための制御情報を出力とする学習済の制御モデルであって、前記制御情報に基づく行動を前記航空機がとった場合における当該航空機の行動の結果の評価を表す報酬を用いた強化学習を行うことで得られた制御モデルを記憶する記憶部と、
前記気象情報を含む環境情報を前記制御モデルへ入力することで前記制御モデルから出力された前記制御情報を取得する制御情報取得部と、
を備え、
前記報酬は、前記航空機が前記行動をとった場合における前記航空機の周辺環境における地表属性に応じて異なることを特徴とする情報処理装置。
無人で飛行可能な航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報を入力とし、前記航空機の飛行制御を行うための制御情報を出力とする学習済の制御モデルであって、前記制御情報に基づく行動を前記航空機がとった場合における当該航空機の行動の結果の評価を表す報酬を用いた強化学習を行うことで得られた制御モデルを記憶する記憶部と、
前記気象情報を含む環境情報を前記制御モデルへ入力することで前記制御モデルから出力された前記制御情報を取得する制御情報取得部と、
を備え、
前記報酬は、前記航空機が前記行動をとった場合における前記航空機の移動状態に応じて異なることを特徴とする情報処理装置。
無人で飛行可能な航空機の周辺環境において時系列で位置が変化する移動物体の行動を予測する行動予測部と、
前記航空機の周辺環境に関する環境情報であって、前記行動予測部により行動が予測された前記移動物体の行動予測情報を含む前記環境情報を取得する環境情報取得部と、
前記環境情報取得部により取得された環境情報を入力とし、前記航空機の飛行制御を行うための制御情報を出力とする学習済の制御モデルであって、前記制御情報に基づく行動を前記航空機がとった場合における当該航空機の行動の結果の評価を表す報酬を用いた強化学習を行うことで得られた制御モデルを記憶する記憶部と、
前記環境情報取得部により取得された環境情報を前記制御モデルへ入力することで前記制御モデルから出力された前記制御情報を取得する制御情報取得部と、
を備えることを特徴とする情報処理装置。
前記制御情報に基づいて、前記航空機の飛行制御を行う飛行制御部を更に備えることを特徴とする請求項１６乃至２０の何れか一項に記載の情報処理装置。
無人で飛行可能な航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報に基づいて、前記航空機の飛行制御を行うための制御情報を出力するよう、コンピュータを機能させるための学習済の制御モデルであって、
前記環境情報は、前記制御モデルへ時系列で入力され、
前記制御モデルは、前記制御モデルから出力された前記制御情報に基づく前記行動を前記航空機がとった場合における当該航空機の行動の結果の評価を表す報酬を用いて強化学習され、
前記報酬は、前記航空機が前記行動をとった場合における当該航空機への累積降水量と当該航空機の防水性能に応じた閾値との関係に応じて異なり、
前記入力された前記環境情報に対し、前記制御モデルを構成する関数に基づく演算を行い、前記制御モデルから前記制御情報を出力するよう、コンピュータを機能させるための学習済の制御モデル。
無人で飛行可能な航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報に基づいて、前記航空機の飛行制御を行うための制御情報を出力するよう、コンピュータを機能させるための学習済の制御モデルであって、
前記環境情報は、前記制御モデルへ時系列で入力され、
前記制御モデルは、前記制御モデルから出力された前記制御情報に基づく前記行動を前記航空機がとった場合における当該航空機の行動の結果の評価を表す報酬を用いて強化学習され、
前記報酬は、前記航空機が前記行動をとった場合における前記航空機のバッテリの残量または前記バッテリの消費量に応じて異なり、
前記入力された前記環境情報に対し、前記制御モデルを構成する関数に基づく演算を行い、前記制御モデルから前記制御情報を出力するよう、コンピュータを機能させるための学習済の制御モデル。
無人で飛行可能な航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報に基づいて、前記航空機の飛行制御を行うための制御情報を出力するよう、コンピュータを機能させるための学習済の制御モデルであって、
前記環境情報は、前記制御モデルへ時系列で入力され、
前記制御モデルは、前記制御モデルから出力された前記制御情報に基づく前記行動を前記航空機がとった場合における当該航空機の行動の結果の評価を表す報酬を用いて強化学習され、
前記報酬は、前記航空機が前記行動をとった場合における前記航空機の周辺環境における地表属性に応じて異なり、
前記入力された前記環境情報に対し、前記制御モデルを構成する関数に基づく演算を行い、前記制御モデルから前記制御情報を出力するよう、コンピュータを機能させるための学習済の制御モデル。
無人で飛行可能な航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報に基づいて、前記航空機の飛行制御を行うための制御情報を出力するよう、コンピュータを機能させるための学習済の制御モデルであって、
前記環境情報は、前記制御モデルへ時系列で入力され、
前記制御モデルは、前記制御モデルから出力された前記制御情報に基づく前記行動を前記航空機がとった場合における当該航空機の行動の結果の評価を表す報酬を用いて強化学習され、
前記報酬は、前記航空機が前記行動をとった場合における前記航空機の移動状態に応じて異なり、
前記入力された前記環境情報に対し、前記制御モデルを構成する関数に基づく演算を行い、前記制御モデルから前記制御情報を出力するよう、コンピュータを機能させるための学習済の制御モデル。
無人で飛行可能な航空機の周辺環境に関する環境情報に基づいて、前記航空機の飛行制御を行うための制御情報を出力するよう、コンピュータを機能させるための学習済の制御モデルであって、
前記環境情報は、無人で飛行可能な航空機の周辺環境において時系列で位置が変化する移動物体の行動を予測する行動予測部により行動が予測された前記移動物体の行動予測情報を含み、当該環境情報は、前記制御モデルへ時系列で入力され、
前記制御モデルは、前記制御モデルから出力された前記制御情報に基づく前記行動を前記航空機がとった場合における当該航空機の行動の結果の評価を表す報酬を用いて強化学習され、
前記入力された前記環境情報に対し、前記制御モデルを構成する関数に基づく演算を行い、前記制御モデルから前記制御情報を出力するよう、コンピュータを機能させるための学習済の制御モデル。