JP6950117B1 - 学習装置、情報処理装置、及び学習済の制御モデル - Google Patents

学習装置、情報処理装置、及び学習済の制御モデル Download PDF

Info

Publication number
JP6950117B1
JP6950117B1 JP2021519184A JP2021519184A JP6950117B1 JP 6950117 B1 JP6950117 B1 JP 6950117B1 JP 2021519184 A JP2021519184 A JP 2021519184A JP 2021519184 A JP2021519184 A JP 2021519184A JP 6950117 B1 JP6950117 B1 JP 6950117B1
Authority
JP
Japan
Prior art keywords
aircraft
reward
information
control
control model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021519184A
Other languages
English (en)
Other versions
JPWO2021220528A1 (ja
Inventor
満 中澤
満 中澤
順 滝澤
順 滝澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rakuten Group Inc
Original Assignee
Rakuten Group Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from PCT/JP2020/018278 external-priority patent/WO2021220467A1/ja
Application filed by Rakuten Group Inc filed Critical Rakuten Group Inc
Application granted granted Critical
Publication of JP6950117B1 publication Critical patent/JP6950117B1/ja
Publication of JPWO2021220528A1 publication Critical patent/JPWO2021220528A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/08Control of attitude, i.e. control of roll, pitch, or yaw
    • G05D1/0808Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft
    • G05D1/0816Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft to ensure stability
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/08Control of attitude, i.e. control of roll, pitch, or yaw
    • G05D1/0808Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B64AIRCRAFT; AVIATION; COSMONAUTICS
    • B64CAEROPLANES; HELICOPTERS
    • B64C13/00Control systems or transmitting systems for actuating flying-control surfaces, lift-increasing flaps, air brakes, or spoilers
    • B64C13/02Initiating means
    • B64C13/16Initiating means actuated automatically, e.g. responsive to gust detectors
    • B64C13/18Initiating means actuated automatically, e.g. responsive to gust detectors using automatic pilot
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0088Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/0202Control of position or course in two dimensions specially adapted to aircraft
    • G05D1/0204Control of position or course in two dimensions specially adapted to aircraft to counteract a sudden perturbation, e.g. cross-wind, gust
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • G05D1/106Change initiated in response to external conditions, e.g. avoidance of elevated terrain or of no-fly zones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B64AIRCRAFT; AVIATION; COSMONAUTICS
    • B64UUNMANNED AERIAL VEHICLES [UAV]; EQUIPMENT THEREFOR
    • B64U2201/00UAVs characterised by their flight controls
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]

Landscapes

  • Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Medical Informatics (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Traffic Control Systems (AREA)

Abstract

学習システムSY1は、無人航空機Pの周辺環境、または無人航空機Pの飛行予定領域の環境における気象情報を含む環境情報を制御モデルMへ入力することで制御モデルMから出力された制御情報を取得し、無人航空機Pが当該制御情報に基づく行動をとった場合における当該行動の結果の評価を表す報酬rを用いて制御モデルMの強化学習を行う。

Description

本発明は、無人で飛行可能な航空機の飛行制御を行うための制御情報を出力する制御モデルを強化学習する装置等の技術分野に関する。
従来、移動機の移動制御を行うために、機械学習の一種である強化学習を用いることが検討されている。例えば、特許文献1では、車やドローン等の移動機により撮影された画像を入力として、移動機の移動制御に関する強化学習を行う技術が開示されている。
特開2018-198012号公報
ところで、ドローンのような無人で飛行可能な航空機は、気象の影響を受けやすい。例えば上記のような技術で航空機の飛行制御を行ったとしても、風に逆らって飛行する場合には消費電力が大きくなったり、飛行が不安定になったりすることが考えられる。
そこで、無人で飛行可能な航空機の周辺環境等における気象の影響を低減する柔軟な飛行制御を行うための制御情報を得ることが可能な学習装置、情報処理装置、及び学習済の制御モデルを提供する。
上記課題を解決するために、請求項1に記載の発明は、無人で飛行可能な航空機の飛行制御を行うための制御情報を出力する制御モデルの強化学習を行う学習装置であって、前記航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報を取得する環境情報取得部と、前記環境情報を前記制御モデルへ入力することで前記制御モデルから出力された前記制御情報を取得する制御情報取得部と、前記航空機が前記制御情報に基づく行動をとった場合における当該行動の結果の評価を表す報酬を特定する報酬特定部と、前記報酬特定部により特定された前記報酬を用いて前記制御モデルの強化学習を制御する学習制御部と、を備え、前記報酬特定部は、前記航空機が前記行動をとった場合における当該航空機への累積降水量と当該航空機の防水性能に応じた閾値との関係に応じて異なる前記報酬を特定することを特徴とする。これにより、降雨の影響があっても航空機の防水性能に支障をきたさない飛行を当該航空機に行わせる制御情報を出力するように、制御モデルの学習を行うことができる。請求項2に記載の発明は、無人で飛行可能な航空機の飛行制御を行うための制御情報を出力する制御モデルの強化学習を行う学習装置であって、前記航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報を取得する環境情報取得部と、前記環境情報を前記制御モデルへ入力することで前記制御モデルから出力された前記制御情報を取得する制御情報取得部と、前記航空機が前記制御情報に基づく行動をとった場合における当該行動の結果の評価を表す報酬を特定する報酬特定部と、前記報酬特定部により特定された前記報酬を用いて前記制御モデルの強化学習を制御する学習制御部と、を備え、前記報酬特定部は、前記航空機が前記行動をとった場合における前記航空機のバッテリの残量または前記バッテリの消費量に応じて異なる前記報酬を特定することを特徴とする。これにより、気象の影響があってもバッテリの消費量を少なくする飛行を当該航空機に行わせる制御情報を出力するように、制御モデルの学習を行うことができる。請求項3に記載の発明は、無人で飛行可能な航空機の飛行制御を行うための制御情報を出力する制御モデルの強化学習を行う学習装置であって、前記航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報を取得する環境情報取得部と、前記環境情報を前記制御モデルへ入力することで前記制御モデルから出力された前記制御情報を取得する制御情報取得部と、前記航空機が前記制御情報に基づく行動をとった場合における当該行動の結果の評価を表す報酬を特定する報酬特定部と、前記報酬特定部により特定された前記報酬を用いて前記制御モデルの強化学習を制御する学習制御部と、を備え、前記報酬特定部は、前記航空機が前記行動をとった場合における前記航空機の周辺環境における地表属性に応じて異なる前記報酬を特定することを特徴とする。これにより、気象の影響があっても地表属性に応じた飛行を当該航空機に行わせる制御情報を出力するように、制御モデルの学習を行うことができる。請求項4に記載の発明は、無人で飛行可能な航空機の飛行制御を行うための制御情報を出力する制御モデルの強化学習を行う学習装置であって、前記航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報を取得する環境情報取得部と、前記環境情報を前記制御モデルへ入力することで前記制御モデルから出力された前記制御情報を取得する制御情報取得部と、前記航空機が前記制御情報に基づく行動をとった場合における当該行動の結果の評価を表す報酬を特定する報酬特定部と、前記報酬特定部により特定された前記報酬を用いて前記制御モデルの強化学習を制御する学習制御部と、を備え、前記報酬特定部は、前記航空機が前記行動をとった場合における前記航空機の移動状態に応じて異なる前記報酬を特定する。これにより、気象の影響があってもより効率的な飛行を当該航空機に行わせる制御情報を出力するように、制御モデルの学習を行うことができる。請求項5に記載の発明は、無人で飛行可能な航空機の飛行制御を行うための制御情報を出力する制御モデルの強化学習を行う学習装置であって、前記航空機の周辺環境において時系列で位置が変化する移動物体の行動を予測する行動予測部と、前記航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報であって、前記行動予測部により行動が予測された前記移動物体の行動予測情報を含む前記環境情報を取得する環境情報取得部と、前記移動物体の行動予測情報を含む前記環境情報を前記制御モデルへ入力することで前記制御モデルから出力された前記制御情報を取得する制御情報取得部と、前記航空機が前記制御情報に基づく行動をとった場合における当該行動の結果の評価を表す報酬を特定する報酬特定部と、前記報酬特定部により特定された前記報酬を用いて前記制御モデルの強化学習を制御する学習制御部と、を備えることを特徴とする。請求項6に記載の発明は、請求項5に記載の学習装置において、前記報酬特定部は、前記航空機が前記行動をとった場合における当該航空機と前記移動物体との位置関係に応じて異なる前記報酬を特定することを特徴とする。
請求項に記載の発明は、請求項1乃至6の何れか一項に記載の学習装置において、前記報酬特定部は、前記航空機が前記行動をとった場合における当該航空機の姿勢に応じて異なる前記報酬を特定することを特徴とする。これにより、気象の影響があっても航空機の姿勢を安定に保つ飛行を当該航空機に行わせる制御情報を出力するように、制御モデルの学習を行うことができる。
請求項に記載の発明は、請求項1乃至7の何れか一項に記載の学習装置において、前記報酬特定部は、前記航空機が前記行動をとった場合における当該航空機の飛行安定性に応じて異なる前記報酬を特定することを特徴とする。これにより、気象の影響があっても航空機の飛行安定性が高い飛行を当該航空機に行わせる制御情報を出力するように、制御モデルの学習を行うことができる。
請求項に記載の発明は、請求項に記載の学習装置において、前記飛行安定性は、前記航空機の振動に基づいて評価されることを特徴とする。
請求項10に記載の発明は、請求項1乃至の何れか一項に記載の学習装置において、前記報酬特定部は、前記航空機が前記行動をとった場合における当該航空機の高度に応じて異なる前記報酬を特定することを特徴とする。これにより、気象の影響があっても航空機の安全な高度を保つ飛行を当該航空機に行わせる制御情報を出力するように、制御モデルの学習を行うことができる。
請求項11に記載の発明は、請求項1乃至10の何れか一項に記載の学習装置において、前記報酬特定部は、前記航空機が前記行動をとった場合における当該航空機の高度が特定の高度範囲内に含まれるか否かに応じて異なる前記報酬を特定することを特徴とする。これにより、気象の影響があっても航空機の高度を特定の高度範囲内に保つ飛行を当該航空機に行わせる制御情報を出力するように、制御モデルの学習を行うことができる。
請求項12に記載の発明は、請求項11に記載の学習装置において、前記高度範囲は、前記航空機による上空からの非接触センシングにより得られたセンシングデータに基づいて動的に変化することを特徴とする。
請求項13に記載の発明は、請求項1乃至12の何れか一項に記載の学習装置において、前記環境情報取得部は、前記航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境における気象情報を含む環境情報を取得することを特徴とする。請求項14に記載の発明は、請求項1乃至13の何れか一項に記載の学習装置において、前記気象情報は、風に関する風情報を含むことを特徴とする。
請求項15に記載の発明は、請求項14に記載の学習装置において、前記風情報は、風速、風向き、風の有無、強風の有無、台風、および竜巻のうち少なくともいずれか一つに関する情報を含むことを特徴とする。
請求項16に記載の発明は、無人で飛行可能な航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報を入力とし、前記航空機の飛行制御を行うための制御情報を出力とする学習済の制御モデルであって、前記制御情報に基づく行動を前記航空機がとった場合における当該航空機の行動の結果の評価を表す報酬を用いた強化学習を行うことで得られた制御モデルを記憶する記憶部と、前記気象情報を含む環境情報を前記制御モデルへ入力することで前記制御モデルから出力された前記制御情報を取得する制御情報取得部と、を備え、前記報酬は、前記航空機が前記行動をとった場合における当該航空機への累積降水量と当該航空機の防水性能に応じた閾値との関係に応じて異なることを特徴とする。
請求項17に記載の発明は、無人で飛行可能な航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報を入力とし、前記航空機の飛行制御を行うための制御情報を出力とする学習済の制御モデルであって、前記制御情報に基づく行動を前記航空機がとった場合における当該航空機の行動の結果の評価を表す報酬を用いた強化学習を行うことで得られた制御モデルを記憶する記憶部と、前記気象情報を含む環境情報を前記制御モデルへ入力することで前記制御モデルから出力された前記制御情報を取得する制御情報取得部と、を備え、前記報酬は、前記航空機が前記行動をとった場合における前記航空機のバッテリの残量または前記バッテリの消費量に応じて異なることを特徴とする。請求項18に記載の発明は、無人で飛行可能な航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報を入力とし、前記航空機の飛行制御を行うための制御情報を出力とする学習済の制御モデルであって、前記制御情報に基づく行動を前記航空機がとった場合における当該航空機の行動の結果の評価を表す報酬を用いた強化学習を行うことで得られた制御モデルを記憶する記憶部と、前記気象情報を含む環境情報を前記制御モデルへ入力することで前記制御モデルから出力された前記制御情報を取得する制御情報取得部と、を備え、前記報酬は、前記航空機が前記行動をとった場合における前記航空機の周辺環境における地表属性に応じて異なることを特徴とする。請求項19に記載の発明は、無人で飛行可能な航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報を入力とし、前記航空機の飛行制御を行うための制御情報を出力とする学習済の制御モデルであって、前記制御情報に基づく行動を前記航空機がとった場合における当該航空機の行動の結果の評価を表す報酬を用いた強化学習を行うことで得られた制御モデルを記憶する記憶部と、前記気象情報を含む環境情報を前記制御モデルへ入力することで前記制御モデルから出力された前記制御情報を取得する制御情報取得部と、を備え、前記報酬は、前記航空機が前記行動をとった場合における前記航空機の移動状態に応じて異なることを特徴とする。請求項20に記載の発明は、無人で飛行可能な航空機の周辺環境において時系列で位置が変化する移動物体の行動を予測する行動予測部と、前記航空機の周辺環境に関する環境情報であって、前記行動予測部により行動が予測された前記移動物体の行動予測情報を含む前記環境情報を取得する環境情報取得部と、前記環境情報取得部により取得された環境情報を入力とし、前記航空機の飛行制御を行うための制御情報を出力とする学習済の制御モデルであって、前記制御情報に基づく行動を前記航空機がとった場合における当該航空機の行動の結果の評価を表す報酬を用いた強化学習を行うことで得られた制御モデルを記憶する記憶部と、前記環境情報取得部により取得された環境情報を前記制御モデルへ入力することで前記制御モデルから出力された前記制御情報を取得する制御情報取得部と、を備えることを特徴とする。請求項21に記載の発明は、請求項16乃至20の何れか一項に記載の情報処理装置において、前記制御情報に基づいて、前記航空機の飛行制御を行う飛行制御部を更に備えることを特徴とする。
請求項22に記載の発明は、無人で飛行可能な航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報に基づいて、前記航空機の飛行制御を行うための制御情報を出力するよう、コンピュータを機能させるための学習済の制御モデルであって、前記環境情報は、前記制御モデルへ時系列で入力され、前記制御モデルは、前記制御モデルから出力された前記制御情報に基づく前記行動を前記航空機がとった場合における当該航空機の行動の結果の評価を表す報酬を用いて強化学習され、前記報酬は、前記航空機が前記行動をとった場合における当該航空機への累積降水量と当該航空機の防水性能に応じた閾値との関係に応じて異なり、前記入力された前記環境情報に対し、前記制御モデルを構成する関数に基づく演算を行い、前記制御モデルから前記制御情報を出力するよう、コンピュータを機能させる。請求項23に記載の発明は、無人で飛行可能な航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報に基づいて、前記航空機の飛行制御を行うための制御情報を出力するよう、コンピュータを機能させるための学習済の制御モデルであって、前記環境情報は、前記制御モデルへ時系列で入力され、前記制御モデルは、前記制御モデルから出力された前記制御情報に基づく前記行動を前記航空機がとった場合における当該航空機の行動の結果の評価を表す報酬を用いて強化学習され、前記報酬は、前記航空機が前記行動をとった場合における前記航空機のバッテリの残量または前記バッテリの消費量に応じて異なり、前記入力された前記環境情報に対し、前記制御モデルを構成する関数に基づく演算を行い、前記制御モデルから前記制御情報を出力するよう、コンピュータを機能させる。請求項24に記載の発明は、無人で飛行可能な航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報に基づいて、前記航空機の飛行制御を行うための制御情報を出力するよう、コンピュータを機能させるための学習済の制御モデルであって、前記環境情報は、前記制御モデルへ時系列で入力され、前記制御モデルは、前記制御モデルから出力された前記制御情報に基づく前記行動を前記航空機がとった場合における当該航空機の行動の結果の評価を表す報酬を用いて強化学習され、前記報酬は、前記航空機が前記行動をとった場合における前記航空機の周辺環境における地表属性に応じて異なり、前記入力された前記環境情報に対し、前記制御モデルを構成する関数に基づく演算を行い、前記制御モデルから前記制御情報を出力するよう、コンピュータを機能させる。請求項25に記載の発明は、無人で飛行可能な航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報に基づいて、前記航空機の飛行制御を行うための制御情報を出力するよう、コンピュータを機能させるための学習済の制御モデルであって、前記環境情報は、前記制御モデルへ時系列で入力され、前記制御モデルは、前記制御モデルから出力された前記制御情報に基づく前記行動を前記航空機がとった場合における当該航空機の行動の結果の評価を表す報酬を用いて強化学習され、前記報酬は、前記航空機が前記行動をとった場合における前記航空機の移動状態に応じて異なり、前記入力された前記環境情報に対し、前記制御モデルを構成する関数に基づく演算を行い、前記制御モデルから前記制御情報を出力するよう、コンピュータを機能させる。請求項26に記載の発明は、無人で飛行可能な航空機の周辺環境に関する環境情報に基づいて、前記航空機の飛行制御を行うための制御情報を出力するよう、コンピュータを機能させるための学習済の制御モデルであって、前記環境情報は、無人で飛行可能な航空機の周辺環境において時系列で位置が変化する移動物体の行動を予測する行動予測部により行動が予測された前記移動物体の行動予測情報を含み、当該環境情報は、前記制御モデルへ時系列で入力され、前記制御モデルは、前記制御モデルから出力された前記制御情報に基づく前記行動を前記航空機がとった場合における当該航空機の行動の結果の評価を表す報酬を用いて強化学習され、前記入力された前記環境情報に対し、前記制御モデルを構成する関数に基づく演算を行い、前記制御モデルから前記制御情報を出力するよう、コンピュータを機能させる。
本発明によれば、無人で飛行可能な航空機の周辺環境等における気象の影響を低減する柔軟な飛行制御を行うための制御情報を得ることができる。
目的地へ向かって飛行する無人航空機Pの周辺環境、及び飛行予定領域の環境における風の向き及び風の強さの一例を表した概念図である。 本実施形態の学習システムSY1の概要構成例を示す図である。 本実施形態における強化学習の一例を示す概念図である。 実無人航空機P1の概要構成例を示す図である。 制御部14における機能ブロック例を示す図である。 学習装置Dの概要構成例を示す図である。 制御部23における機能ブロック例を示す図である。 (A)は、実無人航空機P1の処理の一例を示すフローチャートであり、(B)は、学習装置Dの処理の一例を示すフローチャートである。 本実施形態の飛行制御システムSY2の概要構成例を示す図である。
以下、図面を参照して本発明の一実施形態について説明する。
1.無人航空機Pの飛行制御についての背景
先ず、図1を参照して、無人航空機P(無人で飛行可能な航空機の一例)の飛行制御に関する背景について説明する。図1は、目的地へ向かって飛行する無人航空機Pの周辺環境、及び飛行予定領域(例えば、目的地を含む)の環境における風速及び風向きの一例を表した概念図である。なお、図1において、複数の矢印は、それぞれ、風速(風の強さ)及び風向きを表しており、矢印が長いほど、その位置での風が強い。無人航空機Pは、ドローン、またはマルチコプタとも呼ばれる。
無人航空機Pは限られた電力しか持ち合わせないため、図1に示すように、例えば飛行ルートR1に沿って、極力、短距離で目的地に到着することが望ましい。しかし、この場合、無人航空機Pは風に逆らって飛行することになるので、風に逆らわずに飛行する場合と比べて大きな推進力(前進するための推進力)が必要となり、却って無人航空機Pの消費電力が大きくなることが予想される。例えば、図1に示すように、無人航空機Pが飛行ルートR1よりも距離が長い飛行ルートR2に沿って追い風の状況下で飛行する方が無人航空機Pの消費電力が小さくなることが予想される。また、無人航空機Pは風に逆らって飛行すると、その飛行が不安定になることもある。従って、風に対して無人航空機Pの姿勢を細かく調整し安定させることが必要となり、そのために、より大きな電力が消費される。その結果、無人航空機Pの飛行距離が短くなってしまうことが懸念される。また、風速及び風向きは時々刻々変化しうるものである。
無人航空機Pが地上から操縦されるケースにおいて、たとえ熟練した操縦者であっても、上述したような風の影響を考慮して無人航空機Pを安定に保ちつつ、できるだけ消費電力が少なくなるように無人航空機Pを飛行制御することは容易ではない。さらに、無人航空機Pの周辺環境及び飛行予定領域の環境には、風以外にも、雨、雪、及び雷などがありえるので、これらの気象を考慮して無人航空機Pをより適切に飛行制御することはさらに容易ではない。無人航空機Pの自律的な飛行制御において、例えば風などの気象に対応した飛行制御を実現しようとすると、予め人により設計されたルールベースの制御は困難である。例えば、所定の条件を満たした場合に所定の飛行制御を行うといった制御は、ルールが複雑すぎて設計し難い。そこで、以下に説明する学習システムによって、無人航空機Pの周辺環境及び飛行予定領域の環境における気象の影響を低減する飛行制御を実現する。これにより、例えば、電力効率が良い飛行ルートを選出しながら目的地まで無人航空機Pを自律的に飛行させることが可能となり、さらに、機体の安定性や飛行高度などの安全面も踏まえた自律飛行が可能となる。
2.学習システムSY1の構成及び機能概要
次に、図2及び図3を参照して、本実施形態の学習システムSY1の構成及び機能概要について説明する。図2は、本実施形態の学習システムSY1の概要構成例を示す図である。図3は、本実施形態における強化学習の一例を示す概念図である。学習システムSY1は、図2に示すように、制御モデルMの強化学習を行う学習装置Dを含む。制御モデルMは、目的地に向かって飛行する無人航空機Pの周辺環境と無人航空機Pの飛行予定領域の環境との少なくとも何れか一方の環境Eに関する環境情報に基づいて、当該無人航空機Pの飛行制御を行うための制御情報を出力するよう、学習装置D(コンピュータの一例)を機能させるための機械学習モデルである。なお、制御モデルMは、行動選択モデルともいう。
ここで、無人航空機Pの周辺環境とは、例えば、無人航空機Pを含む特定範囲(例えば、無人航空機Pから認識可能な範囲)内の環境を意味する。一方、無人航空機Pの飛行予定領域の環境とは、例えば、無人航空機Pが予定する飛行ルートを含む特定範囲(例えば、当該飛行ルート上の各地点から認識可能な範囲)内の環境を意味する。無人航空機Pを含む特定範囲の一部と、無人航空機Pが予定する飛行ルートを含む特定範囲の一部とは重複してもよい。また、無人航空機Pの周辺環境には、時系列で位置が変化する移動物体が存在する場合もある。時系列で位置が変化する移動物体とは、時間経過に伴い位置が変化する移動物体(つまり、移動中の移動物体)であることを意味する。移動物体は、無人航空機Pとは異なるものであり、例えば、人、動物、車両、列車、航空機、または船舶等である。そして、環境情報は、無人航空機Pの環境Eにおける気象情報を含む。気象情報は、風に関する風情報、降雨に関する降雨情報、降雪に関する降雨情報、及び発雷に関する発雷情報の少なくとも何れか1つを含む。風情報は、風速、風向き、風の有無、強風の有無、台風、および竜巻のうち少なくともいずれか一つに関する情報を含む。
図3に示すように、無人航空機Pの環境Eの観測により得られた観測データに対応する環境情報が環境Eの状態sとして制御モデルMへ入力されると、当該無人航空機Pを制御するための制御情報が制御モデルMから出力される。つまり、学習装置Dは、入力された環境情報に対し、制御モデルMを構成する関数に基づく演算を行い、制御モデルMから行動aとして制御情報を出力させる。そして、無人航空機Pが制御モデルMから出力された制御情報に基づく行動aをとった後(つまり、当該制御情報により無人航空機Pが制御された後)、再度、無人航空機Pの環境Eの観測により得られた観測データに対応する環境情報が制御モデルMへ入力される。ここで、無人航空機Pが行動aをとることで、その環境Eに関する環境情報が変化しうる。つまり、無人航空機Pの環境Eの状態sは変化しうる。
学習装置Dは、このような環境Eに存在する無人航空機Pが制御情報に基づく行動aをとった場合に得られる(つまり、特定される)報酬rに基づいて、より大きな報酬rが期待される制御情報を出力するように(換言すると、より大きな報酬rが得られるように)、制御モデルMの強化学習を行う。ここで、「状態」、「行動」、及び「報酬」は、それぞれ、強化学習分野の当業者であれば明確に把握可能な技術用語である。なお、報酬rは、行動aの結果の評価(換言すると、行動の結果に応じたスコア)を表す。報酬rの例として、正(プラス)の報酬rと、負(マイナス)の報酬rとがある。負の報酬rは、ペナルティとも呼ばれる。
本実施形態の無人航空機Pとして、図2に示すように、実環境に実際に存在する実無人航空機P1と、仮想環境に仮想的に存在する仮想無人航空機P2との少なくとも何れか一方が適用される。実無人航空機P1が適用される場合、学習システムSY1には実無人航空機P1が含まれる。ここで、実無人航空機P1の飛行計画は、例えば、図示しない運航管理システムにより管理される。実無人航空機P1の飛行計画には、実無人航空機P1の出発地から目的地までの飛行スケジュール等が含まれる。飛行スケジュールは、実無人航空機P1が出発地、経由地、及び目的地のうち少なくとも何れか1つの地点(つまり、飛行ルート上の所定地点)に存在する予定時刻の情報(時刻のほか、年月日が含まれてもよい)を含む。出発地、経由地、及び目的地のうち少なくとも何れか1つの地点は、例えば、地図上の地点であり、緯度及び経度で表される。かかる地点において、実無人航空機P1は空中に存在する(つまり、飛行状態、またはホバリング状態にある)場合もあるし、或いは地面に存在する(つまり、着陸状態にある)場合もある。実無人航空機P1の飛行計画を示す情報は、運航管理システムから学習装置Dへ提供される。なお、学習システムSY1は、運航管理システムの内部に設けられてもよいし、運航管理システムの外部に設けられてもよい。
一方、仮想無人航空機P2が適用される場合、学習システムSY1にはシミュレータLが含まれる。仮想無人航空機P2の飛行計画は、例えば、シミュレータLにより管理される。仮想無人航空機P2の飛行計画の内容は、実無人航空機P1の飛行計画と同様である。シミュレータLは、仮想環境のシミュレーションを行う。例えば、シミュレータLは、仮想無人航空機P2、上述した移動物体、不動物体(例えば、ビル、家、壁、木等)、及び地表面(例えば、多数のパターンの地形)を含む仮想環境を生成し、当該移動物体と仮想無人航空機P2との少なくとも何れか一方の移動に応じた仮想環境の更新を行う。仮想無人航空機P2の飛行計画を示す情報は、シミュレータLから学習装置Dへ提供される。なお、シミュレータLによる仮想環境の生成及び更新処理については公知のシミュレーション技術を用いて実現可能であるため詳細な説明を省略する。図2の例では、学習装置DとシミュレータLとが別の装置である例を示しているが、学習装置DがシミュレータLの機能を備えてもよい。また、学習システムSY1には、実無人航空機P1とシミュレータLとの双方が含まれてもよい。
実無人航空機P1の環境(換言すると、実環境)Eに関する環境情報の元となる観測データは、実無人航空機P1から学習装置Dへ時系列で提供される。そして、実無人航空機P1は、観測データの提供に応じて学習装置Dから時系列で提供された制御情報に基づいて実無人航空機P1の飛行制御部により飛行制御される。なお、飛行制御部は、学習装置Dに備えられてもよい。一方、仮想無人航空機P2の環境(換言すると、仮想環境)Eに関する環境情報の元となる観測データは、シミュレータLから学習装置Dへ時系列で提供される。そして、仮想無人航空機P2は、観測データの提供に応じて学習装置Dから時系列で提供された制御情報に基づいてシミュレータLにより飛行制御される。
なお、「時系列で提供される」とは、時間経過に伴い連続的に複数回提供されることを意味する。観測データまたは制御情報が提供される時間間隔(つまり、提供間隔)は、一定間隔であってもよいし、不定間隔であってもよい。また、制御情報は、例えば、無人航空機Pを進行させるか否か(換言すると、無人航空機Pを一時停止(例えば、ホバリング)させるか否か)の命令、無人航空機Pを進行させる場合の進行方向(どちらの方向に進むか)の命令、無人航空機Pを進行させる場合の速度態様(例えば、加速、等速、または減速)の命令、無人航空機Pの高度を変更させるか否かの命令、無人航空機Pの高度を変更させる場合の変更方向(例えば、上昇、または下降)の命令、及び無人航空機Pの姿勢角を変更させる(機体をどう傾けるか)命令などのうち少なくとも何れか1つの命令を含む。
3.実無人航空機P1の構成及び機能概要
次に、図3及び図4を参照して、実無人航空機P1の構成及び機能概要について説明する。図3は、実無人航空機P1の概要構成例を示す図である。実無人航空機P1は、図3に示すように、通信部11、駆動部(推進部)12、センサ部13、及び制御部14等を備える。なお、図示しないが、実無人航空機P1は、水平回転翼であるロータ(プロペラ)、及び実無人航空機P1の各部へ電力を供給するバッテリを備える。また、実無人航空機P1の防水性能は、実無人航空機P1の型式や仕様などによって異なる。つまり、防水性能の高い実無人航空機P1もあれば、防水性能の低い実無人航空機P1もある。通信部11は、図示しない通信ネットワークを介して学習装置Dとの間で行われる通信の制御を担う。駆動部12は、制御部14から出力された制御信号に従って駆動するモータ及び回転軸等により複数のロータを回転させる。
センサ部13には、測位センサ13a、光学センサ13b、姿勢センサ13c、バッテリセンサ13d、及び気象センサ13e等が含まれる。これらのセンサは、実無人航空機P1の周辺環境の観測用などに用いられる。測位センサ13aは、実無人航空機P1の現在位置を検出するためのセンサである。測位センサ13aは、例えば、GNSS(Global Navigation Satellite System)の衛星から発信された電波を受信し、当該電波に基づいて実無人航空機P1の水平方向の現在位置(緯度及び経度)を検出する。なお、測位センサ13aは、図示しない気圧センサ等の高度センサにより実無人航空機P1の垂直方向の現在位置(高度)を検出してもよい。実無人航空機P1の現在位置は、時間経過に伴い連続的に複数回検出(つまり、時系列で検出)される。実無人航空機P1の現在位置が検出される時間間隔(つまり、検出間隔)は、一定間隔であってもよいし、不定間隔であってもよい。測位センサ13aにより検出された現在位置を示す位置情報は、制御部14へ時系列で出力される。
光学センサ13bは、実無人航空機P1の周辺環境を上空から光学的に非接触センシングするためのセンサである。光学センサ13bには、例えば、カメラ(例えば、RGBカメラまたは赤外線カメラ)が用いられる。なお、光学センサ13bには、LiDAR(Light Detection and Ranging、或いはLaser Imaging Detection and Ranging)が用いられてもよい。実無人航空機P1の周辺環境は、時間経過に伴い連続的に複数回センシング(つまり、時系列で非接触センシング)される。実無人航空機P1の周辺環境が非接触センシングされる時間間隔(つまり、センシング間隔)は、一定間隔であってもよいし、不定間隔であってもよい。光学センサ13bにより非接触センシングされた結果を示すセンシングデータ(つまり、実無人航空機P1による上空からの非接触センシングにより得られたセンシングデータ)は、制御部14へ時系列で出力される。センシングデータには、例えば、移動物体、不動物体、及び地表面を含む環境の画像データが含まれる。
姿勢センサ13cは、実無人航空機P1の姿勢に関する姿勢データ(例えば、実無人航空機P1に関する角速度、及び加速度等)を取得するためのセンサである。姿勢センサ13cには、例えば、3軸角速度センサ、3軸加速度センサ、及び3軸地磁気センサが用いられる。なお、姿勢センサ13cには、IMU(Internal measurement unit)が用いられてもよい。また、姿勢センサ13cは、実無人航空機P1の筐体の振動(加速度の微分絶対値)に関する振動データを取得してもよい。実無人航空機P1の姿勢データと振動データとの少なくとも何れか一方のデータは、時間経過に伴い連続的に複数回取得(つまり、時系列で取得)される。かかるデータが取得される時間間隔(つまり、取得間隔)は、一定間隔であってもよいし、不定間隔であってもよい。姿勢センサ13cにより取得された姿勢データと振動データとの少なくとも何れか一方のデータは、制御部14へ時系列で出力される。
バッテリセンサ13dは、実無人航空機P1のバッテリの残量または消費量等を監視するためのセンサである。バッテリの残量または消費量は、時間経過に伴い連続的に複数回検出される。実無人航空機P1のバッテリの残量または消費量が検出される時間間隔は、一定間隔であってもよいし、不定間隔であってもよい。バッテリセンサ13dにより検出されたバッテリの残量または消費量を示すバッテリ情報は、制御部14へ時系列で出力される。
気象センサ13eは、実無人航空機P1の周辺環境における風の有無(例えば、強風の有無)、風速、風向き、降雨量(降水量)などの気象を測定するためのセンサである。気象は、時間経過に伴い連続的に複数回測定される。気象が測定される時間間隔は、一定間隔であってもよいし、不定間隔であってもよい。気象センサ13eにより測定された気象を示す気象情報(つまり、実無人航空機P1の周辺環境における気象情報)は、制御部14へ時系列で出力される。
制御部14は、プロセッサであるCPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)、及び不揮発性メモリ等を備える。図6は、制御部14における機能ブロック例を示す図である。制御部14は、例えばROMまたは不揮発性メモリに記憶されたプログラム(プログラムコード群)に従って、図6に示すように、環境情報提供部14a、制御情報取得部14b、及び飛行制御部14cとして機能する。環境情報提供部14aは、センサ部14から、位置情報、センシングデータ、姿勢データ、振動データ、バッテリ情報、及び気象情報を取得し、取得した位置情報、センシングデータ、姿勢データ、振動データ、バッテリ情報、及び気象情報の全部または一部を観測データとして学習装置Dへ通信部11を介して時系列で提供する。
なお、観測データには、現在時刻を示す時刻情報が含まれてもよい。現在時刻は、制御部14により時系列で取得されてもよい。また、観測データには、実無人航空機P1の飛行速度と飛行加速度との少なくとも何れか一方を示す速度情報が含まれてもよい。実無人航空機P1の飛行速度及び飛行加速度は、制御部14により時系列で算出されてもよい。
制御情報取得部14bは、学習装置Dから時系列で提供された制御情報を、通信部11を介して取得する。飛行制御部14cは、制御情報取得部14bにより時系列で取得された制御情報に基づいて実無人航空機P1の飛行制御を行う。かかる飛行制御には、実無人航空機P1の位置、姿勢及び進行方向の制御が含まれる。なお、実無人航空機P1の飛行制御は、学習システムSY1全体としての飛行制御ということもできる。
4.学習装置Dの構成及び機能概要
次に、図7を参照して、学習装置Dの構成及び機能概要について説明する。図7は、学習装置Dの概要構成例を示す図である。学習装置Dは、図7に示すように、通信部21、記憶部22、及び制御部23等を備える。通信部21は、図示しない通信ネットワークを介して実無人航空機P1とシミュレータLとの少なくとも何れか一方との間で行われる通信の制御を担う。記憶部22は、例えば、ハードディスクドライブ等を備える。記憶部22は、環境情報を入力とし制御情報を出力とする制御モデルMを記憶する。また、記憶部22には、無人航空機Pの飛行予定領域を含む所定領域の地図を表す地図データが記憶される。地図データには、静的な飛行禁止エリア、障害物となりうる不動物体、及び地表面の属性等の情報が含まれてもよい。ここで、不動物体に関しては高さ情報が含まれるとよいので、地図データは3次元的な地図を表すことが望ましい。
また、記憶部22には、無人航空機Pの飛行予定領域を含む所定領域における気象予測マップを表す気象予測マップデータが記憶される。気象予測マップは、飛行予定領域を含む所定領域において予測された風情報、降雨情報、降雪情報、及び発雷情報の少なくとも何れか1つの気象情報(つまり、無人航空機Pの飛行予定領域を含む所定領域における気象情報)を示すマップであり、例えば現在から所定時間先の未来にかけて、所定の単位時間ごとのマップであるとよい。かかるマップの例として、風予測マップ、降雨予測マップ、降雪予測マップ、及び発雷予測マップが挙げられる。ここで、風速及び風向き等は高度によって大きく異なることがあるため、風予測マップは、高度に応じて複数に区別されてもよい。つまり、風予測マップは、4次元的なマップ(水平2方向×高度×時間帯毎の風情報を格納した4次元配列)であってもよい。なお、気象予測マップデータは、気象観測サーバまたは気象予測サーバなどから取得することができる。
制御モデルMは、どのような機械学習モデルであってもよい。例えば、少なくとも入力層と出力層を含む複数の層から構成され、当該複数の層の重み付け係数が報酬rを用いた強化学習により更新されるニューラルネットワークであるとよい。ここで、強化学習による「更新」の例として、「最適化」がある。ただし、「最適化」とは技術用語であって、必ずしも全ての観点で最適である必要はなく、特定の観点で、より適切であればよい。例えば、より多くの報酬rが得られるように、後述する行動価値、方策、または重み付け係数等の更新が行われる。
制御モデルMの強化学習を行うための学習アルゴリズムの例として、Q-Learning、DQN(Deep Q-Network)、SARSA、A3C(Asynchronous Advantage Actor-Critic)、UNREAL(UNsupervised REinforcement and Auxiliary Learning)、Policy Gradient、TRPO(Trust Region Policy Optimization)、PPO(Proximal Policy Optimization)等があるが、特に限定されるものではない。学習アルゴリズムは、大別して、価値ベースの学習アルゴリズム(例えば、Q-Learning、DQN、SARSA等)と、方策ベースの学習アルゴリズム(例えば、Policy Gradient、TRPO、PPO等)とに分けることができるが、本実施形態にはどちらの学習アルゴリズムが適用されてもよい。
価値ベースの学習アルゴリズムは、報酬rを用いて行動価値(行動価値関数Q(s,a)、またはQ値ともいう)を更新(例えば、最適化)することにより制御モデルMの強化学習を行う方法である。これにより、最適な方策π(つまり、報酬rを最適化する方策π)を得ることができる。価値ベースの学習アルゴリズムでは、状態sとして環境情報が制御モデルMへ入力されると、制御モデルMから制御情報として行動価値関数Q(s,a)が複数出力(つまり、複数の候補が出力)される。こうして出力された複数の行動価値関数Q(s,a)の中で相対的に値の大きい(例えば、最も大きい)行動価値関数Q(s,a)に対応する制御情報に基づく行動aが選択される。
そして、選択された行動aを無人航空機Pがとった場合における行動aの結果の評価を表す報酬rが用いられて行動価値関数Q(s,a)が更新される。この場合の報酬rは、例えば、状態sから行動aをとった場合に得られる瞬時報酬と、行動aにより遷移(ある遷移確率で遷移)された状態s+1から方策πに従って例えば最適行動をとり続けていった場合に得られる遅延報酬(例えば、割引率γが考慮された遅延報酬)との和である。ここで、瞬時報酬と遅延報酬との和は、Bellman最適方程式に基づく割引報酬和として近似されるとよい。この場合、更新前の行動価値関数Q(s,a)と割引報酬和との差分(TD(Temporal Difference)誤差)が最小化されるように行動価値関数Q(s,a)が更新される。
なお、ディープニューラルネットワークでモデル化されたDQNでは、当該ニューラルネットワークから、行動価値関数Q(s,a)の近似関数Q(s,a;w)が出力される。ここで、wは当該ニューラルネットワークの複数の層の重み付け係数である。そして、近似関数Q(s,a;w)と割引報酬和との差分の2乗である誤差関数Lが確率的勾配法などで最小化されるように重み付け係数wが更新(例えば、最適化)されることで、制御モデルMの学習が行われる。
一方、方策ベースの学習アルゴリズムは、報酬rを用いて方策π(例えば、θをパラメータとする方策関数πθ(s))を更新(例えば、最適化)することにより制御モデルMの強化学習を行う方法である。方策ベースの学習アルゴリズムでは、状態sとして環境情報が制御モデルMへ入力されると、制御モデルMから制御情報として行動aまたは行動aの確率分布が出力される。そして、出力された行動a(または確率分布に基づき選択された行動a)を無人航空機Pがとった場合における行動aの結果の評価を表す報酬rが用いられて方策πが更新される。この場合の報酬rは、例えば、状態sから方策πに従って例えば最適行動をとり続けていった場合に得られる期待累積報酬J(θ)である。この場合、方策πに対して期待累積報酬J(θ)が確率的勾配法などにより最大化されるように方策πが更新される。
制御部23は、演算機能を有するプロセッサであるCPU、ROM、RAM、及び不揮発性メモリ等を備える。図7は、制御部23における機能ブロック例を示す図である。制御部23は、例えばROMまたは不揮発性メモリに記憶されたプログラム(プログラムコード群)に従って、図7に示すように、行動予測部23a、環境情報取得部23b、制御情報取得部23c、報酬特定部23d、及び学習制御部23e等として機能する。
行動予測部23aは、実無人航空機P1から時系列で提供された観測データに基づいて、実無人航空機P1の周辺環境に存在する移動物体の行動を予測し、予測された行動についての行動予測情報(つまり、移動物体の行動予測情報)を得る。或いは、この行動予測情報に代えて(または加えて)、行動予測部23aは、シミュレータLから時系列で提供された観測データに基づいて、仮想無人航空機P2の周辺環境に存在する移動物体の行動を予測し、予測された行動についての行動予測情報を得てもよい。ここで、行動予測情報は、例えば、移動物体の移動進路(軌道)及び移動速度を含む。移動物体の移動進路及び移動速度は、時系列で取得された観測データそれぞれに含まれる画像(フレーム)から検出された移動物体が追跡(例えば所定時間だけ追跡)されることで取得される。このとき、移動物体の種別(例えば、人、車両等)が特定されてもよい。なお、シミュレータLから提供される観測データに含まれる情報項目は、実無人航空機P1から提供される観測データに含まれる情報項目(例えば、位置情報、センシングデータ、姿勢データ、振動データ、バッテリ情報、気象情報、時刻情報、及び速度情報)と同一であってもよいし異なってもよい。
さらに、行動予測部23aは、観測データに含まれる画像から移動物体を検出するとともに、当該観測データに含まれる画像から地表面の属性(例えば、歩道(歩行路)、車道(道路)、線路、畑、建物、川、海など)を推定してもよい。この場合、行動予測部23aは、検出された移動物体、及び推定された地表面の属性(以下、「地表属性」という)を用いて移動物体の行動を予測する。なお、地表属性の推定には、例えば、公知の画像認識技術が用いられる。人が移動する際には車両などの障害物を避けつつできるだけ歩道を移動することが考えられる。また、車両が移動する際には交通ルールなどの社会的規範により車道のみを移動することが考えられる。つまり、移動物体の行動は、その周辺環境に依存する。そのため、移動物体の周辺環境における地表属性を用いることで、より正確に移動物体の行動を予測することができる。このような地表属性が記憶部22に記憶された地図データから特定できる場合、地表属性の推定を省略することも可能である。なお、人以外の移動物体の移動速度は、過去に推定された移動速度や車道の形状等が考慮されて予測されてもよい。このとき、車道の勾配情報が得られているのであれば、勾配情報に基づいて移動物体の移動速度が予測されてもよい。
環境情報取得部23bは、実無人航空機P1から時系列で提供された観測データと、記憶部22に記憶された気象予測マップデータとの少なくとも何れか一方のデータに基づいて、実無人航空機P1の環境Eに関する環境情報を時系列で取得する。ここで、環境情報が取得される時間間隔(つまり、取得間隔)は、一定間隔であってもよいし、不定間隔であってもよい。或いは、この環境情報に代えて(または加えて)、環境情報取得部23bは、シミュレータLから提供された観測データに基づいて、仮想無人航空機P2の環境Eに関する環境情報(つまり、仮想無人航空機P2の周辺環境における環境情報)を時系列で取得してもよい。なお、環境情報は、実無人航空機P1またはシミュレータLから提供された観測データそのものであってもよい。この場合、環境情報取得部23bは、当該環境情報として、例えば、無人航空機P(つまり、実無人航空機P1または仮想無人航空機P2)の環境Eにおける気象情報を取得する。さらに、環境情報取得部23bは、当該環境情報として、無人航空機Pの位置(または、位置及び姿勢)、無人航空機Pのバッテリの残量(または、バッテリの消費量)、移動物体の位置、不動物体の位置、及び地形を取得してもよい。さらに、当該環境情報として、現在時刻が取得されてもよい。また、当該環境情報として、無人航空機Pの飛行速度と飛行加速度との少なくとも何れか一方が取得されてもよい。
また、環境情報取得部23bは、上記観測データに基づいて、環境Eにおける地表属性を推定することで、当該地表属性を環境情報として取得してもよい。さらに、環境情報取得部23bは、環境Eにおいて予め定められた飛行禁止領域(静的な飛行禁止領域)の位置情報(換言すると、範囲情報)を環境情報として取得してもよい。例えば、所定の属性の地表や不動物体の上空が静的な飛行禁止領域に設定されてもよいし、或いは、所定の属性の地表や不動物体から所定距離(例えば30m)以内が静的な飛行禁止領域に設定されてもよい。なお、静的な飛行禁止領域の位置情報は、例えば地図データから取得されてもよい。
或いは、環境情報は、実無人航空機P1またはシミュレータLから時系列で提供された観測データと、記憶部22に記憶された気象予測マップデータとの少なくとも何れか一方のデータに加えて、行動予測部23aから取得された行動予測情報(つまり、行動予測部23aにより行動が予測された移動物体の行動予測情報)であってもよい。かかる行動予測情報を環境情報として利用することで学習効率を向上することができる。この場合、環境情報取得部23bは、当該環境情報として、例えば、無人航空機Pの環境Eにおける気象情報、環境Eにおける無人航空機Pの位置(または、位置及び姿勢)、無人航空機Pのバッテリの残量(または、バッテリの消費量)、移動物体の位置、不動物体の位置、地表属性及び地形等に加えて、移動物体の移動進路及び移動速度を取得する。なお、環境情報は、実無人航空機P1またはシミュレータLから提供された観測データと、記憶部22に記憶された気象予測マップデータとの少なくとも何れか一方のデータ(または、当該データ及び行動予測情報)が、制御情報取得部23cや報酬特定部23dにより処理され易いように変換(例えば、ファイル形式の変更、データ整形等の前処理)された情報であってもよい。
或いは、環境情報取得部23bは、実無人航空機P1またはシミュレータLから時系列で提供された観測データに基づいて、所定の情報処理を行うことにより環境情報を時系列で取得してもよい。この情報処理には、例えばSLAM(Simultaneous Localization and Mapping)処理が含まれるとよい。この場合、環境情報取得部23bは、SLAM処理において、時系列で取得される観測データに基づいて、周辺環境における無人航空機Pの位置及び姿勢を推定すると共に、周辺環境における3次元マップ(例えば、風情報等の気象情報が反映された3次元マップ)を作成する。なお、SLAMの精度を向上させるため、観測データに含まれる画像上で移動物体にマスクをかけた(つまり、観測データから移動物体の情報が除去された)上でSLAM処理が行われるとよい。さらに、環境情報取得部23bは、行動予測部23aから、移動物体の行動予測情報(つまり、周辺環境における移動物体の位置、移動進路及び移動速度)を取得する。
そして、環境情報取得部23bは、無人航空機Pの位置及び姿勢と、移動物体の行動予測情報(つまり、周辺環境における移動物体の位置、移動進路及び移動速度)とを、上記作成された3次元マップへ統合する(つまり、移動物体等の情報を反映する)ことにより環境情報を時系列で取得する。このように時系列で取得される環境情報は、連続する複数の3次元マップの画像、つまり、3次元マップの動画像により構成される。このような動画像上において、少なくとも移動物体の位置は変化する。なお、環境情報取得部23bは、上記情報処理において、観測データに基づいて、周辺環境における地表属性を推定してもよい。この場合、無人航空機Pの位置及び姿勢と、移動物体の行動予測情報とに加えて地表属性が上記作成された3次元マップへ統合されることにより環境情報が取得される。さらに、無人航空機Pの位置及び姿勢に加えて、無人航空機Pの飛行速度と飛行加速度との少なくとも何れか一方が上記作成された3次元マップへ統合されることにより環境情報が取得されてもよい。
制御情報取得部23cは、環境情報取得部23bにより取得された環境情報を状態sとして制御モデルMに入力することで、制御モデルMから出力された制御情報を取得する。ここで、環境情報は、時間経過に伴い連続的に複数回、制御モデルMへ入力(つまり、時系列で入力)される。環境情報が入力される時間間隔(つまり、入力間隔)は、一定間隔であってもよいし、不定間隔であってもよい。制御モデルMへの1回の入力において、例えば、少なくとも、無人航空機Pの位置(変数x1)、及び環境Eにおける気象情報(変数x2)が環境情報として入力される。これらに加えて、無人航空機Pの姿勢(変数x3)、無人航空機Pの筐体の振動(変数x4)、無人航空機Pのバッテリの残量(または、バッテリの消費量)(変数x5)、障害物(移動物体と不動物体の少なくとも何れか一方)の位置(変数x6)、地表属性(変数x7)、地形(変数x8)、移動物体の移動進路(変数x9)、及び移動速度(変数x10)のうち少なくとも何れか1つの情報が環境情報として入力されるように構成すれば、学習精度を高めることができる。
また、環境情報が移動物体の位置等の情報が統合された3次元マップである場合、制御モデルMへの1回の入力において、例えば、当該3次元マップの画像を構成する各ボクセルの値が入力される。なお、環境情報として入力される3次元マップは、環境Eにおける気象情報、移動物体の行動予測情報、及び地表属性が統合された3次元マップであるように構成すれば、学習精度を高めることができる。ただし、制御モデルMへの入力は、3次元マップではなく、例えば人、車両、建物、及び道路等を再現したCG(Computer Graphics)により構成されたシミュレーション画像であってもよい。学習精度を高めるためには、十分なバリエーション(車種、道路や建物の形状、色、人の頭の種類等)のシミュレーションと、それに基づく強化学習が行われることが望ましい。
そして、制御情報取得部23cは、制御モデルMから取得した制御情報を、実無人航空機P1またはシミュレータLへ通信部21を介して時系列で提供する。ここで、制御情報は、制御モデルMから出力される度に実無人航空機P1またはシミュレータLへ提供されてもよい。或いは、制御モデルMから出力される制御情報が、その出力間隔よりも長い間隔で実無人航空機P1またはシミュレータLへ提供(つまり、出力される制御情報を間引いて提供)されてもよい。
報酬特定部23dは、無人航空機Pが制御情報に基づく行動aをとった場合における当該行動aの結果の評価を表す報酬rを特定する。報酬rの特定には、例えば予め用意された報酬テーブルまたは報酬算出式が用いられるとよい。報酬テーブルは、複数の状態のそれぞれを表す状態情報に対して報酬が対応付けられたテーブルである。この報酬テーブルによれば、無人航空機Pが状態sで行動aをとった場合における遷移後の状態s+1を表す状態情報に対応付けられた報酬rが特定される。ただし、報酬テーブルは、ある状態sで行動aをとったときの当該状態sと当該行動aとの複数の組のそれぞれに対して報酬が対応付けられたテーブルであってもよい。一方、報酬算出式は、状態を表す状態情報を代入することで報酬を算出する式である。この報酬算出式によれば、無人航空機Pが状態sで行動aをとった場合における遷移後の状態s+1を表す状態情報が代入されることで報酬rが特定される。なお、上記状態情報は、例えば、制御モデルMに入力された環境情報と、当該環境情報が入力されることで制御モデルMから出力された制御情報とに基づいて特定される。
ここで、状態を表す状態情報の例として、(i)無人航空機Pの姿勢、(ii)無人航空機Pの飛行安定性、(iii)無人航空機Pの高度、(iv)無人航空機Pへの累積降水量と無人航空機Pの防水性能との関係、(v)無人航空機Pと障害物との位置関係、(vi)無人航空機Pと飛行禁止領域との位置関係、(vii)無人航空機Pのバッテリの残量、(viii)無人航空機Pの周辺環境における地表属性、(ix)無人航空機Pが所定地点に到達したか否かの状態(以下、「到達/未到達状態」という)、(x)無人航空機Pの移動状態、などが挙げられる。報酬特定部23dは、このような状態情報に応じた報酬r(つまり、状態情報に応じて異なる報酬r)を特定する。以下に、それぞれの状態情報に応じた報酬rの特定例について説明する。
(i)無人航空機Pの姿勢に応じた報酬r
この場合、報酬特定部23dは、制御モデルMに入力された環境情報と、当該環境情報が入力されることで制御モデルMから出力された制御情報とに基づいて、無人航空機Pが当該制御情報に基づく行動aをとった場合における無人航空機Pの姿勢(状態情報の一例)を特定する。つまり、行動aにより状態sから遷移した後の無人航空機Pの姿勢が特定される。無人航空機Pの姿勢は、例えば、無人航空機Pが地面と水平の状態から何度傾いたかを示す姿勢角度で特定することができる。かかる姿勢角度は、例えばロール角(左右の傾き)、またはピッチ角(前後の傾き)である。
そして、報酬特定部23dは、例えば報酬テーブルまたは報酬算出式を用いて、無人航空機Pの姿勢から報酬rを特定する。つまり、報酬特定部23dは、無人航空機Pが行動aをとった場合における無人航空機Pの姿勢に応じて異なる報酬rを特定する。例えば、無人航空機Pの姿勢角度が大きい(つまり、傾きが大きい)ほど、小さい報酬rが特定(換言すると、姿勢角度が小さいほど、大きい報酬rが特定)される。かかる報酬rにより、特に気象の影響があっても無人航空機Pの姿勢を安定に保つ飛行を当該無人航空機Pに行わせる制御情報を出力するように、制御モデルMの学習を行うことができる。
また、例えば、無人航空機Pが第1の閾値(例えば、30°)以上傾くと、転覆リスクが高まるため、負の報酬r(例えば、r=-2)が特定され、さらに、無人航空機Pが第2の閾値(例えば、45°)以上傾くと、転覆したと考えられるため、より小さい負の報酬r(例えば、r=-7)が特定されてもよい。この場合において、第1の閾値(例えば、30°)から第2の閾値(例えば、45°)の間は、姿勢角度に応じて報酬rが単調減少(報酬rの絶対値は単調増加)するように(例えば、-3,-4,-5,-6のように)設計されてもよい。なお、姿勢角度の閾値については、無人航空機Pの種類や性能に応じて適宜設計されてよい。例えば、姿勢角度10°程度を維持して移動する機体もあれば、垂直に近い姿勢角度で飛行する機体もある。
(ii)無人航空機Pの飛行安定性に応じた報酬r
この場合、報酬特定部23dは、制御モデルMに入力された環境情報と、当該環境情報が入力されることで制御モデルMから出力された制御情報とに基づいて、無人航空機Pが当該制御情報に基づく行動aをとった場合における無人航空機Pの飛行安定性(状態情報の一例)を特定する。つまり、行動aにより状態sから遷移した後の無人航空機Pの飛行安定性が特定される。無人航空機Pの飛行安定性は、無人航空機Pの振動(筐体の振動)に基づいて評価される。例えば無人航空機Pの振動が大きいほど飛行安定性は低くなる。
そして、報酬特定部23dは、例えば報酬テーブルまたは報酬算出式を用いて、無人航空機Pの飛行安定性から報酬rを特定する。つまり、報酬特定部23dは、無人航空機Pが行動aをとった場合における無人航空機Pの飛行安定性に応じて異なる報酬rを特定する。例えば、無人航空機Pの飛行安定性が低い(つまり、筐体の振動が大きい)ほど、小さい報酬r(例えば、負の報酬r)が特定(換言すると、飛行安定性が高いほど、大きい報酬rが特定)される。かかる報酬rにより、特に気象の影響があっても無人航空機Pの飛行安定性が高い飛行を当該無人航空機Pに行わせる制御情報を出力するように、制御モデルMの学習を行うことができる。なお、無人航空機Pの振動が大きいと、飛行の安定だけでなく、無人航空機P内の各種機器への悪影響も考えられ、また、無人航空機Pが貨物を運んでいる場合には貨物への悪影響(衝撃)も考えられる。このため、無人航空機Pの飛行安定性が閾値より低い場合、負の報酬rが特定されるとよい。
(iii)無人航空機Pの高度に応じた報酬r
この場合、報酬特定部23dは、制御モデルMに入力された環境情報と、当該環境情報が入力されることで制御モデルMから出力された制御情報とに基づいて、無人航空機Pが当該制御情報に基づく行動aをとった場合における無人航空機Pの高度(状態情報の一例)を特定する。つまり、行動aにより状態sから遷移した後の無人航空機Pの高度が特定される。なお、無人航空機Pの高度は、空中における無人航空機Pの位置から地面(つまり、無人航空機Pから垂直方向における地面)までの距離であるとよい。また、地面に障害物が存在する場合、無人航空機Pの位置から障害物までの距離であるとよい。これらの距離(つまり、3次元空間における距離)は、無人航空機Pが備える光学センサ13bによる非接触センシングにより得られたセンシングデータから得られる。ただし、無人航空機Pの高度は、無人航空機Pが備える気圧センサにより検出された気圧に応じた高度(つまり、標高)であってもよい。
そして、報酬特定部23dは、例えば報酬テーブルまたは報酬算出式を用いて、無人航空機Pの高度から報酬rを特定する。つまり、報酬特定部23dは、無人航空機Pが行動aをとった場合における無人航空機Pの高度に応じて異なる報酬rを特定する。例えば、無人航空機Pの高度が低いほど、小さい報酬r(例えば、負の報酬r)が特定(換言すると、高度が高いほど、大きい報酬rが特定)される。これは、高度が低すぎると障害物と接触するリスクが高くなるためである。或いは、無人航空機Pの高度が高いほど、小さい報酬r(例えば、負の報酬r)が特定されてもよい。これは、高度が高すぎると有人航空機の空域と重なるリスクが高くなるためである。かかる報酬rにより、特に気象の影響があっても無人航空機Pの安全な高度を保つ飛行を当該航空機に行わせる制御情報を出力するように、制御モデルMの学習を行うことができる。
また、報酬特定部23dは、無人航空機Pが行動aをとった場合における無人航空機Pの高度が特定の高度範囲(例えば、地上から30m〜150m)内に含まれるか否かに応じて異なる報酬rを特定してもよい。例えば、無人航空機Pの高度が特定の高度範囲内に含まれない場合、小さい報酬r(例えば、負の報酬r=-2))が特定され、当該高度範囲内に含まれる場合、大きい報酬rが特定される。これにより、特に気象の影響があっても無人航空機Pの高度を特定の高度範囲内に保つ飛行を当該無人航空機Pに行わせる制御情報を出力するように、制御モデルMの学習を行うことができる。なお、特定の高度範囲は、例えば法令等で定められた範囲である。
また、特定の高度範囲は、無人航空機Pによる上空からの非接触センシングにより得られたセンシングデータに基づいて動的に変化してもよい。例えば、センシングデータに基づいて無人航空機Pの直下及びその周辺に障害物が特定されない場合、当該高度範囲は、例えば地上から0m〜150mに設定される。一方、無人航空機Pの直下及びその周辺に障害物が特定された場合、当該高度範囲は、例えば地上から30m〜150mに設定される。ここで、当該高度範囲の下限値は、障害物の高さに応じて変更(つまり、障害物が高いほど、下限値は大きくなる)されてもよい。
(iv)無人航空機Pへの累積降水量と無人航空機Pの防水性能との関係に応じた報酬r
この場合、報酬特定部23dは、制御モデルMに入力された環境情報と、当該環境情報が入力されることで制御モデルMから出力された制御情報とに基づいて、無人航空機Pが当該制御情報に基づく行動aをとった場合における無人航空機Pへの累積降水量と無人航空機Pの防水性能に応じた閾値とを特定する。つまり、行動aにより状態sから遷移した後の無人航空機Pへの累積降水量と無人航空機Pの防水性能に応じた閾値が特定される。ここで、無人航空機Pの防水性能に応じた閾値は、例えば、無人航空機Pの型式や仕様などによって特定される。
続いて、報酬特定部23dは、上記特定された、無人航空機Pへの累積降水量と無人航空機Pの防水性能に応じた閾値とに基づいて、累積降水量と無人航空機Pの防水性能との関係(状態情報の一例)を特定する。ここで、累積降水量と無人航空機Pの防水性能との関係は、例えば、無人航空機Pへの累積降水量と、無人航空機Pの防水性能に応じた閾値との大小関係である。
そして、報酬特定部23dは、例えば報酬テーブルまたは報酬算出式を用いて、無人航空機Pへの累積降水量と、無人航空機Pの防水性能に応じた閾値との関係から報酬rを特定する。つまり、報酬特定部23dは、無人航空機Pが行動aをとった場合における無人航空機Pへの累積降水量と、無人航空機Pの防水性能に応じた閾値との関係に応じて異なる報酬rを特定する。例えば、無人航空機Pへの累積降水量が、無人航空機Pの防水性能に応じた閾値を超える場合、小さい報酬r(例えば、負の報酬r=-5)が特定される。かかる報酬rにより、特に降雨の影響があっても無人航空機Pの防水性能に支障をきたさない飛行を当該無人航空機Pに行わせる制御情報を出力するように、制御モデルMの学習を行うことができる。なお、例えば、無人航空機Pへの累積降水量が、無人航空機Pの防水性能に応じた閾値を超える場合において、当該累積降水量と当該閾値との差が大きいほど、より小さい報酬rが特定されてもよい。
(v)無人航空機Pと障害物との位置関係に応じた報酬r
この場合、報酬特定部23dは、制御モデルMに入力された環境情報と、当該環境情報が入力されることで制御モデルMから出力された制御情報とに基づいて、無人航空機Pが当該制御情報に基づく行動aをとった場合における無人航空機Pの位置と障害物(移動物体と不動物体の少なくとも何れか一方)の位置とを特定する。つまり、行動aにより状態sから遷移した後の無人航空機Pの位置と障害物の位置が特定される。
続いて、報酬特定部23dは、上記特定された、無人航空機Pの位置と障害物の位置とに基づいて、無人航空機Pと障害物との位置関係(状態情報の一例)を特定する。ここで、無人航空機Pと障害物との位置関係は、例えば、無人航空機Pと障害物との間の距離と、無人航空機Pを視点とする障害物の方向との少なくとも何れか一方を示す情報である。なお、無人航空機Pと障害物との間の距離は、高度(つまり、高さ方向)を考慮した3次元空間における距離であってもよいし、高度を無視した2次元的な距離であってもよい。同様に、無人航空機Pを視点とする障害物の方向は、高度を考慮した3次元空間における方向であってもよいし、高度を無視した2次元的な方向であってもよい。
そして、報酬特定部23dは、例えば報酬テーブルまたは報酬算出式を用いて、無人航空機Pと障害物との位置関係から報酬rを特定する。つまり、報酬特定部23dは、無人航空機Pが行動aをとった場合における無人航空機Pと障害物との位置関係に応じて異なる報酬rを特定する。例えば、無人航空機Pと障害物との間の距離が短いほど、小さい報酬rが特定(換言すると、距離が長いほど、大きい報酬rが特定)される。かかる報酬rにより、特に気象の影響による(例えば、無人航空機Pが風に流されることによる)障害物への接近または接触を避けるような飛行を無人航空機Pに行わせる制御情報を出力するように、制御モデルMの学習を行うことができる。なお、無人航空機Pと障害物との間の距離が閾値以下である場合(つまり、無人航空機Pから所定距離以内に障害物が存在する場合)、負の報酬rが特定されてもよい。また、無人航空機Pが障害物に接触する場合、最も小さい負の報酬rが特定されてもよい。
或いは、無人航空機Pを視点とする障害物の方向と無人航空機Pの進行方向(例えば目的地への方向)との角度差が小さいほど、小さい報酬rが特定(換言すると、角度差が大きいほど、大きい報酬rが特定)される。この場合、双方の方向の角度差に加えて、無人航空機Pと障害物との間の距離に応じて異なる報酬rが特定されてもよい。また、無人航空機Pを視点とする障害物の方向と無人航空機Pの進行方向との角度差が閾値以下である場合、負の報酬rが特定されてもよい。なお、無人航空機Pと障害物との位置関係は、例えば、障害物の上空に無人航空機Pが存在するか否かを示す情報であってもよい。この場合、例えば、障害物の上空に無人航空機Pが存在する場合に負の報酬rが特定されてもよい。
(vi)無人航空機Pと飛行禁止領域との位置関係に応じた報酬r
この場合、報酬特定部23dは、制御モデルMに入力された環境情報と、当該環境情報が入力されることで制御モデルMから出力された制御情報とに基づいて、無人航空機Pが当該制御情報に基づく行動aをとった場合における無人航空機Pの位置と飛行禁止領域の範囲とを特定する。つまり、行動aにより状態sから遷移した後の無人航空機Pの位置と飛行禁止領域の範囲が特定される。ここで、飛行禁止領域の例として、予め定められた静的な飛行禁止領域と、移動物体の移動に応じて設定される動的な飛行禁止領域とがある。後者の場合、移動物体の上空が動的な飛行禁止領域に設定されてもよいし、或いは、移動物体から所定距離(例えば30m)以内が動的な飛行禁止領域に設定されてもよい。
続いて、報酬特定部23dは、上記特定された、無人航空機Pの位置と飛行禁止領域の範囲とに基づいて、無人航空機Pと飛行禁止領域との位置関係(状態情報の一例)を特定する。ここで、無人航空機Pと飛行禁止領域との位置関係は、例えば、無人航空機Pと飛行禁止領域との間の距離と、無人航空機Pを視点とする飛行禁止領域の方向との少なくとも何れか一方を示す情報である。なお、無人航空機Pと飛行禁止領域との間の距離は、高度を考慮した3次元空間における距離であってもよいし、高度を無視した2次元的な距離であってもよい。同様に、無人航空機Pを視点とする飛行禁止領域の方向は、高度を考慮した3次元空間における方向であってもよいし、高度を無視した2次元的な方向であってもよい。
そして、報酬特定部23dは、例えば報酬テーブルまたは報酬算出式を用いて、無人航空機Pと飛行禁止領域との位置関係から報酬rを特定する。つまり、報酬特定部23dは、無人航空機Pが行動aをとった場合における無人航空機Pと飛行禁止領域との位置関係に応じて異なる報酬rを特定する。例えば、無人航空機Pと飛行禁止領域との間の距離が短いほど、小さい報酬rが特定される。かかる報酬rにより、特に気象の影響、例えば、無人航空機Pが風に流されることによる飛行禁止領域への接近または侵入を避けるような飛行を無人航空機Pに行わせる制御情報を出力するように、制御モデルMの学習を行うことができる。なお、無人航空機Pと飛行禁止領域との間の距離が閾値以下である場合、負の報酬rが特定されてもよい。また、無人航空機Pが飛行禁止領域に侵入する場合、負の報酬rが特定されてもよい。
或いは、無人航空機Pを視点とする飛行禁止領域の方向と無人航空機Pの進行方向(例えば目的地への方向)との角度差が小さいほど、小さい報酬rが特定される。この場合、双方の方向の角度差に加えて、無人航空機Pと飛行禁止領域との間の距離に応じて異なる報酬rが特定されてもよい。また、無人航空機Pを視点とする飛行禁止領域の方向と無人航空機Pの進行方向との角度差が閾値以下である場合、負の報酬rが特定されてもよい。なお、無人航空機Pと飛行禁止領域との位置関係は、例えば、無人航空機Pが飛行禁止領域に滞在するか否かを示す情報であってもよい。この場合、例えば、無人航空機Pが飛行禁止領域に滞在する場合に負の報酬rが特定されてもよい。
また、報酬特定部23dは、無人航空機Pが動的な飛行禁止領域に滞在する場合の報酬rを、無人航空機Pが静的な飛行禁止領域に滞在する場合の報酬rと同一になるように特定してもよいし、異なるように特定してもよい。後者の場合、例えば、無人航空機Pが動的な飛行禁止領域に滞在する場合の報酬rは、無人航空機Pが静的な飛行禁止領域に滞在する場合の報酬rよりも小さくなるように特定されるとよい。
(vii)無人航空機Pのバッテリの残量に応じた報酬r
この場合、報酬特定部23dは、制御モデルMに入力された環境情報と、当該環境情報が入力されることで制御モデルMから出力された制御情報とに基づいて、無人航空機Pが当該制御情報に基づく行動aをとった場合における無人航空機Pのバッテリの残量(状態情報の一例)を特定する。つまり、行動aにより状態sから遷移した後の無人航空機Pのバッテリの残量が特定される。なお、無人航空機Pのバッテリの残量の代わりに、バッテリの消費量が特定されてもよい。
そして、報酬特定部23dは、例えば報酬テーブルまたは報酬算出式を用いて、バッテリの残量(または、バッテリの消費量)から報酬rを特定する。つまり、報酬特定部23dは、無人航空機Pが行動aをとった場合におけるバッテリの残量(または、バッテリの消費量)に応じて異なる報酬rを特定する。例えば、バッテリの残量が少ないほど(または、バッテリの消費量が多いほど)、小さい報酬rが特定される。かかる報酬rにより、特に気象の影響があってもバッテリの残量が多くなるような(または、バッテリの消費量が少なくなるような)飛行を無人航空機Pに行わせる制御情報を出力するように、制御モデルMの学習を行うことができる。なお、バッテリの残量が閾値以下(または、バッテリの消費量が閾値以上)である場合、負の報酬rが特定されてもよい。
(viii)無人航空機Pの環境Eにおける地表属性に応じた報酬r
この場合、報酬特定部23dは、制御モデルMに入力された環境情報と、当該環境情報が入力されることで制御モデルMから出力された制御情報とに基づいて、無人航空機Pが当該制御情報に基づく行動aをとった場合における無人航空機Pの環境Eにおける地表属性(状態情報の一例)を特定する。つまり、行動aにより状態sから遷移した後の無人航空機Pの環境Eにおける地表属性が特定される。
そして、報酬特定部23dは、例えば報酬テーブルまたは報酬算出式を用いて、無人航空機Pの環境Eにおける地表属性から報酬rを特定する。つまり、報酬特定部23dは、無人航空機Pが行動aをとった場合における無人航空機Pの環境Eにおける地表属性に応じて異なる報酬rを特定する。ここで、無人航空機Pの環境Eにおける地表属性とは、無人航空機Pの水平方向の位置を含む特定領域における地表属性であるとよい。
例えば、道路や線路等の地表属性は、移動物体が通行する蓋然性が他の地表属性よりも高いため、道路や線路の上空または道路や線路から所定距離以内の特定領域上の飛行は推奨されない。しかし、目的地によっては当該特定領域上を飛行することが避けられない場合もある。そこで、当該特定領域が飛行非推奨領域として動的に設定されるとよい。そして、当該飛行非推奨領域に無人航空機Pが滞在する場合に負の報酬rが特定されるとよい。ただし、飛行非推奨領域に無人航空機Pが滞在する場合の報酬r(例えば、r=-1)は、飛行禁止領域に無人航空機Pが滞在する場合の報酬r(例えば、r=-5)よりも大きいことが望ましい。かかる報酬rにより、特に気象の影響があっても地表属性に応じた飛行(例えば、飛行非推奨領域をできるだけ減らすような飛行)を無人航空機Pに行わせる制御情報を出力するように、制御モデルMの学習を行うことができる。
(ix)無人航空機Pの到達/未到達状態に応じた報酬r
この場合、報酬特定部23dは、制御モデルMに入力された環境情報と、当該環境情報が入力されることで制御モデルMから出力された制御情報とに基づいて、無人航空機Pが当該制御情報に基づく行動aをとった場合における無人航空機Pが所定地点に到達したか否かの到達/未到達状態(状態情報の一例)を特定する。つまり、行動aにより状態sから遷移した後の無人航空機Pの到達/未到達状態が特定される。なお、所定地点の位置は、例えば、上述した飛行計画から取得することができる。
そして、報酬特定部23dは、例えば報酬テーブルまたは報酬算出式を用いて、無人航空機Pの到達/未到達状態から報酬rを特定する。つまり、報酬特定部23dは、無人航空機Pが行動aをとった場合において無人航空機Pが所定地点に到達したか否かに応じて異なる報酬rを特定する。例えば、無人航空機Pが所定地点に到達した場合に正の報酬r(例えば、r=100)が特定される。一方、無人航空機Pが所定地点に到達していない場合にゼロの報酬r(例えば、r=0)が特定されるとよい。これにより、所定地点に適切に到達するような飛行を無人航空機Pに行わせる制御情報を出力するように、制御モデルMの学習を行うことができる。
さらに、報酬特定部23dは、無人航空機Pが行動aをとった場合において無人航空機Pが所定地点に到達した場合における所要飛行時間とバッテリの消費量との少なくとも何れか一方に応じて異なる報酬rを特定してもよい。例えば、所要飛行時間とバッテリの消費量との双方に応じた報酬rは、下記(1)式により特定することができる。
r=X-f(t)-g(b)・・・(1)
ここで、Xは、所定地点(例えば、目的地)へ到達(到着)した場合の基準報酬であり、予め定められた正の値(例えば、+100点)である。f(t)は、所要飛行時間tの関数である。所要飛行時間tは、無人航空機Pの飛行開始から所定地点に到達するまでに要する時間であり、環境情報に含まれる現在時刻に基づいて算出することができる。f(t)は、例えば、所要飛行時間tが長いほど、大きい値を出力するような単調増加関数である。これにより、所要飛行時間tが短いほど、大きい報酬rが特定される。かかる報酬rにより、特に気象の影響があっても所要飛行時間tをできるだけ短くするような飛行を無人航空機Pに行わせる制御情報を出力するように、制御モデルMの学習を行うことができる。
或いは、f(t)は、所要飛行時間tと目標所要時間(予定飛行時間)との差分が大きいほど、大きい値を出力するような関数であってもよい。これにより、目標所要時間通りに飛行した方が、より大きい報酬rが特定される。かかる報酬rにより、特に気象の影響があっても所要飛行時間tをできるだけ目標所要時間に近づけるような飛行を無人航空機Pに行わせる制御情報を出力するように、制御モデルMの学習を行うことができる。なお、目標所要時間は、例えば、上述した飛行計画から取得することができる。
また、g(b)は、バッテリの消費量bの関数である。g(b)は、例えば、バッテリの消費量bが大きいほど、大きい値を出力するような単調増加関数である。これにより、バッテリの消費量bが少ないほど、大きい報酬rが特定される。かかる報酬rにより、特に気象の影響があってもバッテリの消費量bをできるだけ減らすような飛行を無人航空機Pに行わせる制御情報を出力するように、制御モデルMの学習を行うことができる。なお、g(b)は、バッテリの消費量bが所定の閾値以下である間は所定の値を出力し、バッテリの消費量bが所定の閾値を越えると、バッテリの消費量bに応じて単調増加(狭義の単調増加)する関数であってもよい。
或いは、g(b)は、バッテリの消費量bが所定の閾値以下である間は第1の値を出力し、バッテリの消費量bが所定の閾値を超えると第1の値より大きな第2の値を出力するような関数であってもよい。例えば、所定の閾値が無人航空機Pに搭載されたバッテリの最大容量と同一に設定され、第2の値が非常に大きな値(例えば、基準報酬X以上の値または無限大等)に設定される。かかる報酬rにより、特に気象の影響があってもバッテリの消費量bがバッテリの最大容量を超えないような飛行を無人航空機Pに行わせる制御情報を出力するように、制御モデルMの学習を行うことができる。
(x)無人航空機Pの移動状態に応じた報酬r
この場合、報酬特定部23dは、制御モデルMに入力された環境情報と、当該環境情報が入力されることで制御モデルMから出力された制御情報とに基づいて、無人航空機Pが当該制御情報に基づく行動aをとった場合における無人航空機Pの移動状態(状態情報の一例)を特定する。つまり、行動aにより状態sから遷移した後の無人航空機Pの移動状態が特定される。ここで、無人航空機Pの移動状態の例として、飛行状態(移動中の状態)、及び一時停止状態等が挙げられる。飛行状態は、さらに、等速移動中、加速中、または減速中の状態に区別することができる。これらの飛行状態は、環境情報に含まれる飛行速度または飛行加速度に基づいて特定することができる。また、一時停止状態は、さらに、ホバリング状態、または着陸状態(着陸中の状態)に区別することができる。着陸状態は、環境情報に含まれる高度に基づいて特定することができる。
そして、報酬特定部23dは、例えば報酬テーブルまたは報酬算出式を用いて、無人航空機Pの移動状態から報酬rを特定する。つまり、報酬特定部23dは、無人航空機Pが行動aをとった場合における無人航空機Pの移動状態に応じて異なる報酬rを特定する。例えば、無人航空機Pがホバリング状態の場合に負の報酬r(例えば、r=-2)が特定されるとよい。これは、無人航空機Pがホバリングすると、所要飛行時間やバッテリの消費量の観点で効率的でないからであり、特に気象の影響を受けると非効率的となる。かかる報酬rにより、特に気象の影響があっても所要飛行時間やバッテリの消費量の観点で、より効率的な飛行を無人航空機Pに行わせる制御情報を出力するように、制御モデルMの学習を行うことができる。ただし、無人航空機Pが飛行禁止領域に滞在しておらず、かつ、ホバリング状態の場合に特定される報酬rは、無人航空機Pが飛行禁止領域に滞在する場合の報酬r(例えば、r=-5)よりも大きいことが望ましい。
なお、上述した(i)〜(x)の報酬rは、全てが用いられなくてもよい。例えば、(v)や(viii)などの報酬rが用いられなくても、(i)、(ii)、(ii)、(vii)などの報酬rが用いられれば、相当程度同様の効果を得ることは可能と考えられる。しかし、(v)や(viii)の報酬rを用いることで、学習効率が上がり、学習回数を減らす効果が期待できる。また、(i)〜(x)の報酬rのうち複数が用いられる場合、最終的な報酬は(i)〜(x)ごとに計算された報酬rの合計値であってもよいし、いずれか最も大きな報酬r(または最も小さな報酬r)であってもよい。
学習制御部23eは、報酬特定部23dにより特定された報酬rを用いて制御モデルMの強化学習を制御する。すなわち、学習制御部23eは、報酬特定部23dにより特定された報酬rに基づいて、より大きな報酬rが得られる制御情報を出力するように、制御モデルMを更新する。このような更新が繰り返されることで、学習済の制御モデルMが得られる。例えば、価値ベースの学習アルゴリズムを利用した強化学習の場合、報酬rに基づいて行動価値関数Q(s,a)が更新されていきTD誤差が最小化(例えば、0に収束)されることで、学習済の制御モデルMが得られる。また、制御モデルMがニューラルネットワークにより構成される場合、当該ニューラルネットワークの複数の層の重み付け係数wが更新されていき誤差関数Lが最小化されることで、学習済の制御モデルMが得られる。一方、方策ベースの学習アルゴリズムを利用した強化学習の場合、報酬rに基づいてように方策πが更新されていき期待累積報酬J(θ)が最大化されることで、学習済の制御モデルMが得られる。なお、学習制御部23eにより制御される強化学習については、周知の強化学習手法を適用することが可能であり、強化学習手法に応じた方法で重み付け係数の更新(例えば、最適化)が行われてもよい。
上述したように、学習システムSY1は、実無人航空機P1とシミュレータLのうち少なくとも一方を含めばよい。学習システムSY1に実無人航空機P1のみが含まれる場合、学習装置Dは、実無人航空機P1から提供された観測データに基づいて強化学習を行いながら、実無人航空機P1に制御情報を提供する。実無人航空機P1を用いた強化学習によれば、より実運用に近い環境(実空間)で学習を行うことが可能であり、より高効率な制御が可能な制御モデルMを得られることが期待される。一方、学習システムSY1にシミュレータLのみが含まれる場合、学習装置Dは、シミュレータLから提供された観測データに基づいて強化学習を行いながら、シミュレータLに制御情報を提供する。シミュレータLを用いた強化学習によれば、実無人航空機P1を用いる必要がないため、より安全かつ低コストに様々なパターンの学習を行うことができる。そのため、実無人航空機P1及びシミュレータLの両方を利用可能な場合、例えば先にシミュレータLを用いてある程度強化学習させた制御モデルMを、さらに実無人航空機P1を用いて強化学習させてもよい。このような順番で学習を行うことで、安全性や学習効率と、高効率な飛行制御とを両立しうる。
5.学習装置Dの動作
次に、図8を参照して、学習装置Dの動作について説明する。図8(A)は、実無人航空機P1の処理の一例を示すフローチャートである。図8(B)は、学習装置Dの処理の一例を示すフローチャートである。なお、図8(A)に示す処理は、シミュレータLにも適用することができる。
図8(A)に示す処理は、実無人航空機P1が出発地から出発する際に開始される。図8(A)に示す処理が開始されると、制御部14は、センサ部14から、位置情報、センシングデータ、姿勢データ、振動データ、及びバッテリ情報を取得する(ステップS1)。次いで、制御部14は、ステップS1で取得された位置情報、センシングデータ、姿勢データ、振動データ、及びバッテリ情報の全部または一部を含む観測データを、通信部11を介して学習装置Dへ送信する(ステップS2)。これに応じて学習装置Dから送信された制御情報が通信部11を介して受信されると(ステップS3)、制御部14は、当該制御情報に基づいて実無人航空機P1の飛行制御を行う(ステップS4)。
次いで、制御部14は、実無人航空機P1が目的地に到着したか否かを判定する(ステップS5)。実無人航空機P1が目的地に到着していないと判定された場合(ステップS5:NO)、処理はステップS1に戻る。一方、実無人航空機P1が目的地に到着したと判定された場合(ステップS5:YES)、図8(A)に示す処理は終了する。
一方、学習装置Dは、実無人航空機P1からの観測データを受信すると、図8(B)に示す処理を開始する。図8(B)に示す処理が開始されると、制御部23は、環境情報取得部23bにより環境情報取得処理を実行する(ステップS11)。環境情報取得処理は、受信された観測データに基づいて実無人航空機P1の環境Eに関する環境情報を取得するための処理である。
環境情報取得処理において、環境情報の取得のために今回受信された観測データのみが用いられてもよい。或いは、環境情報の取得のために今回受信された観測データとともに前回以前に受信された1以上の観測データが用いられてもよい。環境情報の取得のために必要な数の観測データが受信されていない場合、図8(B)に示す処理が終了してもよい。また、環境情報取得処理において、上述したように、行動予測部23aにより実無人航空機P1の環境Eに存在する移動物体の行動が予測されてもよい。この場合、今回受信された観測データを含む1以上の観測データとともに、移動物体の行動についての行動予測情報が、環境情報として取得される。
或いは、環境情報取得処理において、今回受信された観測データとともに前回以前に受信された1以上の観測データが用いられてSLAM処理が実行されることで環境Eの3次元マップが環境情報として作成されてもよい。環境情報として作成される3次元マップには、上述したように、実無人航空機P1の位置及び姿勢と、環境Eにおける移動物体の位置、移動進路及び移動速度とが統合されるとよい。さらに、環境情報として作成される3次元マップには、環境Eにおける地表属性が統合されるとよい。
次いで、制御部23は、記憶部22から制御モデルMを読み出し、読み出した制御モデルMに、ステップS11で取得された環境情報を状態sとして入力し(ステップS12)、制御モデルMを構成する関数に基づく演算を行う(ステップS13)。次いで、制御部23は、制御モデルMから出力された制御情報を取得する(ステップS14)。次いで、制御部23は、ステップS14で取得された制御情報を、通信部21を介して実無人航空機P1へ送信する(ステップS15)。こうして送信された制御情報は、図8(A)に示すステップS3で受信される。
次いで、制御部23は、ステップS12で制御モデルMに入力された環境情報と、当該環境情報が入力されることで制御モデルMから出力された制御情報とに基づいて、上述した状態情報を特定する(ステップS16)。次いで、制御部23は、ステップS16で特定された状態情報に応じた報酬r(例えば、上述した(i)〜(x)の報酬rのうち何れか1つ以上)を報酬特定部23dにより特定する(ステップS17)。
次いで、制御部23は、ステップS17で特定された報酬rに基づいて、より大きな報酬rが得られる制御情報を出力するように、制御モデルMを学習制御部23eにより更新し(ステップS18)、図8(B)に示す処理を終了する。このように、図8(B)に示す処理が実無人航空機P1から観測データが受信される度に行われ、強化学習が行われることにより、最終的に学習済の制御モデルMが得られる。
6.飛行制御システムSY2の構成及び機能概要
次に、図9を参照して、本実施形態の飛行制御システムSY2の構成及び機能概要について説明する。図9は、本実施形態の飛行制御システムSY2の概要構成例を示す図である。上述したように、学習システムSY1による強化学習で得られた学習済の制御モデルMが利用されることで、特に気象の影響があっても所要飛行時間やバッテリの消費量等の観点で効率的に飛行するよう、実無人航空機P1の飛行制御を行うことが可能となる。飛行制御システムSY2は、図9に示すように、無人航空機Pxと、情報処理装置Dxとを含む。無人航空機Pxと情報処理装置Dxとは、図示しない通信ネットワークを介して通信可能になっている。
無人航空機Pxは、図9に示すように、センサ部51及び制御部52を備える。なお、無人航空機Pxは、図4に示す実無人航空機P1と同一の構成であってもよい。すなわち、センサ部51及び制御部52は、それぞれ、図4に示すセンサ部13及び制御部14に対応する。また、図9には示さないが、無人航空機Pxは、図4に示す通信部11及び駆動部12を備える。無人航空機Pxの制御部52(飛行制御部)は、通信部11を介して情報処理装置Dxから受信された制御情報に基づいて無人航空機Pxの飛行制御を行う。
情報処理装置Dxは、図9に示すように、環境情報取得部61、制御情報取得部62、及び記憶部63を備える。記憶部63は、上述した報酬rを用いた強化学習を行うことで得られた学習済の制御モデルMを記憶する。環境情報取得部61及び制御情報取得部62は、それぞれ、図7に示す環境情報取得部23b及び制御情報取得部23cに対応する。すなわち、環境情報取得部61は、無人航空機Pxから時系列で提供された観測データに基づいて、無人航空機Pxの環境Eに関する環境情報を時系列で取得する。制御情報取得部62は、記憶部63から学習済の制御モデルMを読み出し、読み出した制御モデルMに、環境情報取得部61により取得された環境情報を状態sとして入力することで、学習済の制御モデルMから出力された制御情報を取得する。
飛行制御システムSY2においては、学習済の制御モデルMを用いることにより無人航空機Pxの高効率な飛行制御を実現するこができる。なお、制御部52は、情報処理装置Dxに備えられてもよい。また、無人航空機Pxと情報処理装置Dxとは一体の装置であってもよい。
以上説明したように、上記実施形態によれば、学習システムSY1は、無人航空機Pの周辺環境と無人航空機Pの飛行予定領域の環境との少なくとも何れか一方の環境における気象情報を含む環境情報を制御モデルMへ入力することで制御モデルMから出力された制御情報を取得し、無人航空機Pが当該制御情報に基づく行動をとった場合における当該行動の結果の評価を表す報酬rを用いて制御モデルMの強化学習を行うように構成したので、無人で飛行可能な航空機の周辺環境等における気象の影響を低減する柔軟な飛行制御を行うための制御情報を得ることができる。特に、無人航空機Pが行動aをとった場合における無人航空機Pの姿勢、飛行安定性、または高度等に応じて異なる報酬rが特定されるように構成したので、気象の影響があっても無人航空機Pの安定性や飛行高度など、安全を十分に確保する飛行を当該無人航空機Pに行わせる制御情報を出力するように、制御モデルMの学習を行うことができる。
なお、上記実施形態は本発明の一実施形態であり、本発明は上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲で上記実施形態から種々構成等に変更を加えてもよく、その場合も本発明の技術的範囲に含まれる。例えば、上記実施形態においては、無人航空機Pの周辺環境と無人航空機Pの飛行予定領域の環境との少なくとも何れか一方の環境における気象情報を含む環境情報を制御モデルMへ入力する構成について説明したが、制御モデルMへ入力される環境情報に、無人航空機Pの周辺環境及び無人航空機Pの飛行予定領域の環境における気象情報が含まれない構成も考えられる。かかる場合の学習装置Dにおいても、上記実施形態と同様に(i)〜(x)の報酬rを特定すれば、気象等の考慮しない状況下においても無人航空機Pの安定性や飛行高度など、安全を十分に確保する飛行を当該無人航空機Pに行わせる制御情報を出力するように、制御モデルMの学習を行うことができる。これにより、例えば、無人航空機Pの周辺環境または無人航空機Pの飛行予定領域の環境における粉塵や火山灰等、或いは未知の要素の影響を受けて飛行する場合に消費電力が大きくなったり、飛行が不安定になったりすることなどの課題を解決し、これらの影響を低減する柔軟な飛行制御を行うための制御情報を得ることが可能となる。また、上記実施形態においては、無人で飛行可能な航空機として無人航空機Pを例にとって説明したが、無人で飛行可能な航空機は、機内に操縦者(パイロット)が存在しなくても飛行することができる有人航空機に対しても適用可能である。
11 通信部
12 駆動部
13 センサ部
13a 測位センサ
13b 光学センサ
13c 姿勢センサ
13d バッテリセンサ
13e 気象センサ
14 制御部
14a 環境情報提供部
14b 制御情報取得部
14c 飛行制御部
21 通信部
22 記憶部
23 制御部
23a 行動予測部
23b 環境情報取得部
23c 制御情報取得部
23d 報酬特定部、
23e 学習制御部
51 センサ部
52 制御部
61 環境情報提供部
62 制御情報取得部
63 記憶部
P,Px 無人航空機
P1 実無人航空機
P2 仮想無人航空機
L シミュレータ
D 学習装置
Dx 情報処理装置
SY1 学習システム
SY2 飛行制御システム

Claims (26)

  1. 無人で飛行可能な航空機の飛行制御を行うための制御情報を出力する制御モデルの強化学習を行う学習装置であって、
    前記航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報を取得する環境情報取得部と、
    前記環境情報を前記制御モデルへ入力することで前記制御モデルから出力された前記制御情報を取得する制御情報取得部と、
    前記航空機が前記制御情報に基づく行動をとった場合における当該行動の結果の評価を表す報酬を特定する報酬特定部と、
    前記報酬特定部により特定された前記報酬を用いて前記制御モデルの強化学習を制御する学習制御部と、
    を備え
    前記報酬特定部は、前記航空機が前記行動をとった場合における当該航空機への累積降水量と当該航空機の防水性能に応じた閾値との関係に応じて異なる前記報酬を特定することを特徴とする学習装置。
  2. 無人で飛行可能な航空機の飛行制御を行うための制御情報を出力する制御モデルの強化学習を行う学習装置であって、
    前記航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報を取得する環境情報取得部と、
    前記環境情報を前記制御モデルへ入力することで前記制御モデルから出力された前記制御情報を取得する制御情報取得部と、
    前記航空機が前記制御情報に基づく行動をとった場合における当該行動の結果の評価を表す報酬を特定する報酬特定部と、
    前記報酬特定部により特定された前記報酬を用いて前記制御モデルの強化学習を制御する学習制御部と、
    を備え、
    前記報酬特定部は、前記航空機が前記行動をとった場合における前記航空機のバッテリの残量または前記バッテリの消費量に応じて異なる前記報酬を特定することを特徴とする学習装置。
  3. 無人で飛行可能な航空機の飛行制御を行うための制御情報を出力する制御モデルの強化学習を行う学習装置であって、
    前記航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報を取得する環境情報取得部と、
    前記環境情報を前記制御モデルへ入力することで前記制御モデルから出力された前記制御情報を取得する制御情報取得部と、
    前記航空機が前記制御情報に基づく行動をとった場合における当該行動の結果の評価を表す報酬を特定する報酬特定部と、
    前記報酬特定部により特定された前記報酬を用いて前記制御モデルの強化学習を制御する学習制御部と、
    を備え、
    前記報酬特定部は、前記航空機が前記行動をとった場合における前記航空機の周辺環境における地表属性に応じて異なる前記報酬を特定することを特徴とする学習装置。
  4. 無人で飛行可能な航空機の飛行制御を行うための制御情報を出力する制御モデルの強化学習を行う学習装置であって、
    前記航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報を取得する環境情報取得部と、
    前記環境情報を前記制御モデルへ入力することで前記制御モデルから出力された前記制御情報を取得する制御情報取得部と、
    前記航空機が前記制御情報に基づく行動をとった場合における当該行動の結果の評価を表す報酬を特定する報酬特定部と、
    前記報酬特定部により特定された前記報酬を用いて前記制御モデルの強化学習を制御する学習制御部と、
    を備え、
    前記報酬特定部は、前記航空機が前記行動をとった場合における前記航空機の移動状態に応じて異なる前記報酬を特定する学習装置。
  5. 無人で飛行可能な航空機の飛行制御を行うための制御情報を出力する制御モデルの強化学習を行う学習装置であって、
    前記航空機の周辺環境において時系列で位置が変化する移動物体の行動を予測する行動予測部と、
    前記航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報であって、前記行動予測部により行動が予測された前記移動物体の行動予測情報を含む前記環境情報を取得する環境情報取得部と、
    前記移動物体の行動予測情報を含む前記環境情報を前記制御モデルへ入力することで前記制御モデルから出力された前記制御情報を取得する制御情報取得部と、
    前記航空機が前記制御情報に基づく行動をとった場合における当該行動の結果の評価を表す報酬を特定する報酬特定部と、
    前記報酬特定部により特定された前記報酬を用いて前記制御モデルの強化学習を制御する学習制御部と、
    を備えることを特徴とする学習装置。
  6. 前記報酬特定部は、前記航空機が前記行動をとった場合における当該航空機と前記移動物体との位置関係に応じて異なる前記報酬を特定することを特徴とする請求項5に記載の学習装置。
  7. 前記報酬特定部は、前記航空機が前記行動をとった場合における当該航空機の姿勢に応じて異なる前記報酬を特定することを特徴とする請求項1乃至6の何れか一項に記載の学習装置。
  8. 前記報酬特定部は、前記航空機が前記行動をとった場合における当該航空機の飛行安定性に応じて異なる前記報酬を特定することを特徴とする請求項1乃至7の何れか一項に記載の学習装置。
  9. 前記飛行安定性は、前記航空機の振動に基づいて評価されることを特徴とする請求項に記載の学習装置。
  10. 前記報酬特定部は、前記航空機が前記行動をとった場合における当該航空機の高度に応じて異なる前記報酬を特定することを特徴とする請求項1乃至の何れか一項に記載の学習装置。
  11. 前記報酬特定部は、前記航空機が前記行動をとった場合における当該航空機の高度が特定の高度範囲内に含まれるか否かに応じて異なる前記報酬を特定することを特徴とする請求項1乃至10の何れか一項に記載の学習装置。
  12. 前記高度範囲は、前記航空機による上空からの非接触センシングにより得られたセンシングデータに基づいて動的に変化することを特徴とする請求項11に記載の学習装置。
  13. 前記環境情報取得部は、前記航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境における気象情報を含む環境情報を取得することを特徴とする請求項1乃至12の何れか一項に記載の学習装置。
  14. 前記気象情報は、風に関する風情報を含むことを特徴とする請求項1乃至13の何れか一項に記載の学習装置。
  15. 前記風情報は、風速、風向き、風の有無、強風の有無、台風、および竜巻のうち少なくともいずれか一つに関する情報を含むことを特徴とする請求項14に記載の学習装置。
  16. 無人で飛行可能な航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報を入力とし、前記航空機の飛行制御を行うための制御情報を出力とする学習済の制御モデルであって、前記制御情報に基づく行動を前記航空機がとった場合における当該航空機の行動の結果の評価を表す報酬を用いた強化学習を行うことで得られた制御モデルを記憶する記憶部と、
    前記気象情報を含む環境情報を前記制御モデルへ入力することで前記制御モデルから出力された前記制御情報を取得する制御情報取得部と、
    を備え
    前記報酬は、前記航空機が前記行動をとった場合における当該航空機への累積降水量と当該航空機の防水性能に応じた閾値との関係に応じて異なることを特徴とする情報処理装置。
  17. 無人で飛行可能な航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報を入力とし、前記航空機の飛行制御を行うための制御情報を出力とする学習済の制御モデルであって、前記制御情報に基づく行動を前記航空機がとった場合における当該航空機の行動の結果の評価を表す報酬を用いた強化学習を行うことで得られた制御モデルを記憶する記憶部と、
    前記気象情報を含む環境情報を前記制御モデルへ入力することで前記制御モデルから出力された前記制御情報を取得する制御情報取得部と、
    を備え、
    前記報酬は、前記航空機が前記行動をとった場合における前記航空機のバッテリの残量または前記バッテリの消費量に応じて異なることを特徴とする情報処理装置。
  18. 無人で飛行可能な航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報を入力とし、前記航空機の飛行制御を行うための制御情報を出力とする学習済の制御モデルであって、前記制御情報に基づく行動を前記航空機がとった場合における当該航空機の行動の結果の評価を表す報酬を用いた強化学習を行うことで得られた制御モデルを記憶する記憶部と、
    前記気象情報を含む環境情報を前記制御モデルへ入力することで前記制御モデルから出力された前記制御情報を取得する制御情報取得部と、
    を備え、
    前記報酬は、前記航空機が前記行動をとった場合における前記航空機の周辺環境における地表属性に応じて異なることを特徴とする情報処理装置。
  19. 無人で飛行可能な航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報を入力とし、前記航空機の飛行制御を行うための制御情報を出力とする学習済の制御モデルであって、前記制御情報に基づく行動を前記航空機がとった場合における当該航空機の行動の結果の評価を表す報酬を用いた強化学習を行うことで得られた制御モデルを記憶する記憶部と、
    前記気象情報を含む環境情報を前記制御モデルへ入力することで前記制御モデルから出力された前記制御情報を取得する制御情報取得部と、
    を備え、
    前記報酬は、前記航空機が前記行動をとった場合における前記航空機の移動状態に応じて異なることを特徴とする情報処理装置。
  20. 無人で飛行可能な航空機の周辺環境において時系列で位置が変化する移動物体の行動を予測する行動予測部と、
    前記航空機の周辺環境に関する環境情報であって、前記行動予測部により行動が予測された前記移動物体の行動予測情報を含む前記環境情報を取得する環境情報取得部と、
    前記環境情報取得部により取得された環境情報を入力とし、前記航空機の飛行制御を行うための制御情報を出力とする学習済の制御モデルであって、前記制御情報に基づく行動を前記航空機がとった場合における当該航空機の行動の結果の評価を表す報酬を用いた強化学習を行うことで得られた制御モデルを記憶する記憶部と、
    前記環境情報取得部により取得された環境情報を前記制御モデルへ入力することで前記制御モデルから出力された前記制御情報を取得する制御情報取得部と、
    を備えることを特徴とする情報処理装置。
  21. 前記制御情報に基づいて、前記航空機の飛行制御を行う飛行制御部を更に備えることを特徴とする請求項16乃至20の何れか一項に記載の情報処理装置。
  22. 無人で飛行可能な航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報に基づいて、前記航空機の飛行制御を行うための制御情報を出力するよう、コンピュータを機能させるための学習済の制御モデルであって、
    前記環境情報は、前記制御モデルへ時系列で入力され、
    前記制御モデルは、前記制御モデルから出力された前記制御情報に基づく前記行動を前記航空機がとった場合における当該航空機の行動の結果の評価を表す報酬を用いて強化学習され、
    前記報酬は、前記航空機が前記行動をとった場合における当該航空機への累積降水量と当該航空機の防水性能に応じた閾値との関係に応じて異なり、
    前記入力された前記環境情報に対し、前記制御モデルを構成する関数に基づく演算を行い、前記制御モデルから前記制御情報を出力するよう、コンピュータを機能させるための学習済の制御モデル。
  23. 無人で飛行可能な航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報に基づいて、前記航空機の飛行制御を行うための制御情報を出力するよう、コンピュータを機能させるための学習済の制御モデルであって、
    前記環境情報は、前記制御モデルへ時系列で入力され、
    前記制御モデルは、前記制御モデルから出力された前記制御情報に基づく前記行動を前記航空機がとった場合における当該航空機の行動の結果の評価を表す報酬を用いて強化学習され、
    前記報酬は、前記航空機が前記行動をとった場合における前記航空機のバッテリの残量または前記バッテリの消費量に応じて異なり、
    前記入力された前記環境情報に対し、前記制御モデルを構成する関数に基づく演算を行い、前記制御モデルから前記制御情報を出力するよう、コンピュータを機能させるための学習済の制御モデル。
  24. 無人で飛行可能な航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報に基づいて、前記航空機の飛行制御を行うための制御情報を出力するよう、コンピュータを機能させるための学習済の制御モデルであって、
    前記環境情報は、前記制御モデルへ時系列で入力され、
    前記制御モデルは、前記制御モデルから出力された前記制御情報に基づく前記行動を前記航空機がとった場合における当該航空機の行動の結果の評価を表す報酬を用いて強化学習され、
    前記報酬は、前記航空機が前記行動をとった場合における前記航空機の周辺環境における地表属性に応じて異なり、
    前記入力された前記環境情報に対し、前記制御モデルを構成する関数に基づく演算を行い、前記制御モデルから前記制御情報を出力するよう、コンピュータを機能させるための学習済の制御モデル。
  25. 無人で飛行可能な航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報に基づいて、前記航空機の飛行制御を行うための制御情報を出力するよう、コンピュータを機能させるための学習済の制御モデルであって、
    前記環境情報は、前記制御モデルへ時系列で入力され、
    前記制御モデルは、前記制御モデルから出力された前記制御情報に基づく前記行動を前記航空機がとった場合における当該航空機の行動の結果の評価を表す報酬を用いて強化学習され、
    前記報酬は、前記航空機が前記行動をとった場合における前記航空機の移動状態に応じて異なり、
    前記入力された前記環境情報に対し、前記制御モデルを構成する関数に基づく演算を行い、前記制御モデルから前記制御情報を出力するよう、コンピュータを機能させるための学習済の制御モデル。
  26. 無人で飛行可能な航空機の周辺環境に関する環境情報に基づいて、前記航空機の飛行制御を行うための制御情報を出力するよう、コンピュータを機能させるための学習済の制御モデルであって、
    前記環境情報は、無人で飛行可能な航空機の周辺環境において時系列で位置が変化する移動物体の行動を予測する行動予測部により行動が予測された前記移動物体の行動予測情報を含み、当該環境情報は、前記制御モデルへ時系列で入力され、
    前記制御モデルは、前記制御モデルから出力された前記制御情報に基づく前記行動を前記航空機がとった場合における当該航空機の行動の結果の評価を表す報酬を用いて強化学習され、
    前記入力された前記環境情報に対し、前記制御モデルを構成する関数に基づく演算を行い、前記制御モデルから前記制御情報を出力するよう、コンピュータを機能させるための学習済の制御モデル。
JP2021519184A 2020-04-30 2020-09-25 学習装置、情報処理装置、及び学習済の制御モデル Active JP6950117B1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
PCT/JP2020/018278 WO2021220467A1 (ja) 2020-04-30 2020-04-30 学習装置、情報処理装置、及び学習済の制御モデル
JPPCT/JP2020/018278 2020-04-30
PCT/JP2020/036346 WO2021220528A1 (ja) 2020-04-30 2020-09-25 学習装置、情報処理装置、及び学習済の制御モデル

Publications (2)

Publication Number Publication Date
JP6950117B1 true JP6950117B1 (ja) 2021-10-13
JPWO2021220528A1 JPWO2021220528A1 (ja) 2021-11-04

Family

ID=78001393

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021519184A Active JP6950117B1 (ja) 2020-04-30 2020-09-25 学習装置、情報処理装置、及び学習済の制御モデル

Country Status (3)

Country Link
US (1) US20220308598A1 (ja)
JP (1) JP6950117B1 (ja)
CN (1) CN113892070B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023181147A1 (ja) * 2022-03-23 2023-09-28 三菱電機株式会社 飛行支援システム、飛行支援装置、及び飛行支援方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20240135167A1 (en) * 2022-10-25 2024-04-25 The Boeing Company Method for training aircraft control agent

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018198012A (ja) * 2017-05-24 2018-12-13 日本電信電話株式会社 ネットワーク学習装置、行動決定装置、ネットワーク学習方法、及びプログラム
JP2019055769A (ja) * 2017-07-17 2019-04-11 オーロラ フライト サイエンシズ コーポレーション 航空機システムにおいて障害物を検出するためのシステム及び方法
JP2019059461A (ja) * 2017-06-29 2019-04-18 ザ・ボーイング・カンパニーThe Boeing Company 航空機を自律的に操縦する方法及びシステム
CN109933086A (zh) * 2019-03-14 2019-06-25 天津大学 基于深度q学习的无人机环境感知与自主避障方法
JP2019105891A (ja) * 2017-12-08 2019-06-27 三菱重工業株式会社 制御装置、無人システム、制御方法及びプログラム
JP2019525864A (ja) * 2016-06-27 2019-09-12 アマゾン テクノロジーズ インコーポレイテッド 同時プロペラ変調によるドローン騒音低減
JP2019200712A (ja) * 2018-05-18 2019-11-21 豊 川口 視界表示システムおよび移動体
JP2019220833A (ja) * 2018-06-19 2019-12-26 Hapsモバイル株式会社 Haps周辺の突風探知に基づく飛行フィードバック制御

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060155660A1 (en) * 2001-02-05 2006-07-13 Takamasa Koshizen Agent learning apparatus, method and program
US9710218B2 (en) * 2014-07-08 2017-07-18 Honeywell International Inc. Vertical profile display including hazard band indication
CN108197698B (zh) * 2017-12-13 2022-10-14 中国科学院自动化研究所 基于多模态融合的多脑区协同自主决策方法
US10894544B2 (en) * 2018-01-04 2021-01-19 International Business Machines Corporation Protective action for protecting autonomous vehicles from impending weather conditions
WO2019159232A1 (ja) * 2018-02-13 2019-08-22 楽天株式会社 無人航空機制御システム、無人航空機制御方法、及びプログラム
JP7006364B2 (ja) * 2018-02-22 2022-01-24 富士通株式会社 強化学習プログラム、強化学習方法、および強化学習装置
US20200023942A1 (en) * 2018-07-19 2020-01-23 General Electric Company Control system for an aircraft
CN109765916A (zh) * 2019-03-26 2019-05-17 武汉欣海远航科技研发有限公司 一种水面无人艇路径跟踪控制器设计方法
CN110083168A (zh) * 2019-05-05 2019-08-02 天津大学 基于增强学习的小型无人直升机定高控制方法
US11410558B2 (en) * 2019-05-21 2022-08-09 International Business Machines Corporation Traffic control with reinforcement learning
US11150670B2 (en) * 2019-05-28 2021-10-19 The Boeing Company Autonomous behavior generation for aircraft
CN110488861B (zh) * 2019-07-30 2020-08-28 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
JP7254347B2 (ja) * 2019-08-27 2023-04-10 国立研究開発法人宇宙航空研究開発機構 モーフィング翼、飛行制御装置、飛行制御方法、及びプログラム
CN110673637B (zh) * 2019-10-08 2022-05-13 福建工程学院 一种基于深度强化学习的无人机伪路径规划的方法
CN110874578B (zh) * 2019-11-15 2023-06-20 北京航空航天大学青岛研究院 一种基于强化学习的无人机视角车辆识别追踪方法
CN111026157B (zh) * 2019-12-18 2020-07-28 四川大学 一种基于奖励重塑强化学习的飞行器智能引导方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019525864A (ja) * 2016-06-27 2019-09-12 アマゾン テクノロジーズ インコーポレイテッド 同時プロペラ変調によるドローン騒音低減
JP2018198012A (ja) * 2017-05-24 2018-12-13 日本電信電話株式会社 ネットワーク学習装置、行動決定装置、ネットワーク学習方法、及びプログラム
JP2019059461A (ja) * 2017-06-29 2019-04-18 ザ・ボーイング・カンパニーThe Boeing Company 航空機を自律的に操縦する方法及びシステム
JP2019055769A (ja) * 2017-07-17 2019-04-11 オーロラ フライト サイエンシズ コーポレーション 航空機システムにおいて障害物を検出するためのシステム及び方法
JP2019105891A (ja) * 2017-12-08 2019-06-27 三菱重工業株式会社 制御装置、無人システム、制御方法及びプログラム
JP2019200712A (ja) * 2018-05-18 2019-11-21 豊 川口 視界表示システムおよび移動体
JP2019220833A (ja) * 2018-06-19 2019-12-26 Hapsモバイル株式会社 Haps周辺の突風探知に基づく飛行フィードバック制御
CN109933086A (zh) * 2019-03-14 2019-06-25 天津大学 基于深度q学习的无人机环境感知与自主避障方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023181147A1 (ja) * 2022-03-23 2023-09-28 三菱電機株式会社 飛行支援システム、飛行支援装置、及び飛行支援方法

Also Published As

Publication number Publication date
US20220308598A1 (en) 2022-09-29
CN113892070A (zh) 2022-01-04
CN113892070B (zh) 2024-04-26
JPWO2021220528A1 (ja) 2021-11-04

Similar Documents

Publication Publication Date Title
US11694356B2 (en) Methods and systems for joint pose and shape estimation of objects from sensor data
US11651553B2 (en) Methods and systems for constructing map data using poisson surface reconstruction
Scherer et al. River mapping from a flying robot: state estimation, river detection, and obstacle mapping
CN110268356B (zh) 前导无人机的系统
CN110226143B (zh) 前导无人机的方法
CN113453970A (zh) 基于外观的运动预测
CN110389585A (zh) 用于自动驾驶车辆的基于学习的速度规划器
WO2015081383A1 (en) Method and apparatus for developing a flight path
CN111771135A (zh) 自动驾驶车辆中使用rnn和lstm进行时间平滑的lidar定位
JP7492718B2 (ja) 安全着陸可能領域を識別するためのシステム、方法、プログラム及びプログラムを記憶した記憶媒体
EP3698227B1 (en) Path planning for an unmanned vehicle
JP6950117B1 (ja) 学習装置、情報処理装置、及び学習済の制御モデル
US11410562B1 (en) Aerial vehicle travel related data collection and route optimization
KR102313115B1 (ko) 인공지능 신경망을 이용한 자율비행 드론
US20220204030A1 (en) Systems and methods for risk-sensitive sequential action control for robotic devices
US11834077B2 (en) Systems, methods, and media for occlusion-aware motion planning
US20220214690A1 (en) Methods and system for predicting trajectories of uncertain road users by semantic segmentation of drivable area boundaries
WO2021220528A1 (ja) 学習装置、情報処理装置、及び学習済の制御モデル
US11976939B2 (en) High-definition maps and localization for road vehicles
US20230142863A1 (en) Performance of autonomous vehicle operation in varying conditions by using imagery generated with machine learning for simulations
CN116745188A (zh) 基于不确定道路使用者的行为生成自主车辆的纵向计划的方法和系统
US20240157973A1 (en) System and method for determining a trajectory for a vehicle
US20230211802A1 (en) Motion planning using spatio-temporal convex corridors
EP4131181A1 (en) Methods and system for predicting trajectories of actors with respect to a drivable area
Liaq Autonomous UAV Navigation in Unknown Terrain/Environment using Reinforcement Learning

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210407

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210407

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20210407

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210622

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210817

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210831

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210922

R150 Certificate of patent or registration of utility model

Ref document number: 6950117

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150