JP6950117B1 - 学習装置、情報処理装置、及び学習済の制御モデル - Google Patents
学習装置、情報処理装置、及び学習済の制御モデル Download PDFInfo
- Publication number
- JP6950117B1 JP6950117B1 JP2021519184A JP2021519184A JP6950117B1 JP 6950117 B1 JP6950117 B1 JP 6950117B1 JP 2021519184 A JP2021519184 A JP 2021519184A JP 2021519184 A JP2021519184 A JP 2021519184A JP 6950117 B1 JP6950117 B1 JP 6950117B1
- Authority
- JP
- Japan
- Prior art keywords
- aircraft
- reward
- information
- control
- control model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000013016 learning Effects 0.000 title claims abstract description 190
- 230000010365 information processing Effects 0.000 title claims description 19
- 230000009471 action Effects 0.000 claims abstract description 165
- 230000007613 environmental effect Effects 0.000 claims abstract description 163
- 238000011156 evaluation Methods 0.000 claims abstract description 36
- 230000006399 behavior Effects 0.000 claims description 67
- 230000002787 reinforcement Effects 0.000 claims description 56
- 230000006870 function Effects 0.000 claims description 44
- RZVHIXYEVGDQDX-UHFFFAOYSA-N 9,10-anthraquinone Chemical group C1=CC=C2C(=O)C3=CC=CC=C3C(=O)C2=C1 RZVHIXYEVGDQDX-UHFFFAOYSA-N 0.000 claims description 36
- 230000001186 cumulative effect Effects 0.000 claims description 21
- 238000001556 precipitation Methods 0.000 claims description 20
- 230000008859 change Effects 0.000 claims description 6
- 238000000034 method Methods 0.000 description 24
- 238000004891 communication Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 16
- 230000007704 transition Effects 0.000 description 14
- 238000004364 calculation method Methods 0.000 description 13
- 238000004422 calculation algorithm Methods 0.000 description 11
- 230000001133 acceleration Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 230000003068 static effect Effects 0.000 description 8
- 230000003287 optical effect Effects 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 241001465754 Metazoa Species 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 230000002411 adverse Effects 0.000 description 2
- 230000001141 propulsive effect Effects 0.000 description 2
- 238000004078 waterproofing Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/08—Control of attitude, i.e. control of roll, pitch, or yaw
- G05D1/0808—Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft
- G05D1/0816—Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft to ensure stability
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/08—Control of attitude, i.e. control of roll, pitch, or yaw
- G05D1/0808—Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B64—AIRCRAFT; AVIATION; COSMONAUTICS
- B64C—AEROPLANES; HELICOPTERS
- B64C13/00—Control systems or transmitting systems for actuating flying-control surfaces, lift-increasing flaps, air brakes, or spoilers
- B64C13/02—Initiating means
- B64C13/16—Initiating means actuated automatically, e.g. responsive to gust detectors
- B64C13/18—Initiating means actuated automatically, e.g. responsive to gust detectors using automatic pilot
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/0088—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/0202—Control of position or course in two dimensions specially adapted to aircraft
- G05D1/0204—Control of position or course in two dimensions specially adapted to aircraft to counteract a sudden perturbation, e.g. cross-wind, gust
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
- G05D1/106—Change initiated in response to external conditions, e.g. avoidance of elevated terrain or of no-fly zones
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B64—AIRCRAFT; AVIATION; COSMONAUTICS
- B64U—UNMANNED AERIAL VEHICLES [UAV]; EQUIPMENT THEREFOR
- B64U2201/00—UAVs characterised by their flight controls
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
Landscapes
- Engineering & Computer Science (AREA)
- Automation & Control Theory (AREA)
- Aviation & Aerospace Engineering (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Medical Informatics (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
- Traffic Control Systems (AREA)
Abstract
Description
先ず、図1を参照して、無人航空機P(無人で飛行可能な航空機の一例)の飛行制御に関する背景について説明する。図1は、目的地へ向かって飛行する無人航空機Pの周辺環境、及び飛行予定領域(例えば、目的地を含む)の環境における風速及び風向きの一例を表した概念図である。なお、図1において、複数の矢印は、それぞれ、風速(風の強さ)及び風向きを表しており、矢印が長いほど、その位置での風が強い。無人航空機Pは、ドローン、またはマルチコプタとも呼ばれる。
次に、図2及び図3を参照して、本実施形態の学習システムSY1の構成及び機能概要について説明する。図2は、本実施形態の学習システムSY1の概要構成例を示す図である。図3は、本実施形態における強化学習の一例を示す概念図である。学習システムSY1は、図2に示すように、制御モデルMの強化学習を行う学習装置Dを含む。制御モデルMは、目的地に向かって飛行する無人航空機Pの周辺環境と無人航空機Pの飛行予定領域の環境との少なくとも何れか一方の環境Eに関する環境情報に基づいて、当該無人航空機Pの飛行制御を行うための制御情報を出力するよう、学習装置D(コンピュータの一例)を機能させるための機械学習モデルである。なお、制御モデルMは、行動選択モデルともいう。
次に、図3及び図4を参照して、実無人航空機P1の構成及び機能概要について説明する。図3は、実無人航空機P1の概要構成例を示す図である。実無人航空機P1は、図3に示すように、通信部11、駆動部(推進部)12、センサ部13、及び制御部14等を備える。なお、図示しないが、実無人航空機P1は、水平回転翼であるロータ(プロペラ)、及び実無人航空機P1の各部へ電力を供給するバッテリを備える。また、実無人航空機P1の防水性能は、実無人航空機P1の型式や仕様などによって異なる。つまり、防水性能の高い実無人航空機P1もあれば、防水性能の低い実無人航空機P1もある。通信部11は、図示しない通信ネットワークを介して学習装置Dとの間で行われる通信の制御を担う。駆動部12は、制御部14から出力された制御信号に従って駆動するモータ及び回転軸等により複数のロータを回転させる。
次に、図7を参照して、学習装置Dの構成及び機能概要について説明する。図7は、学習装置Dの概要構成例を示す図である。学習装置Dは、図7に示すように、通信部21、記憶部22、及び制御部23等を備える。通信部21は、図示しない通信ネットワークを介して実無人航空機P1とシミュレータLとの少なくとも何れか一方との間で行われる通信の制御を担う。記憶部22は、例えば、ハードディスクドライブ等を備える。記憶部22は、環境情報を入力とし制御情報を出力とする制御モデルMを記憶する。また、記憶部22には、無人航空機Pの飛行予定領域を含む所定領域の地図を表す地図データが記憶される。地図データには、静的な飛行禁止エリア、障害物となりうる不動物体、及び地表面の属性等の情報が含まれてもよい。ここで、不動物体に関しては高さ情報が含まれるとよいので、地図データは3次元的な地図を表すことが望ましい。
この場合、報酬特定部23dは、制御モデルMに入力された環境情報と、当該環境情報が入力されることで制御モデルMから出力された制御情報とに基づいて、無人航空機Pが当該制御情報に基づく行動aをとった場合における無人航空機Pの姿勢(状態情報の一例)を特定する。つまり、行動aにより状態sから遷移した後の無人航空機Pの姿勢が特定される。無人航空機Pの姿勢は、例えば、無人航空機Pが地面と水平の状態から何度傾いたかを示す姿勢角度で特定することができる。かかる姿勢角度は、例えばロール角(左右の傾き)、またはピッチ角(前後の傾き)である。
この場合、報酬特定部23dは、制御モデルMに入力された環境情報と、当該環境情報が入力されることで制御モデルMから出力された制御情報とに基づいて、無人航空機Pが当該制御情報に基づく行動aをとった場合における無人航空機Pの飛行安定性(状態情報の一例)を特定する。つまり、行動aにより状態sから遷移した後の無人航空機Pの飛行安定性が特定される。無人航空機Pの飛行安定性は、無人航空機Pの振動(筐体の振動)に基づいて評価される。例えば無人航空機Pの振動が大きいほど飛行安定性は低くなる。
この場合、報酬特定部23dは、制御モデルMに入力された環境情報と、当該環境情報が入力されることで制御モデルMから出力された制御情報とに基づいて、無人航空機Pが当該制御情報に基づく行動aをとった場合における無人航空機Pの高度(状態情報の一例)を特定する。つまり、行動aにより状態sから遷移した後の無人航空機Pの高度が特定される。なお、無人航空機Pの高度は、空中における無人航空機Pの位置から地面(つまり、無人航空機Pから垂直方向における地面)までの距離であるとよい。また、地面に障害物が存在する場合、無人航空機Pの位置から障害物までの距離であるとよい。これらの距離(つまり、3次元空間における距離)は、無人航空機Pが備える光学センサ13bによる非接触センシングにより得られたセンシングデータから得られる。ただし、無人航空機Pの高度は、無人航空機Pが備える気圧センサにより検出された気圧に応じた高度(つまり、標高)であってもよい。
この場合、報酬特定部23dは、制御モデルMに入力された環境情報と、当該環境情報が入力されることで制御モデルMから出力された制御情報とに基づいて、無人航空機Pが当該制御情報に基づく行動aをとった場合における無人航空機Pへの累積降水量と無人航空機Pの防水性能に応じた閾値とを特定する。つまり、行動aにより状態sから遷移した後の無人航空機Pへの累積降水量と無人航空機Pの防水性能に応じた閾値が特定される。ここで、無人航空機Pの防水性能に応じた閾値は、例えば、無人航空機Pの型式や仕様などによって特定される。
この場合、報酬特定部23dは、制御モデルMに入力された環境情報と、当該環境情報が入力されることで制御モデルMから出力された制御情報とに基づいて、無人航空機Pが当該制御情報に基づく行動aをとった場合における無人航空機Pの位置と障害物(移動物体と不動物体の少なくとも何れか一方)の位置とを特定する。つまり、行動aにより状態sから遷移した後の無人航空機Pの位置と障害物の位置が特定される。
この場合、報酬特定部23dは、制御モデルMに入力された環境情報と、当該環境情報が入力されることで制御モデルMから出力された制御情報とに基づいて、無人航空機Pが当該制御情報に基づく行動aをとった場合における無人航空機Pの位置と飛行禁止領域の範囲とを特定する。つまり、行動aにより状態sから遷移した後の無人航空機Pの位置と飛行禁止領域の範囲が特定される。ここで、飛行禁止領域の例として、予め定められた静的な飛行禁止領域と、移動物体の移動に応じて設定される動的な飛行禁止領域とがある。後者の場合、移動物体の上空が動的な飛行禁止領域に設定されてもよいし、或いは、移動物体から所定距離(例えば30m)以内が動的な飛行禁止領域に設定されてもよい。
この場合、報酬特定部23dは、制御モデルMに入力された環境情報と、当該環境情報が入力されることで制御モデルMから出力された制御情報とに基づいて、無人航空機Pが当該制御情報に基づく行動aをとった場合における無人航空機Pのバッテリの残量(状態情報の一例)を特定する。つまり、行動aにより状態sから遷移した後の無人航空機Pのバッテリの残量が特定される。なお、無人航空機Pのバッテリの残量の代わりに、バッテリの消費量が特定されてもよい。
この場合、報酬特定部23dは、制御モデルMに入力された環境情報と、当該環境情報が入力されることで制御モデルMから出力された制御情報とに基づいて、無人航空機Pが当該制御情報に基づく行動aをとった場合における無人航空機Pの環境Eにおける地表属性(状態情報の一例)を特定する。つまり、行動aにより状態sから遷移した後の無人航空機Pの環境Eにおける地表属性が特定される。
この場合、報酬特定部23dは、制御モデルMに入力された環境情報と、当該環境情報が入力されることで制御モデルMから出力された制御情報とに基づいて、無人航空機Pが当該制御情報に基づく行動aをとった場合における無人航空機Pが所定地点に到達したか否かの到達/未到達状態(状態情報の一例)を特定する。つまり、行動aにより状態sから遷移した後の無人航空機Pの到達/未到達状態が特定される。なお、所定地点の位置は、例えば、上述した飛行計画から取得することができる。
この場合、報酬特定部23dは、制御モデルMに入力された環境情報と、当該環境情報が入力されることで制御モデルMから出力された制御情報とに基づいて、無人航空機Pが当該制御情報に基づく行動aをとった場合における無人航空機Pの移動状態(状態情報の一例)を特定する。つまり、行動aにより状態sから遷移した後の無人航空機Pの移動状態が特定される。ここで、無人航空機Pの移動状態の例として、飛行状態(移動中の状態)、及び一時停止状態等が挙げられる。飛行状態は、さらに、等速移動中、加速中、または減速中の状態に区別することができる。これらの飛行状態は、環境情報に含まれる飛行速度または飛行加速度に基づいて特定することができる。また、一時停止状態は、さらに、ホバリング状態、または着陸状態(着陸中の状態)に区別することができる。着陸状態は、環境情報に含まれる高度に基づいて特定することができる。
次に、図8を参照して、学習装置Dの動作について説明する。図8(A)は、実無人航空機P1の処理の一例を示すフローチャートである。図8(B)は、学習装置Dの処理の一例を示すフローチャートである。なお、図8(A)に示す処理は、シミュレータLにも適用することができる。
次に、図9を参照して、本実施形態の飛行制御システムSY2の構成及び機能概要について説明する。図9は、本実施形態の飛行制御システムSY2の概要構成例を示す図である。上述したように、学習システムSY1による強化学習で得られた学習済の制御モデルMが利用されることで、特に気象の影響があっても所要飛行時間やバッテリの消費量等の観点で効率的に飛行するよう、実無人航空機P1の飛行制御を行うことが可能となる。飛行制御システムSY2は、図9に示すように、無人航空機Pxと、情報処理装置Dxとを含む。無人航空機Pxと情報処理装置Dxとは、図示しない通信ネットワークを介して通信可能になっている。
12 駆動部
13 センサ部
13a 測位センサ
13b 光学センサ
13c 姿勢センサ
13d バッテリセンサ
13e 気象センサ
14 制御部
14a 環境情報提供部
14b 制御情報取得部
14c 飛行制御部
21 通信部
22 記憶部
23 制御部
23a 行動予測部
23b 環境情報取得部
23c 制御情報取得部
23d 報酬特定部、
23e 学習制御部
51 センサ部
52 制御部
61 環境情報提供部
62 制御情報取得部
63 記憶部
P,Px 無人航空機
P1 実無人航空機
P2 仮想無人航空機
L シミュレータ
D 学習装置
Dx 情報処理装置
SY1 学習システム
SY2 飛行制御システム
Claims (26)
- 無人で飛行可能な航空機の飛行制御を行うための制御情報を出力する制御モデルの強化学習を行う学習装置であって、
前記航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報を取得する環境情報取得部と、
前記環境情報を前記制御モデルへ入力することで前記制御モデルから出力された前記制御情報を取得する制御情報取得部と、
前記航空機が前記制御情報に基づく行動をとった場合における当該行動の結果の評価を表す報酬を特定する報酬特定部と、
前記報酬特定部により特定された前記報酬を用いて前記制御モデルの強化学習を制御する学習制御部と、
を備え、
前記報酬特定部は、前記航空機が前記行動をとった場合における当該航空機への累積降水量と当該航空機の防水性能に応じた閾値との関係に応じて異なる前記報酬を特定することを特徴とする学習装置。 - 無人で飛行可能な航空機の飛行制御を行うための制御情報を出力する制御モデルの強化学習を行う学習装置であって、
前記航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報を取得する環境情報取得部と、
前記環境情報を前記制御モデルへ入力することで前記制御モデルから出力された前記制御情報を取得する制御情報取得部と、
前記航空機が前記制御情報に基づく行動をとった場合における当該行動の結果の評価を表す報酬を特定する報酬特定部と、
前記報酬特定部により特定された前記報酬を用いて前記制御モデルの強化学習を制御する学習制御部と、
を備え、
前記報酬特定部は、前記航空機が前記行動をとった場合における前記航空機のバッテリの残量または前記バッテリの消費量に応じて異なる前記報酬を特定することを特徴とする学習装置。 - 無人で飛行可能な航空機の飛行制御を行うための制御情報を出力する制御モデルの強化学習を行う学習装置であって、
前記航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報を取得する環境情報取得部と、
前記環境情報を前記制御モデルへ入力することで前記制御モデルから出力された前記制御情報を取得する制御情報取得部と、
前記航空機が前記制御情報に基づく行動をとった場合における当該行動の結果の評価を表す報酬を特定する報酬特定部と、
前記報酬特定部により特定された前記報酬を用いて前記制御モデルの強化学習を制御する学習制御部と、
を備え、
前記報酬特定部は、前記航空機が前記行動をとった場合における前記航空機の周辺環境における地表属性に応じて異なる前記報酬を特定することを特徴とする学習装置。 - 無人で飛行可能な航空機の飛行制御を行うための制御情報を出力する制御モデルの強化学習を行う学習装置であって、
前記航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報を取得する環境情報取得部と、
前記環境情報を前記制御モデルへ入力することで前記制御モデルから出力された前記制御情報を取得する制御情報取得部と、
前記航空機が前記制御情報に基づく行動をとった場合における当該行動の結果の評価を表す報酬を特定する報酬特定部と、
前記報酬特定部により特定された前記報酬を用いて前記制御モデルの強化学習を制御する学習制御部と、
を備え、
前記報酬特定部は、前記航空機が前記行動をとった場合における前記航空機の移動状態に応じて異なる前記報酬を特定する学習装置。 - 無人で飛行可能な航空機の飛行制御を行うための制御情報を出力する制御モデルの強化学習を行う学習装置であって、
前記航空機の周辺環境において時系列で位置が変化する移動物体の行動を予測する行動予測部と、
前記航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報であって、前記行動予測部により行動が予測された前記移動物体の行動予測情報を含む前記環境情報を取得する環境情報取得部と、
前記移動物体の行動予測情報を含む前記環境情報を前記制御モデルへ入力することで前記制御モデルから出力された前記制御情報を取得する制御情報取得部と、
前記航空機が前記制御情報に基づく行動をとった場合における当該行動の結果の評価を表す報酬を特定する報酬特定部と、
前記報酬特定部により特定された前記報酬を用いて前記制御モデルの強化学習を制御する学習制御部と、
を備えることを特徴とする学習装置。 - 前記報酬特定部は、前記航空機が前記行動をとった場合における当該航空機と前記移動物体との位置関係に応じて異なる前記報酬を特定することを特徴とする請求項5に記載の学習装置。
- 前記報酬特定部は、前記航空機が前記行動をとった場合における当該航空機の姿勢に応じて異なる前記報酬を特定することを特徴とする請求項1乃至6の何れか一項に記載の学習装置。
- 前記報酬特定部は、前記航空機が前記行動をとった場合における当該航空機の飛行安定性に応じて異なる前記報酬を特定することを特徴とする請求項1乃至7の何れか一項に記載の学習装置。
- 前記飛行安定性は、前記航空機の振動に基づいて評価されることを特徴とする請求項8に記載の学習装置。
- 前記報酬特定部は、前記航空機が前記行動をとった場合における当該航空機の高度に応じて異なる前記報酬を特定することを特徴とする請求項1乃至9の何れか一項に記載の学習装置。
- 前記報酬特定部は、前記航空機が前記行動をとった場合における当該航空機の高度が特定の高度範囲内に含まれるか否かに応じて異なる前記報酬を特定することを特徴とする請求項1乃至10の何れか一項に記載の学習装置。
- 前記高度範囲は、前記航空機による上空からの非接触センシングにより得られたセンシングデータに基づいて動的に変化することを特徴とする請求項11に記載の学習装置。
- 前記環境情報取得部は、前記航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境における気象情報を含む環境情報を取得することを特徴とする請求項1乃至12の何れか一項に記載の学習装置。
- 前記気象情報は、風に関する風情報を含むことを特徴とする請求項1乃至13の何れか一項に記載の学習装置。
- 前記風情報は、風速、風向き、風の有無、強風の有無、台風、および竜巻のうち少なくともいずれか一つに関する情報を含むことを特徴とする請求項14に記載の学習装置。
- 無人で飛行可能な航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報を入力とし、前記航空機の飛行制御を行うための制御情報を出力とする学習済の制御モデルであって、前記制御情報に基づく行動を前記航空機がとった場合における当該航空機の行動の結果の評価を表す報酬を用いた強化学習を行うことで得られた制御モデルを記憶する記憶部と、
前記気象情報を含む環境情報を前記制御モデルへ入力することで前記制御モデルから出力された前記制御情報を取得する制御情報取得部と、
を備え、
前記報酬は、前記航空機が前記行動をとった場合における当該航空機への累積降水量と当該航空機の防水性能に応じた閾値との関係に応じて異なることを特徴とする情報処理装置。 - 無人で飛行可能な航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報を入力とし、前記航空機の飛行制御を行うための制御情報を出力とする学習済の制御モデルであって、前記制御情報に基づく行動を前記航空機がとった場合における当該航空機の行動の結果の評価を表す報酬を用いた強化学習を行うことで得られた制御モデルを記憶する記憶部と、
前記気象情報を含む環境情報を前記制御モデルへ入力することで前記制御モデルから出力された前記制御情報を取得する制御情報取得部と、
を備え、
前記報酬は、前記航空機が前記行動をとった場合における前記航空機のバッテリの残量または前記バッテリの消費量に応じて異なることを特徴とする情報処理装置。 - 無人で飛行可能な航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報を入力とし、前記航空機の飛行制御を行うための制御情報を出力とする学習済の制御モデルであって、前記制御情報に基づく行動を前記航空機がとった場合における当該航空機の行動の結果の評価を表す報酬を用いた強化学習を行うことで得られた制御モデルを記憶する記憶部と、
前記気象情報を含む環境情報を前記制御モデルへ入力することで前記制御モデルから出力された前記制御情報を取得する制御情報取得部と、
を備え、
前記報酬は、前記航空機が前記行動をとった場合における前記航空機の周辺環境における地表属性に応じて異なることを特徴とする情報処理装置。 - 無人で飛行可能な航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報を入力とし、前記航空機の飛行制御を行うための制御情報を出力とする学習済の制御モデルであって、前記制御情報に基づく行動を前記航空機がとった場合における当該航空機の行動の結果の評価を表す報酬を用いた強化学習を行うことで得られた制御モデルを記憶する記憶部と、
前記気象情報を含む環境情報を前記制御モデルへ入力することで前記制御モデルから出力された前記制御情報を取得する制御情報取得部と、
を備え、
前記報酬は、前記航空機が前記行動をとった場合における前記航空機の移動状態に応じて異なることを特徴とする情報処理装置。 - 無人で飛行可能な航空機の周辺環境において時系列で位置が変化する移動物体の行動を予測する行動予測部と、
前記航空機の周辺環境に関する環境情報であって、前記行動予測部により行動が予測された前記移動物体の行動予測情報を含む前記環境情報を取得する環境情報取得部と、
前記環境情報取得部により取得された環境情報を入力とし、前記航空機の飛行制御を行うための制御情報を出力とする学習済の制御モデルであって、前記制御情報に基づく行動を前記航空機がとった場合における当該航空機の行動の結果の評価を表す報酬を用いた強化学習を行うことで得られた制御モデルを記憶する記憶部と、
前記環境情報取得部により取得された環境情報を前記制御モデルへ入力することで前記制御モデルから出力された前記制御情報を取得する制御情報取得部と、
を備えることを特徴とする情報処理装置。 - 前記制御情報に基づいて、前記航空機の飛行制御を行う飛行制御部を更に備えることを特徴とする請求項16乃至20の何れか一項に記載の情報処理装置。
- 無人で飛行可能な航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報に基づいて、前記航空機の飛行制御を行うための制御情報を出力するよう、コンピュータを機能させるための学習済の制御モデルであって、
前記環境情報は、前記制御モデルへ時系列で入力され、
前記制御モデルは、前記制御モデルから出力された前記制御情報に基づく前記行動を前記航空機がとった場合における当該航空機の行動の結果の評価を表す報酬を用いて強化学習され、
前記報酬は、前記航空機が前記行動をとった場合における当該航空機への累積降水量と当該航空機の防水性能に応じた閾値との関係に応じて異なり、
前記入力された前記環境情報に対し、前記制御モデルを構成する関数に基づく演算を行い、前記制御モデルから前記制御情報を出力するよう、コンピュータを機能させるための学習済の制御モデル。 - 無人で飛行可能な航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報に基づいて、前記航空機の飛行制御を行うための制御情報を出力するよう、コンピュータを機能させるための学習済の制御モデルであって、
前記環境情報は、前記制御モデルへ時系列で入力され、
前記制御モデルは、前記制御モデルから出力された前記制御情報に基づく前記行動を前記航空機がとった場合における当該航空機の行動の結果の評価を表す報酬を用いて強化学習され、
前記報酬は、前記航空機が前記行動をとった場合における前記航空機のバッテリの残量または前記バッテリの消費量に応じて異なり、
前記入力された前記環境情報に対し、前記制御モデルを構成する関数に基づく演算を行い、前記制御モデルから前記制御情報を出力するよう、コンピュータを機能させるための学習済の制御モデル。 - 無人で飛行可能な航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報に基づいて、前記航空機の飛行制御を行うための制御情報を出力するよう、コンピュータを機能させるための学習済の制御モデルであって、
前記環境情報は、前記制御モデルへ時系列で入力され、
前記制御モデルは、前記制御モデルから出力された前記制御情報に基づく前記行動を前記航空機がとった場合における当該航空機の行動の結果の評価を表す報酬を用いて強化学習され、
前記報酬は、前記航空機が前記行動をとった場合における前記航空機の周辺環境における地表属性に応じて異なり、
前記入力された前記環境情報に対し、前記制御モデルを構成する関数に基づく演算を行い、前記制御モデルから前記制御情報を出力するよう、コンピュータを機能させるための学習済の制御モデル。 - 無人で飛行可能な航空機の周辺環境と前記航空機の飛行予定領域の環境との少なくとも何れか一方の環境に関する環境情報に基づいて、前記航空機の飛行制御を行うための制御情報を出力するよう、コンピュータを機能させるための学習済の制御モデルであって、
前記環境情報は、前記制御モデルへ時系列で入力され、
前記制御モデルは、前記制御モデルから出力された前記制御情報に基づく前記行動を前記航空機がとった場合における当該航空機の行動の結果の評価を表す報酬を用いて強化学習され、
前記報酬は、前記航空機が前記行動をとった場合における前記航空機の移動状態に応じて異なり、
前記入力された前記環境情報に対し、前記制御モデルを構成する関数に基づく演算を行い、前記制御モデルから前記制御情報を出力するよう、コンピュータを機能させるための学習済の制御モデル。 - 無人で飛行可能な航空機の周辺環境に関する環境情報に基づいて、前記航空機の飛行制御を行うための制御情報を出力するよう、コンピュータを機能させるための学習済の制御モデルであって、
前記環境情報は、無人で飛行可能な航空機の周辺環境において時系列で位置が変化する移動物体の行動を予測する行動予測部により行動が予測された前記移動物体の行動予測情報を含み、当該環境情報は、前記制御モデルへ時系列で入力され、
前記制御モデルは、前記制御モデルから出力された前記制御情報に基づく前記行動を前記航空機がとった場合における当該航空機の行動の結果の評価を表す報酬を用いて強化学習され、
前記入力された前記環境情報に対し、前記制御モデルを構成する関数に基づく演算を行い、前記制御モデルから前記制御情報を出力するよう、コンピュータを機能させるための学習済の制御モデル。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/018278 WO2021220467A1 (ja) | 2020-04-30 | 2020-04-30 | 学習装置、情報処理装置、及び学習済の制御モデル |
JPPCT/JP2020/018278 | 2020-04-30 | ||
PCT/JP2020/036346 WO2021220528A1 (ja) | 2020-04-30 | 2020-09-25 | 学習装置、情報処理装置、及び学習済の制御モデル |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6950117B1 true JP6950117B1 (ja) | 2021-10-13 |
JPWO2021220528A1 JPWO2021220528A1 (ja) | 2021-11-04 |
Family
ID=78001393
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021519184A Active JP6950117B1 (ja) | 2020-04-30 | 2020-09-25 | 学習装置、情報処理装置、及び学習済の制御モデル |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220308598A1 (ja) |
JP (1) | JP6950117B1 (ja) |
CN (1) | CN113892070B (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023181147A1 (ja) * | 2022-03-23 | 2023-09-28 | 三菱電機株式会社 | 飛行支援システム、飛行支援装置、及び飛行支援方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20240135167A1 (en) * | 2022-10-25 | 2024-04-25 | The Boeing Company | Method for training aircraft control agent |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018198012A (ja) * | 2017-05-24 | 2018-12-13 | 日本電信電話株式会社 | ネットワーク学習装置、行動決定装置、ネットワーク学習方法、及びプログラム |
JP2019055769A (ja) * | 2017-07-17 | 2019-04-11 | オーロラ フライト サイエンシズ コーポレーション | 航空機システムにおいて障害物を検出するためのシステム及び方法 |
JP2019059461A (ja) * | 2017-06-29 | 2019-04-18 | ザ・ボーイング・カンパニーThe Boeing Company | 航空機を自律的に操縦する方法及びシステム |
CN109933086A (zh) * | 2019-03-14 | 2019-06-25 | 天津大学 | 基于深度q学习的无人机环境感知与自主避障方法 |
JP2019105891A (ja) * | 2017-12-08 | 2019-06-27 | 三菱重工業株式会社 | 制御装置、無人システム、制御方法及びプログラム |
JP2019525864A (ja) * | 2016-06-27 | 2019-09-12 | アマゾン テクノロジーズ インコーポレイテッド | 同時プロペラ変調によるドローン騒音低減 |
JP2019200712A (ja) * | 2018-05-18 | 2019-11-21 | 豊 川口 | 視界表示システムおよび移動体 |
JP2019220833A (ja) * | 2018-06-19 | 2019-12-26 | Hapsモバイル株式会社 | Haps周辺の突風探知に基づく飛行フィードバック制御 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060155660A1 (en) * | 2001-02-05 | 2006-07-13 | Takamasa Koshizen | Agent learning apparatus, method and program |
US9710218B2 (en) * | 2014-07-08 | 2017-07-18 | Honeywell International Inc. | Vertical profile display including hazard band indication |
CN108197698B (zh) * | 2017-12-13 | 2022-10-14 | 中国科学院自动化研究所 | 基于多模态融合的多脑区协同自主决策方法 |
US10894544B2 (en) * | 2018-01-04 | 2021-01-19 | International Business Machines Corporation | Protective action for protecting autonomous vehicles from impending weather conditions |
WO2019159232A1 (ja) * | 2018-02-13 | 2019-08-22 | 楽天株式会社 | 無人航空機制御システム、無人航空機制御方法、及びプログラム |
JP7006364B2 (ja) * | 2018-02-22 | 2022-01-24 | 富士通株式会社 | 強化学習プログラム、強化学習方法、および強化学習装置 |
US20200023942A1 (en) * | 2018-07-19 | 2020-01-23 | General Electric Company | Control system for an aircraft |
CN109765916A (zh) * | 2019-03-26 | 2019-05-17 | 武汉欣海远航科技研发有限公司 | 一种水面无人艇路径跟踪控制器设计方法 |
CN110083168A (zh) * | 2019-05-05 | 2019-08-02 | 天津大学 | 基于增强学习的小型无人直升机定高控制方法 |
US11410558B2 (en) * | 2019-05-21 | 2022-08-09 | International Business Machines Corporation | Traffic control with reinforcement learning |
US11150670B2 (en) * | 2019-05-28 | 2021-10-19 | The Boeing Company | Autonomous behavior generation for aircraft |
CN110488861B (zh) * | 2019-07-30 | 2020-08-28 | 北京邮电大学 | 基于深度强化学习的无人机轨迹优化方法、装置和无人机 |
JP7254347B2 (ja) * | 2019-08-27 | 2023-04-10 | 国立研究開発法人宇宙航空研究開発機構 | モーフィング翼、飛行制御装置、飛行制御方法、及びプログラム |
CN110673637B (zh) * | 2019-10-08 | 2022-05-13 | 福建工程学院 | 一种基于深度强化学习的无人机伪路径规划的方法 |
CN110874578B (zh) * | 2019-11-15 | 2023-06-20 | 北京航空航天大学青岛研究院 | 一种基于强化学习的无人机视角车辆识别追踪方法 |
CN111026157B (zh) * | 2019-12-18 | 2020-07-28 | 四川大学 | 一种基于奖励重塑强化学习的飞行器智能引导方法 |
-
2020
- 2020-09-25 CN CN202080007830.0A patent/CN113892070B/zh active Active
- 2020-09-25 US US17/419,104 patent/US20220308598A1/en active Pending
- 2020-09-25 JP JP2021519184A patent/JP6950117B1/ja active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019525864A (ja) * | 2016-06-27 | 2019-09-12 | アマゾン テクノロジーズ インコーポレイテッド | 同時プロペラ変調によるドローン騒音低減 |
JP2018198012A (ja) * | 2017-05-24 | 2018-12-13 | 日本電信電話株式会社 | ネットワーク学習装置、行動決定装置、ネットワーク学習方法、及びプログラム |
JP2019059461A (ja) * | 2017-06-29 | 2019-04-18 | ザ・ボーイング・カンパニーThe Boeing Company | 航空機を自律的に操縦する方法及びシステム |
JP2019055769A (ja) * | 2017-07-17 | 2019-04-11 | オーロラ フライト サイエンシズ コーポレーション | 航空機システムにおいて障害物を検出するためのシステム及び方法 |
JP2019105891A (ja) * | 2017-12-08 | 2019-06-27 | 三菱重工業株式会社 | 制御装置、無人システム、制御方法及びプログラム |
JP2019200712A (ja) * | 2018-05-18 | 2019-11-21 | 豊 川口 | 視界表示システムおよび移動体 |
JP2019220833A (ja) * | 2018-06-19 | 2019-12-26 | Hapsモバイル株式会社 | Haps周辺の突風探知に基づく飛行フィードバック制御 |
CN109933086A (zh) * | 2019-03-14 | 2019-06-25 | 天津大学 | 基于深度q学习的无人机环境感知与自主避障方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023181147A1 (ja) * | 2022-03-23 | 2023-09-28 | 三菱電機株式会社 | 飛行支援システム、飛行支援装置、及び飛行支援方法 |
Also Published As
Publication number | Publication date |
---|---|
US20220308598A1 (en) | 2022-09-29 |
CN113892070A (zh) | 2022-01-04 |
CN113892070B (zh) | 2024-04-26 |
JPWO2021220528A1 (ja) | 2021-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11694356B2 (en) | Methods and systems for joint pose and shape estimation of objects from sensor data | |
US11651553B2 (en) | Methods and systems for constructing map data using poisson surface reconstruction | |
Scherer et al. | River mapping from a flying robot: state estimation, river detection, and obstacle mapping | |
CN110268356B (zh) | 前导无人机的系统 | |
CN110226143B (zh) | 前导无人机的方法 | |
CN113453970A (zh) | 基于外观的运动预测 | |
CN110389585A (zh) | 用于自动驾驶车辆的基于学习的速度规划器 | |
WO2015081383A1 (en) | Method and apparatus for developing a flight path | |
CN111771135A (zh) | 自动驾驶车辆中使用rnn和lstm进行时间平滑的lidar定位 | |
JP7492718B2 (ja) | 安全着陸可能領域を識別するためのシステム、方法、プログラム及びプログラムを記憶した記憶媒体 | |
EP3698227B1 (en) | Path planning for an unmanned vehicle | |
JP6950117B1 (ja) | 学習装置、情報処理装置、及び学習済の制御モデル | |
US11410562B1 (en) | Aerial vehicle travel related data collection and route optimization | |
KR102313115B1 (ko) | 인공지능 신경망을 이용한 자율비행 드론 | |
US20220204030A1 (en) | Systems and methods for risk-sensitive sequential action control for robotic devices | |
US11834077B2 (en) | Systems, methods, and media for occlusion-aware motion planning | |
US20220214690A1 (en) | Methods and system for predicting trajectories of uncertain road users by semantic segmentation of drivable area boundaries | |
WO2021220528A1 (ja) | 学習装置、情報処理装置、及び学習済の制御モデル | |
US11976939B2 (en) | High-definition maps and localization for road vehicles | |
US20230142863A1 (en) | Performance of autonomous vehicle operation in varying conditions by using imagery generated with machine learning for simulations | |
CN116745188A (zh) | 基于不确定道路使用者的行为生成自主车辆的纵向计划的方法和系统 | |
US20240157973A1 (en) | System and method for determining a trajectory for a vehicle | |
US20230211802A1 (en) | Motion planning using spatio-temporal convex corridors | |
EP4131181A1 (en) | Methods and system for predicting trajectories of actors with respect to a drivable area | |
Liaq | Autonomous UAV Navigation in Unknown Terrain/Environment using Reinforcement Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210407 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210407 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20210407 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210622 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210817 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210831 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210922 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6950117 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |