CN113892070A

CN113892070A - 学习装置、信息处理装置、及完成学习的控制模型

Info

Publication number: CN113892070A
Application number: CN202080007830.0A
Authority: CN
Inventors: 中泽满; 滝泽顺
Original assignee: Lotte Group Co ltd
Current assignee: Lotte Group Co ltd
Priority date: 2020-04-30
Filing date: 2020-09-25
Publication date: 2022-01-04
Anticipated expiration: 2040-09-25
Also published as: JPWO2021220528A1; CN113892070B; US20220308598A1; JP6950117B1

Abstract

本发明的学习系统SY1通过向控制模型M输入包含无人飞机P的周边环境、或无人飞机P的预定飞行区域环境的气象信息的环境信息而取得从控制模型M输出的控制信息，使用表示无人飞机P采取基于所述控制信息的行动的情况下所述行动的结果评价的奖励r而进行控制模型M的强化学习。

Description

学习装置、信息处理装置、及完成学习的控制模型

技术领域

本发明涉及一种强化学习控制模型的装置等技术领域，该控制模型输出用于进行可无人飞行的飞机的飞行控制的控制信息。

背景技术

以往，为了进行移动机器的移动控制，而研究使用机械学习的一种也就是强化学习。例如，在专利文献1，揭示输入通过汽车或无人机等移动机器拍摄的图像，而进行关于移动机器的移动控制的强化学习的技术。

背景技术文献

专利文献

专利文献1：日本专利特开2018-198012号公报

发明内容

[发明所要解决的问题]

然而，无人机这样可无人飞行的飞机容易受气象的影响。例如即便用所述技术进行飞机的飞行控制，在逆风飞行的情况下，一般也会认为消耗电力变大，或飞行变得不稳定。

因此，提供一种学习装置、信息处理装置、及完成学习的控制模型，该学习装置可获得用于进行灵活的飞行控制的控制信息，该飞行控制减少可无人飞行的飞机周边环境等中的气象的影响。

[解决问题的技术手段]

为了解决所述问题，权利要求1所述的发明是一种学习装置，其特征在于：进行输出控制信息的控制模型的强化学习，该控制信息用于进行可无人飞行的飞机的飞行控制，且所述学习装置具备：环境信息取得部，其取得包含所述飞机的周边环境与所述飞机的预定飞行区域的环境的至少任一环境的气象信息的环境信息；控制信息取得部，其通过向所述控制模型输入所述环境信息而取得从所述控制模型输出的所述控制信息；奖励指定部，其指定表示所述飞机采取基于所述控制信息的行动的情况下所述行动的结果评价的奖励；及学习控制部，其使用由所述奖励指定部指定的所述奖励来控制所述控制模型的强化学习。由此，可获得用于进行灵活的飞行控制的控制信息，该飞行控制减少可无人飞行的飞机周边环境等中的气象的影响。

权利要求2所述的发明是根据权利要求1所述的学习装置，其特征在于：所述奖励指定部根据所述飞机采取所述行动的情况下所述飞机的姿态来指定不同的所述奖励。由此，可以输出即便有气象的影响也使所述飞机进行稳定地保持飞机姿态的控制信息的方式，进行控制模型的学习。

权利要求3所述的发明是根据权利要求1或2所述的学习装置，其特征在于：所述奖励指定部根据所述飞机采取所述行动的情况下所述飞机的飞行稳定性来指定不同的所述奖励。由此，可以输出即便有气象的影响也使所述飞机进行飞机的飞行稳定性较高的飞行的控制信息的方式，进行控制模型的学习。

权利要求4所述的发明是根据权利要求3所述的学习装置，其特征在于：基于所述飞机的振动来评价所述飞行稳定性。

权利要求5所述的发明是根据权利要求1至4中任一项所述的学习装置，其特征在于：所述奖励指定部根据所述飞机采取所述行动的情况下所述飞机的高度来指定不同的所述奖励。由此，可以输出即便有气象的影响也使所述飞机进行保持飞机的安全高度的飞行的控制信息的方式，进行控制模型的学习。

权利要求6所述的发明是根据权利要求1至5中任一项所述的学习装置，其特征在于：所述奖励指定部根据所述飞机采取所述行动的情况下所述飞机的高度是否包含于指定的高度范围内来指定不同的所述奖励。由此，可以输出即便有气象的影响也使所述飞机进行使飞机的高度保持在指定的高度范围内的飞行的控制信息的方式，进行控制模型的学习。

权利要求7所述的发明是根据权利要求6所述的学习装置，其特征在于在：所述高度范围基于通过所述飞机的自上空的非接触传感所获得的传感数据而动态变化。

权利要求8所述的发明是根据权利要求1至7中任一项所述的学习装置，其特征在于：所述奖励指定部根据所述飞机采取所述行动的情况下向所述飞机的累积降水量与对应于所述飞机的防水性能的阈值的关系来指定不同的所述奖励。由此，可以输出即便有降雨的影响也使所述飞机进行不对飞机的防水性能带来障碍的飞行的控制信息的方式，进行控制模型的学习。

权利要求9所述的发明是根据权利要求1至8中任一项所述的学习装置，其特征在于：所述奖励指定部根据所述飞机采取所述行动的情况下所述飞机的电池的剩余电量或所述电池的消耗电量来指定不同的所述奖励。由此，可以输出即便有气象的影响也使所述飞机进行减少电池的消耗电量的飞行的控制信息的方式，进行控制模型的学习。

权利要求10所述的发明是根据权利要求1至9中任一项所述的学习装置，其特征在于：所述奖励指定部根据所述飞机采取所述行动的情况下所述飞机周边环境的地表属性来指定不同的所述奖励。由此，可以输出即便有气象的影响也使所述飞机进行对应于地表属性的飞行的控制信息的方式，进行控制模型的学习。

权利要求11所述的发明是根据权利要求1至10中任一项所述的学习装置，其特征在于：所述奖励指定部根据所述飞机采取所述行动的情况下所述飞机的移动状态来指定不同的所述奖励。由此，可以输出即便有气象的影响也使所述飞机进行更有效的飞行的控制信息的方式，进行控制模型的学习。

权利要求12所述的发明是权利要求1至11中任一项所述的学习装置，其特征在于：所述气象信息包含关于风的风信息。

权利要求13所述的发明是根据权利要求12所述的学习装置，其特征在于：所述风信息包含关于风速、风向、有无风、有无强风、台风及龙卷风中的至少任一者的信息。

权利要求14所述的发明是一种完成学习的控制模型，其特征在于：输入包含可无人飞行的飞机的周边环境与所述飞机的预定飞行区域的环境的至少任一环境的气象信息的环境信息，而输出用于进行所述飞机的飞行控制的控制信息，且具备：存储部，其存储通过进行使用表示所述飞机采取基于所述控制信息的行动的情况下所述飞机的行动结果评价的奖励的强化学习而获得的控制模型；及控制信息取得部，其通过将包含所述气象信息的环境信息向所述控制模型输入而取得从所述控制模型输出的所述控制信息。

权利要求15所述的发明是根据权利要求14所述的信息处理装置，其特征在于：进而具备基于所述控制信息而进行所述飞机的飞行控制的飞行控制部。

权利要求16所述的发明是一种完成学习的控制模型，用于使电脑以基于与可无人飞行的飞机的周边环境及所述飞机的预定飞行区域的环境的至少任一环境相关的环境信息，而输出用于进行所述飞机的飞行控制的控制信息的方式发挥功能，且所述环境信息包含所述飞机的周边环境、或所述飞机的预定飞行区域环境的气象信息，按时间顺序向所述控制模型输入，所述控制模型使用表示所述飞机采取基于从所述控制模型输出的所述控制信息的所述行动的情况下所述飞机的行动结果评价的奖励来强化学习，且使电脑以对所述输入的所述环境信息进行基于构成所述控制模型的函数的运算而从所述控制模型输出所述控制信息的方式发挥功能。

[发明的效果]

根据本发明，可获得用于进行灵活的飞行控制的控制信息，该飞行控制减少可无人飞行的飞机的周边环境等的气象的影响。

附图说明

图1是表示向目的地飞行的无人飞机P的周边环境、及预定飞行区域环境的风向及风的强度的例子的概念图。

图2是表示本实施方式的学习系统SY1的概要构成例的图。

图3是表示本实施方式的强化学习的例子的概念图。

图4是表示真实无人飞机P1的概要构成例的图。

图5是表示控制部14的功能块例的图。

图6是表示学习装置D的概要构成例的图。

图7是表示控制部23的功能块例的图。

图8(A)是表示真实无人飞机P1的处理的例子的流程图，(B)是表示学习装置D的处理的例子的流程图。

图9是表示本实施方式的飞行控制系统SY2的概要构成例的图。

具体实施方式

以下，参照附图对本发明的一实施方式进行说明。

[1.关于无人飞机P的飞行控制的背景]

首先，参照图1，对关于无人飞机P(可无人飞行的飞机的例子)的飞行控制的背景进行说明。图1是表示向目的地飞行的无人飞机P的周边环境、及预定飞行区域(例如包含目的地)的环境的风速及风向的例子的概念图。此外，图1中，多个箭头分别表示风速(风的强度)及风向，箭头越长，该位置上的风越强。无人飞机P也称为无人机、或多轴飞行器。

因无人飞机P只持有有限的电力，故如图1所示，例如期望沿飞行路线R1，尽可能短距离到达目的地。然而，在所述情况下，因无人飞机P逆风飞行，故与顺风飞行的情况相比需要较大的推进力(用于前进的推进力)，预料无人飞机P的消耗电力反而变大。例如图1所示，预料无人飞机P沿距离长于飞行路线R1的飞行路线R2在顺风状况下飞行时，无人飞机P的消耗电力变小。另外，如果无人飞机P逆风飞行，那么其飞行有时也会变得不稳定。因此，必须相对于风精细地调整无人飞机P的姿态使其稳定，因此消耗更大的电力。结果，担心无人飞机P的飞行距离变短。另外，风速及风向可能时刻变化。

在从地上操纵无人飞机P的事例中，即便是熟练的操纵者，考虑所述风的影响也难以以稳定地保持无人飞机P，并且消耗电力尽可能变少的方式飞行控制无人飞机P。进而，因在无人飞机P的周边环境及预定飞行区域的环境，除风以外还可能有雨、雪、及雷等，故考虑所述气象更难以更适当地飞行控制无人飞机P。在无人飞机P的自主飞行控制中，例如如果要实现与风等气象对应的飞行控制，那么将难以根据由人预先设计的规则来控制。例如，满足指定条件的情况下进行指定的飞行控制的控制规则过于复杂而难以设计。因此，通过以下说明的学习系统，实现减少无人飞机P的周边环境及预定飞行区域的环境的气象的影响的飞行控制。由此，例如可一边选出电力效率较佳的飞行路线一边使无人飞机P自主地飞行到目的地，进而可进行也考虑到机体的稳定性、飞行高度等安全面的自主飞行。

[2.学习系统SY1的构成及功能概要]

接下来，参照图2与图3，对本实施方式的学习系统SY1的构成及功能概要进行说明。图2是表示本实施方式的学习系统SY1的概要构成例的图。图3是表示本实施方式的强化学习的例子的概念图。学习系统SY1如图2所示，包含进行控制模型M的强化学习的学习装置D。控制模型M是机械学习模型，其用于使学习装置D(电脑的例子)以基于与向目的地飞行的无人飞机P的周边环境及无人飞机P的预定飞行区域的环境的至少任一环境E相关的环境信息，而输出用于进行所述无人飞机P的飞行控制的控制信息的方式发挥功能。此外，控制模型M也称为行动选择模型。

此处，无人飞机P的周边环境意为例如包含无人飞机P的指定范围(例如可从无人飞机P识别的范围)内的环境。另一方面，无人飞机P的预定飞行区域的环境意为例如包含无人飞机P预定的飞行路线的指定范围(例如可从所述飞行路线上的各地点识别的范围)内的环境。包含无人飞机P的指定范围的一部分、与包含无人飞机P预定的飞行路线的指定范围的一部分也可重叠。另外，也有在无人飞机P的周边环境，存在位置按时间顺序变化的移动物体的情况。位置按时间顺序变化的移动物体意为随着时间经过而位置变化的移动物体(也就是说移动中的移动物体)。移动物体与无人飞机P不同，是例如人、动物、车辆、列车、飞机、或船舶等。而且，环境信息包含无人飞机P的环境E的气象信息。气象信息包含关于风的风信息、关于降雨的降雨信息、关于降雪的降雪信息、及关于打雷的打雷信息的至少任一者。风信息包含关于风速、风向、有无风、及有无强风、台风、及龙卷风中的至少任一者的信息。

如图3所示，当向控制模型M输入与通过观测无人飞机P的环境E而获得的观测数据对应的环境信息作为环境E的状态s时，将会从控制模型M输出用于控制所述无人飞机P的控制信息。也就是说，学习装置D对输入的环境信息，进行基于构成控制模型M的函数的运算而从控制模型M输出控制信息作为行动a。而且，在无人飞机P采取基于从控制模型M输出的控制信息的行动a后(也就是说，利用所述控制信息控制无人飞机P后)，再次向控制模型M输入与通过观测无人飞机P的环境E而获得的观测数据对应的环境信息。此处，通过无人飞机P采取行动a，而关于其环境E的环境信息会发生变化。也就是说，无人飞机P的环境E的状态s会发生变化。

学习装置D以基于存在于所述环境E中的无人飞机P采取基于控制信息的行动a的情况下获得(也就是说指定)的奖励r，而输出期待更多奖励r的控制信息的方式(换句话说，以获得更多奖励r的方式)，进行控制模型M的强化学习。此处，“状态”、“行动”、及“奖励”分别是强化学习领域的技术人员可明确掌握的技术用语。此外，奖励r表示行动a结果的评价(换句话说，对应于行动结果的得分)。作为奖励r的例子，有正(加)奖励r、与负(减)奖励r。负奖励r也称为损失。

作为本实施方式的无人飞机P，如图2所示应用真实环境中实际存在的真实无人飞机P1、与假想环境所假想存在的假想无人飞机P2的至少任一者。在应用真实无人飞机P1的情况下，在学习系统SY1包含着真实无人飞机P1。此处，真实无人飞机P1的飞行计划利用例如未图示的航行管理系统管理。在真实无人飞机P1的飞行计划中，包含着从真实无人飞机P1的出发地到目的地的飞行日程等。飞行日程包含真实无人飞机P1存在于出发地、经过地、及目的地中至少任一个地点(也就是说飞行路线上的指定地点)的预定时刻的信息(除时刻以外，也可包含年月日)。出发地、经过地、及目的地中至少任一个地点是例如地图上的地点，由纬度及经度表示。所述地点中，有真实无人飞机P1存在于空中(也就是说，处于飞行状态、或悬停状态)的情况，或者也有存在于地面(也就是说，处于着陆状态)的情况。从航行管理系统向学习装置D提供表示真实无人飞机P1的飞行计划的信息。此外，学习系统SY1可设置于航行管理系统的内部，也可设置于航行管理系统的外部。

另一方面，在应用假想无人飞机P2的情况下，在学习系统SY1中包含着模拟器L。假想无人飞机P2的飞行计划由例如模拟器L管理。假想无人飞机P2的飞行计划的内容与真实无人飞机P1的飞行计划相同。模拟器L进行假想环境的模拟。例如，模拟器L产生包含假想无人飞机P2、所述移动物体、不动物体(例如大楼、房屋、墙壁、树木等)、及地表面(例如多个图案的地形)的假想环境，进行与所述移动物体及假想无人飞机P2的至少任一者的移动对应的假想环境的更新。从模拟器L向学习装置D提供表示假想无人飞机P2的飞行计划的信息。此外，由于可使用众所周知的模拟技术而由模拟器L实现假想环境的产生及更新处理，因此省略详细的说明。在图2的例，表示学习装置D与模拟器L是不同装置的例子，但学习装置D也可具备模拟器L的功能。另外，也可在学习系统SY1中包含真实无人飞机P1与模拟器L这两者。

从真实无人飞机P1向学习装置D按时间顺序提供成为与真实无人飞机P1的环境(换句话说，真实环境)E相关的环境信息的来源的观测数据。而且，真实无人飞机P1由真实无人飞机P1的飞行控制部，基于根据提供观测数据而从学习装置D按时间顺序提供的控制信息来进行飞行控制。此外，也可由学习装置D具备飞行控制部。另一方面，从模拟器L向学习装置D按时间顺序提供成为与假想无人飞机P2的环境(换句话说，假想环境)E相关的环境信息的来源的观测数据。而且，假想无人飞机P2由模拟器L基于根据提供观测数据而从学习装置D按时间顺序提供的控制信息来进行飞行控制。

此外，“按时间顺序提供”意为随着时间经过而连续多次提供。提供观测数据或控制信息的时间间隔(也就是说提供间隔)可为固定间隔，也可为不定间隔。另外，控制信息包含例如是否使无人飞机P前进(换句话说，是否使无人飞机P暂时停止(例如悬停))的命令、使无人飞机P前进的情况的前进方向(向哪一方向前进)的命令、使无人飞机P前进的情况的速度样式(例如加速、匀速、或减速)的命令、是否使无人飞机P的高速变更的命令、使无人飞机P的高度变更的情况的变更方向(例如上升、或下降)的命令、及使无人飞机P的姿态角变更(机体如何倾斜)的命令等中的至少任一个命令。

[3.真实无人飞机P1的构成及功能概要]

接下来，参照图3及图4，对真实无人飞机P1的构成及功能概要进行说明。图3是表示真实无人飞机P1的概要构成例的图。真实无人飞机P1如图3所示，具备通信部11、驱动部(推进部)12、传感器部13、及控制部14等。此外，虽未图示，但真实无人飞机P1具备水平旋转机翼也就是回转器(螺旋桨)、及对真实无人飞机P1的各部供给电力的电池。另外，真实无人飞机P1的防水性能根据真实无人飞机P1的型式、规格等而不同。也就是说，既有防水性能较高的真实无人飞机P1，也有防水性能较低的真实无人飞机P1。通信部11承担经由未图示的通信网络控制与学习装置D之间所进行的通信。驱动部12通过根据从控制部14输出的控制信号而驱动的马达及旋转轴等来使多个回转器旋转。

在传感器部13包含有测位传感器13a、光学传感器13b、姿态传感器13c、电池传感器13d、及气象传感器13e等。所述传感器使用于真实无人飞机P1的周边环境的观测用等。测位传感器13a是用于检测真实无人飞机P1的当前位置的传感器。测位传感器13a接收例如从GNSS(Global Navigation Satellite System：全球导航卫星系统)的卫星发送的电波，基于所述电波而检测真实无人飞机P1的水平方向的当前位置(纬度及经度)。此外，测位传感器13a也可利用未图示的气压传感器等高度传感器而检测真实无人飞机P1的垂直方向的当前位置(高度)。真实无人飞机P1的当前位置随着时间经过而连续多次检测(也就是说按时间顺序检测)。检测真实无人飞机P1的当前位置的时间间隔(也就是说检测间隔)可为固定间隔，也可为不定间隔。表示利用测位传感器13a检测的当前位置的位置信息按时间顺序向控制部14输出。

光学传感器13b是用于从上空光学非接触传感真实无人飞机P1的周边环境的传感器。在光学传感器13b，使用例如相机(例如RGB相机或红外线相机)。此外，在光学传感器13b，也可使用LiDAR(Light Detection and Ranging(光探测与测距)、或Laser ImagingDetction and Ranging(激光成像探测与测距)。随着时间经过而连续多次传感(也就是说按时间顺序非接触传感)真实无人飞机P1的周边环境。非接触传感真实无人飞机P1的周边环境的时间间隔(也就是说传感间隔)可为固定间隔，也可为不定间隔。表示利用光学传感器13b进行非接触传感的结果的传感数据(也就是说，利用真实无人飞机P1从上空非接触传感所获得的传感数据)按时间顺序向控制部14输出。在传感数据中包含有例如包含移动物体、不动物体、及地表面的环境的图像数据。

姿态传感器13c是用于取得关于真实无人飞机P1的姿态的姿态数据(例如关于真实无人飞机P1的角速度、及加速度等)的传感器。在姿态传感器13c，使用例如三轴角速度传感器、3轴加速度传感器、及3轴地磁传感器。此外，也可在姿态传感器13c，使用IMU(Internal measurement unit：内部测量单元)。另外，姿态传感器13c也可取得关于真实无人飞机P1的壳体的振动(加速度的微分绝对值)的振动数据。真实无人飞机P1的姿态数据与振动数据的至少任一数据随着时间经过而连续多次取得(也就是说按时间顺序取得)。取得所述数据的时间间隔(也就是说取得间隔)可为固定间隔，也可为不定间隔。利用姿态传感器13c取得的姿态数据与振动数据的至少任一数据按时间顺序向控制部14输出。

电池传感器13d是用于监视真实无人飞机P1的电池的剩余电量或消耗电量等的传感器。电池的剩余电量或消耗电量随着时间经过而连续多次检测。检测真实无人飞机P1的电池的剩余电量或消耗电量的时间间隔可为固定间隔，也可为不定间隔。表示利用电池传感器13d检测的电池的剩余电量或消耗电量的电池信息按时间顺序向控制部14输出。

气象传感器13e是用于测定真实无人飞机P1的周边环境的有无风(例如有无强风)、风速、风向、降雨量(降水量)等气象的传感器。气象随着时间经过而连续多次测定。测定气象的时间间隔可为固定间隔，也可为不定间隔。表示利用气象传感器13e测定的气象的气象信息(也就是说，真实无人飞机P1的周边环境的气象信息)按时间顺序向控制部14输出。

控制部14具备处理器也就是CPU(Central Processing Unit：中央处理单元)、ROM(Read Only Memory：只读存储器)、RAM(Random Access Memory：随机存取存储器)、及非易失性存储器等。图6是表示控制部14的功能块例的图。控制部14按照例如存储于ROM或非易失性存储器的程序(程序代码群)，如图6所示作为环境信息提供部14a、控制信息取得部14b、及飞行控制部14c发挥功能。环境信息提供部14a从传感器部14取得位置信息、传感数据、姿态数据、振动数据、电池信息、及气象信息，并将取得的位置信息、传感数据、姿态数据、振动数据、电池信息、及气象信息的全部或一部分作为观测数据经由通信部11按时间顺序向学习装置D提供。

此外，可在观测数据包含有表示当前时刻的时刻信息。当前时刻可利用控制部14按时间顺序取得。另外，在观测数据中可包含表示真实无人飞机P1的飞行速度与飞行加速度的至少任一者的速度信息。真实无人飞机P1的飞行速度及飞行加速度也可由控制部14按时间顺序算出。

控制信息取得部14b经由通信部11取得从学习装置D按时间顺序提供的控制信息。飞行控制部14c基于利用控制信息取得部14b按时间顺序取得的控制信息而进行真实无人飞机P1的飞行控制。在所述飞行控制，包含有真实无人飞机P1的位置、姿态、及前进方向的控制。此外，真实无人飞机P1的飞行控制也可称为作为学习系统SY1整体的飞行控制。

[4.学习装置D的构成及功能概要]

接下来，参照图7，对学习装置D的构成及功能概要进行说明。图7是表示学习装置D的概要构成例的图。学习装置D如图7所示，具备通信部21、存储部22、及控制部23等。通信部21承担经由未图示的通信网络控制与真实无人飞机P1及模拟器L的至少任一者之间所进行的通信。存储部22具备例如硬盘驱动器等。存储部22存储输入环境信息而输出控制信息的控制模型M。另外，在存储部22存储着表示包含无人飞机P的预定飞行区域的指定区域的地图的地图数据。在地图数据中也可包含静态的禁止飞行区域、可能成为障碍物的不动物体、及地表面的属性等信息。此处，关于不动物体，包含高度信息即可，故期望地图数据表示3维地图。

另外，在存储部22存储着表示包含无人飞机P的预定飞行区域的指定区域的气象预测图的气象预测图数据。气象预测图是表示在包含预定飞行区域的指定区域中预测的风信息、降雨信息、降雪信息、及打雷信息的至少任一种气象信息(也就是说，包含无人飞机P的预定飞行区域的指定区域的气象信息)的图，例如也可是从当前到未来指定时间的每个指定单位时间的图。作为所述图的例子，列举风预测图、降雨预测图、降雪预测图、及打雷预测图。此处，因有时风速及风向等根据高度而相差较大，故风预测图也可根据高度而区分为多个。也就是说，风预测图也可是4维图(储存水平2方向×高度×每个时间段的风信息的4维阵列)。此外，可从气象观测服务器或气象预测服务器等取得气象预测图数据。

控制模型M可是任何机械学习模型。例如可为神经网络，其由至少包含输入层与输出层的多层构成，通过使用奖励r的强化学习来更新所述多层的加权系数。此处，作为强化学习的“更新”的例而有“优化”。但，“优化”是技术用语，无需在所有观点来说为最优，只要在指定的观点来说更合适即可。例如，以获得更多奖励r的方式进行稍后叙述的行动价值、策略、或加权系数等的更新。

作为用于进行控制模型M的强化学习的学习算法的例子，虽有Q-Learning(Q-学习)、DQN(Deep Q-Network：深度Q网络)、SARSA(State-Action-Reward-State-Action：状态-动作-奖励-状态-动作)、A3C(Asynchronous Advantage Actor-Critic：非同步评价器演算法)、UNREAL(UNsupervised REinforcement and Auxiliary Learning：无监督强化与辅助学习)、Policy Gradient(策略梯度)、TRPO(Trust Region Policy Optimization：信任域策略优化算法)、PPO(Proximal Policy Optimization：近端策略优化算法)等，但并非特别限定。学习算法可大致分为基于价值的学习算法(例如Q-Learning、DQN、SARSA等)、基于策略的学习算法(例如Policy Gradient、TRPO、PPO等)，但是在本实施方式可应用任何学习算法。

基于价值的学习算法是通过使用奖励r更新(例如优化)行动价值(行动价值函数Q(s,a)、或也称为Q值)而进行控制模型M的强化学习的方法。由此，可获得最优的策略π(也就是说使奖励r优化的策略π)。在基于价值的学习算法下，如果向控制模型M输入环境信息作为状态s，那么从控制模型M输出多个(也就是说输出多个候补)行动价值函数Q(s,a)作为控制信息。选择基于与这样输出的多个行动价值函数Q(s,a)中相对来说值较大的(例如最大)行动价值函数Q(s,a)对应的控制信息的行动a。

而且，使用表示无人飞机P采取所选择的行动a的情况下行动a的结果评价的奖励r来更新行动价值函数Q(s,a)。所述情况的奖励r是例如从状态s采取行动a的情况下获得的瞬时奖励、与从利用行动a过渡(以某过渡概率过渡)的状态s+1按照策略π连续采取例如最优行动的情况下获得的延迟奖励(例如考虑有折扣率γ的延迟奖励)的和。此处，瞬时奖励与延迟奖励的和可近似为基于Bellman(贝尔曼)最优方程式的折扣奖励。在所述情况下，以更新前的行动价值函数Q(s,a)与折扣奖励和的差量(TD(Temporal Difference：时间差异)误差)最小化的方式更新行动价值函数Q(s,a)。

此外，在以深度神经网络模型化的DQN中，从所述神经网络输出行动价值函数Q(s,a)的近似函数Q(s,a；w)。此处，w是所述神经网络的多层的加权系数。而且，通过以近似函数Q(s,a；w)与折扣奖励和的差量的平方也就是误差函数L利用随机梯度法等最小化的方式更新(例如优化)加权系数w，而进行控制模型M的学习。

另一方面，基于策略的学习算法是通过使用奖励r更新(例如优化)策略π(例如，以θ为参数的策略函数π_θ(S))而进行控制模型M的强化学习的方法。在基于策略的学习算法中，如果向控制模型M输入环境信息作为状态s，那么从控制模型M输出行动a或行动a的概率分布作为控制信息。而且，使用表示无人飞机P采取输出的行动a(或基于概率分布而选择的行动a)的情况下行动a的结果评价的奖励r来更新策略π。所述情况的奖励r是例如从状态s根据策略π继续采取例如最优行动的情况下获得的期待累积奖励J(θ)。在所述情况下，以相对于策略π而通过随机梯度法等将期待累积奖励J(θ)最大化的方式更新策略π。

控制部23具备具有运算功能的处理器也就是CPU、ROM、RAM及非易失性存储器。图7是表示控制部23的功能块例的图。控制部23根据例如存储于ROM或非易失性存储器的程序(程序代码群)，如图7所示，作为行动预测部23a、环境信息取得部23b、控制信息取得部23c、奖励指定部23d、及学习控制部23e等发挥功能。

行动预测部23a基于从真实无人飞机P1按时间顺序提供的观测数据，而预测真实无人飞机P1的周边环境中所存在的移动物体的行动，获得关于所预测的行动的行动预测信息(也就是说，移动物体的行动预测信息)。或者，取代所述行动预测信息(或除所述以外)，行动预测部23a也可基于从模拟器L按时间顺序提供的观测数据，而预测假想无人飞机P2的周边环境中所存在的移动物体的行动，获得关于预测的行动的行动预测信息。此处，行动预测信息包含例如移动物体的移动进路(轨道)及移动速度。移动物体的移动进路及移动速度通过追踪(例如只追踪指定时间)从按时间顺序取得的各观测数据中所包含的图像(帧)检测到的移动物体而取得。此时，也可指定移动物体的类别(例如人、车辆等)。此外，从模拟器L提供的观测数据中所包含的信息项目，可与从真实无人飞机P1提供的观测数据中所包含的信息项目(例如位置信息、传感数据、姿态数据、振动数据、电池信息、气象信息、时刻信息、及速度信息)相同，也可不同。

进而，行动预测部23a也可从观测数据中所包含的图像检测移动物体，且从所述观测数据所包含的图像推测地表面的属性(例如人行道(步行路)、车道(道路)、铁路、田地、建筑物、河流、海洋等)。在所述情况下，行动预测部23a使用检测到的移动物体、及推测出的地表面的属性(以下，称为“地表属性”)来预测移动物体的行动。此外，在地表属性的推测中使用例如众所周知的图像识别技术。认为人在移动时会避开车辆等障碍物而尽可能地在人行道上移动。另外，认为车辆在移动时会按照交通规则等社会规范而仅在车道上移动。也就是说，移动物体的行动取决于其周边环境。因此，可通过使用移动物体的周边环境的地表属性而更准确地预测移动物体的行动。在可从存储于存储部22的地图数据指定这样的地表属性的情况下，也可省略地表属性的推测。此外，可考虑过去推测的移动速度、车道的形状等而预测人以外的移动物体的移动速度。此时，如果获得车道的坡度信息，那么也可基于坡度信息来预测移动物体的移动速度。

环境信息取得部23b基于从真实无人飞机P1按时间顺序提供的观测数据、与存储于存储部22的气象预测图数据的至少任一数据，按时间顺序取得关于真实无人飞机P1的环境E的环境信息。此处，取得环境信息的时间间隔(也就是取得间隔)可为固定间隔，也可为不定间隔。或者，取代所述环境信息(或除所述以外)，环境信息取得部23b可基于从模拟器L提供的观测数据，按时间顺序取得关于假想无人飞机P2的环境E的环境信息(也就是假想无人飞机P2的周边环境的环境信息)。此外，环境信息也可为从真实无人飞机P1或模拟器L提供的观测数据本身。在所述情况下，环境信息取得部23b取得例如无人飞机P(也就是真实无人飞机P1或假想无人飞机P2)的环境E的气象信息作为所述环境信息。进而，环境信息取得部23b可取得无人飞机P的位置(或位置及姿态)、无人飞机P的电池的剩余电量(或电池的消耗电量)、移动物体的位置、不动物体的位置、及地形作为所述环境信息。进而，作为所述环境信息，可取得当前时刻。另外，作为所述环境信息，也可取得无人飞机P的飞行速度与飞行加速度的至少任一者。

另外，环境信息取得部23b可通过基于所述观测数据来推测环境E的地表属性，而取得所述地表属性作为环境信息。进而，环境信息取得部23b也可取得环境E中预定的禁止飞行区域(静态的禁止飞行区域)的位置信息(换句话说，为范围信息)作为环境信息。例如，指定属性的地表、不动物体的上空可设定为静态的禁止飞行区域，或与指定属性的地表、不动物体距指定距离(例如30m)以内也可设定为静态的禁止飞行区域。此外，静态的禁止飞行区域的位置信息也可从例如地图数据中取得。

或者，环境信息除从真实无人飞机P1或模拟器L按时间顺序提供的观测数据、与存储于存储部22的气象预测图数据的至少任一数据以外，也可是从行动预测部23a取得的行动预测信息(也就是利用行动预测部23a预测行动的移动物体的行动预测信息)。通过利用所述行动预测信息作为环境信息而可提高学习效率。在所述情况下，环境信息取得部23b除例如无人飞机P的环境E的气象信息、环境E的无人飞机P的位置(或位置及姿态)、无人飞机P的电池的剩余电量(或电池的消耗电量)、移动物体的位置、不动物体的位置、地表属性及地形等以外，还取得移动物体的移动进路及移动速度作为所述环境信息。此外，环境信息也可是以利用控制信息取得部23c或奖励指定部23d容易处理的方式，转换(例如文件形式的变更、数据整形等预处理)从真实无人飞机P1或模拟器L提供的观测数据、与存储于存储部22的气象预测图资料的至少任一数据(或所述数据及行动预测信息)的信息。

或者，环境信息取得部23b也可通过基于从真实无人飞机P1或模拟器L按时间顺序提供的观测数据来进行指定的信息处理，而按时间顺序取得环境信息。优选为在所述信息处理中包含有例如SLAM(Simultaneous Localization and Mapping：同时定位与地图绘制)处理。在所述情况下，环境信息取得部23b在SLAM处理中，基于按时间顺序取得的观测数据，而推测无人飞机P在周边环境中的位置及姿态，并且制作周边环境的3维图(例如反映风信息等气象信息的3维图)。此外，为了使SLAM的精度提高，可在观测数据所包含的图像上对移动物体进行屏蔽(也就是说从观测数据去除移动物体的信息)后进行SLAM处理。进而，环境信息取得部23b从移动预测部23a取得移动物体的行动预测信息(也就是说周边环境中的移动物体的位置、移动进路及移动速度)。

而且，环境信息取得部23b通过将无人飞机P的位置及姿态、移动物体的行动预测信息(也就是说周边环境中的移动物体的位置、移动进路及移动速度)统合到制作的所述3维图中(也就是说反映移动物体等信息)，而按时间顺序取得环境信息。这样按时间顺序取得的环境信息由连续的多张3维图的图像，也就是3维图的动态图像构成。在这样的动态图像上，至少移动物体的位置会发生变化。此外，环境信息取得部23b也可在所述信息处理中，基于观测数据而推测周边环境的地表属性。在所述情况下，除无人飞机P的位置及姿态、移动物体的行动预测信息以外，通过将地表属性统合到制作的所述3维图中而取得环境信息。进而，除无人机P的位置及姿态以外，也可通过将无人飞机P的飞行速度与飞行加速度的至少任一者统合到制作的所述3维图中而取得环境信息。

控制信息取得部23c通过将利用环境信息取得部23b取得的环境信息作为状态s输入到控制模型M，而取得从控制模型M输出的控制信息。此处，环境信息随着时间经过而连续多次向控制模型M(也就是按时间顺序输入)输入。输入环境信息的时间间隔(也就是输入间隔)可为固定间隔，也可为不定间隔。在向控制模型M的一次输入中，例如至少输入无人飞机P的位置(变数x1)、及环境E的气象信息(变数x2)作为环境信息。除所述以外，如果以输入无人飞机P的姿态(变数x3)、无人飞机P的壳体的振动(变数x4)、无人飞机P的电池的剩余电量(或电池的消耗电量)(变数x5)、障碍物(移动物体与不动物体的至少任一者)的位置(变数x6)、地表属性(变数x7)、地形(变数x8)、移动物体的移动进路(变数x9)、及移动速度(变数x10)中的至少任一信息作为环境信息的方式构成，那么可提高学习精度。

另外，在环境信息统合有移动物体的位置等信息的3维图的情况下，在向控制模型M的1次输入中，例如输入构成所述3维图的图像的各体素的值。此外，如果以作为环境信息输入的3维图是统合有环境E的气象信息、移动物体的行动预测信息、及地表属性的3维图的方式构成，那么可提高学习精度。但是，也可不向控制模型M输入3维图，而是输入例如利用再现人、车辆、建筑物、及道路等的CG(Computer Graphics：电脑图形学)构成的模拟图像。为了提高学习精度，而期望充分变化(车型、道路或建筑物的形状、颜色、人头类型等)的模拟、及基于此的强化学习。

而且，控制信息取得部23c经由通信部21按时间顺序向真实无人飞机P1或模拟器L提供从控制模型M取得的控制信息。此处，也可每当从控制模型M输出控制信息时就向真实无人飞机P1或模拟器L提供该控制信息。或，从控制模型M输出的控制信息也可以长于所述输出间隔的间隔向真实无人飞机P1或模拟器L提供(也就是拉长控制信息的输出间隔而提供)。

奖励指定部23d指定表示无人飞机P采取基于控制信息的行动a的情况下所述行动a的结果评价的奖励r。可在奖励r的指定中使用例如预先准备的奖励表或奖励算出式。奖励表是将奖励与表示多个状态的各者的状态信息建立对应的表。根据所述奖励表，指定与表示无人飞机P在状态s下采取行动a的情况下过渡后的状态s+1的状态信息建立对应的奖励r。但，奖励表也可是将奖励相对于某状态s下采取行动a时的所述状态s与所述行动a的多个组的各者建立对应的表。另一方面，奖励算出式是通过带入表示状态的状态信息而算出奖励的式。根据所述奖励算出式，通过带入表示无人飞机P在状态s下采取行动a的情况下过渡后的状态s+1的状态信息来指定奖励r。此外，基于例如输入到控制模型M的环境信息、与通过输入所述环境信息而从控制模型M输出的控制信息来指定所述状态信息。

此处，作为表示状态的状态信息的例子，列举(i)无人飞机P的姿态、(ii)无人飞机P的飞行稳定性、(iii)无人飞机P的高度、(iv)向无人飞机P的累积降水量与无人飞机P的防水性能的关系、(v)无人飞机P与障碍物的位置关系、(vi)无人飞机P与禁止飞行区域的位置关系、(vii)无人飞机P的电池剩余电量、(viii)无人飞机P的周边环境的地表属性、(ix)无人飞机P是否到达指定地点的状态(以下，称为“到达/未到达状态”)、及(x)无人飞机P的移动状态等。奖励指定部23d指定对应于该状态信息的奖励r(也就是说根据状态信息而不同的奖励r)。以下，说明对应于各个状态信息的奖励r的指定例。

(i)对应于无人飞机P的姿态的奖励r

在所述情况下，奖励指定部23d基于输入到控制模型M的环境信息、与通过输入所述环境信息而从控制模型M输出的控制信息，指定无人飞机P采取基于所述控制信息的行动a的情况下无人飞机P的姿态(状态信息的例子)。也就是说，指定通过行动a而从状态s过渡后的无人飞机P的姿态。无人飞机P的姿态可利用例如表示无人飞机P从与地面水平的状态倾斜几度的姿态角度来指定。所述姿态角度是例如滚转角(左右倾斜)、或俯仰角(前后倾斜)。

而且，奖励指定部23d使用例如奖励表或奖励算出式，根据无人飞机P的姿态来指定奖励r。也就是说，奖励指定部23d根据无人飞机P采取行动a的情况下无人飞机P的姿态来指定不同的奖励r。例如，无人飞机P的姿态角度越大(也就是说倾斜越大)，指定越小的奖励r(换句话说，姿态角度越小，指定越大的奖励r)。通过所述奖励r，可以输出即便有特别气象的影响也会使所述无人飞机P进行稳定地保持无人飞机P的姿态的飞行的控制信息的方式，进行控制模型M的学习。

另外，例如如果无人飞机P倾斜第1阈值(例如30°)以上，那么因倾覆风险变高，故指定负奖励r(例如，r＝－2)，进而，如果无人飞机P倾斜第2阈值(例如45°)以上，那么考虑到已倾覆，故指定更小的负奖励r(例如，r＝－7)。所述情况下，也可以在第1阈值(例如30°)到第2阈值(例如45°)之间，奖励r根据姿态角度而单调减少(奖励r的绝对值单调增加)的方式(例如－3、－4、－5、－6)进行设计。此外，关于姿态角度的阈值，可根据无人飞机P的种类或性能适当设计。例如，有维持姿态角度10°左右而移动的机体，也有以接近垂直的姿态角度飞行的机体。

(ii)对应于无人飞机P的飞行稳定性的奖励r

在所述情况下，奖励指定部23d基于输入到控制模型M的环境信息、与通过输入所述环境信息而从控制模型M输出的控制信息，指定无人飞机P采取基于所述控制信息的行动a的情况下无人飞机P的飞行稳定性(状态信息的例子)。也就是说，指定通过行动a而从状态s过渡后的无人飞机P的飞行稳定性。无人飞机P的飞行稳定性基于无人飞机P的振动(壳体的振动)来评价。例如无人飞机P的振动越大，那么飞行稳定性越低。

而且，奖励指定部23d使用例如奖励表或奖励算出式，根据无人飞机P的飞行稳定性来指定奖励r。也就是说，奖励指定部23d根据无人飞机P采取行动a的情况下无人飞机P的飞行稳定性来指定不同的奖励r。例如，无人飞机P的飞行稳定性越低(也就是说壳体的振动越大)，那么指定越小的奖励r(例如负奖励r)(换句话说，飞行稳定性越大，指定越大的奖励r)。通过所述奖励r，可以输出即便有特别气象的影响也会使所述无人飞机P进行无人飞机P的飞行稳定性较高的飞行的控制信息的方式，进行控制模型M的学习。此外，如果无人飞机P的振动较大，那么不仅要考虑飞行稳定，也要考虑对无人飞机P内的各种机器的不良影响，另外也要考虑无人飞机P搬送货物的情况下对货物的不良影响(冲击)。因此，可在无人飞机P的飞行稳定性低于阈值的情况下，指定负奖励r。

(iii)对应于无人飞机P的高度的奖励r

在所述情况下，奖励指定部23d基于输入到控制模型M的环境信息、与通过输入所述环境信息而从控制模型M输出的控制信息，指定无人飞机P采取基于所述控制信息的行动a的情况下无人飞机P的高度(状态信息的例子)。也就是说，指定通过行动a而从状态s过渡后的无人飞机P的高度。此外，无人飞机P的高度可为空中的无人飞机P的位置到地面(也就是说无人飞机P到垂直方向的地面)的距离。另外，在地面存在障碍物的情况下，优选为无人飞机P的位置到障碍物的距离。从利用无人飞机P具备的光学传感器13b进行非接触传感而获得的传感数据中获得所述距离(也就是说3维空间的距离)。但，无人飞机P的高度也可是与利用无人飞机P具备的气压传感器检测的气压对应的高度(也就是说海拔)。

而且，奖励指定部23d使用例如奖励表或奖励算出式，根据无人飞机P的高度来指定奖励r。也就是说，奖励指定部23d根据无人飞机P采取行动a的情况下无人飞机P的高度来指定不同的奖励r。例如，无人飞机P的高度越低，指定越小的奖励r(例如负奖励r)(换句话说，高度越高，指定越大的奖励r)。其原因是如果高度过低，那么与障碍物接触的风险变高。或者，也可为无人飞机P的高度越高，指定越小的奖励r(例如负奖励r)。其原因是，如果高度过高，那么与载人飞机的空域重叠的风险变高。通过所述奖励r，可以输出即便有特别气象的影响也会使所述无人飞机P进行保持无人飞机P的安全高度的飞行的控制信息的方式，进行控制模型M的学习。

另外，奖励指定部23d也可根据无人飞机P采取行动a的情况下无人飞机P的高度是否包含于指定的高度范围(例如距地上30m～150m)内来指定不同的奖励r。例如，在无人飞机P的高度不包含于指定的高度范围内的情况下，指定较小的奖励r(例如负奖励r＝－2)，在包含于所述高度范围内的情况下，指定较大的奖励r。由此，可以输出即便有特别气象的影响也会使所述无人飞机P进行将无人飞机P的高度保持于指定的高度范围内的飞行的控制信息的方式，进行控制模型M的学习。另外，指定的高度范围是例如由法律法规等规定的范围。

另外，指定的高度范围也可基于利用无人飞机P从上空进行非接触传感所获得的传感数据而动态变化。例如，在根据传感数据而指定在无人飞机P的正下方及其周边无障碍物的情况下，所述高度范围设定为例如距地上0m～150m。另一方面，在无人飞机P的正下方及其周边指定有障碍物的情况下，所述高度范围设定为例如距地上30m～150m。此处，所述高度范围的下限值也可根据障碍物的高度而变更(也就是说，障碍物越高，下限值越大)。

(vi)对应于向无人飞机P的累积降水量与无人飞机P的防水性能的关系的奖励r

在所述情况下，奖励指定部23d基于输入到控制模型M的环境信息、与通过输入所述环境信息而从控制模型M输出的控制信息，指定无人飞机P采取基于所述控制信息的行动a的情况下向无人飞机P的累计降水量与对应于无人飞机P的防水性能的阈值。也就是说，指定通过行动a而从状态s过渡后的向无人飞机P的累积降水量与对应于无人飞机P的防水性能的阈值。此处，根据例如无人飞机P的型式或规格等指定来对应于无人飞机P的防水性能的阈值。

接下来，奖励指定部23d基于所述指定的向无人飞机P的累积降水量与对应于无人飞机P的防水性能的阈值，而指定累积降水量与无人飞机P的防水性能的关系(状态信息的例子)。此处，累积降水量与无人飞机P的防水性能的关系是例如向无人飞机P的累积降水量、与对应于无人飞机P的防水性能的阈值的大小关系。

而且，奖励指定部23d使用例如奖励表或奖励算出式，根据向无人飞机P的累积降水量、与对应于无人飞机P的防水性能的阈值的关系来指定奖励r。也就是说，奖励指定部23d根据无人飞机P采取行动a的情况下向无人飞机P的累积降水量、与对应于无人飞机P的防水性能的阈值的关系来指定不同的奖励r。例如，在向无人飞机P的累积降水量超过对应于无人飞机P的防水性能的阈值的情况下，指定较小的奖励r(例如，负奖励r＝－5)。通过所述奖励r，可以输出即便有特别降雨的影响也会使所述无人飞机P进行不对无人飞机P的防水性能带来障碍的飞行的控制信息的方式，进行控制模型M的学习。此外，例如也可在向无人飞机P的累积降水量超过对应于无人飞机P的防水性能的阈值的情况下，所述累积降水量与所述阈值的差越大，那么指定越小的奖励r。

(v)对应于无人飞机P与障碍物的位置关系的奖励r

在所述情况下，奖励指定部23d基于输入到控制模型M的环境信息、与通过输入所述环境信息而从控制模型M输出的控制信息，指定无人飞机P采取基于所述控制信息的行动a的情况下无人飞机P的位置与障碍物(移动物体与不动物体的至少任一者)的位置。也就是说，指定通过行动a而从状态s过渡后的无人飞机P的位置与障碍物的位置。

接下来，奖励指定部23d基于所述指定的无人飞机P的位置与障碍物的位置，指定无人飞机P与障碍物的位置关系(状态信息的例子)。此处，无人飞机P与障碍物的位置关系是例如表示无人飞机P与障碍物之间的距离、与以无人飞机P为视点的障碍物的方向的至少任一者的信息。此外，无人飞机P与障碍物之间的距离，可为考虑高度(也就是说高度方向)的3维空间的距离，也可为忽略高度的2维距离。同样，以无人飞机P为视点的障碍物的方向，可为考虑高度的3维空间的方向，也可为忽略高度的2维方向。

而且，奖励指定部23d使用例如奖励表或奖励算出式，根据无人飞机P与障碍物的位置关系来指定奖励r。也就是说，奖励指定部23d根据无人飞机P采取行动a的情况下无人飞机P与障碍物的位置关系来指定不同的奖励r。例如，无人飞机P与障碍物之间的距离越短，指定越小的奖励r(换句话说，距离越长，指定越大的奖励r)。通过所述奖励r，可以输出即便有特别气象的影响(例如无人飞机P被风吹走)也会使无人飞机P进行避开向障碍物的接近或接触的飞行的控制信息的方式，进行控制模型M的学习。此外，可在无人飞机P与障碍物之间的距离是阈值以下的情况下(也就是说在距无人飞机P指定距离以内存在障碍物的情况)，指定负奖励r。另外，也可在无人飞机P接触障碍物的情况下，指定最小的负奖励r。

或者，以无人飞机P为视点的障碍物的方向与无人飞机P的行进方向(例如向目的地的方向)的角度差越小，指定越小的奖励r(换句话说，角度差越大，指定越大的奖励r)。在所述情况下，除这两个方向的角度差以外，可根据无人飞机P与障碍物之间的距离而指定不同的奖励r。另外，可在以无人飞机P为视点的障碍物的方向与无人飞机P的行进方向的角度差是阈值以下的情况下，指定负奖励r。另外，无人飞机P与障碍物的位置关系，可是例如表示在障碍物的上空是否存在无人飞机P的信息。在所述情况下，例如也可在障碍物的上空存在无人飞机P的情况下指定负奖励r。

(vi)对应于无人飞机P与禁止飞行区域的位置关系的奖励r

在所述情况下，奖励指定部23d基于输入到控制模型M的环境信息、与通过输入所述环境信息而从控制模型M输出的控制信息，指定无人飞机P采取基于所述控制信息的行动a的情况下无人飞机P的位置与禁止飞行区域的范围。也就是说，指定通过行动a而从状态s过渡后的无人飞机P的位置与禁止飞行区域的范围。此处，作为禁止飞行的例子，有预定的静态禁止飞行区域、与根据移动物体的移动而设定的动态禁止飞行区域。在后者的情况下，移动物体的上空可设定为静态禁止飞行区域，或将距移动物体指定距离(例如30m)以内设定为动态禁止飞行区域。

接下来，奖励指定部23d基于所述指定的无人飞机P的位置与禁止飞行区域的范围，指定无人飞机P与禁止飞行区域的位置关系(状态信息的例子)。此处，无人飞机P与禁止飞行区域的位置关系是例如表示无人飞机P与禁止飞行区域之间的距离、与以无人飞机P为视点的禁止飞行区域的方向的至少任一者的信息。此外，无人飞机P与禁止飞行区域之间的距离可为考虑高度的3维空间的距离，也可为忽略高度的2维距离。同样，以无人飞机P为视点的禁止飞行区域的方向可为考虑高度的3维空间的方向，也可为忽略高度的2维方向。

而且，奖励指定部23d使用例如奖励表或奖励算出式，根据无人飞机P与禁止飞行区域的位置关系来指定奖励r。也就是说，奖励指定部23d根据无人飞机P采取行动a的情况下无人飞机P与禁止飞行区域的位置关系来指定不同的奖励r。例如，无人飞机P与禁止飞行区域之间的距离越短，指定越小的奖励r。通过所述奖励r，可以输出即便有特别气象的影响例如无人飞机P被风吹走也会使无人飞机P进行避开向禁止飞行区域的接近或进入的飞行的控制信息的方式，进行控制模型M的学习。此外，可在无人飞机P与禁止飞行区域之间的距离是阈值以下的情况下，指定负奖励r。另外，也可在无人飞机P进入禁止飞行区域的情况下，指定负奖励r。

或者，以无人飞机P为视点的禁止飞行区域的方向与无人飞机P的行进方向(例如向目的地的方向)的角度差越小，指定越小的奖励r。在所述情况下，除两个方向的角度差以外，也可根据无人飞机P与禁止飞行区域之间的距离来指定不同的奖励r。另外，可在以无人飞机P为视点的禁止飞行区域的方向与无人飞机P的行进方向的角度差为阈值以下的情况下，指定负奖励r。另外，无人飞机P与禁止飞行区域的位置关系，可为例如表示无人飞机P是否滞留于禁止飞行区域的信息。在所述情形下，例如也可在无人飞机P滞留于禁止飞行区域的情况下指定负奖励r。

另外，奖励指定部23d可指定无人飞机P滞留于动态禁止飞行区域的情况的奖励r与无人飞机P滞留于静态禁止飞行区域的情况的奖励r相同，也可指定为不同。在后者的情况下，例如可指定无人飞机P滞留于动态禁止飞行区域的情况的奖励r小于无人飞机P滞留于静态禁止飞行区域的情况的奖励r。

(vii)对应于无人飞机P的电池剩余电量的奖励r

在所述情况下，奖励指定部23d基于输入到控制模型M的环境信息、与通过输入所述环境信息而从控制模型M输出的控制信息，指定无人飞机P采取基于所述控制信息的行动a的情况下无人飞机P的电池剩余电量(状态信息的例子)。也就是说，指定通过行动a而从状态s过渡后的无人飞机P的电池剩余电量。此外，也可代替无人飞机P的电池剩余电量，而指定电池的消耗电量。

而且，奖励指定部23d使用例如奖励表或奖励算出式，根据电池剩余电量(或电池消耗电量)来指定奖励r。也就是说，奖励指定部23d根据无人飞机P采取行动a的情况下电池剩余电量(或电池消耗电量)来指定不同的奖励r。例如，电池剩余电量越少(或电池消耗电量越多)，指定越小的奖励r。通过所述奖励r，可以输出即便有特别气象的影响也会使无人飞机P进行电池剩余电量变多(或电池消耗电量变少)的飞行的控制信息的方式，进行控制模型M的学习。此外，可在电池剩余电量为阈值以下(或电池消耗电量为阈值以上)的情况下，指定负奖励r。

(viii)对应于无人飞机P的环境E的地表属性的奖励r

在所述情况下，奖励指定部23d基于输入到控制模型M的环境信息、与通过输入所述环境信息而从控制模型M输出的控制信息，指定无人飞机P采取基于所述控制信息的行动a的情况下无人飞机P的环境E的地表属性(状态信息的例子)。也就是说，指定通过行动a而从状态s过渡后的无人飞机P的环境E的地表属性。

而且，奖励指定部23d使用例如奖励表或奖励算出式，根据无人飞机P的环境E的地表属性来指定奖励r。也就是说，奖励指定部23d根据无人飞机P采取行动a的情况下无人飞机P的环境E的地表属性来指定不同的奖励r。此处无人飞机P的环境E的地表属性可为包含无人飞机P的水平方向位置的指定区域的地表属性。

例如，道路、铁路等地表属性比其它地表属性通过移动物体的可能性更高，故不推荐道路、铁路上空、距道路、铁路指定距离以内的指定区域上的飞行。然而，也有根据目的地无法避开在所述指定区域上飞行的情况。因此，可动态设定所述指定区域作为不推荐飞行区域。而且，可在无人飞机P滞留于所述不推荐飞行区域的情况下指定负奖励r。但，期望无人飞机P滞留于不推荐飞行区域的情况的奖励r(例如r＝－1)，大于无人飞机P滞留于禁止飞行区域的情况的奖励r(例如r＝－5)。通过所述奖励，可以输出即便有特别气象的影响也会使无人飞机P进行对应于地表属性的飞行(例如尽可能减少在不推荐飞行区域的飞行)的控制信息的方式，进行控制模型M的学习。

(ix)对应于无人飞机P的到达/未到达状态的奖励r

在所述情况下，奖励指定部23d基于输入到控制模型M的环境信息、与通过输入所述环境信息而从控制模型M输出的控制信息，指定无人飞机P采取基于所述控制信息的行动a的情况下无人飞机P是否到达指定地点的到达/未到达状态(状态信息的例子)。也就是说，指定通过行动a而从状态s过渡后的无人飞机P的到达/未到达状态。此外，例如可根据所述飞行计划来取得指定地点的位置。

而且，奖励指定部23d使用例如奖励表或奖励算出式，根据无人飞机P的到达/未到达状态来指定奖励r。也就是说，奖励指定部23d根据无人飞机P采取行动a的状况下无人飞机P是否到达指定地点来指定不同的奖励r。例如，在无人飞机P到达指定地点的情况下指定正奖励r(例如r＝100)。另一方面，可在无人飞机P未到达指定地点的情况下指定零奖励r(例如r＝0)。由此，可以输出使无人飞机P进行适当到达指定地点的飞行的控制信息的方式，进行控制模型M的学习。

再者，奖励指定部23d也可根据无人飞机P采取行动a的情况时无人飞机P到达指定地点的情况下所需飞行时间与电池消耗电量的至少任一者来指定不同的奖励r。例如，可通过以下(1)式来指定对应于所需飞行时间与电池消耗电量这双方的奖励r。

r＝X-f(t)-g(b)···(1)

此处，X是到达(抵达)指定地点(例如目的地)的情况的标准奖励，也就是预定的正值(例如+100分)。f(t)是所需飞行时间t的函数。所需飞行时间t是从无人飞机P开始飞行至到达指定地点所需要的时间，可基于环境信息所包含的当前时刻而算出。f(t)是例如所需飞行时间越长，输出越大值这样的单调增加函数。由此，所需飞行时间越短，指定越大的奖励r。通过所述奖励r，可以输出即便有特别气象的影响也会使无人飞机P进行尽可能缩短所需飞行时间t的飞行的控制信息的方式，进行控制模型M的学习。

或者，f(t)也可是所需飞行时间t与目标所需时间(预定飞行时间)的差量越大，输出越大值这样的函数。由此，通过目标所需时间飞行者指定更大的奖励r。通过所述奖励r，可以输出即便有特别气象的影响下也会使无人飞机P进行尽可能使所需飞行时间接近目标所需时间的飞行的控制信息的方式，进行控制模型M的学习。此外，例如可根据所述飞行计划取得目标所需时间。

另外，g(b)是电池消耗电量b的函数。g(b)是例如电池消耗电量b越大，输出越大值这样的单调增加函数。由此，电池消耗电量b越小，指定越大的奖励r。通过所述奖励r，可以输出即便有特别气象的影响也会使无人飞机P进行尽可能减少电池消耗电量b的控制信息的方式，进行控制模型M的学习。此外，g(b)也可是在电池消耗电量b为指定的阈值以下的期间输出指定的值，如果电池消耗电量b超过指定的阈值，那么根据电池的消耗电量b而单调增加(狭义上的单调增加)的函数。

或者，g(b)也可是在电池消耗电量b为指定阈值以下的期间输出第1值，如果电池消耗电量b超过指定阈值那么输出大于第1值的第2值这样的函数。例如，设定指定的阈值与搭载于无人飞机P的电池的最大容量相同，设定第2值是非常大的值(例如标准奖励X以上值或无限大等)。通过所述奖励r，可以输出即便有气象的影响也会使无人飞机P进行尽可能使电池消耗电量b不超过电池的最大容量的飞行的控制信息的方式，进行控制模型M的学习。

(x)对应于无人飞机P的移动状态的奖励r

在所述情况下，奖励指定部23d基于输入到控制模型M的环境信息、与通过输入所述环境信息而从控制模型M输出的控制信息，指定无人飞机P采取基于所述控制信息的行动a的情况下无人飞机P的移动状态(状态信息的例子)。也就是说，指定通过行动a而从状态s过渡后的无人飞机P的移动状态。此处，作为无人飞机P的移动状态的例子，列举飞行状态(移动中的状态)、及暂时停止状态等。飞行状态可进而区分为匀速移动中、加速中、或减速中的状态。所述飞行状态可基于环境信息所包含的飞行速度或飞行加速度来指定。另外，暂时停止状态可进而区分为悬停状态、或着陆状态(着陆中的状态)。着陆状态可基于环境信息所包含的高度来指定。

而且，奖励指定部23d使用例如奖励表或奖励算出式，根据无人飞机P的移动状态来指定奖励r。也就是说，奖励指定部23d根据无人飞机P采取行动a的情况下无人飞机P的移动状态来指定不同的奖励r。例如，可在无人飞机P为悬停状态的情况下指定负奖励r(例如r＝－2)。其原因是，如果无人飞机P悬停，那么从所需飞行时间或电池消耗电量的观点来说并非有效率，尤其如果受气象的影响，那么成为无效率。通过所述奖励r，可以输出即便有特别气象的影响也会使无人飞机P进行从所需飞行时间或电池的消耗电量的观点来说有效率的飞行的控制信息的方式，进行控制模型M的学习。其中，期望无人飞机P不滞留于禁止飞行区域且悬停状态的情况下指定的奖励r，大于无人飞机P滞留于禁止飞行区域的情况的奖励r(例如r＝－5)。

此外，也可不全部使用所述(i)～(x)的奖励r。例如，认为即便不使用(v)或(viii)等奖励r，只要使用(i)、(ii)、(iii)、(vii)等奖励r，也可在相当程度上获得同样的效果。然而，通过使用(v)或(viii)的奖励r，可期待学习效率上升而减少学习次数的效果。另外，在使用(i)～(x)奖励r中的多个的情况下，最终的奖励可能是在每个(i)～(x)中计算的奖励r的合计值，也可是任一最大的奖励r(或最小的奖励r)。

学习控制部23e使用利用奖励指定部23d指定的奖励r来控制控制模型M的强化学习。也就是说，学习控制部23e以基于利用奖励指定部23d指定的奖励r，而输出获得更大的奖励r的控制信息的方式更新控制模型M。通过重复这样的更新，获得完成学习的控制模型M。例如，在利用基于价值的学习算法的强化学习的情况下，通过基于奖励r更新行动价值函数Q(s,a)使TD误差最小化(例如，收敛为0)，获得完成学习的控制模型M。另外，在控制模型M由神经网络构成的情况下，通过更新所述神经网络的多层加权系数w使误差函数L最小化，获得完成学习的控制模型M。另一方面，在利用基于策略的学习算法的强化学习的情况下，通过基于奖励r更新策略π使期待累积奖励J(θ)最大化，获得完成学习的控制模型M。此外，也可对利用学习控制部23e控制的强化学习应用众所周知的强化学习技术，并以对应于强化学习技术的方法进行加权系数的更新(例如优化)。

如上所述，只要学习系统SY1包含真实无人飞机P1与模拟器L中至少任一者即可。在学习系统SY1只包含真实无人飞机P1的情况下，学习装置D一边基于从真实无人飞机P1提供的观测数据进行强化学习，一边对真实无人飞机P1提供控制信息。根据使用真实无人飞机P1的强化学习，可在更接近实际运用的环境(真实空间)中进行学习，从而期待获得可进行更高效率的控制的控制模型M。另一方面，在学习系统SY1只包含模拟器L的情况下，学习装置D一边基于从模拟器L提供的观测数据进行强化学习，一边对模拟器L提供控制信息。根据使用模拟器L的强化学习，无需使用真实无人飞机P1，故可更安全且低成本地进行各种模式的学习。因此，在可利用真实无人飞机P1及模拟器L双方的情况下，例如也可先使用模拟器L使控制模型M强化学习某种程度，进而使用真实无人飞机P1使控制模型M进行强化学习。通过按这样的顺序进行学习，可能兼得安全性或学习效率、与高效率的飞行控制。

[5.学习装置D的动作]

接下来，参照图8，对学习装置D的动作进行说明。图8(A)是表示真实无人飞机P1的处理的例子的流程图。图8(B)是表示学习装置D的处理的例子的流程图。此外，图8(A)所示的处理也可应用于模拟器L。

图8(A)所示的处理在无人飞机P1从出发地出发时开始。当开始图8(A)所示的处理时，控制部14从传感器部14取得位置信息、传感数据、姿态数据、振动数据、及电池信息(步骤S1)。接下来，控制部14将包含步骤S1中取得的位置信息、传感数据、姿态数据、振动数据、及电池信息的全部或一部分的传感数据经由通信部11向学习装置D发送(步骤S2)。当对应于此而经由通信部11接收到从学习装置D发送的控制信息时(步骤S3)，控制部14基于所述控制信息而进行真实无人飞机P1的飞行控制(步骤S4)。

接下来，控制部14判定真实无人飞机P1是否抵达目的地(步骤S5)。在判定真实无人飞机P1未抵达目的地的情况下(步骤S5：NO(否))，处理返回步骤S1。另一方面，在判定真实无人飞机P1抵达目的地的情况下(步骤S5：YES(是))，结束图8(A)所示的处理。

另一方面，学习装置D当接收到来自真实无人飞机P的观测数据时，开始图8(B)所示的处理。当开始图8(B)所示的处理时，控制部23利用环境信息取得部23b执行环境信息取得处理(步骤S11)。环境信息取得处理是用于基于接收到的观测数据而取得关于真实无人飞机P1的环境E的环境信息的处理。

在环境信息取得处理中，可仅使用本次接收的观测数据以取得环境信息。或者，可使用本次接收的观测数据与上次以前接收的1个以上的观测数据以取得环境信息。在未接收到取得环境信息所需数量的观测数据的情况下，可结束图8(B)所示的处理。另外，在环境信息取得处理中，也可如上所述利用行动预测部23a预测真实无人飞机P1的环境E中所存在的移动物体的行动。在所述情况下，取得包含本次接收的观测数据的1个以上的观测数据、与关于移动物体的行动的行动预测信息作为环境信息。

或者，也可在环境信息取得处理中，通过使用本次接收的观测数据与上次以前接收的1个以上的观测数据而执行SLAM处理来制作环境E的3维图作为环境信息。可在作为环境信息制作的3维图中，如上所述统合有真实无人飞机P1的位置及姿态、环境E的移动物体的位置、移动进路及移动速度。进而，可在作为环境信息制作的3维图中统合有环境E的地表属性。

接下来，控制部23从存储部22读出控制模型M，对读出的控制模型M输入步骤S11中取得环境信息作为状态s(步骤S12)，进行基于构成控制模型M的函数的运算(步骤S13)。接下来，控制部23取得从控制模型M输出的控制信息(步骤S14)。接下来，控制部23经由通信部21向无人飞机P1发送步骤S14中取得的控制信息(步骤S15)。在图8(A)所示的步骤S3中接收这样发送的控制信息。

接下来，控制部23基于步骤S12中输入到控制模型M的环境信息、与通过输入所述环境信息而从控制模型M输出的控制信息，来指定所述状态信息(步骤S16)。接下来，控制部23利用奖励指定部23d指定与步骤S16中指定的状态信息对应的奖励r(例如，所述(i)～(x)的奖励r中任意1个以上)(步骤S17)。

接下来，控制部23以基于步骤S17中指定的奖励r，而输出获得更大的奖励r的控制信息的方式，通过学习控制部23e更新控制模型M(步骤S18)，结束图8(B)所示的处理。这样，通过每当从真实无人飞机P1接收到观测数据时就进行图8(B)所示的处理而进行强化学习，最终获得完成学习的控制模型M。

[6.飞行控制系统SY2的构成及功能概要]

接下来，参照图9，对本实施方式的飞行控制系统SY2的构成及功能概要进行说明。图9是表示本实施方式的飞行控制系统SY2的概要构成例的图。如上所述，通过利用学习系统SY1的强化学习中所获得的完成学习的控制模型M，可以即便有特别气象的影响，从所需飞行时间或电池消耗电量等观点来说也有效率地进行飞行的方式，进行真实无人飞机P1的飞行控制。飞行控制系统SY2如图9所示，包含无人飞机Px、与信息处理装置Dx。无人飞机Px与信息处理装置Dx可经由未图示的通信网络进行通信。

无人飞机Px如图9所示，具备传感器部51及控制部52。此外，无人飞机Px也可是与图4所示的无人飞机P1相同的构成。也就是说，传感器部51及控制部52分别对应于图4所示的传感器部13及控制部14。另外，图9虽未表示，但无人飞机Px具备图4所示的通信部11及驱动部12。无人飞机Px的控制部52(飞行控制部)基于经由通信部11从信息处理装置Dx接收的控制信息而进行无人飞机Px的飞行控制。

信息处理装置Dx如图9所示，具备环境信息取得部61、控制信息取得部62、及存储部63。存储部63存储通过进行使用所述奖励r的强化学习所获得的完成学习的控制模型M。环境信息取得部61及控制信息取得部62分别对应于图7所示的环境信息取得部23b及控制信息取得部23c。也就是说，环境信息取得部61基于从无人飞机Px按时间顺序提供的观测数据，按时间顺序取得关于无人飞机Px的环境E的环境信息。控制信息取得部62通过从存储部63读出完成学习的控制模型，对读出的控制模型M输入利用环境信息取得部61取得的环境信息作为状态s，而取得从完成学习的控制模型M输出的控制信息。

在飞行控制系统SY2中，可通过使用完成学习的控制模型M实现无人飞机Px的高效率的飞行控制。此外，也可由信息处理装置Dx具备控制部52。另外，无人飞机Px与信息处理装置Dx也可是一体的装置。

如以上说明，根据所述实施方式，因学习系统SY1以通过向控制模型M输入包含无人飞机P的周边环境与无人飞机P的预定飞行区域环境的至少任一环境的气象信息的环境信息而取得从控制模型M输出的控制信息，并使用表示无人飞机P采取基于所述控制信息的行动的情况下所述行动结果评价的奖励r而进行控制模型M的强化学习的方式构成，故可获得用于进行减少可无人飞行的飞机的周边环境等气象影响的灵活飞行控制的控制信息。尤其，因以根据无人飞机P采取行动a的情况下无人飞机P的姿态、飞行稳定性、或高度等指定不同的奖励r的方式构成，故可以输出即便有气象的影响也会使所述无人飞机P进行无人飞机P的稳定性或飞行高度等充分确保安全的飞行的控制信息的方式，进行控制模型M的学习。

此外，所述实施方式是本发明的一实施方式，本发明并非限定于所述实施方式，在不脱离本发明的主旨的范围内也可从所述实施方式对各种构成等施加变更，且其情况也包含在本发明的技术范围。例如，在所述实施方式中，说明了向控制模型M输入包含无人飞机P的周边环境与无人飞机P的预定飞行区域的环境的至少任一环境的气象信息的环境信息的构成，但也考虑在向控制模型M输入的环境信息中不包含无人飞机P的周边环境及无人飞机P的预定飞行区域的环境的气象信息的构成。在所述情况的学习装置D中，如果与所述实施方式一样指定(i)～(x)的奖励r，那么可以在不考虑气象等状况下输出使所述无人飞机P进行无人飞机P的安全性或飞行高度等充分确保安全的飞行的控制信息的方式，进行控制模型M的学习。由此，可解决受无人飞机P的周边环境或无人飞机P的预定飞行区域环境的粉尘或火山灰等、或未知的要素的影响进行飞行的情况下消耗电力变大，或飞行变得不稳定等问题，获得用于进行减少所述影响的灵活飞行控制的控制信息。另外，在所述实施方式中，作为可无人飞行的飞机，以无人飞机P为例进行了说明，但可无人飞行的飞机也能应用于即便在机内不存在操纵者(飞行员)也可进行飞行的载人飞机。

[符号的说明]

11:通信部

12:驱动部

13:传感器部

13a:测位传感器

13b:光学传感器

13c:姿态传感器

13d:电池传感器

13e:气象传感器

14:控制部

14a:环境信息提供部

14b:控制信息取得部

14c:飞行控制部

21:通信部

22:存储部

23:控制部

23a:行动预测部

23b:环境信息取得部

23c:控制信息取得部

23d:奖励指定部

23e:学习控制部

51:传感器部

52:控制部

61:环境信息取得部

62:控制信息取得部

63:存储部

P:无人飞机

Px:无人飞机

P1:真实无人飞机

P2:假想无人飞机

L:模拟器

D:学习装置

Dx:信息处理装置

SY1:学习系统

SY2:飞行控制系统。

Claims

1.一种学习装置，其特征在于，进行输出控制信息的控制模型的强化学习，该控制信息用于进行可无人飞行的飞机的飞行控制，且所述学习装置具备：

环境信息取得部，取得包含所述飞机的周边环境与所述飞机的预定飞行区域的环境的至少任一环境的气象信息的环境信息；

控制信息取得部，通过向所述控制模型输入所述环境信息而取得从所述控制模型输出的所述控制信息；

奖励指定部，指定表示所述飞机采取基于所述控制信息的行动的情况下所述行动的结果评价的奖励；及

学习控制部，使用利用所述奖励指定部指定的所述奖励来控制所述控制模型的强化学习。

2.根据权利要求1所述的学习装置，其特征在于，所述奖励指定部根据所述飞机采取所述行动的情况下所述飞机的姿态来指定不同的所述奖励。

3.根据权利要求1或2所述的学习装置，其特征在于，所述奖励指定部根据所述飞机采取所述行动的情况下所述飞机的飞行稳定性来指定不同的所述奖励。

4.根据权利要求3所述的学习装置，其特征在于，基于所述飞机的振动来评价所述飞行稳定性。

5.根据权利要求1至4中任一项所述的学习装置，其特征在于，所述奖励指定部根据所述飞机采取所述行动的情况下所述飞机的高度来指定不同的所述奖励。

6.根据权利要求1至5中任一项所述的学习装置，其特征在于，所述奖励指定部根据所述飞机采取所述行动的情况下所述飞机的高度是否包含于指定的高度范围内来指定不同的所述奖励。

7.根据权利要求6所述的学习装置，其特征在于，所述高度范围基于通过所述飞机自上空进行非接触传感所获得的传感数据而动态变化。

8.根据权利要求1至7中任一项所述的学习装置，其特征在于，所述奖励指定部根据所述飞机采取所述行动的情况下向所述飞机的累积降水量与对应于所述飞机的防水性能的阈值的关系来指定不同的所述奖励。

9.根据权利要求1至8中任一项所述的学习装置，其特征在于，所述奖励指定部根据所述飞机采取所述行动的情况下所述飞机的电池剩余电量或所述电池消耗电量来指定不同的所述奖励。

10.根据权利要求1至9中任一项所述的学习装置，其特征在于，所述奖励指定部根据所述飞机采取所述行动的情况下所述飞机周边环境的地表属性来指定不同的所述奖励。

11.根据权利要求1至10中任一项所述的学习装置，其特征在于，所述奖励指定部根据所述飞机采取所述行动的情况下所述飞机的移动状态来指定不同的所述奖励。

12.根据权利要求1至11中任一项所述的学习装置，其特征在于，所述气象信息包含关于风的风信息。

13.根据权利要求12所述的学习装置，其特征在于，所述风信息包含关于风速、风向、有无风、有无强风、台风及龙卷风中的至少任一者的信息。

14.一种信息处理装置，其特征在于，其是完成学习的控制模型，输入包含可无人飞行的飞机周边环境与所述飞机的预定飞行区域的环境的至少任一环境的气象信息的环境信息，而输出用于进行所述飞机的飞行控制的控制信息，且具备：

存储部，存储通过进行使用表示所述飞机采取基于所述控制信息的行动的情况下所述飞机的行动结果评价的奖励的强化学习而获得的控制模型；及

控制信息取得部，通过将包含所述气象信息的环境信息向所述控制模型输入而取得从所述控制模型输出的所述控制信息。

15.根据权利要求14所述的信息处理装置，其特征在于，进而具备基于所述控制信息而进行所述飞机的飞行控制的飞行控制部。

16.一种完成学习的控制模型，其用于使电脑以基于与可无人飞行的飞机周边环境及所述飞机的预定飞行区域的环境的至少任一环境相关的环境信息，而输出用于进行所述飞机的飞行控制的控制信息的方式发挥功能，且

所述环境信息包含所述飞机的周边环境、或所述飞机的预定飞行区域环境的气象信息，按时间顺序向所述控制模型输入，

所述控制模型使用表示所述飞机采取基于从所述控制模型输出的所述控制信息的所述行动的情况下所述飞机的行动结果评价的奖励来强化学习，

使电脑以对所述输入的所述环境信息进行基于构成所述控制模型的函数的运算，而从所述控制模型输出所述控制信息的方式发挥功能。