CN110231829B

CN110231829B - 基于数据增融的强化学习小型无人旋翼机自主着陆方法

Info

Publication number: CN110231829B
Application number: CN201910534415.XA
Authority: CN
Inventors: 袁泽峰; 李恒宇; 丁长权; 谢少荣; 罗均
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2019-06-20
Filing date: 2019-06-20
Publication date: 2022-01-07
Anticipated expiration: 2039-06-20
Also published as: CN110231829A

Abstract

本发明涉及一种基于数据增融的强化学习小型无人旋翼机自主着陆方法。首先在着陆区域上空的不同环境条件下手动操作无人机以正确的姿态降落在着陆区域，在着陆的过程中，以30帧/秒的频率记录相机拍摄的图像、无人机飞行高度、每帧图像对应的无人机飞行控制量，即四旋翼四个无刷电机电调的占空比。训练一个策略网络，输入为记录的图像及飞行高度，输出为四个电机电调的占空比。采用监督学习的方法，利用记录的样本训练神经网络，直到网络收敛；不断迭代，知道网络能正确执行着陆任务。本发明控制方法简单，原理清晰，一旦策略网络训练收敛后，具有自适应强，稳定性高等特点。

Description

基于数据增融的强化学习小型无人旋翼机自主着陆方法

技术领域

本发明涉及一种基于数据增融的强化学习小型无人旋翼机自主着陆方法，属于无人机环境感知及控制领域。

背景技术

小型无人自旋翼机因其灵活性、稳定性、易控性近些年来被广泛应用于航拍、摄影、险情探测等方面，利用无人机搭载的相机，基于视觉算法，可以提供给予无人机更多的智能化与自主化。小型无人自旋翼机的自主着陆是其自主化的关键一环。强化学习近年来被广泛研究应用于自动驾驶，无人机操作，机器人控制上，其目的是训练一个最优策略，以使在某个状态下执行某个动作后获得的长期收益期望最大化，即训练出一个策略能根据当前环境的状态，决策出一个执行动作，不断连续决策直到动作周期结束即任务完成。训练出的最优策略能出色的完成该任务。

发明内容

本发明的目的是提供一种基于数据增融的强化学习小型无人旋翼机自主着陆方法。利用无人机上搭载的单目相机正视地面拍摄的着陆点地面场景图像，自主决策出无人机执行动作，直到无人机停落在着陆区域。

为达到上述目的，本发明采用如下技术方案：

一种基于数据增融的强化学习小型无人旋翼机自主着陆方法，具体步骤如下：

(1)收集训练策略网的样本集D：

在着陆区域上空的不同高度、不同方位，在不同光照条件下手动操作无人机以正确的姿态降落在着陆区域，在着陆的过程中，相机以30帧/秒的频率记录无人机的状态量O_t和动作量U_t，D＝{O₁,U₁,...,O_N,U_N}；其中状态量O_t包括拍摄的图像Image_t、无人机飞行高度H_t，即O_t＝{Image_t,H_t}；动作量U_t为每帧图像对应的无人机飞行控制量，即四旋翼四个无刷电机电调的占空比M1_t,M2_t,M3_t,M4_t，即U_t＝{M1_t,M2_t,M3_t,M4_t}；

(2)用收集的数据进行有监督的训练策略网π_θ＝{U_t|O_t}：

(2a)使用采集到的样本O_t＝{Image_t,H_t}及U_t＝{M1_t,M2_t,M3_t,M4_t}，通过监督学习的方法训练一个策略网络π_θ＝{U_t|O_t}，即策略网络的输入层为记录的图像Image_t，其中图像被缩放到300×300大小，图像经过6个卷积操作，在第一个全连接层成1024个值的向量，在此层继续加入飞行高度H_t，共1025个值一起输入到下一个全连接层，经过如下公式的运算，输出4个控制量，输出为四个无刷电机电调的占空比U_t＝{M1_t,M2_t,M3_t,M4_t}，训练要达到的目的是当无人机自主着陆的过程中，当无人机摄像头观测到某一着陆场景图像时，能自主输出四个电机的控制量，即策略网络从人为标记的数据集中学习出正确操纵无人机着陆的控制轨迹；

Zⁱ＝Wⁱ*X+b

其中，X是全连接输出层上一层的网络输出矩阵，Wⁱ是全连接层第i个输出单元的权值矩阵，b是全连接层的前置项，Zⁱ指第i个输出单元的输出值。i从1～4一共4个值。分别代表四个无刷电机电调的占空比U_t＝{M1_t,M2_t,M3_t,M4_t}；

(2b)训练直到在当前样本下策略网络收敛，收敛的条件是当前样本下，策略网络输出的欧式距离损失值不在下降，其计算公式如下：

其中N为输出值个数，为4，表示有4个控制量输出；

为第n个电机控制量的策略网络输出值；y_n为第n个电机控制量的实际记录值。

(3)进行数据增融D←——D∪D_π：

利用学习到的策略控制无人机着陆，同前述步骤(1)一样，记录样本数据D_π，观察当前策略，如果当前策略能很好的完成任务，则策略网路训练完成，否则，靠人工经验修正由当前策略控制下记录的每个状态下对应的控制量，接着用人工修正后的样本加上最初的样本D←——D∪D_π，一起继续精调网络；

(4)重复以上步骤直到策略网络能很好的完成自主着陆任务。

与现有技术相比，本发明具有以下优点：

本发明方法利用数据增融的方法，用监督学习的方法训练出一个自适应强的策略网络，控制方法简单，原理清晰，一旦策略网络训练收敛后，具有自适应强，稳定性高等特点。

附图说明

图1为本发明方法的流程图。

图2为本发明方法采用的地面着陆区域示意图。

图3为本发明方法多重采样的采样轨迹示意图。

图4为本发明策略网络结构示意图。

具体实施方式

下面结合附图，对本发明的具体实施例做进一步的说明。

如图1所示，一种基于数据增融的强化学习小型无人旋翼机自主着陆方法，具体步骤如下：

步骤1，收集训练策略网的样本集D：

在如图2所示着陆区域上空的不同高度、不同方位，在不同光照条件下手动操作无人机以正确的姿态降落在着陆区域，在着陆的过程中，相机以30帧/秒的频率记录无人机的状态量O_t和动作量U_t，D＝{O₁,U₁,...,O_N,U_N}；其中状态量O_t包括拍摄的图像Image_t、无人机飞行高度H_t，即O_t＝{Image_t,H_t}；动作量U_t为每帧图像对应的无人机飞行控制量，即四旋翼四个无刷电机电调的占空比M1_t,M2_t,M3_t,M4_t，即U_t＝{M1_t,M2_t,M3_t,M4_t}；

步骤2，用收集的数据进行有监督的训练策略网π_θ＝{U_t|O_t}：

第1步，使用采集到的样本O_t＝{Image_t,H_t}及U_t＝{M1_t,M2_t,M3_t,M4_t}，通过监督学习的方法训练一个如图4的策略网络π_θ＝{U_t|O_t}，即策略网络的输入层为记录的图像Image_t，其中图像被缩放到300×300大小，图像经过6个卷积操作，在第一个全连接层成1024个值的向量，在此层继续加入飞行高度H_t，共1025个值一起输入到下一个全连接层，经过如下公式的运算，输出4个控制量，输出为四个无刷电机电调的占空比U_t＝{M1_t,M2_t,M3_t,M4_t}，训练要达到的目的是当无人机自主着陆的过程中，当无人机摄像头观测到某一着陆场景图像时，能自主输出四个电机的控制量，即策略网络从人为标记的数据集中学习出正确操纵无人机着陆的控制轨迹，如图3所示；

Zⁱ＝Wⁱ*X+b

第2步，训练直到在当前样本下策略网络收敛，收敛的条件是当前样本下，策略网络输出的欧式距离损失值不在下降，其计算公式如下：

其中N为输出值个数，为4，表示有4个控制量输出；

步骤3，进行数据增融D←——D∪D_π：

步骤4，重复以上步骤直到策略网络能很好的完成自主着陆任务。

Claims

1.一种基于数据增融的强化学习小型无人旋翼机自主着陆方法，其特征在于，具体步骤如下：

(1)收集训练策略网的样本集D：

(2)用收集的数据训练监督学习的策略网π_θ＝{U_t|O_t}的步骤如下：

(2a)使用采集到的样本O_t＝{Image_t,H_t}及U_t＝{M1_t,M2_t,M3_t,M4_t}，通过监督学习的方法训练一个策略网络π_θ＝{U_t|O_t}，即策略网络的输入层为记录的图像Image_t，其中图像被缩放到300×300大小，图像经过6个卷积操作，在第一个全连接层呈1024个值的向量，在此层继续加入飞行高度H_t，共1025个值一起输入到下一个全连接层，经过如下公式的运算，输出4个控制量，输出为四个无刷电机电调的占空比U_t＝{M1_t,M2_t,M3_t,M4_t}，训练要达到的目的是当无人机自主着陆的过程中，无人机摄像头观测到某一着陆场景图像时，能自主输出四个电机的控制量，即策略网络从人为标记的数据集中学习出正确操纵无人机着陆的控制轨迹；

Zⁱ＝Wⁱ*X+b

其中，X是全连接输出层上一层的网络输出矩阵，Wⁱ是全连接层第i个输出单元的权值矩阵，b是全连接层的前置项，Zⁱ指第i个输出单元的输出值，i为1～4一共4个值；分别代表四个无刷电机电调的占空比U_t＝{M1_t,M2_t,M3_t,M4_t}；

(2b)训练直到在当前样本下策略网络收敛，收敛的条件是当前样本下，策略网络输出的欧式距离损失值不再下降，其计算公式如下：

其中N为输出值个数，为4，表示有4个控制量输出；

为第n个电机控制量的策略网络输出值；y_n为第n个电机控制量的实际记录值；

(3)进行数据增融D←——D∪D_π：

利用学习到的策略控制无人机着陆，同前述步骤(1)一样，记录样本数据D_π，观察当前策略，如果当前策略能很好的完成任务，则策略网络训练完成，否则，靠人工经验修正由当前策略控制下记录的每个状态下对应的控制量，接着用人工修正后的样本加上最初的样本D←——D∪D_π，一起继续精调网络；

(4)重复以上步骤直到策略网络能很好的完成自主着陆任务。