CN115494879B

CN115494879B - 基于强化学习sac的旋翼无人机避障方法、装置及设备

Info

Publication number: CN115494879B
Application number: CN202211349482.2A
Authority: CN
Inventors: 侯治威; 杨永盛; 陈天兴; 陈洪波
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2022-10-31
Filing date: 2022-10-31
Publication date: 2023-09-15
Anticipated expiration: 2042-10-31
Also published as: CN115494879A

Abstract

本发明涉及无人机控制技术领域，公开了基于强化学习SAC的旋翼无人机避障方法、装置及设备。本发明利用随机环境生成器构建随机化地图；获取激光雷达数据、旋翼无人机速度以及相对目标位置作为状态输入数据，输入至经过训练的深度强化学习模型中，输出预测动作指令，以引导旋翼无人机进行避障；其中模型基于强化学习SAC算法构建并以随机化地图作为仿真环境，训练时，基于状态空间、动作空间和奖励函数计算旋翼无人机执行预测动作指令并与仿真环境交互后返回的奖励值，用于更新模型网络参数，并在测试阶段基于指令滤波器平滑模型网络输出。本发明能在控制成本的同时解决深度强化学习算法分布失配问题，实现高鲁棒性的旋翼无人机避障。

Description

基于强化学习SAC的旋翼无人机避障方法、装置及设备

技术领域

本发明涉及无人机控制技术领域，尤其涉及基于强化学习SAC的旋翼无人机避障方法、装置及设备。

背景技术

近年来，旋翼无人机受到了工业界和学术界的广泛关注，并逐步应用于航拍、农业、救援等多方面领域。随着硬件技术的逐步成熟，旋翼无人机越来越微型化，使之具备在复杂未知环境下自动作业的潜力，以此代替高难度的人手操控。无人机通常装备一些轻量的机载传感器，比如单目相机、双目相机和激光雷达等，来感知周围环境。避障模块需要根据感知信息进行决策，绕开障碍物并且安全到达目标位置。然而，低空环境十分复杂，无人机的感知能力和计算资源也十分有限，旋翼无人机的自主避障技术成为制约其进一步发展的关键。

传统的避障技术包含建图和规划两个步骤。执行建图步骤时，通常在每个时间步上使用三角测量来估算摄像机运动和深度信息，通过高频特征提取和匹配技术从原始信息中构建三维局部地图。对于规划而言，执行前一步骤是先决条件，然而建图步骤非常耗时，这进一步挤压规划步骤执行时所需的计算资源。因此，对于小型旋翼无人机，需要探索更加高效的避障方法。

通过深度强化学习进行避障是降低计算成本和促进无人机小型化发展的一个非常研究价值的方向。将深度强化学习应用于无人机避障有几个优点。首先，无人机的环境非常复杂和高维的。深度强化学习可以充分利用深度学习(Deep Learning，DL)来处理和学习来自传感器的复杂输入信息，并通过神经网络的拟合能力覆盖未知状态。另外，通过深度强化学习获得的策略网络是从状态信息到动作指令的映射。无人机只需运行网络一次即可进行决策，无需任何建图步骤或复杂的数值计算，从而可以在复杂的环境中进行高频决策。

因此，基于深度强化学习的无人机避障研究近年来发展迅速。现有技术中使用专家经验对策略网络和Q值网络进行预训练，以增加深度强化学习的收敛速度，然后使用基于TD3算法执行标准的强化学习训练以获得能够在支持三维避障的决策器。现有技术中还提出了基于单目视觉避障的两阶段架构，包括传感模块和决策模块，分别通过深度信息进行自学习和循环Q学习进行标准的交互训练。然而，这些工作很少考虑在固定环境中训练时的分布失配(Distribution Mismatching)问题。当训练环境与测试环境差异较大时，分布失配问题尤为突出，因为深度强化学习的策略更新与目标函数有关，而目标函数取决于环境中的状态分布，因此从理论上讲，现有的策略在实际飞行任务中的泛化性还有待提高。然而，如果使用真实的旋翼无人机进行训练，则训练过程十分危险且成本不可控。我们只能够在仿真器中进行训练，这又会进一步扩大仿真和现实的差距，加剧了分布失配的问题。

发明内容

本发明提供了基于强化学习SAC的旋翼无人机避障方法、装置及设备，解决了现有基于深度强化学习的旋翼无人机避障方法不能在控制成本的同时解决深度强化学习算法分布失配问题的技术问题。

本发明第一方面提供一种基于强化学习SAC的旋翼无人机避障方法，包括：

设置旋翼无人机飞行决策的状态空间、动作空间和奖励函数；

构建随机环境生成器，利用所述随机环境生成器构建随机化地图，所述随机环境生成器将旋翼无人机的避障场景分为走廊环境和森林环境两个基本类别；

获取激光雷达数据、旋翼无人机在机体坐标系下的线速度和偏航角速度以及与目标的相对目标位置作为状态输入数据；

将所述状态输入数据输入经过训练的深度强化学习模型中，输出预测动作指令；所述深度强化学习模型基于强化学习SAC(软性演员-评论家)算法进行构建并以所述随机化地图作为训练和测试的仿真环境，训练时，基于所述状态空间、动作空间和奖励函数计算旋翼无人机执行预测动作指令并与仿真环境交互后返回的奖励值，用于进行模型网络参数更新，并在测试阶段基于预置的指令滤波器平滑模型网络输出；

将输出的预测动作指令发送至旋翼无人机，以引导旋翼无人机进行避障。

根据本发明第一方面的一种能够实现的方式，所述构建旋翼无人机飞行决策的状态空间、动作空间和奖励函数，包括：

设置所述状态空间包括旋翼无人机速度、旋翼无人机加速度、与目标的相对目标位置和激光雷达数据；所述旋翼无人机速度以旋翼无人机在机体坐标系下的线速度和偏航角速度进行表示，所述旋翼无人机加速度以旋翼无人机在机体坐标系下的前向加速度和偏航加速度进行表示，所述与目标的相对目标位置以旋翼无人机当前位置和目标位置在极坐标系下的距离和角度进行表示；

设置所述动作空间包括旋翼无人机速度；

设置所述奖励函数包括非稀疏奖励。

根据本发明第一方面的一种能够实现的方式，所述设置所述奖励函数包括非稀疏奖励，包括：

设置所述奖励函数由距离奖励、碰撞奖励、自由空间奖励、步数奖励和加速度奖励构成，构造所述奖励函数的表达式为：

r_total＝r_goal+r_crash+r_free+r_step+r_acc

式中，r_goal表示距离奖励，r_crash表示碰撞奖励，r_free表示自由空间奖励，r_step表示步数奖励，r_acc表示加速度奖励，dg为当前旋翼无人机到目标的距离，d_gmin为预置距离阈值，r_arrival表示到达目标时获得的奖励，Δdg为与目标距离变化数值相关的奖励，d_ro表示旋翼无人机与最近障碍物的距离，r_i为旋翼无人机与最近障碍物的距离处于第i种距离范围时获得的负奖励值，为所述第i种距离范围的下限，为所述第i种距离范围的上限，d_i表示激光雷达的第i个数据，d_max为激光雷达的数据的最大值，T表示旋翼无人机的累计飞行时间，T_T为预置的用于归一化的飞行时间，a_x为旋翼无人机在机体坐标系下的前向加速度，a_yaw为旋翼无人机在机体坐标系下的偏航加速度，a_xT为预置的用于归一化的前向加速度，a_yawT为预置的用于归一化的偏航加速度。

根据本发明第一方面的一种能够实现的方式，所述随机环境生成器表示为Env_new＝Env(d_target,r_wall,n_max,n_min)，Env_new表示随机环境生成器的输出，d_target表示目标点距离旋翼无人机初始点的距离，r_wall表示生成墙壁的概率，n_max表示圆柱形障碍物的最大数量，n_min表示圆柱形障碍物的最小数量，所述构建随机环境生成器，包括：

初始化空地图Map，获取d_target、r_wall、n_max和n_min的参数值；

从给定M面墙中按概率r_wall抽样m面墙，将抽样出的m面墙放置于空地图Map，得到第一地图；

从[n_min,n_max]中均匀抽样数字n，将n个圆柱形障碍物放置于所述第一地图，得到第二地图；

随机化所述第二地图中墙壁和圆柱形障碍物的位置和角度，得到第三地图；

将所述第三地图输出。

根据本发明第一方面的一种能够实现的方式，所述深度强化学习模型的训练过程包括：

步骤S31，初始化评论家网络参数θ_i,i＝1,2和演员网络参数初始化目标网络参数：初始化温度因子α；初始化优先级回放缓冲池D；令t＝1；

步骤S32，选择动作a_t～π(a_t|s_t)，观察奖励r_t+1和新状态s_t+1；其中，a_t表示t时刻需要执行的动作，s_t表示t时刻的状态信息，π(a_t|s_t)表示状态s_t下随机策略π输出动作a_t的概率；

步骤S33，把数据(s_t,a_t,r_t+1,s_t+1)存储到优先级回放缓冲池D，初始优先级为p_init；

步骤S34，在优先级回放缓冲池D中按优先级采样N组数据；

步骤S35，更新评论家网络参数：λ表示学习率，表示评论家网络参数的梯度，J_Q(θ_i)为评论家网络的代价函数；

步骤S36，更新演员网络参数：表示演员网络参数的梯度，为演员网络的代价函数；

步骤S37，更新温度因子：为温度因子的梯度，J(α)为温度因子的代价函数；

步骤S38，更新目标网络参数：

步骤S39，判断t是否达到设置的最大步长；若是，结束训练；若否，令t＝t+1，返回步骤S32。

根据本发明第一方面的一种能够实现的方式，所述步骤S35中，设置所述评论家网络的代价函数为：

其中，

式中，表示求取从优先级回放缓冲池D中采样(s_t,a_t)的期望，表示给定随机策略π时在状态s_t下执行动作a_t的状态-动作价值，y_t为使用状态s_t+1估算的状态-动作价值函数，r(s_t,a_t)为旋翼无人机在状态s_t执行动作a_t时获得的平均收益，表示求取状态s_t+1基于p(s_t,a_t)抽样的期望，p(s_t,a_t)为状态转移概率函数，为表示目标网络输出的s_t+1状态的价值，γ为折扣率，该折扣率表示需要参考未来收益的百分比，为求取给定随机策略π时在状态s_t+1下执行动作a_t+1的期望，表示给定随机策略π时在状态s_t+1下执行动作a_t+1的目标状态-动作价值，为状态s_t+1下策略输出动作a_t+1的概率；

所述步骤S36中，将参数化为设置所述演员网络的代价函数为：

式中，表示求取从优先级回放缓冲池D中采样s_t以及从N(0,1)中抽样ε_t的期望，表示在状态s_t下执行动作的状态-动作价值；

所述步骤S37中，设置所述温度因子的代价函数为：

式中，表示目标熵，π_t(a_t|s_t)表示状态s_t下策略π_t输出动作a_t的概率。

根据本发明第一方面的一种能够实现的方式，数据(s_t,a_t,r_t+1,s_t+1)作为旋翼无人机的经验存储于优先级回放缓冲池D中，所述步骤S34中，按照下式确定第i条经验的采样概率：

式中，P_i表示第i条经验的采样概率，p_i表示第i条经验的优先级，β为优先级调解因子，不考虑优先级时β＝0，考虑优先级时β＝1，δ_i表示第i条经验的TD误差，表示最小优先级。

本发明第二方面提供一种基于强化学习SAC的旋翼无人机避障装置，包括：

设置模块，用于设置旋翼无人机飞行决策的状态空间、动作空间和奖励函数；

构建模块，用于构建随机环境生成器，利用所述随机环境生成器构建随机化地图，所述随机环境生成器将旋翼无人机的避障场景分为走廊环境和森林环境两个基本类别；

获取模块，用于获取激光雷达数据、旋翼无人机在机体坐标系下的线速度和偏航角速度以及与目标的相对目标位置作为状态输入数据；

预测模块，用于将所述状态输入数据输入经过训练的深度强化学习模型中，输出预测动作指令；所述深度强化学习模型基于强化学习SAC算法进行构建并以所述随机化地图作为训练和测试的仿真环境，训练时，基于所述状态空间、动作空间和奖励函数计算旋翼无人机执行预测动作指令并与仿真环境交互后返回的奖励值，用于进行模型网络参数更新，并在测试阶段基于预置的指令滤波器平滑模型网络输出；

引导模块，用于将输出的预测动作指令发送至旋翼无人机，以引导旋翼无人机进行避障。

根据本发明第二方面的一种能够实现的方式，所述设置模块包括：

第一设置单元，用于设置所述状态空间包括旋翼无人机速度、旋翼无人机加速度、与目标的相对目标位置和激光雷达数据；所述旋翼无人机速度以旋翼无人机在机体坐标系下的线速度和偏航角速度进行表示，所述旋翼无人机加速度以旋翼无人机在机体坐标系下的前向加速度和偏航加速度进行表示，所述与目标的相对目标位置以旋翼无人机当前位置和目标位置在极坐标系下的距离和角度进行表示；

第二设置单元，用于设置所述动作空间包括旋翼无人机速度；

第三设置单元，用于设置所述奖励函数包括非稀疏奖励。

根据本发明第二方面的一种能够实现的方式，所述第三设置单元具体用于：

r_total＝r_goal+r_crash+r_free+r_step+r_acc

根据本发明第二方面的一种能够实现的方式，所述随机环境生成器表示为Env_new＝Env(d_target,r_wall,n_max,n_min)，Env_new表示随机环境生成器的输出，d_target表示目标点距离旋翼无人机初始点的距离，r_wall表示生成墙壁的概率，n_max表示圆柱形障碍物的最大数量，n_min表示圆柱形障碍物的最小数量，所述构建模块包括：

初始化单元，用于初始化空地图Map，获取d_target、r_wall、n_max和n_min的参数值；

第一地图构建单元，用于从给定M面墙中按概率r_wall抽样m面墙，将抽样出的m面墙放置于空地图Map，得到第一地图；

第二地图构建单元，用于从[n_min,n_max]中均匀抽样数字n，将n个圆柱形障碍物放置于所述第一地图，得到第二地图；

第三地图构建单元，用于随机化所述第二地图中墙壁和圆柱形障碍物的位置和角度，得到第三地图；

地图输出单元，用于将所述第三地图输出。

根据本发明第二方面的一种能够实现的方式，所述预测模块包括训练单元，所述训练单元包括：

初始化子单元，初始化评论家网络参数θ_i,i＝1,2和演员网络参数初始化目标网络参数：初始化温度因子α；初始化优先级回放缓冲池D；令t＝1；

执行子单元，用于选择动作a_t～π(a_t|s_t)，观察奖励r_t+1和新状态s_t+1；其中，a_t表示t时刻需要执行的动作，s_t表示t时刻的状态信息，π(a_t|s_t)表示状态s_t下随机策略π输出动作a_t的概率；

存储子单元，用于把数据(s_t,a_t,r_t+1,s_t+1)存储到优先级回放缓冲池D，初始优先级为p_init；

采样子单元，用于在优先级回放缓冲池D中按优先级采样N组数据；

第一更新子单元，用于更新评论家网络参数：λ表示学习率，表示评论家网络参数的梯度，J_Q(θ_i)为评论家网络的代价函数；

第二更新子单元，用于更新演员网络参数：表示演员网络参数的梯度，为演员网络的代价函数；

第三更新子单元，用于更新温度因子：为温度因子的梯度，J(α)为温度因子的代价函数；

第四更新子单元，用于更新目标网络参数：

算法迭代判断子单元，用于判断t是否达到设置的最大步长；若是，结束训练；若否，令t＝t+1，返回所述执行子单元。

根据本发明第二方面的一种能够实现的方式，所述第一更新子单元具体用于设置所述评论家网络的代价函数为：

其中，

所述第二更新单元具体用于将参数化为设置所述演员网络的代价函数为：

所述第三更新子单元具体用于设置所述温度因子的代价函数为：

根据本发明第二方面的一种能够实现的方式，数据(s_t,a_t,r_t+1,s_t+1)作为旋翼无人机的经验存储于优先级回放缓冲池D中，所述采样子单元具体用于按照下式确定第i条经验的采样概率：

本发明第三方面提供了一种基于强化学习SAC的旋翼无人机避障装置，包括：

存储器，用于存储指令；其中，所述指令用于实现如上任意一项能够实现的方式所述的基于强化学习SAC的旋翼无人机避障方法；

处理器，用于执行所述存储器中的指令。

本发明第四方面一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上任意一项能够实现的方式所述的基于强化学习SAC的旋翼无人机避障方法。

从以上技术方案可以看出，本发明具有以下优点：

本发明利用随机环境生成器构建随机化地图，其中将旋翼无人机的避障场景分为走廊环境和森林环境两个基本类别；获取激光雷达数据、旋翼无人机在机体坐标系下的线速度和偏航角速度以及与目标的相对目标位置作为状态输入数据，输入至经过训练的深度强化学习模型中，输出预测动作指令；其中该模型基于强化学习SAC算法进行构建并以所述随机化地图作为训练和测试的仿真环境，训练时，基于状态空间、动作空间和奖励函数计算旋翼无人机执行预测动作指令并与仿真环境交互后返回的奖励值，用于进行模型网络参数更新，并在测试阶段基于预置的指令滤波器平滑模型网络输出；将输出的预测动作指令发送至旋翼无人机，以引导旋翼无人机进行避障；通过随机环境生成器生成随机化地图用于模型训练和测试，不需要依赖复杂的局部地图，能够有效减少计算开销；本发明使用激光雷达收集的距离数据来实时决策，与摄像机相比，激光雷达提供了更精确的距离估计和更长的可视距离，且在需要提高激光雷达的角分辨率时，仅需利用几个激光测距仪进行实现，从而能够有效节约硬件成本；基于强化学习SAC算法构建深度强化学习模型，并使用激光雷达数据和随机化地图，结合利用指令滤波器平滑模型网络输出，能够解决过往深度强化学习算法分布失配的问题，实现将仿真中的策略网络迁移到真实无人机的同时保持良好的泛化性能；利用指令滤波器平滑模型网络输出，还能稳定旋翼无人机的避障性能，提高鲁棒性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明一个可选实施例提供的一种基于强化学习SAC的旋翼无人机避障方法的流程图；

图2为本发明一个可选实施例提供的图1所示方法对应的整体框架示意图；

图3为本发明一个可选实施例提供的一种基于强化学习SAC的旋翼无人机避障装置的结构连接框图。

附图标记：

1-设置模块；2-构建模块；3-获取模块；4-预测模块；5-引导模块。

具体实施方式

本发明实施例提供了基于强化学习SAC的旋翼无人机避障方法、装置及设备，用于解决现有基于深度强化学习的旋翼无人机避障方法不能在控制成本的同时解决深度强化学习算法分布失配问题的技术问题。

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明提供了一种基于强化学习SAC的旋翼无人机避障方法。

请参阅图1，图1示出了本发明实施例提供的一种基于强化学习SAC的旋翼无人机避障方法的流程图。

本发明实施例提供的一种基于强化学习SAC的旋翼无人机避障方法，包括：

步骤S1，设置旋翼无人机飞行决策的状态空间、动作空间和奖励函数。

在一种能够实现的方式中，所述构建旋翼无人机飞行决策的状态空间、动作空间和奖励函数，包括：

设置所述动作空间包括旋翼无人机速度；

设置所述奖励函数包括非稀疏奖励。

本实施例中，设置状态空间包括激光雷达数据。在传感器的选择上，与摄像机相比，激光雷达提供了更精确的距离估计和更长的可视距离。即使在黑暗中，旋翼无人机也能感知障碍物的位置。当提高激光雷达的角分辨率时，它会退化为几个激光测距仪，从而节约硬件成本。

在一种能够实现的方式中，所述设置所述奖励函数包括非稀疏奖励，包括：

r_total＝r_goal+r_crash+r_free+r_step+r_acc

式中，r_goal表示距离奖励，r_crash表示碰撞奖励，r_free表示自由空间奖励，r_step表示步数奖励，r_acc表示加速度奖励，dg为当前旋翼无人机到目标的距离，d_gmin为预置距离阈值，d_gmin为预置距离阈值，r_arrival表示到达目标时获得的奖励，Δdg为与目标距离变化数值相关的奖励，d_ro表示旋翼无人机与最近障碍物的距离，r_i为旋翼无人机与最近障碍物的距离处于第i种距离范围时获得的负奖励值，为所述第i种距离范围的下限，为所述第i种距离范围的上限，d_i表示激光雷达的第i个数据，d_max为激光雷达的数据的最大值，T表示旋翼无人机的累计飞行时间，T_T为预置的用于归一化的飞行时间，a_x为旋翼无人机在机体坐标系下的前向加速度，a_yaw为旋翼无人机在机体坐标系下的偏航加速度，a_xT为预置的用于归一化的前向加速度，a_yawT为预置的用于归一化的偏航加速度。

根据上述奖励函数可知，对于距离奖励，一旦dg小于阈值d_gmin，则旋翼无人机获得奖励r_arrival，否则，将会获得一个与目标距离变化数值相关的奖励Δdg。

通过设置碰撞奖励，可以进一步鼓励无人机远离障碍。

对于自由空间奖励，当且仅当旋翼无人机非常接近障碍物时，r_free会变得非常小，而当旋翼无人机远离障碍物时，r_free会迅速趋近于0。这能鼓励旋翼无人机在狭窄的区域积极探索。

对于步数奖励，随着时间T的增加，r_step对总奖励函数的惩罚就越高。步数奖励的设置，可以驱使旋翼无人机尽可能快地到达目的地。

由于无人机对指令响应速度非常快，加速度奖励的设置，有益于将加速度变化率降至最低，以减少指令不平滑导致的飞行抖动。

本发明上述实施例，对于奖励函数方面设计了一种非稀疏奖励，它结合了无人机避障问题的领域知识，可以改进深度强化学习算法的收敛性。

步骤S2，构建随机环境生成器，利用所述随机环境生成器构建随机化地图，所述随机环境生成器将旋翼无人机的避障场景分为走廊环境和森林环境两个基本类别。

SAC算法依赖于数学期望算子，而训练环境的构建时刻影响着状态的分布，也就是说，训练环境的构建直接影响了SAC算法所得策略的最终性能。当DRL算法在充分训练到收敛时，优化目标的近似值应与真值无限接近。然而，期望操作表明，真值在很大程度上取决于特定训练环境的状态分布。因此，如果在不同的环境中训练无人机，则不同优化目标近似值将对应不同的策略。如果测试中的策略与其环境不对应，即分布失配，则无人机的避障性能较差。本实施例中，将无人机的避障场景抽象为两个基本类别，可以更准确地构建训练环境。

其中，无人机通常需要在具有多个墙壁的大规模环境中穿梭，如城市建筑物和狭窄走廊，本实施例中以走廊环境进行表示，表现为传感器中连续且紧凑的传感信息。

不规则障碍物是路径规划中最重要的部分，本实施例中以森林环境进行表示，其可以由多个圆柱形障碍物组成，表示为传感器中离散和孤立的传感信息。

需要说明的是，本申请提出的方法是一种局部路径规划方案，它并不能解决迷宫式地图的避障问题。在实际使用中，需要根据已知地图进行全局规划来分配航点。局部路径规划指导旋翼无人机跟随每一个航点。

在一种能够实现的方式中，所述随机环境生成器表示为：

Env_new＝Env(d_target,r_wall,n_max,n_min)

式中，Env_new表示随机环境生成器的输出，d_target表示目标点距离旋翼无人机初始点的距离，r_wall表示生成墙壁的概率，n_max表示圆柱形障碍物的最大数量，n_min表示圆柱形障碍物的最小数量。

其中，d_target可以简单设置为两个相邻航点之间的最大值。同时，旋翼无人机的传感距离有限，若希望把目标设置在无人机“看得见”的地方，可以设置d_target为经验值1.5倍的可视距离。r_wall,n_max,n_min这三类参数都可以根据实际使用环境统计得到。在城市环境中，走廊类环境会多一点，因此可以适当提高r_wall。在森林环境中，柱形障碍物会多一点，因此可以适当减少r_wall和提高n_max,n_min。

由于DRL受分布失配的影响，需要根据实际环境定制化r_wall,n_max,n_min。设置该类参数时，尽量不要让障碍物密度(障碍物面积/采样总面积)超过20％。

在一种能够实现的方式中，所述构建随机环境生成器，包括：

初始化空地图Map，获取d_target、r_wall、n_max和n_min的参数值；

将所述第三地图输出。

步骤S3，获取激光雷达数据、旋翼无人机在机体坐标系下的线速度和偏航角速度以及与目标的相对目标位置作为状态输入数据。

其中，旋翼无人机在机体坐标系下的线速度和偏航角速度以及与目标的相对目标位置信息可通过传感模块和融合算法获得，本实施例中，对此不做限定。

步骤S4，将所述状态输入数据输入经过训练的深度强化学习模型中，输出预测动作指令；所述深度强化学习模型基于强化学习SAC算法进行构建并以所述随机化地图作为训练和测试的仿真环境，训练时，基于所述状态空间、动作空间和奖励函数计算旋翼无人机执行预测动作指令并与仿真环境交互后返回的奖励值，用于进行模型网络参数更新，并在测试阶段基于预置的指令滤波器平滑模型网络输出。

无人机策略需要在仿真环境下被训练至收敛，然后迁移到真实的无人机上进行实时避障。在这个过程中，仿真和现实误差会非常大，因此需要鲁棒性较好的策略模型。本实施例中，深度强化学习模型训练过程基于随机策略。与TD3偏好确定性策略不同，SAC算法是天然偏好随机策略的强化学习算法，其高探索性也能有助于训练出高鲁棒性的随机策略。值得注意的是，使用SAC进行无人机避障的研究非常地少，也很少人会做多种算法的对比。测试表明，SAC在实际飞行中会比TD3性能要好。

如果将最大化目标熵作为软约束，以改进训练过程中的探索性，那么显然地，我们的强化学习模块就可以学习到给定任务的所有可能性，由此产生的策略网络可以在多模态(multi-modal)奖励环境中找到最优的一组参数。

作为具体的实施方式，深度强化学习模型基于一个支持随机策略的、最大化熵的目标函数，其最优策略π^*可以表示为：

式中，(s,a)～ρ^π表示表示状态s和动作a分别从环境和策略中抽样，表示基于(s,a)～ρ^π求取期望，π是随机策略π(as):S×A→R，S和A分别为状态空间和动作空间，R为实数域，ρ^π表示由随机策略π所确定的状态-动作分布，轨迹τ＝(s₀,a₀,r₁,s₁,...,s_T-1,a_T-1,r_T,s_T)，τ^π表示随机策略π所确定的轨迹分布，γ为折扣率，α为温度因子，用于调节策略熵对目标函数的贡献度，H(π(·|s_t))表示为随机策略π在状态s_t时的熵，计算公式为H(π(·|s_t))＝-logπ(·|s_t)，r(s_t,a_t)为旋翼无人机在状态s_t执行动作a_t时获得的平均收益。

在一种能够实现的方式中，所述深度强化学习模型的训练过程包括：

步骤S34，在优先级回放缓冲池D中按优先级采样N组数据；

步骤S38，更新目标网络参数：

为了最大化模型目标函数，SAC需要交替进行软策略评估和软策略改进。对于软策略评估，定义软动作价值函数为：

定义软状态价值函数为：

式中，p(s_t,a_t)为状态转移概率函数，描述了环境的动态性。

在连续空间配置下，本实施例使用参数θ_i来参数化软动作价值函数Q(s_t,a_t)。

具体地，使用θ₁和θ₂来参数化两个“目标”软动作价值函数。此外，使用参数来参数化策略网络。因此，在一种能够实现的方式中，所述步骤S35中，设置所述评论家网络的代价函数为：

其中，

式中，表示求取从优先级回放缓冲池D中采样(s_t,a_t)的期望，表示给定随机策略π时在状态s_t下执行动作a_t的状态-动作价值，y_t为使用状态s_t+1估算的状态-动作价值函数，r(s_t,a_t)为旋翼无人机在状态s_t执行动作a_t时获得的平均收益，表示求取状态s_t+1基于p(s_t,a_t)抽样的期望，p(s_t,a_t)为状态转移概率函数，为表示目标网络输出的s_t+1状态的价值，γ为折扣率，该折扣率表示需要参考未来收益的百分比，为求取给定随机策略π时在状态s_t+1下执行动作a_t+1的期望，表示给定随机策略π时在状态s_t+1下执行动作a_t+1的目标状态-动作价值，为状态s_t+1下策略输出动作a_t+1的概率。

在策略改进步骤中，可以通过直接最小化预期的Kullback-Leibler散度来训练策略：

式中，Z^πold(st)用于归一化分布，尽管它比较复杂，但它不会对梯度回传产生任何影响，因此可以忽略它。

策略π的神经网络输出均值μ和标准差σ，由此可以定义抽样动作a＝μ+εσ，其中ε～N(0,1)。进而，在所述步骤S36中，将参数化为设置所述演员网络的代价函数为：

由于奖励分布随训练过程的进行而变化，固定温度因子α对应的策略网络在实际中表现较差。为使得旋翼无人机在探索一个新的状态空间时，使用更大的温度因子鼓励探索，而当一个区域被充分探索之后，使用更小的温度因子减少探索，在一种能够实现的方式中，使用自动温度机制进行温度因子的自动调节。自动温度机制能够根据随机策略的输出分布来自动调节温度因子。因此，所述步骤S37中，设置所述温度因子的代价函数为：

式中，是一个超参数，表示目标熵，可以简单设置为动作空间维度的负数-dim(Action)，π_t(a_t|s_t)表示状态s_t下策略π_t输出动作a_t的概率。

在一种能够实现的方式中，数据(s_t,a_t,r_t+1,s_t+1)作为旋翼无人机的经验存储于优先级回放缓冲池D中，所述步骤S34中，按照下式确定第i条经验的采样概率：

本实施例中，能够实现对更为重要的经验进行更多的采样，而不是对历史数据进行均匀采样。通过设置上述的采样概率公式，可以提高收敛速度。

由于旋翼无人机对指令响应速度非常快，如果在避障任务执行过程中出现未知状态，深度强化学习策略可能会输出不理想的预测动作指令，导致飞行抖动。本步骤中采用指令滤波器来平滑策略网络的输出，可以有效滤除低频指令并提高深度强化学习策略的泛化性能。

作为一种能够实现的方式，该指令滤波器为中值平均滤波器(Median AverageFilter，MAF)。对于中值平均滤波器，给定N个时间步长的N条指令，发送到控制器的实际指令是删除最小值和最大值后的N-2项的算术平均值。

作为另一种能够实现的方式，该指令滤波器为一阶滞后滤波器(First-Order LagFilter，FOLF)。对于一阶滞后滤波器，给定当前预测指令a_cur和最后被执行的指令a_last，发送到控制器的实际指令a_real＝(1-ξ)a_cur+ξa_last，ξ为权值系数。

步骤S5，将输出的预测动作指令发送至旋翼无人机，以引导旋翼无人机进行避障。

本发明上述实施例中，方法对应的整体框架如图2所示。随机环境生成器构建用于训练和测试的随机化地图。有关障碍物、自身状态和目标位置的信息可通过传感模块和融合算法获得，并被发送至深度强化学习模型进行参数更新。深度强化学习模型的策略网络做出决策并输出预测动作，使无人机可以与环境交互进而获得奖励和新的状态信息。指令滤波器能够平滑测试阶段的网络输出，以稳定旋翼无人机的避障性能，提高鲁棒性。

本发明上述实施例中，可以有效解决分布失配的问题，并部署到真实旋翼无人机上进行自主避障，从而推进无人机小型化发展。

下面通过具体实验验证本申请方法的效果。

实验时，设置SAC算法参数如表1所示。

表1：

参数	值
		批量	512
经验池大小	20000
		折扣率	0.99
初始温度	0.2
		目标熵	-dim(Action)
学习率	0.0003
		优化器	Adam
代价函数	Mean squared
		目标平滑因子	0.01

实验得到的效果如表2所示。

表2：

障碍物密度	避障成功率	碰撞率
			1-5％	0.996	0.004
5-10％	0.950	0.048
			10-15％	0.852	0.144
15-20％	0.734	0.264

本发明还提供了一种基于强化学习SAC的旋翼无人机避障装置，该装置可用于执行本发明上述任一项实施例所述的基于强化学习SAC的旋翼无人机避障方法。

请参阅图3，图3示出了本发明实施例提供的一种基于强化学习SAC的旋翼无人机避障装置的结构连接框图。

本发明实施例提供的一种基于强化学习SAC的旋翼无人机避障装置，包括：

设置模块1，用于设置旋翼无人机飞行决策的状态空间、动作空间和奖励函数；

构建模块2，用于构建随机环境生成器，利用所述随机环境生成器构建随机化地图，所述随机环境生成器将旋翼无人机的避障场景分为走廊环境和森林环境两个基本类别；

获取模块3，用于获取激光雷达数据、旋翼无人机在机体坐标系下的线速度和偏航角速度以及与目标的相对目标位置作为状态输入数据；

预测模块4，用于将所述状态输入数据输入经过训练的深度强化学习模型中，输出预测动作指令；所述深度强化学习模型基于强化学习SAC算法进行构建并以所述随机化地图作为训练和测试的仿真环境，训练时，基于所述状态空间、动作空间和奖励函数计算旋翼无人机执行预测动作指令并与仿真环境交互后返回的奖励值，用于进行模型网络参数更新，并在测试阶段基于预置的指令滤波器平滑模型网络输出；

引导模块5，用于将输出的预测动作指令发送至旋翼无人机，以引导旋翼无人机进行避障。

在一种能够实现的方式中，所述设置模块1包括：

第三设置单元，用于设置所述奖励函数包括非稀疏奖励。

在一种能够实现的方式中，所述第三设置单元具体用于：

r_total＝r_goal+r_crash+r_free+r_step+r_acc

在一种能够实现的方式中，所述随机环境生成器表示为Env_new＝Env(d_target,r_wall,n_max,n_min)，Env_new表示随机环境生成器的输出，d_target表示目标点距离旋翼无人机初始点的距离，r_wall表示生成墙壁的概率，n_max表示圆柱形障碍物的最大数量，n_min表示圆柱形障碍物的最小数量，所述构建模块2包括：

地图输出单元，用于将所述第三地图输出。

在一种能够实现的方式中，所述预测模块4包括训练单元，所述训练单元包括：

第四更新子单元，用于更新目标网络参数：

在一种能够实现的方式中，所述第一更新子单元具体用于设置所述评论家网络的代价函数为：

其中，

在一种能够实现的方式中，数据(s_t,a_t,r_t+1,s_t+1)作为旋翼无人机的经验存储于优先级回放缓冲池D中，所述采样子单元具体用于按照下式确定第i条经验的采样概率：

本发明还提供了一种基于强化学习SAC的旋翼无人机避障装置，包括：

存储器，用于存储指令；其中，所述指令用于实现如上任意一项实施例所述的基于强化学习SAC的旋翼无人机避障方法；

处理器，用于执行所述存储器中的指令。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上任意一项实施例所述的基于强化学习SAC的旋翼无人机避障方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，上述描述的装置、模块和单元的具体有益效果，可以参考前述方法实施例中的对应有益效果，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于强化学习SAC的旋翼无人机避障方法，其特征在于，包括：

将所述状态输入数据输入经过训练的深度强化学习模型中，输出预测动作指令；所述深度强化学习模型基于强化学习SAC算法进行构建并以所述随机化地图作为训练和测试的仿真环境，训练时，基于所述状态空间、动作空间和奖励函数计算旋翼无人机执行预测动作指令并与仿真环境交互后返回的奖励值，用于进行模型网络参数更新，并在测试阶段基于预置的指令滤波器平滑模型网络输出；

将输出的预测动作指令发送至旋翼无人机，以引导旋翼无人机进行避障；

所述深度强化学习模型的训练过程包括：

步骤S34，在优先级回放缓冲池D中按优先级采样N组数据；

步骤S38，更新目标网络参数：τ表示轨迹；

步骤S39，判断t是否达到设置的最大步长；若是，结束训练；若否，令t＝t+1，返回步骤S32；

所述步骤S35中，设置所述评论家网络的代价函数为：

其中，

所述步骤S37中，设置所述温度因子的代价函数为：

式中，表示目标熵，π_t(a_t|s_t)表示状态s_t下策略π_t输出动作a_t的概率，α表示温度因子；

数据(s_t,a_t,r_t+1,s_t+1)作为旋翼无人机的经验存储于优先级回放缓冲池D中，所述步骤S34中，按照下式确定第i条经验的采样概率：

2.根据权利要求1所述的基于强化学习SAC的旋翼无人机避障方法，其特征在于，所述设置旋翼无人机飞行决策的状态空间、动作空间和奖励函数，包括：

设置所述动作空间包括旋翼无人机速度；

设置所述奖励函数包括非稀疏奖励。

3.根据权利要求2所述的基于强化学习SAC的旋翼无人机避障方法，其特征在于，所述设置所述奖励函数包括非稀疏奖励，包括：

r_total＝r_goal+r_crash+r_free+r_step+r_acc

式中，r_goal表示距离奖励，r_crash表示碰撞奖励，r_free表示自由空间奖励，r_step表示步数奖励，r_acc表示加速度奖励，dg为当前旋翼无人机到目标的距离，d_gmin为预置距离阈值，r_arrival表示到达目标时获得的奖励，Δdg为与目标距离变化数值相关的奖励，d_ro表示旋翼无人机与最近障碍物的距离，r_i为旋翼无人机与最近障碍物的距离处于第i种距离范围时获得的负奖励值，d_mini为所述第i种距离范围的下限，d_maxi为所述第i种距离范围的上限，d_i表示激光雷达的第i个数据，d_max为激光雷达的数据的最大值，T表示旋翼无人机的累计飞行时间，T_T为预置的用于归一化的飞行时间，a_x为旋翼无人机在机体坐标系下的前向加速度，a_yaw为旋翼无人机在机体坐标系下的偏航加速度，a_xT为预置的用于归一化的前向加速度，a_yawT为预置的用于归一化的偏航加速度。

4.根据权利要求1所述的基于强化学习SAC的旋翼无人机避障方法，其特征在于，所述随机环境生成器表示为Env_new＝Env(d_target,r_wall,n_max,n_min)，Env_new表示随机环境生成器的输出，d_target表示目标点距离旋翼无人机初始点的距离，r_wall表示生成墙壁的概率，n_max表示圆柱形障碍物的最大数量，n_min表示圆柱形障碍物的最小数量，所述构建随机环境生成器，包括：

初始化空地图Map，获取d_target、r_wall、n_max和n_min的参数值；

将所述第三地图输出。

5.一种基于强化学习SAC的旋翼无人机避障装置，其特征在于，包括：

引导模块，用于将输出的预测动作指令发送至旋翼无人机，以引导旋翼无人机进行避障；

所述预测模块包括训练单元，所述训练单元包括：

第四更新子单元，用于更新目标网络参数：

算法迭代判断子单元，用于判断t是否达到设置的最大步长；若是，结束训练；若否，令t＝t+1，返回所述执行子单元；

所述第一更新子单元具体用于设置所述评论家网络的代价函数为：

其中，

所述第二更新子单元具体用于将参数化为设置所述演员网络的代价函数为：

式中，表示目标熵，π_t(a_t|s_t)表示状态s_t下策略π_t输出动作a_t的概率；

数据(s_t,a_t,r_t+1,s_t+1)作为旋翼无人机的经验存储于优先级回放缓冲池D中，所述采样子单元具体用于按照下式确定第i条经验的采样概率：

6.一种基于强化学习SAC的旋翼无人机避障装置，其特征在于，包括：

存储器，用于存储指令；其中，所述指令用于实现如权利要求1-4任意一项所述的基于强化学习SAC的旋翼无人机避障方法；

处理器，用于执行所述存储器中的指令。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-4任意一项所述的基于强化学习SAC的旋翼无人机避障方法。