CN115494879A - 基于强化学习sac的旋翼无人机避障方法、装置及设备 - Google Patents

基于强化学习sac的旋翼无人机避障方法、装置及设备 Download PDF

Info

Publication number
CN115494879A
CN115494879A CN202211349482.2A CN202211349482A CN115494879A CN 115494879 A CN115494879 A CN 115494879A CN 202211349482 A CN202211349482 A CN 202211349482A CN 115494879 A CN115494879 A CN 115494879A
Authority
CN
China
Prior art keywords
aerial vehicle
unmanned aerial
reward
state
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211349482.2A
Other languages
English (en)
Other versions
CN115494879B (zh
Inventor
侯治威
杨永盛
陈天兴
陈洪波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202211349482.2A priority Critical patent/CN115494879B/zh
Publication of CN115494879A publication Critical patent/CN115494879A/zh
Application granted granted Critical
Publication of CN115494879B publication Critical patent/CN115494879B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明涉及无人机控制技术领域,公开了基于强化学习SAC的旋翼无人机避障方法、装置及设备。本发明利用随机环境生成器构建随机化地图;获取激光雷达数据、旋翼无人机速度以及相对目标位置作为状态输入数据,输入至经过训练的深度强化学习模型中,输出预测动作指令,以引导旋翼无人机进行避障;其中模型基于强化学习SAC算法构建并以随机化地图作为仿真环境,训练时,基于状态空间、动作空间和奖励函数计算旋翼无人机执行预测动作指令并与仿真环境交互后返回的奖励值,用于更新模型网络参数,并在测试阶段基于指令滤波器平滑模型网络输出。本发明能在控制成本的同时解决深度强化学习算法分布失配问题,实现高鲁棒性的旋翼无人机避障。

Description

基于强化学习SAC的旋翼无人机避障方法、装置及设备
技术领域
本发明涉及无人机控制技术领域,尤其涉及基于强化学习SAC的旋翼无人机避障方法、装置及设备。
背景技术
近年来,旋翼无人机受到了工业界和学术界的广泛关注,并逐步应用于航拍、农业、救援等多方面领域。随着硬件技术的逐步成熟,旋翼无人机越来越微型化,使之具备在复杂未知环境下自动作业的潜力,以此代替高难度的人手操控。无人机通常装备一些轻量的机载传感器,比如单目相机、双目相机和激光雷达等,来感知周围环境。避障模块需要根据感知信息进行决策,绕开障碍物并且安全到达目标位置。然而,低空环境十分复杂,无人机的感知能力和计算资源也十分有限,旋翼无人机的自主避障技术成为制约其进一步发展的关键。
传统的避障技术包含建图和规划两个步骤。执行建图步骤时,通常在每个时间步上使用三角测量来估算摄像机运动和深度信息,通过高频特征提取和匹配技术从原始信息中构建三维局部地图。对于规划而言,执行前一步骤是先决条件,然而建图步骤非常耗时,这进一步挤压规划步骤执行时所需的计算资源。因此,对于小型旋翼无人机,需要探索更加高效的避障方法。
通过深度强化学习进行避障是降低计算成本和促进无人机小型化发展的一个非常研究价值的方向。将深度强化学习应用于无人机避障有几个优点。首先,无人机的环境非常复杂和高维的。深度强化学习可以充分利用深度学习(Deep Learning,DL)来处理和学习来自传感器的复杂输入信息,并通过神经网络的拟合能力覆盖未知状态。另外,通过深度强化学习获得的策略网络是从状态信息到动作指令的映射。无人机只需运行网络一次即可进行决策,无需任何建图步骤或复杂的数值计算,从而可以在复杂的环境中进行高频决策。
因此,基于深度强化学习的无人机避障研究近年来发展迅速。现有技术中使用专家经验对策略网络和Q值网络进行预训练,以增加深度强化学习的收敛速度,然后使用基于TD3算法执行标准的强化学习训练以获得能够在支持三维避障的决策器。现有技术中还提出了基于单目视觉避障的两阶段架构,包括传感模块和决策模块,分别通过深度信息进行自学习和循环Q学习进行标准的交互训练。然而,这些工作很少考虑在固定环境中训练时的分布失配(Distribution Mismatching)问题。当训练环境与测试环境差异较大时,分布失配问题尤为突出,因为深度强化学习的策略更新与目标函数有关,而目标函数取决于环境中的状态分布,因此从理论上讲,现有的策略在实际飞行任务中的泛化性还有待提高。然而,如果使用真实的旋翼无人机进行训练,则训练过程十分危险且成本不可控。我们只能够在仿真器中进行训练,这又会进一步扩大仿真和现实的差距,加剧了分布失配的问题。
发明内容
本发明提供了基于强化学习SAC的旋翼无人机避障方法、装置及设备,解决了现有基于深度强化学习的旋翼无人机避障方法不能在控制成本的同时解决深度强化学习算法分布失配问题的技术问题。
本发明第一方面提供一种基于强化学习SAC的旋翼无人机避障方法,包括:
设置旋翼无人机飞行决策的状态空间、动作空间和奖励函数;
构建随机环境生成器,利用所述随机环境生成器构建随机化地图,所述随机环境生成器将旋翼无人机的避障场景分为走廊环境和森林环境两个基本类别;
获取激光雷达数据、旋翼无人机在机体坐标系下的线速度和偏航角速度以及与目标的相对目标位置作为状态输入数据;
将所述状态输入数据输入经过训练的深度强化学习模型中,输出预测动作指令;所述深度强化学习模型基于强化学习SAC(软性演员-评论家)算法进行构建并以所述随机化地图作为训练和测试的仿真环境,训练时,基于所述状态空间、动作空间和奖励函数计算旋翼无人机执行预测动作指令并与仿真环境交互后返回的奖励值,用于进行模型网络参数更新,并在测试阶段基于预置的指令滤波器平滑模型网络输出;
将输出的预测动作指令发送至旋翼无人机,以引导旋翼无人机进行避障。
根据本发明第一方面的一种能够实现的方式,所述构建旋翼无人机飞行决策的状态空间、动作空间和奖励函数,包括:
设置所述状态空间包括旋翼无人机速度、旋翼无人机加速度、与目标的相对目标位置和激光雷达数据;所述旋翼无人机速度以旋翼无人机在机体坐标系下的线速度和偏航角速度进行表示,所述旋翼无人机加速度以旋翼无人机在机体坐标系下的前向加速度和偏航加速度进行表示,所述与目标的相对目标位置以旋翼无人机当前位置和目标位置在极坐标系下的距离和角度进行表示;
设置所述动作空间包括旋翼无人机速度;
设置所述奖励函数包括非稀疏奖励。
根据本发明第一方面的一种能够实现的方式,所述设置所述奖励函数包括非稀疏奖励,包括:
设置所述奖励函数由距离奖励、碰撞奖励、自由空间奖励、步数奖励和加速度奖励构成,构造所述奖励函数的表达式为:
rtotal=rgoal+rcrash+rfree+rstep+racc
Figure BDA0003919229100000031
Figure BDA0003919229100000032
Figure BDA0003919229100000033
Figure BDA0003919229100000034
Figure BDA0003919229100000035
式中,rgoal表示距离奖励,rcrash表示碰撞奖励,rfree表示自由空间奖励,rstep表示步数奖励,racc表示加速度奖励,dg为当前旋翼无人机到目标的距离,dgmin为预置距离阈值,rarrival表示到达目标时获得的奖励,Δdg为与目标距离变化数值相关的奖励,dro表示旋翼无人机与最近障碍物的距离,ri为旋翼无人机与最近障碍物的距离处于第i种距离范围时获得的负奖励值,
Figure BDA0003919229100000041
为所述第i种距离范围的下限,
Figure BDA0003919229100000042
为所述第i种距离范围的上限,di表示激光雷达的第i个数据,dmax为激光雷达的数据的最大值,T表示旋翼无人机的累计飞行时间,TT为预置的用于归一化的飞行时间,ax为旋翼无人机在机体坐标系下的前向加速度,ayaw为旋翼无人机在机体坐标系下的偏航加速度,axT为预置的用于归一化的前向加速度,ayawT为预置的用于归一化的偏航加速度。
根据本发明第一方面的一种能够实现的方式,所述随机环境生成器表示为Envnew=Env(dtarget,rwall,nmax,nmin),Envnew表示随机环境生成器的输出,dtarget表示目标点距离旋翼无人机初始点的距离,rwall表示生成墙壁的概率,nmax表示圆柱形障碍物的最大数量,nmin表示圆柱形障碍物的最小数量,所述构建随机环境生成器,包括:
初始化空地图Map,获取dtarget、rwall、nmax和nmin的参数值;
从给定M面墙中按概率rwall抽样m面墙,将抽样出的m面墙放置于空地图Map,得到第一地图;
从[nmin,nmax]中均匀抽样数字n,将n个圆柱形障碍物放置于所述第一地图,得到第二地图;
随机化所述第二地图中墙壁和圆柱形障碍物的位置和角度,得到第三地图;
将所述第三地图输出。
根据本发明第一方面的一种能够实现的方式,所述深度强化学习模型的训练过程包括:
步骤S31,初始化评论家网络参数θi,i=1,2和演员网络参数
Figure BDA0003919229100000043
初始化目标网络参数:
Figure BDA0003919229100000044
初始化温度因子α;初始化优先级回放缓冲池D;令t=1;
步骤S32,选择动作at~π(at|st),观察奖励rt+1和新状态st+1;其中,at表示t时刻需要执行的动作,st表示t时刻的状态信息,π(at|st)表示状态st下随机策略π输出动作at的概率;
步骤S33,把数据(st,at,rt+1,st+1)存储到优先级回放缓冲池D,初始优先级为pinit
步骤S34,在优先级回放缓冲池D中按优先级采样N组数据;
步骤S35,更新评论家网络参数:
Figure BDA0003919229100000045
λ表示学习率,
Figure BDA0003919229100000051
表示评论家网络参数的梯度,JQi)为评论家网络的代价函数;
步骤S36,更新演员网络参数:
Figure BDA0003919229100000052
Figure BDA0003919229100000053
表示演员网络参数的梯度,
Figure BDA0003919229100000054
为演员网络的代价函数;
步骤S37,更新温度因子:
Figure BDA0003919229100000055
Figure BDA0003919229100000056
为温度因子的梯度,J(α)为温度因子的代价函数;
步骤S38,更新目标网络参数:
Figure BDA0003919229100000057
步骤S39,判断t是否达到设置的最大步长;若是,结束训练;若否,令t=t+1,返回步骤S32。
根据本发明第一方面的一种能够实现的方式,所述步骤S35中,设置所述评论家网络的代价函数为:
Figure BDA0003919229100000058
其中,
Figure BDA0003919229100000059
Figure BDA00039192291000000510
式中,
Figure BDA00039192291000000511
表示求取从优先级回放缓冲池D中采样(st,at)的期望,
Figure BDA00039192291000000512
表示给定随机策略π时在状态st下执行动作at的状态-动作价值,yt为使用状态st+1估算的状态-动作价值函数,r(st,at)为旋翼无人机在状态st执行动作at时获得的平均收益,
Figure BDA00039192291000000513
表示求取状态st+1基于p(st,at)抽样的期望,p(st,at)为状态转移概率函数,
Figure BDA00039192291000000514
为表示目标网络输出的st+1状态的价值,γ为折扣率,该折扣率表示需要参考未来收益的百分比,
Figure BDA00039192291000000515
为求取给定随机策略π时在状态st+1下执行动作at+1的期望,
Figure BDA00039192291000000516
表示给定随机策略π时在状态st+1下执行动作at+1的目标状态-动作价值,
Figure BDA00039192291000000517
为状态st+1下策略
Figure BDA00039192291000000518
输出动作at+1的概率;
所述步骤S36中,将
Figure BDA00039192291000000519
参数化为
Figure BDA00039192291000000520
设置所述演员网络的代价函数为:
Figure BDA00039192291000000521
式中,
Figure BDA00039192291000000522
表示求取从优先级回放缓冲池D中采样st以及从N(0,1)中抽样εt的期望,
Figure BDA00039192291000000523
表示在状态st下执行动作
Figure BDA00039192291000000524
的状态-动作价值;
所述步骤S37中,设置所述温度因子的代价函数为:
Figure BDA0003919229100000061
式中,
Figure BDA0003919229100000064
表示目标熵,πt(at|st)表示状态st下策略πt输出动作at的概率。
根据本发明第一方面的一种能够实现的方式,数据(st,at,rt+1,st+1)作为旋翼无人机的经验存储于优先级回放缓冲池D中,所述步骤S34中,按照下式确定第i条经验的采样概率:
Figure BDA0003919229100000062
式中,Pi表示第i条经验的采样概率,pi表示第i条经验的优先级,β为优先级调解因子,不考虑优先级时β=0,考虑优先级时β=1,δi表示第i条经验的TD误差,
Figure BDA0003919229100000063
表示最小优先级。
本发明第二方面提供一种基于强化学习SAC的旋翼无人机避障装置,包括:
设置模块,用于设置旋翼无人机飞行决策的状态空间、动作空间和奖励函数;
构建模块,用于构建随机环境生成器,利用所述随机环境生成器构建随机化地图,所述随机环境生成器将旋翼无人机的避障场景分为走廊环境和森林环境两个基本类别;
获取模块,用于获取激光雷达数据、旋翼无人机在机体坐标系下的线速度和偏航角速度以及与目标的相对目标位置作为状态输入数据;
预测模块,用于将所述状态输入数据输入经过训练的深度强化学习模型中,输出预测动作指令;所述深度强化学习模型基于强化学习SAC算法进行构建并以所述随机化地图作为训练和测试的仿真环境,训练时,基于所述状态空间、动作空间和奖励函数计算旋翼无人机执行预测动作指令并与仿真环境交互后返回的奖励值,用于进行模型网络参数更新,并在测试阶段基于预置的指令滤波器平滑模型网络输出;
引导模块,用于将输出的预测动作指令发送至旋翼无人机,以引导旋翼无人机进行避障。
根据本发明第二方面的一种能够实现的方式,所述设置模块包括:
第一设置单元,用于设置所述状态空间包括旋翼无人机速度、旋翼无人机加速度、与目标的相对目标位置和激光雷达数据;所述旋翼无人机速度以旋翼无人机在机体坐标系下的线速度和偏航角速度进行表示,所述旋翼无人机加速度以旋翼无人机在机体坐标系下的前向加速度和偏航加速度进行表示,所述与目标的相对目标位置以旋翼无人机当前位置和目标位置在极坐标系下的距离和角度进行表示;
第二设置单元,用于设置所述动作空间包括旋翼无人机速度;
第三设置单元,用于设置所述奖励函数包括非稀疏奖励。
根据本发明第二方面的一种能够实现的方式,所述第三设置单元具体用于:
设置所述奖励函数由距离奖励、碰撞奖励、自由空间奖励、步数奖励和加速度奖励构成,构造所述奖励函数的表达式为:
rtotal=rgoal+rcrash+rfree+rstep+racc
Figure BDA0003919229100000071
Figure BDA0003919229100000072
Figure BDA0003919229100000073
Figure BDA0003919229100000074
Figure BDA0003919229100000075
式中,rgoal表示距离奖励,rcrash表示碰撞奖励,rfree表示自由空间奖励,rstep表示步数奖励,racc表示加速度奖励,dg为当前旋翼无人机到目标的距离,dgmin为预置距离阈值,rarrival表示到达目标时获得的奖励,Δdg为与目标距离变化数值相关的奖励,dro表示旋翼无人机与最近障碍物的距离,ri为旋翼无人机与最近障碍物的距离处于第i种距离范围时获得的负奖励值,
Figure BDA0003919229100000076
为所述第i种距离范围的下限,
Figure BDA0003919229100000077
为所述第i种距离范围的上限,di表示激光雷达的第i个数据,dmax为激光雷达的数据的最大值,T表示旋翼无人机的累计飞行时间,TT为预置的用于归一化的飞行时间,ax为旋翼无人机在机体坐标系下的前向加速度,ayaw为旋翼无人机在机体坐标系下的偏航加速度,axT为预置的用于归一化的前向加速度,ayawT为预置的用于归一化的偏航加速度。
根据本发明第二方面的一种能够实现的方式,所述随机环境生成器表示为Envnew=Env(dtarget,rwall,nmax,nmin),Envnew表示随机环境生成器的输出,dtarget表示目标点距离旋翼无人机初始点的距离,rwall表示生成墙壁的概率,nmax表示圆柱形障碍物的最大数量,nmin表示圆柱形障碍物的最小数量,所述构建模块包括:
初始化单元,用于初始化空地图Map,获取dtarget、rwall、nmax和nmin的参数值;
第一地图构建单元,用于从给定M面墙中按概率rwall抽样m面墙,将抽样出的m面墙放置于空地图Map,得到第一地图;
第二地图构建单元,用于从[nmin,nmax]中均匀抽样数字n,将n个圆柱形障碍物放置于所述第一地图,得到第二地图;
第三地图构建单元,用于随机化所述第二地图中墙壁和圆柱形障碍物的位置和角度,得到第三地图;
地图输出单元,用于将所述第三地图输出。
根据本发明第二方面的一种能够实现的方式,所述预测模块包括训练单元,所述训练单元包括:
初始化子单元,初始化评论家网络参数θi,i=1,2和演员网络参数
Figure BDA0003919229100000081
初始化目标网络参数:
Figure BDA0003919229100000082
初始化温度因子α;初始化优先级回放缓冲池D;令t=1;
执行子单元,用于选择动作at~π(at|st),观察奖励rt+1和新状态st+1;其中,at表示t时刻需要执行的动作,st表示t时刻的状态信息,π(at|st)表示状态st下随机策略π输出动作at的概率;
存储子单元,用于把数据(st,at,rt+1,st+1)存储到优先级回放缓冲池D,初始优先级为pinit
采样子单元,用于在优先级回放缓冲池D中按优先级采样N组数据;
第一更新子单元,用于更新评论家网络参数:
Figure BDA0003919229100000083
λ表示学习率,
Figure BDA0003919229100000084
表示评论家网络参数的梯度,JQi)为评论家网络的代价函数;
第二更新子单元,用于更新演员网络参数:
Figure BDA0003919229100000085
Figure BDA0003919229100000086
表示演员网络参数的梯度,
Figure BDA0003919229100000087
为演员网络的代价函数;
第三更新子单元,用于更新温度因子:
Figure BDA0003919229100000091
Figure BDA0003919229100000092
为温度因子的梯度,J(α)为温度因子的代价函数;
第四更新子单元,用于更新目标网络参数:
Figure BDA0003919229100000093
算法迭代判断子单元,用于判断t是否达到设置的最大步长;若是,结束训练;若否,令t=t+1,返回所述执行子单元。
根据本发明第二方面的一种能够实现的方式,所述第一更新子单元具体用于设置所述评论家网络的代价函数为:
Figure BDA0003919229100000094
其中,
Figure BDA0003919229100000095
Figure BDA0003919229100000096
式中,
Figure BDA0003919229100000097
表示求取从优先级回放缓冲池D中采样(st,at)的期望,
Figure BDA0003919229100000098
表示给定随机策略π时在状态st下执行动作at的状态-动作价值,yt为使用状态st+1估算的状态-动作价值函数,r(st,at)为旋翼无人机在状态st执行动作at时获得的平均收益,
Figure BDA0003919229100000099
表示求取状态st+1基于p(st,at)抽样的期望,p(st,at)为状态转移概率函数,
Figure BDA00039192291000000910
为表示目标网络输出的st+1状态的价值,γ为折扣率,该折扣率表示需要参考未来收益的百分比,
Figure BDA00039192291000000911
为求取给定随机策略π时在状态st+1下执行动作at+1的期望,
Figure BDA00039192291000000912
表示给定随机策略π时在状态st+1下执行动作at+1的目标状态-动作价值,
Figure BDA00039192291000000913
为状态st+1下策略
Figure BDA00039192291000000914
输出动作at+1的概率;
所述第二更新单元具体用于将
Figure BDA00039192291000000915
参数化为
Figure BDA00039192291000000916
设置所述演员网络的代价函数为:
Figure BDA00039192291000000917
式中,
Figure BDA00039192291000000918
表示求取从优先级回放缓冲池D中采样st以及从N(0,1)中抽样εt的期望,
Figure BDA00039192291000000919
表示在状态st下执行动作
Figure BDA00039192291000000920
的状态-动作价值;
所述第三更新子单元具体用于设置所述温度因子的代价函数为:
Figure BDA00039192291000000921
式中,
Figure BDA00039192291000000922
表示目标熵,πt(at|st)表示状态st下策略πt输出动作at的概率。
根据本发明第二方面的一种能够实现的方式,数据(st,at,rt+1,st+1)作为旋翼无人机的经验存储于优先级回放缓冲池D中,所述采样子单元具体用于按照下式确定第i条经验的采样概率:
Figure BDA0003919229100000101
式中,Pi表示第i条经验的采样概率,pi表示第i条经验的优先级,β为优先级调解因子,不考虑优先级时β=0,考虑优先级时β=1,δi表示第i条经验的TD误差,
Figure BDA0003919229100000102
表示最小优先级。
本发明第三方面提供了一种基于强化学习SAC的旋翼无人机避障装置,包括:
存储器,用于存储指令;其中,所述指令用于实现如上任意一项能够实现的方式所述的基于强化学习SAC的旋翼无人机避障方法;
处理器,用于执行所述存储器中的指令。
本发明第四方面一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任意一项能够实现的方式所述的基于强化学习SAC的旋翼无人机避障方法。
从以上技术方案可以看出,本发明具有以下优点:
本发明利用随机环境生成器构建随机化地图,其中将旋翼无人机的避障场景分为走廊环境和森林环境两个基本类别;获取激光雷达数据、旋翼无人机在机体坐标系下的线速度和偏航角速度以及与目标的相对目标位置作为状态输入数据,输入至经过训练的深度强化学习模型中,输出预测动作指令;其中该模型基于强化学习SAC算法进行构建并以所述随机化地图作为训练和测试的仿真环境,训练时,基于状态空间、动作空间和奖励函数计算旋翼无人机执行预测动作指令并与仿真环境交互后返回的奖励值,用于进行模型网络参数更新,并在测试阶段基于预置的指令滤波器平滑模型网络输出;将输出的预测动作指令发送至旋翼无人机,以引导旋翼无人机进行避障;通过随机环境生成器生成随机化地图用于模型训练和测试,不需要依赖复杂的局部地图,能够有效减少计算开销;本发明使用激光雷达收集的距离数据来实时决策,与摄像机相比,激光雷达提供了更精确的距离估计和更长的可视距离,且在需要提高激光雷达的角分辨率时,仅需利用几个激光测距仪进行实现,从而能够有效节约硬件成本;基于强化学习SAC算法构建深度强化学习模型,并使用激光雷达数据和随机化地图,结合利用指令滤波器平滑模型网络输出,能够解决过往深度强化学习算法分布失配的问题,实现将仿真中的策略网络迁移到真实无人机的同时保持良好的泛化性能;利用指令滤波器平滑模型网络输出,还能稳定旋翼无人机的避障性能,提高鲁棒性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明一个可选实施例提供的一种基于强化学习SAC的旋翼无人机避障方法的流程图;
图2为本发明一个可选实施例提供的图1所示方法对应的整体框架示意图;
图3为本发明一个可选实施例提供的一种基于强化学习SAC的旋翼无人机避障装置的结构连接框图。
附图标记:
1-设置模块;2-构建模块;3-获取模块;4-预测模块;5-引导模块。
具体实施方式
本发明实施例提供了基于强化学习SAC的旋翼无人机避障方法、装置及设备,用于解决现有基于深度强化学习的旋翼无人机避障方法不能在控制成本的同时解决深度强化学习算法分布失配问题的技术问题。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明提供了一种基于强化学习SAC的旋翼无人机避障方法。
请参阅图1,图1示出了本发明实施例提供的一种基于强化学习SAC的旋翼无人机避障方法的流程图。
本发明实施例提供的一种基于强化学习SAC的旋翼无人机避障方法,包括:
步骤S1,设置旋翼无人机飞行决策的状态空间、动作空间和奖励函数。
在一种能够实现的方式中,所述构建旋翼无人机飞行决策的状态空间、动作空间和奖励函数,包括:
设置所述状态空间包括旋翼无人机速度、旋翼无人机加速度、与目标的相对目标位置和激光雷达数据;所述旋翼无人机速度以旋翼无人机在机体坐标系下的线速度和偏航角速度进行表示,所述旋翼无人机加速度以旋翼无人机在机体坐标系下的前向加速度和偏航加速度进行表示,所述与目标的相对目标位置以旋翼无人机当前位置和目标位置在极坐标系下的距离和角度进行表示;
设置所述动作空间包括旋翼无人机速度;
设置所述奖励函数包括非稀疏奖励。
本实施例中,设置状态空间包括激光雷达数据。在传感器的选择上,与摄像机相比,激光雷达提供了更精确的距离估计和更长的可视距离。即使在黑暗中,旋翼无人机也能感知障碍物的位置。当提高激光雷达的角分辨率时,它会退化为几个激光测距仪,从而节约硬件成本。
在一种能够实现的方式中,所述设置所述奖励函数包括非稀疏奖励,包括:
设置所述奖励函数由距离奖励、碰撞奖励、自由空间奖励、步数奖励和加速度奖励构成,构造所述奖励函数的表达式为:
rtotal=rgoal+rcrash+rfree+rstep+racc
Figure BDA0003919229100000131
Figure BDA0003919229100000132
Figure BDA0003919229100000133
Figure BDA0003919229100000134
Figure BDA0003919229100000135
式中,rgoal表示距离奖励,rcrash表示碰撞奖励,rfree表示自由空间奖励,rstep表示步数奖励,racc表示加速度奖励,dg为当前旋翼无人机到目标的距离,dgmin为预置距离阈值,dgmin为预置距离阈值,rarrival表示到达目标时获得的奖励,Δdg为与目标距离变化数值相关的奖励,dro表示旋翼无人机与最近障碍物的距离,ri为旋翼无人机与最近障碍物的距离处于第i种距离范围时获得的负奖励值,
Figure BDA0003919229100000136
为所述第i种距离范围的下限,
Figure BDA0003919229100000137
为所述第i种距离范围的上限,di表示激光雷达的第i个数据,dmax为激光雷达的数据的最大值,T表示旋翼无人机的累计飞行时间,TT为预置的用于归一化的飞行时间,ax为旋翼无人机在机体坐标系下的前向加速度,ayaw为旋翼无人机在机体坐标系下的偏航加速度,axT为预置的用于归一化的前向加速度,ayawT为预置的用于归一化的偏航加速度。
根据上述奖励函数可知,对于距离奖励,一旦dg小于阈值dgmin,则旋翼无人机获得奖励rarrival,否则,将会获得一个与目标距离变化数值相关的奖励Δdg。
通过设置碰撞奖励,可以进一步鼓励无人机远离障碍。
对于自由空间奖励,当且仅当旋翼无人机非常接近障碍物时,rfree会变得非常小,而当旋翼无人机远离障碍物时,rfree会迅速趋近于0。这能鼓励旋翼无人机在狭窄的区域积极探索。
对于步数奖励,随着时间T的增加,rstep对总奖励函数的惩罚就越高。步数奖励的设置,可以驱使旋翼无人机尽可能快地到达目的地。
由于无人机对指令响应速度非常快,加速度奖励的设置,有益于将加速度变化率降至最低,以减少指令不平滑导致的飞行抖动。
本发明上述实施例,对于奖励函数方面设计了一种非稀疏奖励,它结合了无人机避障问题的领域知识,可以改进深度强化学习算法的收敛性。
步骤S2,构建随机环境生成器,利用所述随机环境生成器构建随机化地图,所述随机环境生成器将旋翼无人机的避障场景分为走廊环境和森林环境两个基本类别。
SAC算法依赖于数学期望算子,而训练环境的构建时刻影响着状态的分布,也就是说,训练环境的构建直接影响了SAC算法所得策略的最终性能。当DRL算法在充分训练到收敛时,优化目标的近似值应与真值无限接近。然而,期望操作表明,真值在很大程度上取决于特定训练环境的状态分布。因此,如果在不同的环境中训练无人机,则不同优化目标近似值将对应不同的策略。如果测试中的策略与其环境不对应,即分布失配,则无人机的避障性能较差。本实施例中,将无人机的避障场景抽象为两个基本类别,可以更准确地构建训练环境。
其中,无人机通常需要在具有多个墙壁的大规模环境中穿梭,如城市建筑物和狭窄走廊,本实施例中以走廊环境进行表示,表现为传感器中连续且紧凑的传感信息。
不规则障碍物是路径规划中最重要的部分,本实施例中以森林环境进行表示,其可以由多个圆柱形障碍物组成,表示为传感器中离散和孤立的传感信息。
需要说明的是,本申请提出的方法是一种局部路径规划方案,它并不能解决迷宫式地图的避障问题。在实际使用中,需要根据已知地图进行全局规划来分配航点。局部路径规划指导旋翼无人机跟随每一个航点。
在一种能够实现的方式中,所述随机环境生成器表示为:
Envnew=Env(dtarget,rwall,nmax,nmin)
式中,Envnew表示随机环境生成器的输出,dtarget表示目标点距离旋翼无人机初始点的距离,rwall表示生成墙壁的概率,nmax表示圆柱形障碍物的最大数量,nmin表示圆柱形障碍物的最小数量。
其中,dtarget可以简单设置为两个相邻航点之间的最大值。同时,旋翼无人机的传感距离有限,若希望把目标设置在无人机“看得见”的地方,可以设置dtarget为经验值1.5倍的可视距离。rwall,nmax,nmin这三类参数都可以根据实际使用环境统计得到。在城市环境中,走廊类环境会多一点,因此可以适当提高rwall。在森林环境中,柱形障碍物会多一点,因此可以适当减少rwall和提高nmax,nmin
由于DRL受分布失配的影响,需要根据实际环境定制化rwall,nmax,nmin。设置该类参数时,尽量不要让障碍物密度(障碍物面积/采样总面积)超过20%。
在一种能够实现的方式中,所述构建随机环境生成器,包括:
初始化空地图Map,获取dtarget、rwall、nmax和nmin的参数值;
从给定M面墙中按概率rwall抽样m面墙,将抽样出的m面墙放置于空地图Map,得到第一地图;
从[nmin,nmax]中均匀抽样数字n,将n个圆柱形障碍物放置于所述第一地图,得到第二地图;
随机化所述第二地图中墙壁和圆柱形障碍物的位置和角度,得到第三地图;
将所述第三地图输出。
步骤S3,获取激光雷达数据、旋翼无人机在机体坐标系下的线速度和偏航角速度以及与目标的相对目标位置作为状态输入数据。
其中,旋翼无人机在机体坐标系下的线速度和偏航角速度以及与目标的相对目标位置信息可通过传感模块和融合算法获得,本实施例中,对此不做限定。
步骤S4,将所述状态输入数据输入经过训练的深度强化学习模型中,输出预测动作指令;所述深度强化学习模型基于强化学习SAC算法进行构建并以所述随机化地图作为训练和测试的仿真环境,训练时,基于所述状态空间、动作空间和奖励函数计算旋翼无人机执行预测动作指令并与仿真环境交互后返回的奖励值,用于进行模型网络参数更新,并在测试阶段基于预置的指令滤波器平滑模型网络输出。
无人机策略需要在仿真环境下被训练至收敛,然后迁移到真实的无人机上进行实时避障。在这个过程中,仿真和现实误差会非常大,因此需要鲁棒性较好的策略模型。本实施例中,深度强化学习模型训练过程基于随机策略。与TD3偏好确定性策略不同,SAC算法是天然偏好随机策略的强化学习算法,其高探索性也能有助于训练出高鲁棒性的随机策略。值得注意的是,使用SAC进行无人机避障的研究非常地少,也很少人会做多种算法的对比。测试表明,SAC在实际飞行中会比TD3性能要好。
如果将最大化目标熵作为软约束,以改进训练过程中的探索性,那么显然地,我们的强化学习模块就可以学习到给定任务的所有可能性,由此产生的策略网络可以在多模态(multi-modal)奖励环境中找到最优的一组参数。
作为具体的实施方式,深度强化学习模型基于一个支持随机策略的、最大化熵的目标函数,其最优策略π*可以表示为:
Figure BDA0003919229100000161
式中,(s,a)~ρπ表示表示状态s和动作a分别从环境和策略中抽样,
Figure BDA0003919229100000162
表示基于(s,a)~ρπ求取期望,π是随机策略π(as):S×A→R,S和A分别为状态空间和动作空间,R为实数域,ρπ表示由随机策略π所确定的状态-动作分布,轨迹τ=(s0,a0,r1,s1,...,sT-1,aT-1,rT,sT),τπ表示随机策略π所确定的轨迹分布,γ为折扣率,α为温度因子,用于调节策略熵对目标函数的贡献度,H(π(·|st))表示为随机策略π在状态st时的熵,计算公式为H(π(·|st))=-logπ(·|st),r(st,at)为旋翼无人机在状态st执行动作at时获得的平均收益。
在一种能够实现的方式中,所述深度强化学习模型的训练过程包括:
步骤S31,初始化评论家网络参数θi,i=1,2和演员网络参数
Figure BDA0003919229100000163
初始化目标网络参数:
Figure BDA0003919229100000164
初始化温度因子α;初始化优先级回放缓冲池D;令t=1;
步骤S32,选择动作at~π(at|st),观察奖励rt+1和新状态st+1;其中,at表示t时刻需要执行的动作,st表示t时刻的状态信息,π(at|st)表示状态st下随机策略π输出动作at的概率;
步骤S33,把数据(st,at,rt+1,st+1)存储到优先级回放缓冲池D,初始优先级为pinit
步骤S34,在优先级回放缓冲池D中按优先级采样N组数据;
步骤S35,更新评论家网络参数:
Figure BDA0003919229100000165
λ表示学习率,
Figure BDA0003919229100000166
表示评论家网络参数的梯度,JQi)为评论家网络的代价函数;
步骤S36,更新演员网络参数:
Figure BDA0003919229100000171
Figure BDA0003919229100000172
表示演员网络参数的梯度,
Figure BDA0003919229100000173
为演员网络的代价函数;
步骤S37,更新温度因子:
Figure BDA0003919229100000174
Figure BDA0003919229100000175
为温度因子的梯度,J(α)为温度因子的代价函数;
步骤S38,更新目标网络参数:
Figure BDA0003919229100000176
步骤S39,判断t是否达到设置的最大步长;若是,结束训练;若否,令t=t+1,返回步骤S32。
为了最大化模型目标函数,SAC需要交替进行软策略评估和软策略改进。对于软策略评估,定义软动作价值函数为:
Figure BDA0003919229100000177
定义软状态价值函数为:
Figure BDA0003919229100000178
式中,p(st,at)为状态转移概率函数,描述了环境的动态性。
在连续空间配置下,本实施例使用参数θi来参数化软动作价值函数Q(st,at)。
具体地,使用θ1和θ2来参数化两个“目标”软动作价值函数。此外,使用参数
Figure BDA0003919229100000179
来参数化策略网络。因此,在一种能够实现的方式中,所述步骤S35中,设置所述评论家网络的代价函数为:
Figure BDA00039192291000001710
其中,
Figure BDA00039192291000001711
Figure BDA00039192291000001712
式中,
Figure BDA00039192291000001713
表示求取从优先级回放缓冲池D中采样(st,at)的期望,
Figure BDA00039192291000001714
表示给定随机策略π时在状态st下执行动作at的状态-动作价值,yt为使用状态st+1估算的状态-动作价值函数,r(st,at)为旋翼无人机在状态st执行动作at时获得的平均收益,
Figure BDA00039192291000001715
表示求取状态st+1基于p(st,at)抽样的期望,p(st,at)为状态转移概率函数,
Figure BDA00039192291000001716
为表示目标网络输出的st+1状态的价值,γ为折扣率,该折扣率表示需要参考未来收益的百分比,
Figure BDA00039192291000001717
为求取给定随机策略π时在状态st+1下执行动作at+1的期望,
Figure BDA00039192291000001718
表示给定随机策略π时在状态st+1下执行动作at+1的目标状态-动作价值,
Figure BDA0003919229100000181
为状态st+1下策略
Figure BDA0003919229100000182
输出动作at+1的概率。
在策略改进步骤中,可以通过直接最小化预期的Kullback-Leibler散度来训练策略:
Figure BDA0003919229100000183
式中,Zπold(st)用于归一化分布,尽管它比较复杂,但它不会对梯度回传产生任何影响,因此可以忽略它。
策略π的神经网络输出均值μ和标准差σ,由此可以定义抽样动作a=μ+εσ,其中ε~N(0,1)。进而,在所述步骤S36中,将
Figure BDA0003919229100000184
参数化为
Figure BDA0003919229100000185
设置所述演员网络的代价函数为:
Figure BDA0003919229100000186
式中,
Figure BDA0003919229100000187
表示求取从优先级回放缓冲池D中采样st以及从N(0,1)中抽样εt的期望,
Figure BDA0003919229100000188
表示在状态st下执行动作
Figure BDA0003919229100000189
的状态-动作价值;
由于奖励分布随训练过程的进行而变化,固定温度因子α对应的策略网络在实际中表现较差。为使得旋翼无人机在探索一个新的状态空间时,使用更大的温度因子鼓励探索,而当一个区域被充分探索之后,使用更小的温度因子减少探索,在一种能够实现的方式中,使用自动温度机制进行温度因子的自动调节。自动温度机制能够根据随机策略的输出分布来自动调节温度因子。因此,所述步骤S37中,设置所述温度因子的代价函数为:
Figure BDA00039192291000001810
式中,
Figure BDA00039192291000001811
是一个超参数,表示目标熵,可以简单设置为动作空间维度的负数-dim(Action),πt(at|st)表示状态st下策略πt输出动作at的概率。
在一种能够实现的方式中,数据(st,at,rt+1,st+1)作为旋翼无人机的经验存储于优先级回放缓冲池D中,所述步骤S34中,按照下式确定第i条经验的采样概率:
Figure BDA00039192291000001812
式中,Pi表示第i条经验的采样概率,pi表示第i条经验的优先级,β为优先级调解因子,不考虑优先级时β=0,考虑优先级时β=1,δi表示第i条经验的TD误差,
Figure BDA0003919229100000191
表示最小优先级。
本实施例中,能够实现对更为重要的经验进行更多的采样,而不是对历史数据进行均匀采样。通过设置上述的采样概率公式,可以提高收敛速度。
由于旋翼无人机对指令响应速度非常快,如果在避障任务执行过程中出现未知状态,深度强化学习策略可能会输出不理想的预测动作指令,导致飞行抖动。本步骤中采用指令滤波器来平滑策略网络的输出,可以有效滤除低频指令并提高深度强化学习策略的泛化性能。
作为一种能够实现的方式,该指令滤波器为中值平均滤波器(Median AverageFilter,MAF)。对于中值平均滤波器,给定N个时间步长的N条指令,发送到控制器的实际指令是删除最小值和最大值后的N-2项的算术平均值。
作为另一种能够实现的方式,该指令滤波器为一阶滞后滤波器(First-Order LagFilter,FOLF)。对于一阶滞后滤波器,给定当前预测指令acur和最后被执行的指令alast,发送到控制器的实际指令areal=(1-ξ)acur+ξalast,ξ为权值系数。
步骤S5,将输出的预测动作指令发送至旋翼无人机,以引导旋翼无人机进行避障。
本发明上述实施例中,方法对应的整体框架如图2所示。随机环境生成器构建用于训练和测试的随机化地图。有关障碍物、自身状态和目标位置的信息可通过传感模块和融合算法获得,并被发送至深度强化学习模型进行参数更新。深度强化学习模型的策略网络做出决策并输出预测动作,使无人机可以与环境交互进而获得奖励和新的状态信息。指令滤波器能够平滑测试阶段的网络输出,以稳定旋翼无人机的避障性能,提高鲁棒性。
本发明上述实施例中,可以有效解决分布失配的问题,并部署到真实旋翼无人机上进行自主避障,从而推进无人机小型化发展。
下面通过具体实验验证本申请方法的效果。
实验时,设置SAC算法参数如表1所示。
表1:
参数
批量 512
经验池大小 20000
折扣率 0.99
初始温度 0.2
目标熵 -dim(Action)
学习率 0.0003
优化器 Adam
代价函数 Mean squared
目标平滑因子 0.01
实验得到的效果如表2所示。
表2:
障碍物密度 避障成功率 碰撞率
1-5% 0.996 0.004
5-10% 0.950 0.048
10-15% 0.852 0.144
15-20% 0.734 0.264
本发明还提供了一种基于强化学习SAC的旋翼无人机避障装置,该装置可用于执行本发明上述任一项实施例所述的基于强化学习SAC的旋翼无人机避障方法。
请参阅图3,图3示出了本发明实施例提供的一种基于强化学习SAC的旋翼无人机避障装置的结构连接框图。
本发明实施例提供的一种基于强化学习SAC的旋翼无人机避障装置,包括:
设置模块1,用于设置旋翼无人机飞行决策的状态空间、动作空间和奖励函数;
构建模块2,用于构建随机环境生成器,利用所述随机环境生成器构建随机化地图,所述随机环境生成器将旋翼无人机的避障场景分为走廊环境和森林环境两个基本类别;
获取模块3,用于获取激光雷达数据、旋翼无人机在机体坐标系下的线速度和偏航角速度以及与目标的相对目标位置作为状态输入数据;
预测模块4,用于将所述状态输入数据输入经过训练的深度强化学习模型中,输出预测动作指令;所述深度强化学习模型基于强化学习SAC算法进行构建并以所述随机化地图作为训练和测试的仿真环境,训练时,基于所述状态空间、动作空间和奖励函数计算旋翼无人机执行预测动作指令并与仿真环境交互后返回的奖励值,用于进行模型网络参数更新,并在测试阶段基于预置的指令滤波器平滑模型网络输出;
引导模块5,用于将输出的预测动作指令发送至旋翼无人机,以引导旋翼无人机进行避障。
在一种能够实现的方式中,所述设置模块1包括:
第一设置单元,用于设置所述状态空间包括旋翼无人机速度、旋翼无人机加速度、与目标的相对目标位置和激光雷达数据;所述旋翼无人机速度以旋翼无人机在机体坐标系下的线速度和偏航角速度进行表示,所述旋翼无人机加速度以旋翼无人机在机体坐标系下的前向加速度和偏航加速度进行表示,所述与目标的相对目标位置以旋翼无人机当前位置和目标位置在极坐标系下的距离和角度进行表示;
第二设置单元,用于设置所述动作空间包括旋翼无人机速度;
第三设置单元,用于设置所述奖励函数包括非稀疏奖励。
在一种能够实现的方式中,所述第三设置单元具体用于:
设置所述奖励函数由距离奖励、碰撞奖励、自由空间奖励、步数奖励和加速度奖励构成,构造所述奖励函数的表达式为:
rtotal=rgoal+rcrash+rfree+rstep+racc
Figure BDA0003919229100000221
Figure BDA0003919229100000222
Figure BDA0003919229100000223
Figure BDA0003919229100000224
Figure BDA0003919229100000225
式中,rgoal表示距离奖励,rcrash表示碰撞奖励,rfree表示自由空间奖励,rstep表示步数奖励,racc表示加速度奖励,dg为当前旋翼无人机到目标的距离,dgmin为预置距离阈值,rarrival表示到达目标时获得的奖励,Δdg为与目标距离变化数值相关的奖励,dro表示旋翼无人机与最近障碍物的距离,ri为旋翼无人机与最近障碍物的距离处于第i种距离范围时获得的负奖励值,
Figure BDA0003919229100000226
为所述第i种距离范围的下限,
Figure BDA0003919229100000227
为所述第i种距离范围的上限,di表示激光雷达的第i个数据,dmax为激光雷达的数据的最大值,T表示旋翼无人机的累计飞行时间,TT为预置的用于归一化的飞行时间,ax为旋翼无人机在机体坐标系下的前向加速度,ayaw为旋翼无人机在机体坐标系下的偏航加速度,axT为预置的用于归一化的前向加速度,ayawT为预置的用于归一化的偏航加速度。
在一种能够实现的方式中,所述随机环境生成器表示为Envnew=Env(dtarget,rwall,nmax,nmin),Envnew表示随机环境生成器的输出,dtarget表示目标点距离旋翼无人机初始点的距离,rwall表示生成墙壁的概率,nmax表示圆柱形障碍物的最大数量,nmin表示圆柱形障碍物的最小数量,所述构建模块2包括:
初始化单元,用于初始化空地图Map,获取dtarget、rwall、nmax和nmin的参数值;
第一地图构建单元,用于从给定M面墙中按概率rwall抽样m面墙,将抽样出的m面墙放置于空地图Map,得到第一地图;
第二地图构建单元,用于从[nmin,nmax]中均匀抽样数字n,将n个圆柱形障碍物放置于所述第一地图,得到第二地图;
第三地图构建单元,用于随机化所述第二地图中墙壁和圆柱形障碍物的位置和角度,得到第三地图;
地图输出单元,用于将所述第三地图输出。
在一种能够实现的方式中,所述预测模块4包括训练单元,所述训练单元包括:
初始化子单元,初始化评论家网络参数θi,i=1,2和演员网络参数
Figure BDA0003919229100000231
初始化目标网络参数:
Figure BDA0003919229100000232
初始化温度因子α;初始化优先级回放缓冲池D;令t=1;
执行子单元,用于选择动作at~π(at|st),观察奖励rt+1和新状态st+1;其中,at表示t时刻需要执行的动作,st表示t时刻的状态信息,π(at|st)表示状态st下随机策略π输出动作at的概率;
存储子单元,用于把数据(st,at,rt+1,st+1)存储到优先级回放缓冲池D,初始优先级为pinit
采样子单元,用于在优先级回放缓冲池D中按优先级采样N组数据;
第一更新子单元,用于更新评论家网络参数:
Figure BDA0003919229100000233
λ表示学习率,
Figure BDA0003919229100000234
表示评论家网络参数的梯度,JQi)为评论家网络的代价函数;
第二更新子单元,用于更新演员网络参数:
Figure BDA0003919229100000235
Figure BDA0003919229100000236
表示演员网络参数的梯度,
Figure BDA0003919229100000237
为演员网络的代价函数;
第三更新子单元,用于更新温度因子:
Figure BDA0003919229100000238
Figure BDA0003919229100000239
为温度因子的梯度,J(α)为温度因子的代价函数;
第四更新子单元,用于更新目标网络参数:
Figure BDA00039192291000002310
算法迭代判断子单元,用于判断t是否达到设置的最大步长;若是,结束训练;若否,令t=t+1,返回所述执行子单元。
在一种能够实现的方式中,所述第一更新子单元具体用于设置所述评论家网络的代价函数为:
Figure BDA00039192291000002311
其中,
Figure BDA00039192291000002312
Figure BDA00039192291000002313
式中,
Figure BDA0003919229100000241
表示求取从优先级回放缓冲池D中采样(st,at)的期望,
Figure BDA0003919229100000242
表示给定随机策略π时在状态st下执行动作at的状态-动作价值,yt为使用状态st+1估算的状态-动作价值函数,r(st,at)为旋翼无人机在状态st执行动作at时获得的平均收益,
Figure BDA0003919229100000243
表示求取状态st+1基于p(st,at)抽样的期望,p(st,at)为状态转移概率函数,
Figure BDA0003919229100000244
为表示目标网络输出的st+1状态的价值,γ为折扣率,该折扣率表示需要参考未来收益的百分比,
Figure BDA0003919229100000245
为求取给定随机策略π时在状态st+1下执行动作at+1的期望,
Figure BDA0003919229100000246
表示给定随机策略π时在状态st+1下执行动作at+1的目标状态-动作价值,
Figure BDA0003919229100000247
为状态st+1下策略
Figure BDA0003919229100000248
输出动作at+1的概率;
所述第二更新单元具体用于将
Figure BDA0003919229100000249
参数化为
Figure BDA00039192291000002410
设置所述演员网络的代价函数为:
Figure BDA00039192291000002411
式中,
Figure BDA00039192291000002412
表示求取从优先级回放缓冲池D中采样st以及从N(0,1)中抽样εt的期望,
Figure BDA00039192291000002413
表示在状态st下执行动作
Figure BDA00039192291000002414
的状态-动作价值;
所述第三更新子单元具体用于设置所述温度因子的代价函数为:
Figure BDA00039192291000002415
式中,
Figure BDA00039192291000002416
表示目标熵,πt(at|st)表示状态st下策略πt输出动作at的概率。
在一种能够实现的方式中,数据(st,at,rt+1,st+1)作为旋翼无人机的经验存储于优先级回放缓冲池D中,所述采样子单元具体用于按照下式确定第i条经验的采样概率:
Figure BDA00039192291000002417
式中,Pi表示第i条经验的采样概率,pi表示第i条经验的优先级,β为优先级调解因子,不考虑优先级时β=0,考虑优先级时β=1,δi表示第i条经验的TD误差,
Figure BDA00039192291000002418
表示最小优先级。
本发明还提供了一种基于强化学习SAC的旋翼无人机避障装置,包括:
存储器,用于存储指令;其中,所述指令用于实现如上任意一项实施例所述的基于强化学习SAC的旋翼无人机避障方法;
处理器,用于执行所述存储器中的指令。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任意一项实施例所述的基于强化学习SAC的旋翼无人机避障方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,上述描述的装置、模块和单元的具体有益效果,可以参考前述方法实施例中的对应有益效果,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于强化学习SAC的旋翼无人机避障方法,其特征在于,包括:
设置旋翼无人机飞行决策的状态空间、动作空间和奖励函数;
构建随机环境生成器,利用所述随机环境生成器构建随机化地图,所述随机环境生成器将旋翼无人机的避障场景分为走廊环境和森林环境两个基本类别;
获取激光雷达数据、旋翼无人机在机体坐标系下的线速度和偏航角速度以及与目标的相对目标位置作为状态输入数据;
将所述状态输入数据输入经过训练的深度强化学习模型中,输出预测动作指令;所述深度强化学习模型基于强化学习SAC算法进行构建并以所述随机化地图作为训练和测试的仿真环境,训练时,基于所述状态空间、动作空间和奖励函数计算旋翼无人机执行预测动作指令并与仿真环境交互后返回的奖励值,用于进行模型网络参数更新,并在测试阶段基于预置的指令滤波器平滑模型网络输出;
将输出的预测动作指令发送至旋翼无人机,以引导旋翼无人机进行避障。
2.根据权利要求1所述的基于强化学习SAC的旋翼无人机避障方法,其特征在于,所述构建旋翼无人机飞行决策的状态空间、动作空间和奖励函数,包括:
设置所述状态空间包括旋翼无人机速度、旋翼无人机加速度、与目标的相对目标位置和激光雷达数据;所述旋翼无人机速度以旋翼无人机在机体坐标系下的线速度和偏航角速度进行表示,所述旋翼无人机加速度以旋翼无人机在机体坐标系下的前向加速度和偏航加速度进行表示,所述与目标的相对目标位置以旋翼无人机当前位置和目标位置在极坐标系下的距离和角度进行表示;
设置所述动作空间包括旋翼无人机速度;
设置所述奖励函数包括非稀疏奖励。
3.根据权利要求2所述的基于强化学习SAC的旋翼无人机避障方法,其特征在于,所述设置所述奖励函数包括非稀疏奖励,包括:
设置所述奖励函数由距离奖励、碰撞奖励、自由空间奖励、步数奖励和加速度奖励构成,构造所述奖励函数的表达式为:
rtotal=rgoal+rcrash+rfree+rstep+racc
Figure FDA0003919229090000021
Figure FDA0003919229090000022
Figure FDA0003919229090000023
Figure FDA0003919229090000024
Figure FDA0003919229090000025
式中,rgoal表示距离奖励,rcrash表示碰撞奖励,rfree表示自由空间奖励,rstep表示步数奖励,racc表示加速度奖励,dg为当前旋翼无人机到目标的距离,dgmin为预置距离阈值,rarrival表示到达目标时获得的奖励,Δdg为与目标距离变化数值相关的奖励,dro表示旋翼无人机与最近障碍物的距离,ri为旋翼无人机与最近障碍物的距离处于第i种距离范围时获得的负奖励值,
Figure FDA0003919229090000026
为所述第i种距离范围的下限,
Figure FDA0003919229090000027
为所述第i种距离范围的上限,di表示激光雷达的第i个数据,dmax为激光雷达的数据的最大值,T表示旋翼无人机的累计飞行时间,TT为预置的用于归一化的飞行时间,ax为旋翼无人机在机体坐标系下的前向加速度,ayaw为旋翼无人机在机体坐标系下的偏航加速度,axT为预置的用于归一化的前向加速度,ayawT为预置的用于归一化的偏航加速度。
4.根据权利要求1所述的基于强化学习SAC的旋翼无人机避障方法,其特征在于,所述随机环境生成器表示为Envnew=Env(dtarget,rwall,nmax,nmin),Envnew表示随机环境生成器的输出,dtarget表示目标点距离旋翼无人机初始点的距离,rwall表示生成墙壁的概率,nmax表示圆柱形障碍物的最大数量,nmin表示圆柱形障碍物的最小数量,所述构建随机环境生成器,包括:
初始化空地图Map,获取dtarget、rwall、nmax和nmin的参数值;
从给定M面墙中按概率rwall抽样m面墙,将抽样出的m面墙放置于空地图Map,得到第一地图;
从[nmin,nmax]中均匀抽样数字n,将n个圆柱形障碍物放置于所述第一地图,得到第二地图;
随机化所述第二地图中墙壁和圆柱形障碍物的位置和角度,得到第三地图;
将所述第三地图输出。
5.根据权利要求1所述的基于强化学习SAC的旋翼无人机避障方法,其特征在于,所述深度强化学习模型的训练过程包括:
步骤S31,初始化评论家网络参数θi,i=1,2和演员网络参数
Figure FDA0003919229090000031
初始化目标网络参数:
Figure FDA0003919229090000032
初始化温度因子α;初始化优先级回放缓冲池D;令t=1;
步骤S32,选择动作at~π(at|st),观察奖励rt+1和新状态st+1;其中,at表示t时刻需要执行的动作,st表示t时刻的状态信息,π(at|st)表示状态st下随机策略π输出动作at的概率;
步骤S33,把数据(st,at,rt+1,st+1)存储到优先级回放缓冲池D,初始优先级为pinit
步骤S34,在优先级回放缓冲池D中按优先级采样N组数据;
步骤S35,更新评论家网络参数:
Figure FDA0003919229090000033
λ表示学习率,
Figure FDA0003919229090000034
表示评论家网络参数的梯度,JQi)为评论家网络的代价函数;
步骤S36,更新演员网络参数:
Figure FDA0003919229090000035
Figure FDA0003919229090000036
表示演员网络参数的梯度,
Figure FDA0003919229090000037
为演员网络的代价函数;
步骤S37,更新温度因子:
Figure FDA0003919229090000038
Figure FDA0003919229090000039
为温度因子的梯度,J(α)为温度因子的代价函数;
步骤S38,更新目标网络参数:
Figure FDA00039192290900000310
步骤S39,判断t是否达到设置的最大步长;若是,结束训练;若否,令t=t+1,返回步骤S32。
6.根据权利要求5所述的基于强化学习SAC的旋翼无人机避障方法,其特征在于,所述步骤S35中,设置所述评论家网络的代价函数为:
Figure FDA00039192290900000311
其中,
Figure FDA00039192290900000312
Figure FDA00039192290900000313
式中,
Figure FDA00039192290900000314
表示求取从优先级回放缓冲池D中采样(st,at)的期望,
Figure FDA0003919229090000041
表示给定随机策略π时在状态st下执行动作at的状态-动作价值,yt为使用状态st+1估算的状态-动作价值函数,r(st,at)为旋翼无人机在状态st执行动作at时获得的平均收益,
Figure FDA0003919229090000042
表示求取状态st+1基于p(st,at)抽样的期望,p(st,at)为状态转移概率函数,
Figure FDA0003919229090000043
为表示目标网络输出的st+1状态的价值,γ为折扣率,该折扣率表示需要参考未来收益的百分比,
Figure FDA0003919229090000044
为求取给定随机策略π时在状态st+1下执行动作at+1的期望,
Figure FDA0003919229090000045
表示给定随机策略π时在状态st+1下执行动作at+1的目标状态-动作价值,
Figure FDA0003919229090000046
为状态st+1下策略
Figure FDA0003919229090000047
输出动作at+1的概率;
所述步骤S36中,将
Figure FDA0003919229090000048
参数化为
Figure FDA0003919229090000049
设置所述演员网络的代价函数为:
Figure FDA00039192290900000410
式中,
Figure FDA00039192290900000411
表示求取从优先级回放缓冲池D中采样st以及从N(0,1)中抽样εt的期望,
Figure FDA00039192290900000412
表示在状态st下执行动作
Figure FDA00039192290900000413
的状态-动作价值;
所述步骤S37中,设置所述温度因子的代价函数为:
Figure FDA00039192290900000414
式中,
Figure FDA00039192290900000415
表示目标熵,πt(at|st)表示状态st下策略πt输出动作at的概率。
7.根据权利要求6所述的基于强化学习SAC的旋翼无人机避障方法,其特征在于,数据(st,at,rt+1,st+1)作为旋翼无人机的经验存储于优先级回放缓冲池D中,所述步骤S34中,按照下式确定第i条经验的采样概率:
Figure FDA00039192290900000416
式中,Pi表示第i条经验的采样概率,pi表示第i条经验的优先级,β为优先级调解因子,不考虑优先级时β=0,考虑优先级时β=1,δi表示第i条经验的TD误差,
Figure FDA00039192290900000417
表示最小优先级。
8.一种基于强化学习SAC的旋翼无人机避障装置,其特征在于,包括:
设置模块,用于设置旋翼无人机飞行决策的状态空间、动作空间和奖励函数;
构建模块,用于构建随机环境生成器,利用所述随机环境生成器构建随机化地图,所述随机环境生成器将旋翼无人机的避障场景分为走廊环境和森林环境两个基本类别;
获取模块,用于获取激光雷达数据、旋翼无人机在机体坐标系下的线速度和偏航角速度以及与目标的相对目标位置作为状态输入数据;
预测模块,用于将所述状态输入数据输入经过训练的深度强化学习模型中,输出预测动作指令;所述深度强化学习模型基于强化学习SAC算法进行构建并以所述随机化地图作为训练和测试的仿真环境,训练时,基于所述状态空间、动作空间和奖励函数计算旋翼无人机执行预测动作指令并与仿真环境交互后返回的奖励值,用于进行模型网络参数更新,并在测试阶段基于预置的指令滤波器平滑模型网络输出;
引导模块,用于将输出的预测动作指令发送至旋翼无人机,以引导旋翼无人机进行避障。
9.一种基于强化学习SAC的旋翼无人机避障装置,其特征在于,包括:
存储器,用于存储指令;其中,所述指令用于实现如权利要求1-7任意一项所述的基于强化学习SAC的旋翼无人机避障方法;
处理器,用于执行所述存储器中的指令。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7任意一项所述的基于强化学习SAC的旋翼无人机避障方法。
CN202211349482.2A 2022-10-31 2022-10-31 基于强化学习sac的旋翼无人机避障方法、装置及设备 Active CN115494879B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211349482.2A CN115494879B (zh) 2022-10-31 2022-10-31 基于强化学习sac的旋翼无人机避障方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211349482.2A CN115494879B (zh) 2022-10-31 2022-10-31 基于强化学习sac的旋翼无人机避障方法、装置及设备

Publications (2)

Publication Number Publication Date
CN115494879A true CN115494879A (zh) 2022-12-20
CN115494879B CN115494879B (zh) 2023-09-15

Family

ID=85114749

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211349482.2A Active CN115494879B (zh) 2022-10-31 2022-10-31 基于强化学习sac的旋翼无人机避障方法、装置及设备

Country Status (1)

Country Link
CN (1) CN115494879B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115826621A (zh) * 2022-12-27 2023-03-21 山西大学 一种基于深度强化学习的无人机运动规划方法及系统
CN115841163A (zh) * 2023-02-20 2023-03-24 浙江吉利控股集团有限公司 一种模型预测控制mpc的训练方法、装置及电子设备
CN117873118A (zh) * 2024-03-11 2024-04-12 中国科学技术大学 一种基于sac算法与控制器的仓储物流机器人导航方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021086532A1 (en) * 2019-10-29 2021-05-06 Loon Llc Navigating aerial vehicles using deep reinforcement learning
CN112859898A (zh) * 2021-01-18 2021-05-28 中山大学 一种基于双通道双向神经网络的飞行器轨迹预测方法
CN114089776A (zh) * 2021-11-09 2022-02-25 南京航空航天大学 一种基于深度强化学习的无人机避障方法
TWI757999B (zh) * 2020-12-04 2022-03-11 國立陽明交通大學 即時避障系統、即時避障方法及具有即時避障功能的無人載具
CN114326810A (zh) * 2021-12-29 2022-04-12 中山大学 一种无人机在复杂动态环境下的避障方法
EP4027318A1 (en) * 2021-01-08 2022-07-13 The Boeing Company Probability-based obstacle avoidance
CN114895697A (zh) * 2022-05-27 2022-08-12 西北工业大学 一种基于元强化学习并行训练算法的无人机飞行决策方法
CN114910072A (zh) * 2022-04-21 2022-08-16 海南大学 基于深度强化学习的无人机导航方法、装置、设备及介质
CN115016534A (zh) * 2022-06-02 2022-09-06 之江实验室 一种基于记忆增强学习的无人机自主避障导航方法
US20220321198A1 (en) * 2021-03-29 2022-10-06 NEC Laboratories Europe GmbH Dynamic control of an unmanned aerial vehicle using a reconfigurable intelligent surface

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021086532A1 (en) * 2019-10-29 2021-05-06 Loon Llc Navigating aerial vehicles using deep reinforcement learning
TWI757999B (zh) * 2020-12-04 2022-03-11 國立陽明交通大學 即時避障系統、即時避障方法及具有即時避障功能的無人載具
EP4027318A1 (en) * 2021-01-08 2022-07-13 The Boeing Company Probability-based obstacle avoidance
CN112859898A (zh) * 2021-01-18 2021-05-28 中山大学 一种基于双通道双向神经网络的飞行器轨迹预测方法
US20220321198A1 (en) * 2021-03-29 2022-10-06 NEC Laboratories Europe GmbH Dynamic control of an unmanned aerial vehicle using a reconfigurable intelligent surface
CN114089776A (zh) * 2021-11-09 2022-02-25 南京航空航天大学 一种基于深度强化学习的无人机避障方法
CN114326810A (zh) * 2021-12-29 2022-04-12 中山大学 一种无人机在复杂动态环境下的避障方法
CN114910072A (zh) * 2022-04-21 2022-08-16 海南大学 基于深度强化学习的无人机导航方法、装置、设备及介质
CN114895697A (zh) * 2022-05-27 2022-08-12 西北工业大学 一种基于元强化学习并行训练算法的无人机飞行决策方法
CN115016534A (zh) * 2022-06-02 2022-09-06 之江实验室 一种基于记忆增强学习的无人机自主避障导航方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
RICARDO B. GRANDO 等: "Deep Reinforcement Learning for Mapless Navigation of Unmanned Aerial Vehicles", 《2020 LATIN AMERICAN ROBOTICS SYMPOSIUM (LARS)》, pages 1 - 6 *
张运涛: "面向无人机自主避障导航的深度强化学习算法研究", 《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》, no. 9, pages 031 - 48 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115826621A (zh) * 2022-12-27 2023-03-21 山西大学 一种基于深度强化学习的无人机运动规划方法及系统
CN115826621B (zh) * 2022-12-27 2023-12-01 山西大学 一种基于深度强化学习的无人机运动规划方法及系统
CN115841163A (zh) * 2023-02-20 2023-03-24 浙江吉利控股集团有限公司 一种模型预测控制mpc的训练方法、装置及电子设备
CN117873118A (zh) * 2024-03-11 2024-04-12 中国科学技术大学 一种基于sac算法与控制器的仓储物流机器人导航方法
CN117873118B (zh) * 2024-03-11 2024-05-28 中国科学技术大学 一种基于sac算法与控制器的仓储物流机器人导航方法

Also Published As

Publication number Publication date
CN115494879B (zh) 2023-09-15

Similar Documents

Publication Publication Date Title
WO2021135554A1 (zh) 一种无人车全局路径规划方法和装置
US10241520B2 (en) System and method for vision-based flight self-stabilization by deep gated recurrent Q-networks
Wang et al. Autonomous navigation of UAVs in large-scale complex environments: A deep reinforcement learning approach
US11062207B2 (en) Control systems using deep reinforcement learning
CN115494879B (zh) 基于强化学习sac的旋翼无人机避障方法、装置及设备
CN111142557B (zh) 无人机路径规划方法、系统、计算机设备及可读存储介质
Ross et al. Learning monocular reactive uav control in cluttered natural environments
CN107450593B (zh) 一种无人机自主导航方法和系统
Bipin et al. Autonomous navigation of generic monocular quadcopter in natural environment
Baldazo et al. Decentralized multi-agent deep reinforcement learning in swarms of drones for flood monitoring
CN110514206A (zh) 一种基于深度学习的无人机飞行路径预测方法
WO2019120174A1 (zh) 动作控制方法及装置
Wu et al. On obstacle avoidance path planning in unknown 3D environments: A fluid-based framework
CN113268074B (zh) 一种基于联合优化的无人机航迹规划方法
US11964671B2 (en) System and method for improving interaction of a plurality of autonomous vehicles with a driving environment including said vehicles
CN113848974A (zh) 一种基于深度强化学习的飞行器轨迹规划方法及系统
WO2016200629A1 (en) Vehicle collision prevention
CN113848984A (zh) 一种无人机集群控制方法及系统
CN107703953B (zh) 一种无人机的姿态控制方法、装置、无人机及存储介质
Niu et al. UAV track planning based on evolution algorithm in embedded system
CN113674310A (zh) 一种基于主动视觉感知的四旋翼无人机目标跟踪方法
Spasojevic et al. Active collaborative localization in heterogeneous robot teams
Xu et al. Avoidance of manual labeling in robotic autonomous navigation through multi-sensory semi-supervised learning
Chronis et al. Dynamic Navigation in Unconstrained Environments Using Reinforcement Learning Algorithms
CN114609925B (zh) 水下探索策略模型的训练方法及仿生机器鱼水下探索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant