CN115033022A - 面向移动平台基于专家经验的ddpg无人机降落方法 - Google Patents

面向移动平台基于专家经验的ddpg无人机降落方法 Download PDF

Info

Publication number
CN115033022A
CN115033022A CN202210742166.5A CN202210742166A CN115033022A CN 115033022 A CN115033022 A CN 115033022A CN 202210742166 A CN202210742166 A CN 202210742166A CN 115033022 A CN115033022 A CN 115033022A
Authority
CN
China
Prior art keywords
aerial vehicle
unmanned aerial
network
state
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210742166.5A
Other languages
English (en)
Inventor
张平
罗黎明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202210742166.5A priority Critical patent/CN115033022A/zh
Publication of CN115033022A publication Critical patent/CN115033022A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Automation & Control Theory (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Remote Sensing (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开的面向移动平台基于专家经验的DDPG无人机降落方法,包括:对任务分解;在仿真环境中搭建降落场景;初始化环境状态;初始化算法神经网络等超参数;设计用于训练所设计的深度强化学习神经网络的无人机着陆的降落函数;基于搭建有无人机着陆场景的仿真环境,对所设计的深度强化学习神经网络进行训练,训练过程中采用专家经验进行指导无人机。本发明能够加快算法的收敛速度,极大的解决深度强化学习前期采样效率低下的问题。

Description

面向移动平台基于专家经验的DDPG无人机降落方法
技术领域
本发明属于无人机自主控制领域,涉及面向移动平台基于专家经验的DDPG无人机降落方法。
背景技术
随着科技的不断更新发展,旋翼无人机的应用的场景越来越广,涵盖的范围也越来越广,小至无人机送外卖、摄影等,大到无人机应用在测绘工程、安防、救援、地图勘测等。然而为了更进一步提升无人机完成任务的自主性,需要从多方面去考虑,比如无人机的起飞、导航、降落和在环境相对复杂的情况下完成自主降落等。但是在无人机发生的事故中,因无人机的起降发生的事故占比达到60%,因此对无人机的起降进行研究至关重要。此外,在多机器人协作中,如结合无人地面机器人(UGV),无人机进行着陆补充燃油,这也为多旋翼无人机提供了长期任务中所需的更高的自主水平。
2019年,史豪斌等针对经典的PID控制与基于图像的视觉伺服控制在旋翼无人机追踪与控制过程中差、控制精度不高等问题,设计了一种基于强化学习的旋翼无人机追踪控制方法,通过基于图像的视觉伺服进行闭环控制并使用了Sarsa学习算法调节增益,通过无人机相机所传输的视觉信息所提取的特征点与目标图像的特征点进行验证,将无人机距离目标的位置远近作为学习的奖励,实验结果验证了该方法的可行性任务场景下。但是由于因Sarsa算法本身的局限性,其训练速度和训练效果都不够好。一种基于深度强化学习的无人机端到端的控制方法(CN111460650A),将处理过的无人机机载相机得到的图像作为输入,经过深度强化学习神经网络处理后可以直接得到无人机控制指令,以此实现无人机的自主着陆,但是由于强化学习的前期随机探索导致其训练时间过长,效率较低。
发明内容
本发明要解決的技术问题就在于:针对现有技术存在的技术问题,基于上述的背景,本发明提出了面向移动平台基于专家经验的DDPG无人机降落方法。深度确定性策略梯度(DDPC)算法不仅利用了深度Q网络算法中经验池和双神经网络结构的优良性能,改善了传统强化学习数据爆炸等问題:还拥有策略梯度算法的优点,可以在有效处理连续域数据,并使神经网络快速收敛。此外,为了加速其训练过程,本发明改变其前期随机探索的行为,采用专家算法对其进行指导,在前期专家经验的指导下不断训练Actor策略网络,使得其掌握专家动作,这样能够大大节省训练时间和成本,提升网络、模型的收敛时间。因此,提出了面向移动平台基于专家经验的DDPG无人机降落方法,对于无人机在相关领域应用的实现具有重要意义,加快强化学习训练速度,提升训练效率,具有较高应用价值的面向移动平台基于专家经验的DDPG无人机降落方法。
本发明至少通过如下技术方案之一实现。
面向移动平台基于专家经验的DDPG无人机降落方法,包括以下步骤:
步骤1、构建无人机移动平台降落的马尔科夫模型;
步骤2、构建DDPG算法中的神经网络;
步骤3、无人机和目标状态更新;
步骤4、在仿真模拟器中构建无人机着陆场景,使用基于专家经验的确定性策略梯度方法训练无人机面向移动平台进行降落。
进一步地,马尔科夫模型为(S,A,O,R,γ),其中S为神经网络的输入状态,A为无人机的输出动作,O为无人机传感器的观测空间,R为奖励函数,γ为折扣因子。
进一步地,步骤1-1、定义马尔科夫模型的状态空间,输入状态S:
结合无人机状态和移动平台状态,设定输入状态为:
S=[Suav,Splatform]
其中无人机状态
Figure BDA0003718404040000037
xuav、yuav、zuav表示无人机在三维平面上的位置,
Figure BDA0003718404040000031
为无人机沿X、Y、Z轴的速度分量;
移动平台状态:Splatform=[xplatform,yplatform,zplatform],xplatform、yplatform、zplatform表示无人机在三维平面上的位置;
步骤1-2、定义马尔科夫模型的动作空间,即无人机的输出动作A:
输出动作A表示无人机接收到外界反馈信号,即无人机离移动目标的远近,针对自身状态所采集的动作集;设定输出动作为:
Figure BDA0003718404040000032
其中,
Figure BDA0003718404040000033
为无人机沿X、Y、Z轴的速度分量,结合实际应用对无人机的速度进行约束:
Figure BDA0003718404040000034
其中
Figure BDA0003718404040000035
分别代表无人机的最小、最大速度;
步骤1-3、定义马尔科夫模型的观测空间,即传感器的观测空间O:
利用雷达传感器对无人机和目标的位置进行判断和获取;设定观测空间为:
O=[D]
其中,无人机与目标的之间的相对距离D为:
Figure BDA0003718404040000036
步骤1-4、定义奖励函数R:
利用传感器获取无人机与移动平台的位置信息,通过对无人机进行距离奖惩、碰撞奖惩和时间奖惩,综合得到奖励函数R,表示无人机在当前状态下选取某一动作时所获得的反馈值:综合无人机距离奖励和避碰奖励,得到奖励函数R为:
Figure BDA0003718404040000041
其中,λ4、λ5分别表示距离奖励
Figure BDA0003718404040000042
避碰奖励
Figure BDA0003718404040000043
的权重系数;
步骤1-5、定义折扣因子γ:
设定折扣因子0<γ<1,用于计算整个过程中的回报累计值;当γ值越大,表示越注重长期收益。
进一步地,距离奖励函数
Figure BDA0003718404040000044
为:
Figure BDA0003718404040000045
其中
Figure BDA0003718404040000046
为距离奖励函数,λ1、λ2为两项奖励的权重值;Dt代表无人机与移动平台当前t时刻之间的欧式距离;L为设置的常数值;若Dt≥L,则给予一个与距离Dt成正比的负惩罚奖励;若Dt<L,则在正常数c1的基础上,再给予一个与距离Dt成反比的正奖励;
避碰奖励
Figure BDA0003718404040000047
为:
Figure BDA0003718404040000048
其中Dt是无人机与移动平台当前t时刻之间的欧式距离,当不发生碰撞时碰撞惩罚奖励为0,如果无人机发生碰撞,在给予c2常数的负惩罚基础上,再给予与移动平台距离成正比的负惩罚奖励,λ3为碰撞系数常数。
进一步地,步骤2包括以下步骤:
步骤2-1、构建DDPG算法中的策略网络,即Actor策略网络;
对于输入状态S,策略网络的输出向量U表示为:
U=μactor(s)
步骤2-2、构建DDPG算法中的评价网络,即Critic评价网络;
评价网络的输出为—状态-行为值Qμ(s,u),表示为:
Figure BDA0003718404040000051
其中,k为求和变量,E[·]表示数学期望;st+k+1、ut+k+1分别表示t+k+1时刻的状态输入向量和动作输出向量;γ为折扣因子,r为无人机的奖励,s表示无人机的状态,st为t时刻无人机的状态,u表示无人机的动作策略,ut表示无人机t时刻的动作策略;
步骤2-3、构建目标神经网络,即target网络;
将策略网络μactor和评价网络Qμ(s,u)的权重复制到各自的目标网络中,即θμ→θμ′,θQ→θQ′,其中θμ,θQ分别表示当前策略网络和评价网络的参数,θμ′、θQ′分别表示当前目标策略网络和目标评价网络的参数。
进一步地,Actor策略网络的结构包括输入层、隐藏层和输出层、一层特征提取层、三层全连接层,三层全连接层的大小分别为400、300、9。
进一步地,Critic评价网络结构包括一层特征提取层、三层全连接层,三层全连接层的大小分别为400、300、1。
进一步地,target网络包括Actor target网络和Critic target网络,Actortarget网络的结构包括一层特征提取层、三层全连接层,大小分别为400、300、9;Critictarget网络结构包括一层特征提取层、三层全连接层,大小分别为400、300、1。
进一步地,步骤3包括以下步骤:
步骤3-1、构建无人机在t时刻的状态更新方程:
Figure BDA0003718404040000061
其中,xuav(t)、yuav(t)、zuav(t)表示时刻t无人机的坐标值,
Figure BDA0003718404040000062
表示时刻t无人机的速度,
Figure BDA0003718404040000063
表示时刻t无人机的加速度;Δt表示无人机每做一个动作所持续的时间;
步骤3-2、构建移动平台在t时刻的状态更新方程:
Figure BDA0003718404040000064
其中,xplatform(t)、yplatform(t)、zplatform(t)表示时刻t移动平台的坐标值,
Figure BDA0003718404040000065
表示时刻t移动平台的速度,c3表示移动平台高度,c4表示移动平台速度。
进一步地,步骤4包括以下步骤:
步骤4-1、设定最大训练回合数E,每回合最大步数S,设定经验池大小M,设定目标神经网络的更新比例系数τ,设定神经网络的学习率l,设定折扣因子为γ,初始化网络参数;
步骤4-2、初始化状态空间S,初始化仿真环境;
步骤4-3、当无人机训练步数小于sdirect_by_expert时,根据专家算法,在当前状态st,选择无人机的动作:
at=aexpert+M
其中aexpert是根据专家算法基于时刻t的状态计算出得到的速度,M为高斯噪声向量;
当无人机训练步数大于等于sdirect_by_expert时,根据策略网络,在当前状态st,选择无人机的动作:
at=μd(stμ)+M
其中μd(·)代表确定性策略函数,M为高斯噪声向量;θμ表示无人机当前策略网络;
步骤4-4、无人机根据与目标(移动平台)的之间的相对距离而执行动作at,由奖励函数计算出t时刻的奖励值rt,再由步骤3得到下一时刻状态st+1,然后将四元组<st,at,rt,st+1>存入经验池中;
步骤4-5、当无人机训练步数小于sdirect_by_expert时,从经验池随机抽取小批量样本B学习,计算损失函数,根据最小损失函数更新策网络,策略网络的学习过程表示为:
Figure BDA0003718404040000071
LA表示Actor损失函数,N表示用于更新t时刻的策略网络的样本数量,aexpert是专家根据时刻t状态st计算处的动作,μ(stμ)是时刻t策略网络在参数θμ计算出来动作,再根据最小化损失函数做梯度下降更新策略网络参数θμ
当无人机训练步数大于等于sdirect_by_expert时,从经验池随机抽取小批量样本B学习,其学习过程表示为:
yt=rt+γQ′(st+1,μ′(st+1μ′)|θQ′)
其中yt表示目标网络,rt为t时刻的奖励值,θμ′和θQ′分别表示目标评价网络和目标策略网络的参数,Q′表示在st+1时刻采取μ′得到的状态-行为值;γ表示折扣因子、μ′表示目标策略网络;
步骤4-6、根据最小损失函数更新策略网络:
Figure BDA0003718404040000081
LC表示critic损失函数,N表示用于更新网络的样本数量,at表示t时刻无人机所做的动作,θQ表示评价网络;
步骤4-7、更新策略梯度:
Figure BDA0003718404040000082
其中,
Figure BDA0003718404040000083
表示在策略网络参数θμ下的策略梯度,
Figure BDA0003718404040000084
Figure BDA0003718404040000085
分别表示评价网络状态-行为值函数梯度和策略网络策略函数梯度,μ(st)表示在策略网络状态st时选取的动作策略,
Figure BDA0003718404040000086
Figure BDA0003718404040000087
分别表示状态st下采取动作a=μ(st)时评价网络的状态-行为值和该状态下策略网络的行为值;
步骤4-8、按照下列公式对目标评价网络和目标策略网络的权重进行更新:
Figure BDA0003718404040000088
其中,τ为软更新比例系数;
步骤4-9、对迭代步长k执行k=k+1并进行判定,若k<S,则执行t=t+Δt并返回至步骤4-3,否则进入步骤4-10;
步骤4-10、对回合数e进行判定,若e<E,则返回至步骤4-2;若e≥E,则保存该训练过程中最好的网络模型参数。
与现有的技术相比,本发明的有益效果为:
本发明提出的面向移动平台基于专家经验的DDPG无人机降落方法。该方法不依赖于环境模型,通过建立深度神经网络,以无人机和目标的位罝、速度等传感器信息作为神经网络的输入,以无人机的各个方向的速度为输出,然后基于专家经验的DDPG算法对策略网络进行训练,再用AC框架继续训练,从而完成复杂环境下的面向移动平台基于专家经验的DDPG无人机降落方法,其优点具体体现在:
(1)本发明方法在环境模型未知的条件下实现无人机对地面移动平台的降落,采用基于专家经验的深度确定性策略梯度(DDPG)方法,通过无人机的采样数据,经过专家的指导下,同时在神经网络强大的拟合能力下,可以自主学习出达到目标的最优评价与策略网络,完成降落任务。
(2)本发明使用专家经验进行指导学习,在保证算法精度的同时大大提开收敛速度,节省工程开发和模型训练成本。通过经过专家经验训练好的Actor网络用于后期学习,加大策略网络输出正确动作的可能性,从而间接导致Critic网络训练加速,两者之间形成良好的循环,提高了模型的训练时间和收敛速度,大大降低了成本。
(3)本发明提供的无人机自主着陆控制方法中,完成训练后的深度神经网络可以直接将无人机和目标之间的位置信息转换为无人机着陆所需的连续控制指令。本发明省去了传统方法中的状态估计和路径规划模块,更符合人的思维方式,能够提高无人机的自主性和着陆的效率。
附图说明
图1为基于面向移动平台基于专家经验的DDPG无人机降落方法训练流程图;
图2为面向移动平台基于专家经验的DDPG无人机降落方法算法结构示意图;
图3为DDPG算法训练过程中无人机每步骤获得平均奖励变化曲线图;
图4为基于专家经验DDPG算法训练过程中无人机每步骤获得平均奖励变化曲线图;
图5为基于专家经验DDPG算法完成降落任务的轨迹展示图。
具体实施方式
下面结合实施例、附图对本发明作进一步详细的描述,但本发明的实施方式不限于此实施例。
实施例1
本发明提出的面向移动平台基于专家经验的DDPG无人机降落方法,如图1所示,包括以下步骤:
步骤1:对无人机移动平台降落的马尔科夫模型(S,A,O,R,γ)进行构建,其中S为神经网络的输入状态,A为无人机的输出动作,O为无人机传感器的观测空间,R为奖励函数,γ为折扣因子。
步骤1-1:定义马尔科夫模型的状态空间,输入状态S:
结合无人机状态和移动平台状态,设定输入状态为:
S=[Suav,Splatform]
其中:无人机状态
Figure BDA0003718404040000101
xuav,yuav,zuav表示无人机在三维平面上的位置,
Figure BDA0003718404040000102
为无人机沿X,Y,Z轴的速度分量;
移动平台状态Splatform=[xplatform,yplatform,zplatform],xplatform,yplatform,zplatform表示无人机在三维平面上的位置;
步骤1-2:定义马尔科夫模型的动作空间,即无人机的输出动作A:
输出动作A表示无人机接收到外界反馈信号,即无人机离移动目标的远近,针对自身状态所采集的动作集;设定输出动作为:
Figure BDA0003718404040000103
其中,
Figure BDA0003718404040000111
为无人机沿X,Y,Z轴的速度分量,结合实际应用对无人机的速度进行约束:
Figure BDA0003718404040000112
步骤1-3:定义马尔科夫模型的观测空间,即传感器的观测空间O:
利用雷达传感器对无人机和目标的位置进行判断和获取;设定观测空间为:
O=[D]
其中,无人机与目标的之间的相对距离D为:
Figure BDA0003718404040000113
步骤1-4:定义奖励函数R:
利用传感器获取无人机与移动平台的位置信息,通过对无人机进行距离奖惩、碰撞奖惩和时间奖惩,综合得到奖励函数R,表示无人机在当前状态下选取某一动作时所获得的反馈值;
本实施案例中,设定L为4米,设定距离奖励函数rt为:
Figure BDA0003718404040000114
其中
Figure BDA0003718404040000115
为距离奖励函数,Dt代表无人机与移动平台当前t时刻之间的欧式距离;若Dt≥L,则给予一个与距离Dt成正比的负惩罚奖励;若Dt<L,则在正常数1的基础上,再给予一个与距离Dt成反比的正奖励;
本实施案例中,设定避碰奖励为:
Figure BDA0003718404040000116
其中Dt是无人机与移动平台当前t时刻之间的欧式距离,当不发生碰撞时碰撞惩罚奖励为0,如果无人机发生碰撞,在给予-10的惩罚基础上,再给予与移动平台距离成正比的负惩罚奖励,λ3为碰撞系数常数;
综合无人机距离奖励和避碰奖励,得到奖励函数R为:
Figure BDA0003718404040000121
步骤1-5:定义折扣因子γ:
设定折扣因子0<γ<1,用于计算整个过程中的回报累计值;当γ值越大,表示越注重长期收益;本实施案例中,设定γ=0.95。
步骤2:构建DDPG算法中的神经网络
步骤2-1:构建DDPG算法中的策略网络,即Actor策略网络;
策略网络μactor由输入层、隐藏层和输出层组成,对于输入状态S,策略网络的输出向量U表示为:
U=μactor(s)
步骤2-2:构建DDPG算法中的评价网络,即Critic评价网络;
评价网络的输出是状态-行为值Qμ(s,u),表示为:
Figure BDA0003718404040000122
其中,k为求和变量,E[·]表示数学期望;st+k+1、ut+k+1分别表示t+k+1时刻的状态输入向量和动作输出向量,γ为折扣因子,r为无人机的奖励,s表示无人机的状态,st为t时刻无人机的状态,u表示无人机的动作策略,ut表示无人机t时刻的动作策略;
步骤2-3:构建目标神经网络,即target网络,主要包括Actor target网络和Critic target网络;
将策略网络μactor和评价网络Qμ(s,u)的权重复制到各自的目标网络中,即θμ→θμ′,θQ→θQ′,其中θμ,θQ分别表示当前策略网络和评价网络的参数,θμ、θQ′分别表示当前目标策略网络和目标评价网络的参数;
需说明的是,本实施案例中策略网络,评价网络,目标神经网络各自有三层神经网络,隐含层神经元个数为100,采用Relu激活函数,输出层采用tanh函数;
步骤3:无人机和目标状态更新
步骤3-1:构建无人机在t时刻的状态更新方程:
Figure BDA0003718404040000131
其中,xuav(t)、yuav(t)、zuav(t)表示时刻t无人机的坐标值,
Figure BDA0003718404040000132
表示时刻t无人机的速度,
Figure BDA0003718404040000133
表示时刻t无人机的加速度;无人机最小速度0m/s,最大速度2m/s;本实施例中,设定仿真时间间隔为Δt=0.5秒;
步骤3-2:构建移动平台在t时刻的状态更新方程:
Figure BDA0003718404040000134
其中,xplatform(t)、yplatform(t)、zpatform(t)表示时刻t移动平台的坐标值,移动平台Z方向上大小为0,移动平台
Figure BDA0003718404040000135
表示时刻t移动平台的速度,移动平台的速度1m/s;
步骤4:在仿真模拟器中构建无人机着陆场景,使用基于专家经验的确定性策略梯度方法训练无人机面向移动平台进行降落:
步骤4-1:设定最大训练回合数E=800,每回合最大步数S=25,设定经验池大小M=10000,设定目标神经网络的软更新比例系数τ=0.9,设定神经网络的学习率l=0.001,设定折扣因子为γ=0.98,初始化网络参数;
步骤4-2:初始化状态空间S,初始化仿真环境;
设定无人机初始状态
Figure BDA0003718404040000141
目标的初始状态
Figure BDA0003718404040000142
目标的起始位置是随机分布在原点5米半径内的位置;
步骤4-3:在本实施例中,当无人机训练步数小于1000步时,根据专家算法,在当前状态st,选择无人机的动作:
at=aexpert+M
其中aexpert是根据专家算法基于时刻t的状态计算出得到的速度,M为高斯噪声向量;
在本实施例中,当无人机训练步数大于等于1000步时,根据策略网络,在当前状态st,选择无人机的动作:
at=μd(stμ)+M
其中μd(·)代表确定性策略函数,M为高斯噪声向量;
步骤4-4:无人机执行动作at根据步骤1-3得到无人机与移动平台的相对距离,由步骤1-4奖励函数计算出t时刻的奖励值rt,再由步骤3得到下一时刻状态st+1,然后将四元组<st,at,rt,st+1>存入经验池中;
步骤4-5:在本实施例中,当无人机训练步数小于1000时,从经验池随机抽取小批量样本B学习,计算损失函数,根据最小损失函数更新策网络,策略网络的学习过程表示为:
Figure BDA0003718404040000143
LA表示Actor损失函数,N表示用于更新t时刻的策略网络的样本数量,aexpert是专家根据时刻t状态st计算处的动作,μ(stμ)是时刻t策略网络在参数θμ计算出来动作,再根据最小化损失函数做梯度下降更新略网络参数θμ
在本实施例中,当无人机训练步数大于等于1000时,从经验池随机抽取小批量样本B=32学习,其学习过程表示为:
yt=rt+γQ′(st+1,μ′(st+1μ′)|θQ′)
其中yt表示目标网络,rt为t时刻的奖励值,θμ′和θQ′分别表示目标评价网络和目标策略网络的参数,Q′表示在st+1时刻采取μ′得到的状态-行为值;γ表示折扣因子、μ′表示目标策略网络;
步骤4-6:根据最小损失函数更新策略网络:
Figure BDA0003718404040000151
LC表示critic损失函数,N表示用于更新网络的样本数量;
步骤4-7:更新策略梯度:
Figure BDA0003718404040000152
其中,
Figure BDA0003718404040000153
表示在策略网络参数θμ下的策略梯度,
Figure BDA0003718404040000154
Figure BDA0003718404040000155
分别表示评价网络状态-行为值函数梯度和策略网络策略函数梯度,μ(st)表示在策略网络状态st时选取的动作策略,
Figure BDA0003718404040000156
Figure BDA0003718404040000157
分别表示状态st下采取动作a=μ(st)时评价网络的状态-行为值和该状态下策略网络的行为值;
步骤4-8:按照下列公式对目标评价网络和目标策略网络的权重进行更新:
Figure BDA0003718404040000158
其中,τ为软更新比例系数;
步骤4-9:对迭代步长k执行k=k+1并进行判定,若k<S,则执行t=t+Δt并返回至步骤4-3,否则进入步骤4-10;
步骤4-10:对回合数e进行判定,若e<E,则返回至步骤4-2;若e≥E,则保存该训练过程中最好的模型参数。
在本实施例中,进行训练时设计无人机从(0,0,5)m处开始执行降落,移动平台位于距离原点(0,0,0)处,起点随机分布在半径为5m的圆上。训练过程中无人机每回合获得的平均奖励变化曲线图加图1所示,原始算法DDPG大约训练8000步后,无人机在每回合内能够获得高额且稳定的奖励,如图2所示,本发明改进后的算法Ex-DDPG大约训练3000步后,无人机在每回合内能够获得高额且稳定的奖励,表明了本方法所提出的基于专家指导的DDPG算法,能大大提高原始DDPC的收敛速度,进而提升无人机自主决策过程的高效性和稳定性。仿真结果如图5所示,可以看出,基于DDPC算法训练后的无人机,能够高效完成降落任务。
实施例2
本实施例中Actor target网络的结构为一层特征提取层,三层全连接层,大小分别为400、300、9,Critic target网络的结构为一层特征提取层,三层全连接层,大小分别为400、300、1。
实施例3
本实施例中Actor策略网络结构为一层特征提取层,三层全连接层,大小分别为400、300、9:Critic评价网络的结构为一层特征提取层,三层全连接层,大小分别为400、300、1。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.面向移动平台基于专家经验的DDPG无人机降落方法,其特征在于,包括以下步骤:
步骤1、构建无人机移动平台降落的马尔科夫模型;
步骤2、构建DDPG算法中的神经网络;
步骤3、无人机和目标状态更新;
步骤4、在仿真模拟器中构建无人机着陆场景,使用基于专家经验的确定性策略梯度方法训练无人机面向移动平台进行降落。
2.根据权利要求1所述的面向移动平台基于专家经验的DDPG无人机降落方法,其特征在于,马尔科夫模型为(S,A,O,R,γ),其中S为神经网络的输入状态,A为无人机的输出动作,O为无人机传感器的观测空间,R为奖励函数,γ为折扣因子。
3.根据权利要求1所述的面向移动平台基于专家经验的DDPG无人机降落方法,其特征在于,步骤1-1、定义马尔科夫模型的状态空间,输入状态S:
结合无人机状态和移动平台状态,设定输入状态为:
S=[Suav,Splatform]
其中无人机状态
Figure FDA0003718404030000011
xuav、yuav、zuav表示无人机在三维平面上的位置,
Figure FDA0003718404030000012
为无人机沿X、Y、Z轴的速度分量;
移动平台状态:Splatform=[xplatform,yplatform,zplatform],xplatform、yplatform、zplatform表示无人机在三维平面上的位置;
步骤1-2、定义马尔科夫模型的动作空间,即无人机的输出动作A:
输出动作A表示无人机接收到外界反馈信号,即无人机离移动目标的远近,针对自身状态所采集的动作集;设定输出动作为:
Figure FDA0003718404030000021
其中,
Figure FDA0003718404030000022
为无人机沿X、Y、Z轴的速度分量,结合实际应用对无人机的速度进行约束:
Figure FDA0003718404030000023
其中
Figure FDA0003718404030000024
分别代表无人机的最小、最大速度;
步骤1-3、定义马尔科夫模型的观测空间,即传感器的观测空间O:
利用雷达传感器对无人机和目标的位置进行判断和获取;设定观测空间为:
O=[D]
其中,无人机与目标的之间的相对距离D为:
Figure FDA0003718404030000025
步骤1-4、定义奖励函数R:
利用传感器获取无人机与移动平台的位置信息,通过对无人机进行距离奖惩、碰撞奖惩和时间奖惩,综合得到奖励函数R,表示无人机在当前状态下选取某一动作时所获得的反馈值:综合无人机距离奖励和避碰奖励,得到奖励函数R为:
Figure FDA0003718404030000026
其中,λ4、λ5分别表示距离奖励
Figure FDA0003718404030000027
避碰奖励
Figure FDA0003718404030000028
的权重系数;
步骤1-5、定义折扣因子γ:
设定折扣因子0<γ<1,用于计算整个过程中的回报累计值;当γ值越大,表示越注重长期收益。
4.根据权利要求3所述的面向移动平台基于专家经验的DDPG无人机降落方法,其特征在于,距离奖励函数
Figure FDA0003718404030000029
为:
Figure FDA00037184040300000210
其中
Figure FDA0003718404030000031
为距离奖励函数,λ1、λ2为两项奖励的权重值;Dt代表无人机与移动平台当前t时刻之间的欧式距离;L为设置的常数值;若Dt≥L,则给予一个与距离Dt成正比的负惩罚奖励;若Dt<L,则在正常数c1的基础上,再给予一个与距离Dt成反比的正奖励;
避碰奖励
Figure FDA0003718404030000032
为:
Figure FDA0003718404030000033
其中Dt是无人机与移动平台当前t时刻之间的欧式距离,当不发生碰撞时碰撞惩罚奖励为0,如果无人机发生碰撞,在给予c2常数的负惩罚基础上,再给予与移动平台距离成正比的负惩罚奖励,λ3为碰撞系数常数。
5.根据权利要求1所述的面向移动平台基于专家经验的DDPG无人机降落方法,其特征在于,步骤2包括以下步骤:
步骤2-1、构建DDPG算法中的策略网络,即Actor策略网络;
对于输入状态S,策略网络的输出向量U表示为:
U=μactor(s)
步骤2-2、构建DDPG算法中的评价网络,即Critic评价网络;
评价网络的输出为—状态-行为值Qμ(s,u),表示为:
Figure FDA0003718404030000034
其中,k为求和变量,E[·]表示数学期望;st+k+1、ut+k+1分别表示t+k+1时刻的状态输入向量和动作输出向量;γ为折扣因子,r为无人机的奖励,s表示无人机的状态,st为t时刻无人机的状态,u表示无人机的动作策略,ut表示无人机t时刻的动作策略;
步骤2-3、构建目标神经网络,即target网络;
将策略网络μactor和评价网络Qμ(s,u)的权重复制到各自的目标网络中,即θμ→θμ′,θQ→θQ′,其中θμ,θQ分别表示当前策略网络和评价网络的参数,θμ′、θQ′分别表示当前目标策略网络和目标评价网络的参数。
6.根据权利要求5所述的面向移动平台基于专家经验的DDPG无人机降落方法,其特征在于,Actor策略网络的结构包括输入层、隐藏层和输出层、一层特征提取层、三层全连接层,三层全连接层的大小分别为400、300、9。
7.根据权利要求5所述的面向移动平台基于专家经验的DDPG无人机降落方法,其特征在于,Critic评价网络结构包括一层特征提取层、三层全连接层,三层全连接层的大小分别为400、300、1。
8.根据权利要求5所述的面向移动平台基于专家经验的DDPG无人机降落方法,其特征在于,target网络包括Actor target网络和Critic target网络,Actor target网络的结构包括一层特征提取层、三层全连接层,大小分别为400、300、9;Critic target网络结构包括一层特征提取层、三层全连接层,大小分别为400、300、1。
9.根据权利要求1所述的面向移动平台基于专家经验的DDPG无人机降落方法,其特征在于,步骤3包括以下步骤:
步骤3-1、构建无人机在t时刻的状态更新方程:
Figure FDA0003718404030000041
其中,xuav(t)、yuav(t)、zuav(t)表示时刻t无人机的坐标值,
Figure FDA0003718404030000042
表示时刻t无人机的速度,
Figure FDA0003718404030000043
表示时刻t无人机的加速度;Δt表示无人机每做一个动作所持续的时间;
步骤3-2、构建移动平台在t时刻的状态更新方程:
Figure FDA0003718404030000051
其中,xplatform(t)、yplatform(t)、zplatform(t)表示时刻t移动平台的坐标值,
Figure FDA0003718404030000052
表示时刻t移动平台的速度,c3表示移动平台高度,c4表示移动平台速度。
10.根据权利要求1~9任一项所述的面向移动平台基于专家经验的DDPG无人机降落方法,其特征在于,步骤4包括以下步骤:
步骤4-1、设定最大训练回合数E,每回合最大步数S,设定经验池大小M,设定目标神经网络的更新比例系数τ,设定神经网络的学习率l,设定折扣因子为γ,初始化网络参数;
步骤4-2、初始化状态空间S,初始化仿真环境;
步骤4-3、当无人机训练步数小于sdirect_by_expert时,根据专家算法,在当前状态st,选择无人机的动作:
at=aexpert+M
其中aexpert是根据专家算法基于时刻t的状态计算出得到的速度,M为高斯噪声向量;
当无人机训练步数大于等于sdirect_by_expert时,根据策略网络,在当前状态st,选择无人机的动作:
at=μd(stμ)+M
其中μd(·)代表确定性策略函数,M为高斯噪声向量;θμ表示无人机当前策略网络;
步骤4-4、无人机根据与目标(移动平台)的之间的相对距离而执行动作at,由奖励函数计算出t时刻的奖励值rt,再由步骤3得到下一时刻状态st+1,然后将四元组<st,at,rt,st+1>存入经验池中;
步骤4-5、当无人机训练步数小于sdirect_by_expert时,从经验池随机抽取小批量样本B学习,计算损失函数,根据最小损失函数更新策网络,策略网络的学习过程表示为:
Figure FDA0003718404030000061
LA表示Actor损失函数,N表示用于更新t时刻的策略网络的样本数量,aexport是专家根据时刻t状态st计算处的动作,μ(stμ)是时刻t策略网络在参数θμ计算出来动作,再根据最小化损失函数做梯度下降更新策略网络参数θμ
当无人机训练步数大于等于sdirect_by_expert时,从经验池随机抽取小批量样本B学习,其学习过程表示为:
yt=rt+γQ′(st+1,μ′(st+1μ′)|θQ′)
其中yt表示目标网络,rt为t时刻的奖励值,θμ′和θQ′分别表示目标评价网络和目标策略网络的参数,Q′表示在st+1时刻采取μ′得到的状态-行为值;γ表示折扣因子、μ′表示目标策略网络;
步骤4-6、根据最小损失函数更新策略网络:
Figure FDA0003718404030000062
LC表示critic损失函数,N表示用于更新网络的样本数量,at表示t时刻无人机所做的动作,θQ表示评价网络;
步骤4-7、更新策略梯度:
Figure FDA0003718404030000071
其中,
Figure FDA0003718404030000072
表示在策略网络参数θμ下的策略梯度,
Figure FDA0003718404030000073
Figure FDA0003718404030000074
分别表示评价网络状态-行为值函数梯度和策略网络策略函数梯度,μ(st)表示在策略网络状态st时选取的动作策略,
Figure FDA0003718404030000075
Figure FDA0003718404030000076
分别表示状态st下采取动作a=μ(st)时评价网络的状态-行为值和该状态下策略网络的行为值;
步骤4-8、按照下列公式对目标评价网络和目标策略网络的权重进行更新:
Figure FDA0003718404030000077
其中,τ为软更新比例系数;
步骤4-9、对迭代步长k执行k=k+1并进行判定,若k<S,则执行t=t+Δt并返回至步骤4-3,否则进入步骤4-10;
步骤4-10、对回合数e进行判定,若e<E,则返回至步骤4-2;若e≥E,则保存该训练过程中最好的网络模型参数。
CN202210742166.5A 2022-06-28 2022-06-28 面向移动平台基于专家经验的ddpg无人机降落方法 Pending CN115033022A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210742166.5A CN115033022A (zh) 2022-06-28 2022-06-28 面向移动平台基于专家经验的ddpg无人机降落方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210742166.5A CN115033022A (zh) 2022-06-28 2022-06-28 面向移动平台基于专家经验的ddpg无人机降落方法

Publications (1)

Publication Number Publication Date
CN115033022A true CN115033022A (zh) 2022-09-09

Family

ID=83126016

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210742166.5A Pending CN115033022A (zh) 2022-06-28 2022-06-28 面向移动平台基于专家经验的ddpg无人机降落方法

Country Status (1)

Country Link
CN (1) CN115033022A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115766769A (zh) * 2022-10-25 2023-03-07 西北工业大学 一种基于深度强化学习的无线传感器网络部署方法
CN115755956A (zh) * 2022-11-03 2023-03-07 南京航空航天大学 一种知识与数据协同驱动的无人机机动决策方法与系统
CN117062280A (zh) * 2023-08-17 2023-11-14 北京美中爱瑞肿瘤医院有限责任公司 一种神经外科自助式手术灯自动跟随系统
CN117387635A (zh) * 2023-12-13 2024-01-12 安徽大学 一种基于深度强化学习和pid控制器的无人机导航方法
CN118051063A (zh) * 2024-04-16 2024-05-17 中国民用航空飞行学院 一种低空无人机避障飞行的训练方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115766769A (zh) * 2022-10-25 2023-03-07 西北工业大学 一种基于深度强化学习的无线传感器网络部署方法
CN115755956A (zh) * 2022-11-03 2023-03-07 南京航空航天大学 一种知识与数据协同驱动的无人机机动决策方法与系统
CN115755956B (zh) * 2022-11-03 2023-12-15 南京航空航天大学 一种知识与数据协同驱动的无人机机动决策方法与系统
CN117062280A (zh) * 2023-08-17 2023-11-14 北京美中爱瑞肿瘤医院有限责任公司 一种神经外科自助式手术灯自动跟随系统
CN117062280B (zh) * 2023-08-17 2024-03-08 北京美中爱瑞肿瘤医院有限责任公司 一种神经外科自助式手术灯自动跟随系统
CN117387635A (zh) * 2023-12-13 2024-01-12 安徽大学 一种基于深度强化学习和pid控制器的无人机导航方法
CN117387635B (zh) * 2023-12-13 2024-02-23 安徽大学 一种基于深度强化学习和pid控制器的无人机导航方法
CN118051063A (zh) * 2024-04-16 2024-05-17 中国民用航空飞行学院 一种低空无人机避障飞行的训练方法

Similar Documents

Publication Publication Date Title
CN111667513B (zh) 一种基于ddpg迁移学习的无人机机动目标跟踪方法
CN115033022A (zh) 面向移动平台基于专家经验的ddpg无人机降落方法
CN110673620B (zh) 一种基于深度强化学习的四旋翼无人机航线跟随控制方法
CN110806756B (zh) 基于ddpg的无人机自主引导控制方法
CN110531786B (zh) 基于dqn的无人机机动策略自主生成方法
CN112198870A (zh) 基于ddqn的无人机自主引导机动决策方法
CN114253296B (zh) 高超声速飞行器机载轨迹规划方法、装置、飞行器及介质
CN113848974B (zh) 一种基于深度强化学习的飞行器轨迹规划方法及系统
CN112698646B (zh) 一种基于强化学习的航行器路径规划方法
CN115016496A (zh) 基于深度强化学习的水面无人艇路径跟踪方法
CN113268074B (zh) 一种基于联合优化的无人机航迹规划方法
CN113741533A (zh) 一种基于模仿学习与强化学习的无人机智能决策系统
CN114089776B (zh) 一种基于深度强化学习的无人机避障方法
CN113848984B (zh) 一种无人机集群控制方法及系统
CN113110546B (zh) 一种基于离线强化学习的无人机自主飞行控制方法
CN109375642B (zh) 一种无人机节能控制方法
CN115755956B (zh) 一种知识与数据协同驱动的无人机机动决策方法与系统
CN115826601A (zh) 基于逆向强化学习的无人机路径规划方法
CN115826621B (zh) 一种基于深度强化学习的无人机运动规划方法及系统
CN114819068A (zh) 一种混合型目标航迹预测方法及系统
CN115373415A (zh) 一种基于深度强化学习的无人机智能导航方法
CN114428517B (zh) 一种无人机无人艇协同平台端对端自主降落控制方法
CN116430891A (zh) 一种面向多智能体路径规划环境的深度强化学习方法
CN114967721A (zh) 一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法
Sandström et al. Fighter pilot behavior cloning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination