CN115033022A - 面向移动平台基于专家经验的ddpg无人机降落方法 - Google Patents
面向移动平台基于专家经验的ddpg无人机降落方法 Download PDFInfo
- Publication number
- CN115033022A CN115033022A CN202210742166.5A CN202210742166A CN115033022A CN 115033022 A CN115033022 A CN 115033022A CN 202210742166 A CN202210742166 A CN 202210742166A CN 115033022 A CN115033022 A CN 115033022A
- Authority
- CN
- China
- Prior art keywords
- aerial vehicle
- unmanned aerial
- network
- state
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 230000006870 function Effects 0.000 claims abstract description 48
- 238000012549 training Methods 0.000 claims abstract description 41
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 33
- 238000013528 artificial neural network Methods 0.000 claims abstract description 27
- 230000008569 process Effects 0.000 claims abstract description 20
- 238000004088 simulation Methods 0.000 claims abstract description 8
- 230000009471 action Effects 0.000 claims description 49
- 238000011156 evaluation Methods 0.000 claims description 28
- 238000000605 extraction Methods 0.000 claims description 17
- 230000006399 behavior Effects 0.000 claims description 5
- 230000008901 benefit Effects 0.000 claims description 5
- 230000001133 acceleration Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 claims description 2
- 230000002787 reinforcement Effects 0.000 abstract description 9
- 238000005070 sampling Methods 0.000 abstract description 2
- MLKLDGSYMHFAOC-AREMUKBSSA-N 1,2-dicapryl-sn-glycero-3-phosphocholine Chemical compound CCCCCCCCCC(=O)OC[C@H](COP([O-])(=O)OCC[N+](C)(C)C)OC(=O)CCCCCCCCC MLKLDGSYMHFAOC-AREMUKBSSA-N 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Automation & Control Theory (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Radar, Positioning & Navigation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Remote Sensing (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Aviation & Aerospace Engineering (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明公开的面向移动平台基于专家经验的DDPG无人机降落方法,包括:对任务分解;在仿真环境中搭建降落场景;初始化环境状态;初始化算法神经网络等超参数;设计用于训练所设计的深度强化学习神经网络的无人机着陆的降落函数;基于搭建有无人机着陆场景的仿真环境,对所设计的深度强化学习神经网络进行训练,训练过程中采用专家经验进行指导无人机。本发明能够加快算法的收敛速度,极大的解决深度强化学习前期采样效率低下的问题。
Description
技术领域
本发明属于无人机自主控制领域,涉及面向移动平台基于专家经验的DDPG无人机降落方法。
背景技术
随着科技的不断更新发展,旋翼无人机的应用的场景越来越广,涵盖的范围也越来越广,小至无人机送外卖、摄影等,大到无人机应用在测绘工程、安防、救援、地图勘测等。然而为了更进一步提升无人机完成任务的自主性,需要从多方面去考虑,比如无人机的起飞、导航、降落和在环境相对复杂的情况下完成自主降落等。但是在无人机发生的事故中,因无人机的起降发生的事故占比达到60%,因此对无人机的起降进行研究至关重要。此外,在多机器人协作中,如结合无人地面机器人(UGV),无人机进行着陆补充燃油,这也为多旋翼无人机提供了长期任务中所需的更高的自主水平。
2019年,史豪斌等针对经典的PID控制与基于图像的视觉伺服控制在旋翼无人机追踪与控制过程中差、控制精度不高等问题,设计了一种基于强化学习的旋翼无人机追踪控制方法,通过基于图像的视觉伺服进行闭环控制并使用了Sarsa学习算法调节增益,通过无人机相机所传输的视觉信息所提取的特征点与目标图像的特征点进行验证,将无人机距离目标的位置远近作为学习的奖励,实验结果验证了该方法的可行性任务场景下。但是由于因Sarsa算法本身的局限性,其训练速度和训练效果都不够好。一种基于深度强化学习的无人机端到端的控制方法(CN111460650A),将处理过的无人机机载相机得到的图像作为输入,经过深度强化学习神经网络处理后可以直接得到无人机控制指令,以此实现无人机的自主着陆,但是由于强化学习的前期随机探索导致其训练时间过长,效率较低。
发明内容
本发明要解決的技术问题就在于:针对现有技术存在的技术问题,基于上述的背景,本发明提出了面向移动平台基于专家经验的DDPG无人机降落方法。深度确定性策略梯度(DDPC)算法不仅利用了深度Q网络算法中经验池和双神经网络结构的优良性能,改善了传统强化学习数据爆炸等问題:还拥有策略梯度算法的优点,可以在有效处理连续域数据,并使神经网络快速收敛。此外,为了加速其训练过程,本发明改变其前期随机探索的行为,采用专家算法对其进行指导,在前期专家经验的指导下不断训练Actor策略网络,使得其掌握专家动作,这样能够大大节省训练时间和成本,提升网络、模型的收敛时间。因此,提出了面向移动平台基于专家经验的DDPG无人机降落方法,对于无人机在相关领域应用的实现具有重要意义,加快强化学习训练速度,提升训练效率,具有较高应用价值的面向移动平台基于专家经验的DDPG无人机降落方法。
本发明至少通过如下技术方案之一实现。
面向移动平台基于专家经验的DDPG无人机降落方法,包括以下步骤:
步骤1、构建无人机移动平台降落的马尔科夫模型;
步骤2、构建DDPG算法中的神经网络;
步骤3、无人机和目标状态更新;
步骤4、在仿真模拟器中构建无人机着陆场景,使用基于专家经验的确定性策略梯度方法训练无人机面向移动平台进行降落。
进一步地,马尔科夫模型为(S,A,O,R,γ),其中S为神经网络的输入状态,A为无人机的输出动作,O为无人机传感器的观测空间,R为奖励函数,γ为折扣因子。
进一步地,步骤1-1、定义马尔科夫模型的状态空间,输入状态S:
结合无人机状态和移动平台状态,设定输入状态为:
S=[Suav,Splatform]
移动平台状态:Splatform=[xplatform,yplatform,zplatform],xplatform、yplatform、zplatform表示无人机在三维平面上的位置;
步骤1-2、定义马尔科夫模型的动作空间,即无人机的输出动作A:
输出动作A表示无人机接收到外界反馈信号,即无人机离移动目标的远近,针对自身状态所采集的动作集;设定输出动作为:
步骤1-3、定义马尔科夫模型的观测空间,即传感器的观测空间O:
利用雷达传感器对无人机和目标的位置进行判断和获取;设定观测空间为:
O=[D]
其中,无人机与目标的之间的相对距离D为:
步骤1-4、定义奖励函数R:
利用传感器获取无人机与移动平台的位置信息,通过对无人机进行距离奖惩、碰撞奖惩和时间奖惩,综合得到奖励函数R,表示无人机在当前状态下选取某一动作时所获得的反馈值:综合无人机距离奖励和避碰奖励,得到奖励函数R为:
步骤1-5、定义折扣因子γ:
设定折扣因子0<γ<1,用于计算整个过程中的回报累计值;当γ值越大,表示越注重长期收益。
其中为距离奖励函数,λ1、λ2为两项奖励的权重值;Dt代表无人机与移动平台当前t时刻之间的欧式距离;L为设置的常数值;若Dt≥L,则给予一个与距离Dt成正比的负惩罚奖励;若Dt<L,则在正常数c1的基础上,再给予一个与距离Dt成反比的正奖励;
其中Dt是无人机与移动平台当前t时刻之间的欧式距离,当不发生碰撞时碰撞惩罚奖励为0,如果无人机发生碰撞,在给予c2常数的负惩罚基础上,再给予与移动平台距离成正比的负惩罚奖励,λ3为碰撞系数常数。
进一步地,步骤2包括以下步骤:
步骤2-1、构建DDPG算法中的策略网络,即Actor策略网络;
对于输入状态S,策略网络的输出向量U表示为:
U=μactor(s)
步骤2-2、构建DDPG算法中的评价网络,即Critic评价网络;
评价网络的输出为—状态-行为值Qμ(s,u),表示为:
其中,k为求和变量,E[·]表示数学期望;st+k+1、ut+k+1分别表示t+k+1时刻的状态输入向量和动作输出向量;γ为折扣因子,r为无人机的奖励,s表示无人机的状态,st为t时刻无人机的状态,u表示无人机的动作策略,ut表示无人机t时刻的动作策略;
步骤2-3、构建目标神经网络,即target网络;
将策略网络μactor和评价网络Qμ(s,u)的权重复制到各自的目标网络中,即θμ→θμ′,θQ→θQ′,其中θμ,θQ分别表示当前策略网络和评价网络的参数,θμ′、θQ′分别表示当前目标策略网络和目标评价网络的参数。
进一步地,Actor策略网络的结构包括输入层、隐藏层和输出层、一层特征提取层、三层全连接层,三层全连接层的大小分别为400、300、9。
进一步地,Critic评价网络结构包括一层特征提取层、三层全连接层,三层全连接层的大小分别为400、300、1。
进一步地,target网络包括Actor target网络和Critic target网络,Actortarget网络的结构包括一层特征提取层、三层全连接层,大小分别为400、300、9;Critictarget网络结构包括一层特征提取层、三层全连接层,大小分别为400、300、1。
进一步地,步骤3包括以下步骤:
步骤3-1、构建无人机在t时刻的状态更新方程:
步骤3-2、构建移动平台在t时刻的状态更新方程:
进一步地,步骤4包括以下步骤:
步骤4-1、设定最大训练回合数E,每回合最大步数S,设定经验池大小M,设定目标神经网络的更新比例系数τ,设定神经网络的学习率l,设定折扣因子为γ,初始化网络参数;
步骤4-2、初始化状态空间S,初始化仿真环境;
步骤4-3、当无人机训练步数小于sdirect_by_expert时,根据专家算法,在当前状态st,选择无人机的动作:
at=aexpert+M
其中aexpert是根据专家算法基于时刻t的状态计算出得到的速度,M为高斯噪声向量;
当无人机训练步数大于等于sdirect_by_expert时,根据策略网络,在当前状态st,选择无人机的动作:
at=μd(st|θμ)+M
其中μd(·)代表确定性策略函数,M为高斯噪声向量;θμ表示无人机当前策略网络;
步骤4-4、无人机根据与目标(移动平台)的之间的相对距离而执行动作at,由奖励函数计算出t时刻的奖励值rt,再由步骤3得到下一时刻状态st+1,然后将四元组<st,at,rt,st+1>存入经验池中;
步骤4-5、当无人机训练步数小于sdirect_by_expert时,从经验池随机抽取小批量样本B学习,计算损失函数,根据最小损失函数更新策网络,策略网络的学习过程表示为:
LA表示Actor损失函数,N表示用于更新t时刻的策略网络的样本数量,aexpert是专家根据时刻t状态st计算处的动作,μ(st|θμ)是时刻t策略网络在参数θμ计算出来动作,再根据最小化损失函数做梯度下降更新策略网络参数θμ;
当无人机训练步数大于等于sdirect_by_expert时,从经验池随机抽取小批量样本B学习,其学习过程表示为:
yt=rt+γQ′(st+1,μ′(st+1|θμ′)|θQ′)
其中yt表示目标网络,rt为t时刻的奖励值,θμ′和θQ′分别表示目标评价网络和目标策略网络的参数,Q′表示在st+1时刻采取μ′得到的状态-行为值;γ表示折扣因子、μ′表示目标策略网络;
步骤4-6、根据最小损失函数更新策略网络:
LC表示critic损失函数,N表示用于更新网络的样本数量,at表示t时刻无人机所做的动作,θQ表示评价网络;
步骤4-7、更新策略梯度:
其中,表示在策略网络参数θμ下的策略梯度,和分别表示评价网络状态-行为值函数梯度和策略网络策略函数梯度,μ(st)表示在策略网络状态st时选取的动作策略,和分别表示状态st下采取动作a=μ(st)时评价网络的状态-行为值和该状态下策略网络的行为值;
步骤4-8、按照下列公式对目标评价网络和目标策略网络的权重进行更新:
其中,τ为软更新比例系数;
步骤4-9、对迭代步长k执行k=k+1并进行判定,若k<S,则执行t=t+Δt并返回至步骤4-3,否则进入步骤4-10;
步骤4-10、对回合数e进行判定,若e<E,则返回至步骤4-2;若e≥E,则保存该训练过程中最好的网络模型参数。
与现有的技术相比,本发明的有益效果为:
本发明提出的面向移动平台基于专家经验的DDPG无人机降落方法。该方法不依赖于环境模型,通过建立深度神经网络,以无人机和目标的位罝、速度等传感器信息作为神经网络的输入,以无人机的各个方向的速度为输出,然后基于专家经验的DDPG算法对策略网络进行训练,再用AC框架继续训练,从而完成复杂环境下的面向移动平台基于专家经验的DDPG无人机降落方法,其优点具体体现在:
(1)本发明方法在环境模型未知的条件下实现无人机对地面移动平台的降落,采用基于专家经验的深度确定性策略梯度(DDPG)方法,通过无人机的采样数据,经过专家的指导下,同时在神经网络强大的拟合能力下,可以自主学习出达到目标的最优评价与策略网络,完成降落任务。
(2)本发明使用专家经验进行指导学习,在保证算法精度的同时大大提开收敛速度,节省工程开发和模型训练成本。通过经过专家经验训练好的Actor网络用于后期学习,加大策略网络输出正确动作的可能性,从而间接导致Critic网络训练加速,两者之间形成良好的循环,提高了模型的训练时间和收敛速度,大大降低了成本。
(3)本发明提供的无人机自主着陆控制方法中,完成训练后的深度神经网络可以直接将无人机和目标之间的位置信息转换为无人机着陆所需的连续控制指令。本发明省去了传统方法中的状态估计和路径规划模块,更符合人的思维方式,能够提高无人机的自主性和着陆的效率。
附图说明
图1为基于面向移动平台基于专家经验的DDPG无人机降落方法训练流程图;
图2为面向移动平台基于专家经验的DDPG无人机降落方法算法结构示意图;
图3为DDPG算法训练过程中无人机每步骤获得平均奖励变化曲线图;
图4为基于专家经验DDPG算法训练过程中无人机每步骤获得平均奖励变化曲线图;
图5为基于专家经验DDPG算法完成降落任务的轨迹展示图。
具体实施方式
下面结合实施例、附图对本发明作进一步详细的描述,但本发明的实施方式不限于此实施例。
实施例1
本发明提出的面向移动平台基于专家经验的DDPG无人机降落方法,如图1所示,包括以下步骤:
步骤1:对无人机移动平台降落的马尔科夫模型(S,A,O,R,γ)进行构建,其中S为神经网络的输入状态,A为无人机的输出动作,O为无人机传感器的观测空间,R为奖励函数,γ为折扣因子。
步骤1-1:定义马尔科夫模型的状态空间,输入状态S:
结合无人机状态和移动平台状态,设定输入状态为:
S=[Suav,Splatform]
移动平台状态Splatform=[xplatform,yplatform,zplatform],xplatform,yplatform,zplatform表示无人机在三维平面上的位置;
步骤1-2:定义马尔科夫模型的动作空间,即无人机的输出动作A:
输出动作A表示无人机接收到外界反馈信号,即无人机离移动目标的远近,针对自身状态所采集的动作集;设定输出动作为:
步骤1-3:定义马尔科夫模型的观测空间,即传感器的观测空间O:
利用雷达传感器对无人机和目标的位置进行判断和获取;设定观测空间为:
O=[D]
其中,无人机与目标的之间的相对距离D为:
步骤1-4:定义奖励函数R:
利用传感器获取无人机与移动平台的位置信息,通过对无人机进行距离奖惩、碰撞奖惩和时间奖惩,综合得到奖励函数R,表示无人机在当前状态下选取某一动作时所获得的反馈值;
本实施案例中,设定L为4米,设定距离奖励函数rt为:
本实施案例中,设定避碰奖励为:
其中Dt是无人机与移动平台当前t时刻之间的欧式距离,当不发生碰撞时碰撞惩罚奖励为0,如果无人机发生碰撞,在给予-10的惩罚基础上,再给予与移动平台距离成正比的负惩罚奖励,λ3为碰撞系数常数;
综合无人机距离奖励和避碰奖励,得到奖励函数R为:
步骤1-5:定义折扣因子γ:
设定折扣因子0<γ<1,用于计算整个过程中的回报累计值;当γ值越大,表示越注重长期收益;本实施案例中,设定γ=0.95。
步骤2:构建DDPG算法中的神经网络
步骤2-1:构建DDPG算法中的策略网络,即Actor策略网络;
策略网络μactor由输入层、隐藏层和输出层组成,对于输入状态S,策略网络的输出向量U表示为:
U=μactor(s)
步骤2-2:构建DDPG算法中的评价网络,即Critic评价网络;
评价网络的输出是状态-行为值Qμ(s,u),表示为:
其中,k为求和变量,E[·]表示数学期望;st+k+1、ut+k+1分别表示t+k+1时刻的状态输入向量和动作输出向量,γ为折扣因子,r为无人机的奖励,s表示无人机的状态,st为t时刻无人机的状态,u表示无人机的动作策略,ut表示无人机t时刻的动作策略;
步骤2-3:构建目标神经网络,即target网络,主要包括Actor target网络和Critic target网络;
将策略网络μactor和评价网络Qμ(s,u)的权重复制到各自的目标网络中,即θμ→θμ′,θQ→θQ′,其中θμ,θQ分别表示当前策略网络和评价网络的参数,θμ、θQ′分别表示当前目标策略网络和目标评价网络的参数;
需说明的是,本实施案例中策略网络,评价网络,目标神经网络各自有三层神经网络,隐含层神经元个数为100,采用Relu激活函数,输出层采用tanh函数;
步骤3:无人机和目标状态更新
步骤3-1:构建无人机在t时刻的状态更新方程:
其中,xuav(t)、yuav(t)、zuav(t)表示时刻t无人机的坐标值,表示时刻t无人机的速度,表示时刻t无人机的加速度;无人机最小速度0m/s,最大速度2m/s;本实施例中,设定仿真时间间隔为Δt=0.5秒;
步骤3-2:构建移动平台在t时刻的状态更新方程:
步骤4:在仿真模拟器中构建无人机着陆场景,使用基于专家经验的确定性策略梯度方法训练无人机面向移动平台进行降落:
步骤4-1:设定最大训练回合数E=800,每回合最大步数S=25,设定经验池大小M=10000,设定目标神经网络的软更新比例系数τ=0.9,设定神经网络的学习率l=0.001,设定折扣因子为γ=0.98,初始化网络参数;
步骤4-2:初始化状态空间S,初始化仿真环境;
步骤4-3:在本实施例中,当无人机训练步数小于1000步时,根据专家算法,在当前状态st,选择无人机的动作:
at=aexpert+M
其中aexpert是根据专家算法基于时刻t的状态计算出得到的速度,M为高斯噪声向量;
在本实施例中,当无人机训练步数大于等于1000步时,根据策略网络,在当前状态st,选择无人机的动作:
at=μd(st|θμ)+M
其中μd(·)代表确定性策略函数,M为高斯噪声向量;
步骤4-4:无人机执行动作at根据步骤1-3得到无人机与移动平台的相对距离,由步骤1-4奖励函数计算出t时刻的奖励值rt,再由步骤3得到下一时刻状态st+1,然后将四元组<st,at,rt,st+1>存入经验池中;
步骤4-5:在本实施例中,当无人机训练步数小于1000时,从经验池随机抽取小批量样本B学习,计算损失函数,根据最小损失函数更新策网络,策略网络的学习过程表示为:
LA表示Actor损失函数,N表示用于更新t时刻的策略网络的样本数量,aexpert是专家根据时刻t状态st计算处的动作,μ(st|θμ)是时刻t策略网络在参数θμ计算出来动作,再根据最小化损失函数做梯度下降更新略网络参数θμ;
在本实施例中,当无人机训练步数大于等于1000时,从经验池随机抽取小批量样本B=32学习,其学习过程表示为:
yt=rt+γQ′(st+1,μ′(st+1|θμ′)|θQ′)
其中yt表示目标网络,rt为t时刻的奖励值,θμ′和θQ′分别表示目标评价网络和目标策略网络的参数,Q′表示在st+1时刻采取μ′得到的状态-行为值;γ表示折扣因子、μ′表示目标策略网络;
步骤4-6:根据最小损失函数更新策略网络:
LC表示critic损失函数,N表示用于更新网络的样本数量;
步骤4-7:更新策略梯度:
其中,表示在策略网络参数θμ下的策略梯度,和分别表示评价网络状态-行为值函数梯度和策略网络策略函数梯度,μ(st)表示在策略网络状态st时选取的动作策略,和分别表示状态st下采取动作a=μ(st)时评价网络的状态-行为值和该状态下策略网络的行为值;
步骤4-8:按照下列公式对目标评价网络和目标策略网络的权重进行更新:
其中,τ为软更新比例系数;
步骤4-9:对迭代步长k执行k=k+1并进行判定,若k<S,则执行t=t+Δt并返回至步骤4-3,否则进入步骤4-10;
步骤4-10:对回合数e进行判定,若e<E,则返回至步骤4-2;若e≥E,则保存该训练过程中最好的模型参数。
在本实施例中,进行训练时设计无人机从(0,0,5)m处开始执行降落,移动平台位于距离原点(0,0,0)处,起点随机分布在半径为5m的圆上。训练过程中无人机每回合获得的平均奖励变化曲线图加图1所示,原始算法DDPG大约训练8000步后,无人机在每回合内能够获得高额且稳定的奖励,如图2所示,本发明改进后的算法Ex-DDPG大约训练3000步后,无人机在每回合内能够获得高额且稳定的奖励,表明了本方法所提出的基于专家指导的DDPG算法,能大大提高原始DDPC的收敛速度,进而提升无人机自主决策过程的高效性和稳定性。仿真结果如图5所示,可以看出,基于DDPC算法训练后的无人机,能够高效完成降落任务。
实施例2
本实施例中Actor target网络的结构为一层特征提取层,三层全连接层,大小分别为400、300、9,Critic target网络的结构为一层特征提取层,三层全连接层,大小分别为400、300、1。
实施例3
本实施例中Actor策略网络结构为一层特征提取层,三层全连接层,大小分别为400、300、9:Critic评价网络的结构为一层特征提取层,三层全连接层,大小分别为400、300、1。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (10)
1.面向移动平台基于专家经验的DDPG无人机降落方法,其特征在于,包括以下步骤:
步骤1、构建无人机移动平台降落的马尔科夫模型;
步骤2、构建DDPG算法中的神经网络;
步骤3、无人机和目标状态更新;
步骤4、在仿真模拟器中构建无人机着陆场景,使用基于专家经验的确定性策略梯度方法训练无人机面向移动平台进行降落。
2.根据权利要求1所述的面向移动平台基于专家经验的DDPG无人机降落方法,其特征在于,马尔科夫模型为(S,A,O,R,γ),其中S为神经网络的输入状态,A为无人机的输出动作,O为无人机传感器的观测空间,R为奖励函数,γ为折扣因子。
3.根据权利要求1所述的面向移动平台基于专家经验的DDPG无人机降落方法,其特征在于,步骤1-1、定义马尔科夫模型的状态空间,输入状态S:
结合无人机状态和移动平台状态,设定输入状态为:
S=[Suav,Splatform]
移动平台状态:Splatform=[xplatform,yplatform,zplatform],xplatform、yplatform、zplatform表示无人机在三维平面上的位置;
步骤1-2、定义马尔科夫模型的动作空间,即无人机的输出动作A:
输出动作A表示无人机接收到外界反馈信号,即无人机离移动目标的远近,针对自身状态所采集的动作集;设定输出动作为:
步骤1-3、定义马尔科夫模型的观测空间,即传感器的观测空间O:
利用雷达传感器对无人机和目标的位置进行判断和获取;设定观测空间为:
O=[D]
其中,无人机与目标的之间的相对距离D为:
步骤1-4、定义奖励函数R:
利用传感器获取无人机与移动平台的位置信息,通过对无人机进行距离奖惩、碰撞奖惩和时间奖惩,综合得到奖励函数R,表示无人机在当前状态下选取某一动作时所获得的反馈值:综合无人机距离奖励和避碰奖励,得到奖励函数R为:
步骤1-5、定义折扣因子γ:
设定折扣因子0<γ<1,用于计算整个过程中的回报累计值;当γ值越大,表示越注重长期收益。
5.根据权利要求1所述的面向移动平台基于专家经验的DDPG无人机降落方法,其特征在于,步骤2包括以下步骤:
步骤2-1、构建DDPG算法中的策略网络,即Actor策略网络;
对于输入状态S,策略网络的输出向量U表示为:
U=μactor(s)
步骤2-2、构建DDPG算法中的评价网络,即Critic评价网络;
评价网络的输出为—状态-行为值Qμ(s,u),表示为:
其中,k为求和变量,E[·]表示数学期望;st+k+1、ut+k+1分别表示t+k+1时刻的状态输入向量和动作输出向量;γ为折扣因子,r为无人机的奖励,s表示无人机的状态,st为t时刻无人机的状态,u表示无人机的动作策略,ut表示无人机t时刻的动作策略;
步骤2-3、构建目标神经网络,即target网络;
将策略网络μactor和评价网络Qμ(s,u)的权重复制到各自的目标网络中,即θμ→θμ′,θQ→θQ′,其中θμ,θQ分别表示当前策略网络和评价网络的参数,θμ′、θQ′分别表示当前目标策略网络和目标评价网络的参数。
6.根据权利要求5所述的面向移动平台基于专家经验的DDPG无人机降落方法,其特征在于,Actor策略网络的结构包括输入层、隐藏层和输出层、一层特征提取层、三层全连接层,三层全连接层的大小分别为400、300、9。
7.根据权利要求5所述的面向移动平台基于专家经验的DDPG无人机降落方法,其特征在于,Critic评价网络结构包括一层特征提取层、三层全连接层,三层全连接层的大小分别为400、300、1。
8.根据权利要求5所述的面向移动平台基于专家经验的DDPG无人机降落方法,其特征在于,target网络包括Actor target网络和Critic target网络,Actor target网络的结构包括一层特征提取层、三层全连接层,大小分别为400、300、9;Critic target网络结构包括一层特征提取层、三层全连接层,大小分别为400、300、1。
10.根据权利要求1~9任一项所述的面向移动平台基于专家经验的DDPG无人机降落方法,其特征在于,步骤4包括以下步骤:
步骤4-1、设定最大训练回合数E,每回合最大步数S,设定经验池大小M,设定目标神经网络的更新比例系数τ,设定神经网络的学习率l,设定折扣因子为γ,初始化网络参数;
步骤4-2、初始化状态空间S,初始化仿真环境;
步骤4-3、当无人机训练步数小于sdirect_by_expert时,根据专家算法,在当前状态st,选择无人机的动作:
at=aexpert+M
其中aexpert是根据专家算法基于时刻t的状态计算出得到的速度,M为高斯噪声向量;
当无人机训练步数大于等于sdirect_by_expert时,根据策略网络,在当前状态st,选择无人机的动作:
at=μd(st|θμ)+M
其中μd(·)代表确定性策略函数,M为高斯噪声向量;θμ表示无人机当前策略网络;
步骤4-4、无人机根据与目标(移动平台)的之间的相对距离而执行动作at,由奖励函数计算出t时刻的奖励值rt,再由步骤3得到下一时刻状态st+1,然后将四元组<st,at,rt,st+1>存入经验池中;
步骤4-5、当无人机训练步数小于sdirect_by_expert时,从经验池随机抽取小批量样本B学习,计算损失函数,根据最小损失函数更新策网络,策略网络的学习过程表示为:
LA表示Actor损失函数,N表示用于更新t时刻的策略网络的样本数量,aexport是专家根据时刻t状态st计算处的动作,μ(st|θμ)是时刻t策略网络在参数θμ计算出来动作,再根据最小化损失函数做梯度下降更新策略网络参数θμ;
当无人机训练步数大于等于sdirect_by_expert时,从经验池随机抽取小批量样本B学习,其学习过程表示为:
yt=rt+γQ′(st+1,μ′(st+1|θμ′)|θQ′)
其中yt表示目标网络,rt为t时刻的奖励值,θμ′和θQ′分别表示目标评价网络和目标策略网络的参数,Q′表示在st+1时刻采取μ′得到的状态-行为值;γ表示折扣因子、μ′表示目标策略网络;
步骤4-6、根据最小损失函数更新策略网络:
LC表示critic损失函数,N表示用于更新网络的样本数量,at表示t时刻无人机所做的动作,θQ表示评价网络;
步骤4-7、更新策略梯度:
其中,表示在策略网络参数θμ下的策略梯度,和分别表示评价网络状态-行为值函数梯度和策略网络策略函数梯度,μ(st)表示在策略网络状态st时选取的动作策略,和分别表示状态st下采取动作a=μ(st)时评价网络的状态-行为值和该状态下策略网络的行为值;
步骤4-8、按照下列公式对目标评价网络和目标策略网络的权重进行更新:
其中,τ为软更新比例系数;
步骤4-9、对迭代步长k执行k=k+1并进行判定,若k<S,则执行t=t+Δt并返回至步骤4-3,否则进入步骤4-10;
步骤4-10、对回合数e进行判定,若e<E,则返回至步骤4-2;若e≥E,则保存该训练过程中最好的网络模型参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210742166.5A CN115033022A (zh) | 2022-06-28 | 2022-06-28 | 面向移动平台基于专家经验的ddpg无人机降落方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210742166.5A CN115033022A (zh) | 2022-06-28 | 2022-06-28 | 面向移动平台基于专家经验的ddpg无人机降落方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115033022A true CN115033022A (zh) | 2022-09-09 |
Family
ID=83126016
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210742166.5A Pending CN115033022A (zh) | 2022-06-28 | 2022-06-28 | 面向移动平台基于专家经验的ddpg无人机降落方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115033022A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115766769A (zh) * | 2022-10-25 | 2023-03-07 | 西北工业大学 | 一种基于深度强化学习的无线传感器网络部署方法 |
CN115755956A (zh) * | 2022-11-03 | 2023-03-07 | 南京航空航天大学 | 一种知识与数据协同驱动的无人机机动决策方法与系统 |
CN117062280A (zh) * | 2023-08-17 | 2023-11-14 | 北京美中爱瑞肿瘤医院有限责任公司 | 一种神经外科自助式手术灯自动跟随系统 |
CN117387635A (zh) * | 2023-12-13 | 2024-01-12 | 安徽大学 | 一种基于深度强化学习和pid控制器的无人机导航方法 |
CN118051063A (zh) * | 2024-04-16 | 2024-05-17 | 中国民用航空飞行学院 | 一种低空无人机避障飞行的训练方法 |
-
2022
- 2022-06-28 CN CN202210742166.5A patent/CN115033022A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115766769A (zh) * | 2022-10-25 | 2023-03-07 | 西北工业大学 | 一种基于深度强化学习的无线传感器网络部署方法 |
CN115755956A (zh) * | 2022-11-03 | 2023-03-07 | 南京航空航天大学 | 一种知识与数据协同驱动的无人机机动决策方法与系统 |
CN115755956B (zh) * | 2022-11-03 | 2023-12-15 | 南京航空航天大学 | 一种知识与数据协同驱动的无人机机动决策方法与系统 |
CN117062280A (zh) * | 2023-08-17 | 2023-11-14 | 北京美中爱瑞肿瘤医院有限责任公司 | 一种神经外科自助式手术灯自动跟随系统 |
CN117062280B (zh) * | 2023-08-17 | 2024-03-08 | 北京美中爱瑞肿瘤医院有限责任公司 | 一种神经外科自助式手术灯自动跟随系统 |
CN117387635A (zh) * | 2023-12-13 | 2024-01-12 | 安徽大学 | 一种基于深度强化学习和pid控制器的无人机导航方法 |
CN117387635B (zh) * | 2023-12-13 | 2024-02-23 | 安徽大学 | 一种基于深度强化学习和pid控制器的无人机导航方法 |
CN118051063A (zh) * | 2024-04-16 | 2024-05-17 | 中国民用航空飞行学院 | 一种低空无人机避障飞行的训练方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111667513B (zh) | 一种基于ddpg迁移学习的无人机机动目标跟踪方法 | |
CN115033022A (zh) | 面向移动平台基于专家经验的ddpg无人机降落方法 | |
CN110673620B (zh) | 一种基于深度强化学习的四旋翼无人机航线跟随控制方法 | |
CN110806756B (zh) | 基于ddpg的无人机自主引导控制方法 | |
CN110531786B (zh) | 基于dqn的无人机机动策略自主生成方法 | |
CN112198870A (zh) | 基于ddqn的无人机自主引导机动决策方法 | |
CN114253296B (zh) | 高超声速飞行器机载轨迹规划方法、装置、飞行器及介质 | |
CN113848974B (zh) | 一种基于深度强化学习的飞行器轨迹规划方法及系统 | |
CN112698646B (zh) | 一种基于强化学习的航行器路径规划方法 | |
CN115016496A (zh) | 基于深度强化学习的水面无人艇路径跟踪方法 | |
CN113268074B (zh) | 一种基于联合优化的无人机航迹规划方法 | |
CN113741533A (zh) | 一种基于模仿学习与强化学习的无人机智能决策系统 | |
CN114089776B (zh) | 一种基于深度强化学习的无人机避障方法 | |
CN113848984B (zh) | 一种无人机集群控制方法及系统 | |
CN113110546B (zh) | 一种基于离线强化学习的无人机自主飞行控制方法 | |
CN109375642B (zh) | 一种无人机节能控制方法 | |
CN115755956B (zh) | 一种知识与数据协同驱动的无人机机动决策方法与系统 | |
CN115826601A (zh) | 基于逆向强化学习的无人机路径规划方法 | |
CN115826621B (zh) | 一种基于深度强化学习的无人机运动规划方法及系统 | |
CN114819068A (zh) | 一种混合型目标航迹预测方法及系统 | |
CN115373415A (zh) | 一种基于深度强化学习的无人机智能导航方法 | |
CN114428517B (zh) | 一种无人机无人艇协同平台端对端自主降落控制方法 | |
CN116430891A (zh) | 一种面向多智能体路径规划环境的深度强化学习方法 | |
CN114967721A (zh) | 一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法 | |
Sandström et al. | Fighter pilot behavior cloning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |