CN116698037A - 一种无人机航迹规划方法 - Google Patents
一种无人机航迹规划方法 Download PDFInfo
- Publication number
- CN116698037A CN116698037A CN202310631500.4A CN202310631500A CN116698037A CN 116698037 A CN116698037 A CN 116698037A CN 202310631500 A CN202310631500 A CN 202310631500A CN 116698037 A CN116698037 A CN 116698037A
- Authority
- CN
- China
- Prior art keywords
- aerial vehicle
- unmanned aerial
- dung
- network
- round
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 210000003608 fece Anatomy 0.000 claims abstract description 120
- 241000254173 Coleoptera Species 0.000 claims abstract description 111
- 238000012549 training Methods 0.000 claims abstract description 39
- 239000004576 sand Substances 0.000 claims abstract description 27
- 230000009471 action Effects 0.000 claims abstract description 25
- 241000254158 Lampyridae Species 0.000 claims abstract description 20
- 230000035945 sensitivity Effects 0.000 claims abstract description 15
- 230000008569 process Effects 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 41
- 230000001133 acceleration Effects 0.000 claims description 11
- 230000006399 behavior Effects 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 3
- 238000005096 rolling process Methods 0.000 claims description 3
- 230000005484 gravity Effects 0.000 claims description 2
- 230000006978 adaptation Effects 0.000 abstract description 4
- 230000000694 effects Effects 0.000 abstract description 4
- 210000002569 neuron Anatomy 0.000 description 8
- 230000002787 reinforcement Effects 0.000 description 7
- 238000005457 optimization Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- RZVHIXYEVGDQDX-UHFFFAOYSA-N 9,10-anthraquinone Chemical compound C1=CC=C2C(=O)C3=CC=CC=C3C(=O)C2=C1 RZVHIXYEVGDQDX-UHFFFAOYSA-N 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/20—Instruments for performing navigational calculations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Automation & Control Theory (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明公开了一种无人机航迹规划方法,无人机获取自身和目标信息,获取每个时刻状态,将每个时刻状态输入至预先训练好的DDPG网络,DDPG网络包括Actor网络和Critic网络,利用Actor在线网络决策每个时刻无人机飞行动作,形成最终航迹;DDPG网络的训练过程包括:对无人机航迹规划场景进行建模,设计无人机航迹规划模型状态空间、动作空间、奖励函数以及网络训练参数;采用融合沙丘噪声灵敏度和萤火因子的改进蜣螂算法优化奖励函数的奖励系数,获取最优系数组合,根据最优系数组合和网络训练参数对DDPG网络进行训练,得到训练好的网络。本发明解决了模型适配场景有限、收敛效果不佳问题,提高航迹规划可靠性。
Description
技术领域
本发明属于无人机飞行控制技术领域,涉及一种无人机航迹规划方法,特别是一种基于改进蜣螂算法优化奖励的无人机航迹规划方法。
背景技术
无人机因体积小、机动性高等优势,在军事和民用等多个领域应用广泛。航迹规划是无人机控制系统的重要一环,形成可靠的航迹是确保无人机完成飞行任务的前提。
近年来,以机器学习为代表的人工智能技术飞速发展,实现与多种航迹规划场景的深度融合。其中,深度强化学习算法具有较强的感知能力,运算速度快、实时性强,通过训练能够实现端到端的航迹规划映射,广泛应用于规划领域,但其奖励函数主要依靠人为设计,往往存在局部奖励设计不够全面,各局部奖励占比分配不佳,进而导致模型应用场景有限、收敛速度慢的问题。以上问题可以通过综合考虑实际环境中的各方面因素,进而构建各项局部奖励函数,用以全面描述环境对智能体交互的反馈,用以提高模型应用场景范围,并通过优化各局部奖励函数的占比来提高收敛速度。群智能优化算法通过模拟大自然的某种现象或生物群体的自组织行为,在优化参数方面具有出色的效果,能够用于对局部奖励函数的占比进行优化。
通过对现有技术文献的检索发现,池海红等人在《控制理论与应用》(2022.39(05):847-856)上发表的“融合强化学习和进化算法的高超声速飞行器航迹规划”,提出了一种利用交叉熵提高强化学习模型在航迹规划前期探索速度的算法,但其构建的场景以及设定的奖励函数,仅能在二维平面进行航迹规划,无法扩展至三维。谭志平等人在发明(专利号:CN202211195962.8)中发明的“一种基于强化学习差分算法的无人机动态航迹规划方法”,将差分进化算法融入到强化学习模型的动作和奖励中,提高了模型收敛速度,但规划的路线由多个离散区域构成,奖励函数由离散的差分算法收敛效果决定,仅能保证在训练的环境下,实现有效的无人机航迹规划,并不适用于动态可变的环境。本人在发明(专利号:CN202110632549.2)中发明的“一种基于联合优化的无人机航迹规划方法”,考虑实际环境中自然干扰因素的影响,建立了应用场景更广泛的模型,但并未考虑如何加快模型的收敛速度。已有文献的检索结果表明,全面考虑影响航迹规划的重要因素,构建复杂、动态的模型,设计更加客观、全面的奖励函数,是提高航迹规划模型应用场景范围,使其更贴近实际环境的关键,但与此同时,改善奖励函数的构成,会减缓模型收敛速度。
发明内容
针对上述现有技术,本发明要解决的技术问题是提供一种基于改进蜣螂算法优化奖励的无人机航迹规划方法,在构建环境时考虑多方面影响因素,并将其设定在奖励函数中,结合群智能优化算法对各局部奖励函数的占比进行优化,在有效提高模型应用场景范围的基础上,加快模型收敛速度。
为解决上述技术问题,本发明的一种无人机航迹规划方法,包括:
无人机获取自身和目标信息,获取每个时刻状态s,将每个时刻状态s分别输入至预先训练好的DDPG网络,所述DDPG网络包括Actor网络和Critic网络,利用Actor在线网络决策每个时刻无人机飞行动作a,形成最终航迹;所述DDPG网络的训练过程包括:
步骤1:对无人机航迹规划场景进行建模,设计无人机航迹规划模型的状态空间、动作空间、奖励函数以及网络训练参数,所述网络训练参数包括Actor网络学习率ηactor,Critic网络学习率ηcritic,软更新系数ηsoft,折扣因子ηdis,记忆池尺寸χme,采集经验数据的批量尺寸χexp,训练回合数I,每个回合的时间步总数;所述奖励函数为:
其中,rdis为到达奖励,rangle为航偏奖励,robs为威胁奖励,rs为时间奖励,λ1、λ2、λ3和λ4分别为到达奖励、航偏奖励、威胁奖励和时间奖励的奖励系数,计为Λ=[λ1,λ2,λ3,λ4],λ1+λ2+λ3+λ4=4,其中:
rs=-0.2·d4
其中,d1为距离因子,nor(·)表示归一化处理,d2为航偏因子,dissafe为无人机与威胁障碍物之间的安全距离,dismin为无人机与最近威胁之间的距离,d3为威胁因子,d4为时间因子;
设置回合奖励集合SRI:
SRI=[R1,R2,...,Ri,...,RI]
其中,为第i个回合的回合奖励;
步骤2:采用融合沙丘噪声灵敏度和萤火因子的改进蜣螂算法优化步骤1中奖励函数的各项奖励系数,获取最优系数组合,根据最优系数组合和网络训练参数对DDPG网络进行训练,获得无人机从飞行状态到飞行动作端到端的决策映射。
进一步的,步骤1所述状态空间为:
其中,(x,y,z)为无人机在场景坐标系的位置信息,(x′,y′,z′)为目标在场景坐标系的位置信息,(vx,vy,vz)为速度分量,β为行为角,为无人机与目标之间的直线距离,μ=[μ1,μ2,…,μq,…,μQ]为Q个传感器的射线长度,ρ=[ρ1,ρ2,...,ρq,...,ρQ]为对μ的独热编码;第q个传感器的独热编码ρq为:其中,dishit为无人机与传感器探测点之间的距离,lasar为无人机可探测到的最大距离,q∈[1,Q]且q为正整数。
进一步的,步骤1所述动作空间为:
其中,fForward为前倾力,表示无人机在X方向上受到的力,fRight为侧倾力,控制无人机在Y方向移动,fUp为起降力,使无人机沿Z方向进行垂直起降运动,fRotation为航向力,控制无人机沿Z轴旋转角度的变化,f∑表示前倾力、侧倾力、起降力和航向力的合力,为无人机连续飞行过程中的最大加速度,max{·}为求取最大值,g为重力加速度,hf为水平过载、hp为径向过载,m为无人机的质量。
进一步的,步骤2所述采用融合沙丘噪声灵敏度和萤火因子的改进蜣螂算法优化步骤1中奖励函数的各项奖励系数,获取最优系数组合包括:
步骤2.1、设置改进蜣螂算法的适应度函数fitness为:
其中,ir为收敛回合,ir∈[1,I]且ir为正整数,var为收敛方差,RM为最大回合奖励值;
ir=index[RM-0.2·(RM-RW)]
其中,RW为最小回合奖励值,index[R*]表示最接近R*的回合,R*∈[RW,RM];
其中,Rτ表示第τ个回合的回合奖励;
RW=min[SRI]
RM=max[SRI]
其中,min[·]表示求取最小值,max[·]表示求取最大值,SRI为回合奖励集合;
步骤2.2、设定最大迭代次数N,优化空间维数D,优化区间最小值L,优化区间最大值U,种群大小P,包括雄性蜣螂p1个、雌性蜣螂p2个、沙丘蜣螂p3个、萤火蜣螂p4个,P=p1+p2+p3+p4,初始化种群位置信息为:
θj=L+ξ·(U-L)
其中,θj表示第j个蜣螂个体位置信息,j∈[1,P]且j为正整数,蜣螂个体按雄性蜣螂、雌性蜣螂、沙丘蜣螂、萤火蜣螂的顺序进行排列,ξ∈(0,1),表示0至1之间的随机数,每次使用ξ均会产生新的随机数;
步骤2.3、获取蜣螂种群的位置信息对应的奖励系数[Λ1,Λ2,...,Λj,...,ΛP],其中,Λj=[λ1,λ2,λ3,λ4]j表示第j个蜣螂个体位置信息对应的奖励系数,将其并行输入至P个步骤1中搭建的DDPG网络,进行训练,获得每个蜣螂个体对应的回合奖励集合根据步骤2.1,计算每个蜣螂位置对应的适应度值,获取蜣螂个体的局部最优位置θ*、全局最优位置θM和全局最差位置θW;
步骤2.4、更新雄性蜣螂位置信息且j1为正整数:
其中,表示第j1只雄性蜣螂在第n次迭代时的位置信息,n∈[1,N]且n为正整数,θ(0)=0,ω表示雄性蜣螂的探索方向,为-π/2至π/2之间的随机数,tan(·)为正切函数,α为自然因子:
步骤2.5、更新雌性蜣螂位置信息且j2为正整数:
其中,表示第j2只雌性蜣螂在第n次迭代时的位置信息,L′表示雌性蜣螂位置探索下限,U′表示雌性蜣螂位置探索上限:
步骤2.6、更新沙丘蜣螂位置信息且j3为正整数:
其中,表示第j3只沙丘蜣螂在第n次迭代时的位置信息,表示沙丘噪声灵敏度;
步骤2.7、更新萤火蜣螂位置信息且j4为正整数:
其中,表示第j4只萤火蜣螂在第n次迭代时的位置信息,表示萤火因子;
步骤2.8、重复步骤2.3至步骤2.7,直至当前迭代次数到达最大迭代次数N时结束,得到全局最优位置θM及其对应的奖励系数ΛM。
本发明有益效果:本发明针对现有无人机采用深度强化学习进行航迹规划时,构建模型以及设计奖励函数存在缺陷,使得适用场景受限且进一步导致模型收敛速度降低的问题,提出了一种新的基于改进蜣螂算法优化奖励的无人机航迹规划方法。本发明综合考虑了无人机在三维空间中飞行时长、方向、加速度、受力以及潜在威胁等多方面因素,设计适用于多种场景的状态空间、动作空间以及奖励函数,解决了模型适配场景有限的问题。改进蜣螂算法,将沙丘噪声灵敏度与种群位置更新机制相融合,加入萤火因子为个体增添吸引性,进一步优化深度强化学习奖励系数,解决了模型收敛效果不佳问题,提高了航迹规划可靠性。
附图说明
图1是本发明的总体流程示意图。
图2是本发明的无人机在场景坐标系下的飞行示意图。
图3是本发明的改进蜣螂算法的示意图。
具体实施方式
下面结合说明书附图和实施例对本发明做进一步说明。
本发明包括以下步骤:
步骤1:对无人机航迹规划场景进行建模,设计无人机航迹规划模型的状态空间、动作空间、奖励函数以及网络训练参数,搭建DDPG网络。
步骤2:设计改进蜣螂算法,优化步骤1中奖励函数的各项奖励系数,获取最优系数组合,训练DDPG网络。
步骤3:利用步骤2中训练好的DDPG网络,实时决策无人机的飞行动作,形成在线航迹规划方案。
本发明还包括一些结构特征:
步骤1包括:对无人机航迹规划场景进行建模,初始化无人机与航迹规划的环境信息,计算无人机与目标之间的直线距离dis0,计算Q个传感器射线长度μ=[μ1,μ2,...,μQ]并进行独热编码ρ=[ρ1,ρ2,...,ρQ],计算无人机连续飞行过程最大加速度Acc。
进一步地,考虑到无人机与环境交互信息和自身的运动状态,设置在第i个回合的第k个时间步,模型的状态为:
其中,[·]T为矩阵转置运算,x、y、z分别表示无人机在场景坐标系中X、Y和Z三个轴的位置坐标点,x′、y′、z′分别表示目标点在场景坐标系中X、Y和Z三个轴的位置坐标点,vx、vy、vz分别代表无人机在场景坐标系中X、Y和Z三个轴的速度分量,β为行为角,代表无人机第一视角方向与无人机同目标终点连接线之间的夹角。
进一步地,考虑到无人机在飞行中受最大加速度约束的情况,设置在第i个回合的第k个时间步,模型的动作为:
其中,fForward为前倾力,表示无人机在X方向上受到的力。fRight为侧倾力,控制无人机在Y方向移动。fUp为起降力,使无人机沿Z方向进行垂直起降运动。fRotation为航向力,控制无人机沿Z轴旋转角度的变化。f∑表示前倾力、侧倾力、起降力和航向力的合力,m表示无人机质量。
Acc具体设计为:
其中,max{·}为求取最大值,g为重力加速度,hf和hp分别为无人机的水平过载和径向过载,和分别为无人机飞行的方向角和俯仰角,sin(·)和cos(·)分别表示正弦函数和余弦函数。
进一步地,考虑到无人机在飞行中,受飞行位置、飞行方向、未知威胁和飞行时长等因素的影响,设置第i个回合的第k个时间步的奖励函数为:
其中,rdis为到达奖励,rangle为航偏奖励,robs为威胁奖励,rs为时间奖励,λ1、λ2、λ3和λ4分别为到达奖励、航偏奖励、威胁奖励和时间奖励的奖励系数,计为Λ=[λ1,λ2,λ3,λ4],λ1+λ2+λ3+λ4=4。
为了引导无人机到达目的区域,rdis具体设计为:
其中,d1为距离因子,nor(·)表示归一化处理。
为了指引无人机沿自身与目标区域方向接近目标,rangle具体设计为:
其中,d2为航偏因子。
为了防止无人机靠近威胁,robs具体设计为:
其中,dissafe为无人机与威胁障碍物之间的安全距离,dismin为无人机与最近威胁之间的距离,d3为威胁因子。
为了推动无人机尽快到达目标区域,rs具体设计为:
rs=-0.2·d4 (8)
其中d4为时间因子。
进一步地,设置回合奖励集合SRI为:
SRI=[R1,R2,...,Ri,...,RI] (9)
其中,Ri为第i个回合的回合奖励,具体设计为:
其中,K为第i个回合的时间步总数。
进一步地,结合设置的训练场景和训练的状态空间、动作空间、奖励函数,搭建DDPG网络,其中的Actor网络和Critic网络,均为3层全连接网络结构,Actor网络的输入层为36个神经元,输出层为4个神经元,Critic网络的输入层为40个神经元,输出层为1个神经元。初始化奖励系数Λ,设置训练参数,包括但不限于总训练回合数I和每个回合的时间步总数K。
步骤2包括:考虑到提升无人机航迹规划模型的收敛速度,在蜣螂算法的基础上,融合沙丘噪声灵敏度和萤火因子,改变种群位置更新机制,分别提高算法的全局性和局部性,利用回合奖励集合SRI,设置改进蜣螂算法的适应度函数fitness:
其中,ir为收敛回合,ir∈[1,I]且ir为正整数,var为收敛方差,RM为最大回合奖励值。
ir具体设计为:
ir=index[RM-0.2·(RM-RW)] (12)
其中,RW为最小回合奖励值,index[R*]表示最接近R*的回合,R*∈[RW,RM]。
var具体设计为:
其中,Rτ表示第τ个回合的回合奖励。
RW具体设计为:
RW=min[SRI] (14)
其中,min[·]表示求取最小值。
RM具体设计为:
RM=max[SRI] (15)
进一步地,初始化改进蜣螂算法的种群参数及位置信息。设定最大迭代次数N,优化空间维数D,优化区间最小值L,优化区间最大值U,种群大小P,包括雄性蜣螂p1个、雌性蜣螂p2个、沙丘蜣螂p3个、萤火蜣螂p4个,P=p1+p2+p3+p4,初始化种群位置信息为:
θj=L+ξ·(U-L) (16)
其中,θj表示第j个蜣螂个体位置信息,j∈[1,P]且j为正整数,蜣螂个体按雄性蜣螂、雌性蜣螂、沙丘蜣螂、萤火蜣螂的顺序进行排列,ξ∈(0,1),表示0至1之间的随机数,每次使用ξ均会产生新的随机数,包括初始化种群位置、更新雄性蜣螂位置信息、计算自然因子、更新雌性蜣螂位置信息、更新沙丘蜣螂位置信息和计算沙丘噪声灵敏度。
进一步地,获取蜣螂种群的位置信息对应的奖励系数[Λ1,Λ2,...,Λj,...,ΛP],其中,Λj=[λ1,λ2,λ3,λ4]j表示第j个蜣螂个体位置信息对应的奖励系数。将获得的P个奖励系数分别作为步骤1搭建的DDPG网络模型中奖励函数的奖励系数,结合步骤1设置的训练参数,对P个DDPG网络进行训练,获得每个蜣螂个体对应的回合奖励集合
进一步地,根据式(11),计算每个蜣螂位置对应的适应度值,获取蜣螂个体的局部最优位置θ*、全局最优位置θM和全局最差位置θW。
进一步地,更新雄性蜣螂位置信息且j1为正整数:
其中,表示第j1只雄性蜣螂在第n次迭代时的位置信息,n∈[1,N]且n为正整数,θ(0)=0,ω表示雄性蜣螂的探索方向,为-π/2至π/2之间的随机数,tan(·)为正切函数,α为自然因子。
进一步地,更新雌性蜣螂位置信息且j2为正整数:
其中,表示第j2只雌性蜣螂在第n次迭代时的位置信息,L′表示雌性蜣螂位置探索下限,U′表示雌性蜣螂位置探索上限。
L′具体设计为:
U′具体设计为:
进一步地,考虑到沙丘噪声灵敏度能够提高个体全局搜索能力,更新沙丘蜣螂位置信息且j3为正整数:
其中,表示第j3只沙丘蜣螂在第n次迭代时的位置信息,c表示沙丘噪声灵敏度。
c具体设计为:
进一步地,考虑到萤火因子能够提高个体局部搜索能力,更新萤火蜣螂位置信息 且j4为正整数:
其中,表示第j4只萤火蜣螂在第n次迭代时的位置信息,γ表示萤火因子。
γ具体设计为:
进一步地,重复式(17)至式(24),迭代所有蜣螂个体位置信息,每迭代一次,便根据式(11)计算一次所有个体的适应度值,并更新θ*、θM和置θW,直至当前迭代次数到达最大迭代次数N时结束,得到全局最优位置θM及其对应的奖励系数ΛM。
进一步地,将ΛM作为模型中奖励函数的奖励系数,结合步骤1设置的训练参数,对DDPG网络进行最终训练,获得无人机从飞行状态到飞行动作端到端的决策映射。
步骤3包括:利用步骤2中训练好的DDPG网络,实时决策无人机飞行动作,形成航迹。
下面结合具体参数给出实施例:
结合图1,本发明包括以下步骤:
步骤1:对无人机航迹规划场景进行建模,设计无人机航迹规划模型的状态空间、动作空间、奖励函数以及网络训练参数,搭建DDPG网络。
步骤1.1:构建无人机航迹规划场景模型,初始化无人机与航迹规划的环境信息。
如图2所示,是无人机在场景坐标系下的飞行示意图,1是坐标系原点,2是坐标系的横轴X轴,3是坐标系的纵轴Y轴,4是坐标系的纵轴Z轴,5是无人机飞行速度方向v,6是无人机飞行的俯仰角7是无人机飞行的方向角无人机第一视线沿X轴方向,无人机所在平面垂直于Z轴。
在本场景中,无人机的质量m、水平过载hf、径向过载hp、传感器数量Q和无人机与环境威胁间的安全距离dissafe均为定值。目标在场景坐标系的位置信息(x′,y′,z′)和未知的环境威胁Γthreat,会在任意回合i中会发生变化。同时,无人机在场景坐标系的位置信息(x,y,z)、速度分量(vx,vy,vz)、飞行方向角飞行俯仰角以及行为角β等属性,也会在任意回合i中的任意时间步k中连续变化。
步骤1.2:根据无人机在环境中的运动信息,设置在第i个回合的第k个时间步,模型的状态为:
其中,[·]T为矩阵转置运算,dis0为无人机与目标之间的直线距离,μ为Q个传感器的射线长度,ρ为对μ的独热编码。
dis0具体设计为:
μ具体设计为:
μ=[μ1,μ2,...,μq,...,μQ] (27)
ρ具体设计为:
ρ=[ρ1,ρ2,...,ρq,...,ρQ] (28)
第q个传感器的独热编码ρq具体设计为:
其中,dishit为无人机与传感器探测点之间的距离,lasar为无人机可探测到的最大距离,q∈[1,Q]且q为正整数。
步骤1.3:根据无人机的加速度约束,设置模型的动作为:
其中,fForward为前倾力,表示无人机在X方向上受到的力。fRight为侧倾力,控制无人机在Y方向移动。fUp为起降力,使无人机沿Z方向进行垂直起降运动。fRotation为航向力,控制无人机沿Z轴旋转角度的变化。f∑表示前倾力、侧倾力、起降力和航向力的合力,Acc为无人机连续飞行过程中的最大加速度。
Acc具体设计为:
其中,max{·}为求取最大值,g为重力加速度,sin(·)和cos(·)分别表示正弦函数和余弦函数。
步骤1.4:评价无人机在状态中的动作表现,设置模型的奖励函数为:
其中,rdis为到达奖励,rangle为航偏奖励,robs为威胁奖励,rs为时间奖励,λ1、λ2、λ3和λ4分别为到达奖励、航偏奖励、威胁奖励和时间奖励的奖励系数,计为Λ=[λ1,λ2,λ3,λ4],λ1+λ2+λ3+λ4=4。
rdis具体设计为:
其中,d1为距离因子,在本示例中取1,nor(·)表示归一化处理。
rangle具体设计为:
其中,d2为航偏因子,在本示例中取0.05。
robs具体设计为:
其中,dissafe为无人机与威胁障碍物之间的安全距离,dismin为无人机与最近威胁之间的距离,d3为威胁因子,在本示例中取1。
rs具体设计为:
rs=-0.2·d4 (36)
其中d4为时间因子,在本示例中取1。
步骤1.5:利用步骤1.4每个时间步的奖励,设置回合奖励集合SRI为:
SRI=[R1,R2,...,Ri,...,RI] (37)
其中,Ri为第i个回合的回合奖励,具体设计为:
其中,K为第i个回合的时间步总数。
步骤1.6:结合步骤1.1至步骤1.4设置的训练场景和训练的状态空间、动作空间、奖励函数,搭建DDPG网络,其中的Actor网络和Critic网络,均为3层全连接网络结构,Actor网络的输入层为36个神经元,输出层为4个神经元,Critic网络的输入层为40个神经元,输出层为1个神经元。设置训练参数,包括Actor网络学习率ηactor,Critic网络学习率ηcritic,软更新系数ηsoft,折扣因子ηdis,记忆池尺寸χme,采集经验数据的批量尺寸χexp,训练回合数I,每个回合的时间步总数K。在本发明实施例中,奖励系数Λ的初始化值均为1,训练参数如下:ηactor=1×10-3,ηcritic=1×10-3,ηsoft=1×10-2,ηdis=0.99,χme=51200,χexp=256,I=10000,K=2000。
步骤2:本发明进一步设计改进蜣螂算法,对步骤1.4中的奖励系数Λ进行优化。改进蜣螂算法是在蜣螂算法的基础上,融合沙丘噪声灵敏度和萤火因子,改变种群位置更新机制,分别提高算法的全局性和局部性,得到最优系数组合,训练DDPG网络。
如图3所示,是本发明实施例一的改进蜣螂算法的示意图。
步骤2.1:设置改进蜣螂算法的适应度函数fitness:
其中,ir为收敛回合,ir∈[1,I]且ir为正整数,var为收敛方差,RM为最大回合奖励值。
ir具体设计为:
ir=index[RM-0.2·(RM-RW)] (40)
其中,RW为最小回合奖励值,index[R*]表示最接近R*的回合,R*∈[RW,RM]。
var具体设计为:
其中,Rτ表示第τ个回合的回合奖励。
RW具体设计为:
RW=min[SRI] (42)
其中,min[·]表示求取最小值。
RM具体设计为:
RM=max[SRI] (43)
步骤2.2:初始化改进蜣螂算法的种群参数及位置信息。设定最大迭代次数N,优化空间维数D,优化区间最小值L,优化区间最大值U,种群大小P,包括雄性蜣螂p1个、雌性蜣螂p2个、沙丘蜣螂p3个、萤火蜣螂p4个,P=p1+p2+p3+p4,初始化种群位置信息为:
θj=L+ξ·(U-L) (44)
其中,θj表示第j个蜣螂个体位置信息,j∈[1,P]且j为正整数,蜣螂个体按雄性蜣螂、雌性蜣螂、沙丘蜣螂、萤火蜣螂的顺序进行排列,ξ∈(0,1),表示0至1之间的随机数,每次使用ξ均会产生新的随机数,包括初始化种群位置、更新雄性蜣螂位置信息、计算自然因子、更新雌性蜣螂位置信息、更新沙丘蜣螂位置信息和计算沙丘噪声灵敏度。
步骤2.3:获取蜣螂种群的位置信息对应的奖励系数[Λ1,Λ2,...,Λj,...,ΛP],其中,Λj=[λ1,λ2,λ3,λ4]j表示第j个蜣螂个体位置信息对应的奖励系数。将其并行输入至P个步骤1中搭建的DDPG网络,进行训练,获得每个蜣螂个体对应的回合奖励集合根据步骤2.1,计算每个蜣螂位置对应的适应度值,获取蜣螂个体的局部最优位置θ*、全局最优位置θM和全局最差位置θW。
步骤2.4:更新雄性蜣螂位置信息且j1为正整数:
其中,表示第j1只雄性蜣螂在第n次迭代时的位置信息,n∈[1,N]且n为正整数,θ0)=0,ω表示雄性蜣螂的探索方向,为-π/2至π/2之间的随机数,tan(·)为正切函数,α为自然因子。
α具体设计为:
步骤2.5:更新雌性蜣螂位置信息且j2为正整数:
其中,表示第j2只雌性蜣螂在第n次迭代时的位置信息,L′表示雌性蜣螂位置探索下限,U′表示雌性蜣螂位置探索上限。
L′具体设计为:
U′具体设计为:
步骤2.6:更新沙丘蜣螂位置信息且j3为正整数:
其中,表示第j3只沙丘蜣螂在第n次迭代时的位置信息,c表示沙丘噪声灵敏度。
c具体设计为:
步骤2.7:更新萤火蜣螂位置信息且j4为正整数:
其中,表示第j4只萤火蜣螂在第n次迭代时的位置信息,γ表示萤火因子。
γ具体设计为:
步骤2.8:重复步骤2.3至步骤2.7,直至当前迭代次数到达最大迭代次数N时结束,得到全局最优位置θM及其对应的奖励系数ΛM。
步骤2.9:将ΛM作为步骤1.4中的奖励系数,结合步骤1.6设置的训练参数,对DDPG网络进行最终训练,获得无人机从飞行状态到飞行动作端到端的决策映射。
步骤3:利用步骤2.9中训练好的DDPG网络,实时决策无人机飞行动作,形成在线航迹规划方案。
步骤3.1:无人机获取自身和目标信息,根据步骤1.2,获取当前状态s。
步骤3.2:将获取的当前状态s,作为步骤2.9中训练好的DDPG网络的输入,利用其中的Actor在线网络,决策无人机飞行动作a。
步骤3.3:在无人机飞行中,实时执行步骤3.1和步骤3.2,实现每个时刻,无人机依据自身和目标信息,输出飞行的动作,完成航迹规划,形成最终航迹。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。本实施例中未明确的各组成部分均可用现有技术加以实现。
Claims (4)
1.一种无人机航迹规划方法,其特征在于,包括:
无人机获取自身和目标信息,获取每个时刻状态s,将每个时刻状态s分别输入至预先训练好的DDPG网络,所述DDPG网络包括Actor网络和Critic网络,利用Actor在线网络决策每个时刻无人机飞行动作a,形成最终航迹;所述DDPG网络的训练过程包括:
步骤1:对无人机航迹规划场景进行建模,设计无人机航迹规划模型的状态空间、动作空间、奖励函数以及网络训练参数,所述网络训练参数包括Actor网络学习率ηactor,Critic网络学习率ηcritic,软更新系数ηsoft,折扣因子ηdis,记忆池尺寸χme,采集经验数据的批量尺寸χexp,训练回合数I,每个回合的时间步总数;所述奖励函数为:
其中,rdis为到达奖励,rangle为航偏奖励,robs为威胁奖励,rs为时间奖励,λ1、λ2、λ3和λ4分别为到达奖励、航偏奖励、威胁奖励和时间奖励的奖励系数,计为Λ=[λ1,λ2,λ3,λ4],λ1+λ2+λ3+λ4=4,其中:
rs=-0.2·d4
其中,d1为距离因子,nor(·)表示归一化处理,d2为航偏因子,dissafe为无人机与威胁障碍物之间的安全距离,dismin为无人机与最近威胁之间的距离,d3为威胁因子,d4为时间因子;
设置回合奖励集合SRI:
SRI=[R1,R2,...,Ri,...,RI]
其中,为第i个回合的回合奖励;
步骤2:采用融合沙丘噪声灵敏度和萤火因子的改进蜣螂算法优化步骤1中奖励函数的各项奖励系数,获取最优系数组合,根据最优系数组合和网络训练参数对DDPG网络进行训练,获得无人机从飞行状态到飞行动作端到端的决策映射。
2.根据权利要求1所述的一种无人机航迹规划方法,其特征在于:步骤1所述状态空间为:
其中,(x,y,z)为无人机在场景坐标系的位置信息,(x′,y′,z′)为目标在场景坐标系的位置信息,(vx,vy,vz)为速度分量,β为行为角,为无人机与目标之间的直线距离,μ=[μ1,μ2,...,μq,...,μQ]为Q个传感器的射线长度,ρ=[ρ1,ρ2,...,ρq,...,ρQ]为对μ的独热编码;第q个传感器的独热编码ρq为:其中,dishit为无人机与传感器探测点之间的距离,lasar为无人机可探测到的最大距离,q∈[1,Q]且q为正整数。
3.根据权利要求1所述的一种无人机航迹规划方法,其特征在于:步骤1所述动作空间为:
其中,fForward为前倾力,表示无人机在X方向上受到的力,fRight为侧倾力,控制无人机在Y方向移动,fUp为起降力,使无人机沿Z方向进行垂直起降运动,fRotation为航向力,控制无人机沿Z轴旋转角度的变化,f∑表示前倾力、侧倾力、起降力和航向力的合力,为无人机连续飞行过程中的最大加速度,max{·}为求取最大值,g为重力加速度,hf为水平过载、hp为径向过载,m为无人机的质量。
4.根据权利要求1所述的一种无人机航迹规划方法,其特征在于:步骤2所述采用融合沙丘噪声灵敏度和萤火因子的改进蜣螂算法优化步骤1中奖励函数的各项奖励系数,获取最优系数组合包括:
步骤2.1、设置改进蜣螂算法的适应度函数fitness为:
其中,ir为收敛回合,ir∈[1,I]且ir为正整数,var为收敛方差,RM为最大回合奖励值;
ir=index[RM-0.2·(RM-RW)]
其中,RW为最小回合奖励值,index[R*]表示最接近R*的回合,R*∈[RW,RM];
其中,Rτ表示第τ个回合的回合奖励;
RW=min[SRI]
RM=max[SRI]
其中,min[·]表示求取最小值,max[·]表示求取最大值,SRI为回合奖励集合;
步骤2.2、设定最大迭代次数N,优化空间维数D,优化区间最小值L,优化区间最大值U,种群大小P,包括雄性蜣螂p1个、雌性蜣螂p2个、沙丘蜣螂p3个、萤火蜣螂p4个,P=p1+p2+p3+p4,初始化种群位置信息为:
θj=L+ξ·(U-L)
其中,θj表示第j个蜣螂个体位置信息,j∈[1,P]且j为正整数,蜣螂个体按雄性蜣螂、雌性蜣螂、沙丘蜣螂、萤火蜣螂的顺序进行排列,ξ∈(0,1),表示0至1之间的随机数,每次使用ξ均会产生新的随机数;
步骤2.3、获取蜣螂种群的位置信息对应的奖励系数[Λ1,Λ2,...,Λj,...,ΛP],其中,Aj=[λ1,λ2,λ3,λ4]j表示第j个蜣螂个体位置信息对应的奖励系数,将其并行输入至P个步骤1中搭建的DDPG网络,讲行训练,获得每个蜣螂个体对应的回合奖励集合根据步骤2.1,计算每个蜣螂位置对应的适应度值,获取蜣螂个体的局部最优位置θ*、全局最优位置θM和全局最差位置θW;
步骤2.4、更新雄性蜣螂位置信息j1∈[1,p1]且j1为正整数:
其中,表示第j1只雄性蜣螂在第n次迭代时的位置信息,n∈[1,N]且n为正整数,θ(0)=0,ω表示雄性蜣螂的探索方向,为-π/2至π/2之间的随机数,tan(·)为正切函数,α为自然因子:
步骤2.5、更新雌性蜣螂位置信息且j2为正整数:
其中,表示第j2只雌性蜣螂在第n次迭代时的位置信息,L′表示雌性蜣螂位置探索下限,U′表示雌性蜣螂位置探索上限:
步骤2.6、更新沙丘蜣螂位置信息且j3为正整数:
其中,表示第j3只沙丘蜣螂在第n次迭代时的位置信息,表示沙丘噪声灵敏度;
步骤2.7、更新萤火蜣螂位置信息且j4为正整数:
其中,表示第j4只萤火蜣螂在第n次迭代时的位置信息,表示萤火因子;
步骤2.8、重复步骤2.3至步骤2.7,直至当前迭代次数到达最大迭代次数N时结束,得到全局最优位置θM及其对应的奖励系数ΛM。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310631500.4A CN116698037B (zh) | 2023-05-31 | 2023-05-31 | 一种无人机航迹规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310631500.4A CN116698037B (zh) | 2023-05-31 | 2023-05-31 | 一种无人机航迹规划方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116698037A true CN116698037A (zh) | 2023-09-05 |
CN116698037B CN116698037B (zh) | 2024-03-26 |
Family
ID=87838559
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310631500.4A Active CN116698037B (zh) | 2023-05-31 | 2023-05-31 | 一种无人机航迹规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116698037B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117928559A (zh) * | 2024-01-26 | 2024-04-26 | 兰州理工大学 | 一种基于强化学习的威胁规避下无人机路径规划方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108122279A (zh) * | 2017-12-11 | 2018-06-05 | 山东理工大学 | 模仿神农洁蜣螂沙丘状凸包设计凹坑型仿生犁壁的方法 |
CN113268074A (zh) * | 2021-06-07 | 2021-08-17 | 哈尔滨工程大学 | 一种基于联合优化的无人机航迹规划方法 |
CN115953104A (zh) * | 2023-03-10 | 2023-04-11 | 南京邮电大学 | 一种基于蜣螂优化算法的混合车队调度方法 |
-
2023
- 2023-05-31 CN CN202310631500.4A patent/CN116698037B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108122279A (zh) * | 2017-12-11 | 2018-06-05 | 山东理工大学 | 模仿神农洁蜣螂沙丘状凸包设计凹坑型仿生犁壁的方法 |
CN113268074A (zh) * | 2021-06-07 | 2021-08-17 | 哈尔滨工程大学 | 一种基于联合优化的无人机航迹规划方法 |
CN115953104A (zh) * | 2023-03-10 | 2023-04-11 | 南京邮电大学 | 一种基于蜣螂优化算法的混合车队调度方法 |
Non-Patent Citations (2)
Title |
---|
JIANKAI XUE, BO SHEN: "Dung beetle optimizer: a new meta‑heuristic algorithm for global optimization", THE JOURNAL OF SUPERCOMPUTING, 27 November 2022 (2022-11-27), pages 7305 - 7336 * |
高敬鹏,胡欣瑜,江志烨: "改进DDPG无人机航迹规划算法", 计算机工程与应用, vol. 58, no. 8, 10 September 2021 (2021-09-10), pages 264 - 272 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117928559A (zh) * | 2024-01-26 | 2024-04-26 | 兰州理工大学 | 一种基于强化学习的威胁规避下无人机路径规划方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116698037B (zh) | 2024-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Huang et al. | Multi-model cooperative task assignment and path planning of multiple UCAV formation | |
CN113589842A (zh) | 一种基于多智能体强化学习的无人集群任务协同方法 | |
CN109144102A (zh) | 一种基于改进蝙蝠算法的无人机航路规划方法 | |
CN116698037B (zh) | 一种无人机航迹规划方法 | |
CN113268074B (zh) | 一种基于联合优化的无人机航迹规划方法 | |
CN112484732B (zh) | 一种基于ib-abc算法的无人机飞行路径规划方法 | |
CN116501086B (zh) | 一种基于强化学习的飞行器自主规避决策方法 | |
CN113848974A (zh) | 一种基于深度强化学习的飞行器轨迹规划方法及系统 | |
CN116679719A (zh) | 基于动态窗口法与近端策略的无人车自适应路径规划方法 | |
CN111027627A (zh) | 一种基于多层感知机的振动信息地形分类识别方法 | |
CN116804879A (zh) | 一种改进蜣螂算法融合dwa算法的机器人路径规划框架方法 | |
Liang et al. | Multi-UAV autonomous collision avoidance based on PPO-GIC algorithm with CNN–LSTM fusion network | |
Zijian et al. | Imaginary filtered hindsight experience replay for UAV tracking dynamic targets in large-scale unknown environments | |
CN113391633A (zh) | 一种面向城市环境的移动机器人融合路径规划方法 | |
CN116661503A (zh) | 一种基于多智能体安全强化学习的集群航迹自动规划方法 | |
Gong et al. | Optimized layout methods based on optimization algorithms for DPOS | |
Kong et al. | Multi-UAV simultaneous target assignment and path planning based on deep reinforcement learning in dynamic multiple obstacles environments | |
Zhang et al. | Design of the fruit fly optimization algorithm based path planner for UAV in 3D environments | |
CN117908565A (zh) | 基于最大熵多智能体强化学习的无人机安全路径规划方法 | |
CN117784812A (zh) | 基于进化引导深度强化学习的无人机自主飞行决策方法 | |
CN116203987A (zh) | 一种基于深度强化学习的无人机集群协同避障方法 | |
d’Apolito et al. | Flight control of a multicopter using reinforcement learning | |
Zhao et al. | Stochastic heuristic algorithms for multi-UAV cooperative path planning | |
Yu et al. | Longitudinal wind field prediction based on DDPG | |
CN113359852B (zh) | 一种仿原鸽个体属性智能行为的无人机集群协同控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |