CN116700327A - 一种基于连续动作优势函数学习的无人机轨迹规划方法 - Google Patents
一种基于连续动作优势函数学习的无人机轨迹规划方法 Download PDFInfo
- Publication number
- CN116700327A CN116700327A CN202310612411.5A CN202310612411A CN116700327A CN 116700327 A CN116700327 A CN 116700327A CN 202310612411 A CN202310612411 A CN 202310612411A CN 116700327 A CN116700327 A CN 116700327A
- Authority
- CN
- China
- Prior art keywords
- network
- unmanned aerial
- aerial vehicle
- strategy
- evaluation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000006870 function Effects 0.000 title claims abstract description 81
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000009471 action Effects 0.000 title claims abstract description 22
- 238000011156 evaluation Methods 0.000 claims abstract description 72
- 230000014509 gene expression Effects 0.000 claims abstract description 22
- 238000012546 transfer Methods 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 17
- 230000008569 process Effects 0.000 claims abstract description 15
- 238000013528 artificial neural network Methods 0.000 claims description 23
- 239000010410 layer Substances 0.000 claims description 20
- 238000005457 optimization Methods 0.000 claims description 19
- 230000002787 reinforcement Effects 0.000 claims description 19
- 239000002356 single layer Substances 0.000 claims description 15
- 230000004913 activation Effects 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 8
- 230000007704 transition Effects 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000013459 approach Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000006855 networking Effects 0.000 claims description 3
- 230000001360 synchronised effect Effects 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 240000007124 Brassica oleracea Species 0.000 description 1
- 238000000342 Monte Carlo simulation Methods 0.000 description 1
- 102100040653 Tryptophan 2,3-dioxygenase Human genes 0.000 description 1
- 101710136122 Tryptophan 2,3-dioxygenase Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012812 general test Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明公开了一种基于连续动作优势函数学习的无人机轨迹规划方法,属于机器人智能决策与控制领域;首先构建无人机轨迹规划的马尔科夫决策过程模型,分别得到无人机轨迹规划的状态变量,控制变量,转移模型,损失函数的表达式;然后建立策略网络和评价网络;再通过连续动作优势函数学习在无人机每前进一步后训练更新策略网络和评价网络,直至二者收敛;最终得到用于无人机轨迹规划的策略网络。本发明在无人机动力学模型与所处环境完全未知的情况下实现无人机的轨迹规划,使其以最短时间抵达预定目标,具有很高的实用价值。
Description
技术领域
本发明涉及一种基于连续优势函数学习的无人机轨迹规划方法,属于机器人智能决策与控制技术领域。
背景技术
随着社会的发展和科技的进步,无人机在军用和民用场景中的应用日益丰富。但现有无人机大多仍以预编程或遥控模式工作,需要人在环路控制,限制了无人机的应用范围。无人机的任务步骤包括三项:环境感知、轨迹规划、底层控制,其中轨迹规划的智能性是体现无人机智能性的关键步骤。
无人机常用的轨迹规划方法大致可分为三大类:基于图搜索、基于随机采样和基于优化问题求解。基于图搜索的典型方法包括Dijkstra算法和A*算法等,其基本步骤是将无人机工作空间的地图构建为一个包括节点和边的图,然后进行路径搜索,即更新一个访问节点的序列,循环“移除节点、扩展节点、塞入节点”三个步骤,直至抵达终点。基于随机采样的典型方法包括单查询的概率路图算法(Probabilistic Road Map,PRM)、快速随机扩展树算法(Rapidly-exploring Random Tree,RRT)等,该类方法不需要遍历无人机工作空间的整个地图,而是在状态空间中均匀随机采样,从而构建一个连通图并检测碰撞等,直到初始点和终止点都出现在图中。与基于图搜索的方法相比,基于随机采样的方法规划效率更高。
实际应用中,无人记得轨迹规划需要考虑其动力学、能量消耗、外部威胁等多重约束及不同目标。而以上两种方法几乎未考虑无人机的动力学约束,而仅偏重于无人机的路径规划。针对此问题,现有研究常采用基于优化方法中的最优控制进行解析或数值求解。但对于具有非线性、耦合和不确定动力学的无人机,基于优化求解的方法也面临诸多挑战。为了应对这一挑战,近年来无模型强化学习(RL)得到了广泛的发展,这是一种不需要无人机动力学先验知识的通用决策框架。通过无人机与环境之间的交互,可以学习到最优策略,而RL算法可以分为值函数法、策略法和演员-评论家法三类。
Q学习算法及其扩展,深度Q学习算法,是值函数型强化学习(RL)算法中的典型代表,其从值函数中推导出策略。此外,值函数型强化学习算法主要应用于具有小且离散动作空间的马尔科夫决策过程(Markov Decision Process,MDP)。然而,在现实世界中的场景中,需要使用离散化技术,从而使得学习最优策略变得困难。相比之下,策略型强化学习算法不需要值函数,可以直接学习连续策略。然而,这些算法可能效率低下且难以实施,尤其是在使用难以处理的策略梯度时。结合这两种类型的算法,演员-评论家强化学习算法可以克服它们的缺点,其中演员估计在给定状态下采取的策略,评论家近似值函数以评估当前策略。
用于连续动作空间的演员-评论家强化学习算法大致可分为两类:基于TD误差的方法和基于策略梯度的方法。基于TD误差的方法,如DDPG、TD3、SAC等主要通过贝尔曼方程更新得到最优动作-值函数估计。该类方法样本效率较高,但会引入偏差。基于策略梯度的方法,如TRPO、PPO等,往往采用蒙特卡罗方法估计值函数以降低偏差,因而具有更好的收敛性保证,但会牺牲一定的样本效率。
无人机时间最小轨迹规划问题具有较大的挑战性。在该任务中,无人机的动力学模型具有其非线性、耦合和不确定的动力学性质。对于该问题,使用优化问题进行数值求解需要极大的计算量,在强化学习框架下则具有奖励稀疏的难点,因此有待进一步研究解决。
发明内容
有鉴于此,本发明的目的是提供一种基于连续动作优势函数学习的无人机轨迹规划方法,不依赖无人机动力学模型,仅以无人机位置及目标位置作为神经网络输入,以无人机角速度的控制指令为输出,训练得到无人机轨迹规划策略网络,使无人机在最短时间内抵达预定目标位置。
一种基于连续动作优势函数学习的无人机轨迹规划方法,包括:
步骤1)、构建无人机的最短时间轨迹优化问题,包括确定目标函数和约束条件:
1-1)确定目标函数;
无人机的最短时间轨迹优化问题的目标函数J的表达式为:
其中,表示求均值算子,rk表示无人机的奖励函数,k表示状态转移的第k步,kf为终点步数,uk≥1表示步数k≥1的无人机控制输入序列,γ表示对未来损失的权重的衰减因子,0<γ<1;
1-2)无人机的轨迹优化问题的约束条件的表达式为:
sk+1=g(sk,ak),k=1,…,kf,kf为终点步数;
其中,sk和sk+1分别为无人机在第k步和第k+1步的状态向量,ak表示第k步的控制变量,函数g(·,·)表示无人机的动力学模型,即转移模型;
步骤2)、根据步骤1)构建的无人机的最短时间轨迹优化问题,建立无人机轨迹规划的马尔科夫决策过程模型;
马尔科夫决策过程模型由一个四元组表示,即状态变量、控制变量、转移模型、损失函数,构建的具体步骤如下:
2-1)确定状态变量;
在无人机所在高度建立平面直角坐标系,以其初始位置为原点,状态变量sk表达式为:
sk=[ρk,θk,ψk,f(pk,k)]T
其中,pk=(ρk,θk,ψk)表示无人机在当前第k步的球坐标位置,f(Pk,k)表示无人机在当前第k步所获知的障碍信息表示;
2-2)确定控制变量;
控制变量表达式为无人机的航向角速度ak=[ωk,φk]T,即(θk,ψk)随时间的变化率;
2-3)转移模型的表达式为:
sk+1=g(sk,ak);
该转移模型表示在给定当前k步状态变量与控制变量,返回下一时刻的状态变量;
2-4)确定损失函数;
损失函数用于评价无人机状态sk下执行控制变量ak的效果,表达式为:
其中,ρ,λ分别表示各项的权重系数;
Δd(k)=||(xk-xr,yk-yr,zk-zr)′||-||(xk-1-xr,yk-1-yr,zk-1-zr)′||,
rs(k)=1/||(xk-xo,yk-yo,zk-zo)′||
其中,“′”表示转置;(xk,yk,zk)为无人机当前球坐标位置pk在平面直角坐标系下的表示,(xr,yr,zr)为直角坐标系下无人机的目标位置;(xo,yo,zo)为直角坐标系下的障碍坐标,当无人机靠近至障碍一定范围内,指示函数取值1;设奖励量rk为负的损失函数,即rk=-c(sk,ak);
步骤3)、设计强化学习求解算法并训练规划策略;
3-1)构建包括评价网络和策略网络的强化学习神经网络;
评价网络与策略网络共享一个两层的全连接网络,采用ReLU激活函数;两层全连接网络之后分出两个分支,其中一个分支连接单层全连接网络,连同两层全连接网络构成评价网络,该单层全连接网络采用Identity激活函数;另一个分支也连接单层全连接网络,连同两层全连接网络构成策略网络,该单层全连接网络采用Tanh激活函数;
评价网络:使用ωs,ωc参数化评价网络V(sk|ωs,ωc),ωs表示与策略网络共享的权重参数,ωc表示评价网络独有的权重参数;评价网络V(sk|ωs,ωc)的输入为状态变量sk,输出为累计奖励量,累计奖励量的函数表达式如下:
策略网络:采用ωs,ωa参数化一个策略网络ωs表示与评价网络共享的权重参数;ωa表示策略网络独有的权重参数。策略网络的输入为状态变量sk,直接输出为动作均值μ(sk|ωs,ωa)和协方差矩阵L(sk|ωs,ωa),由此构造控制变量ak,表示为:
其中,ak由均值为μ(sk|ωs,ωa),协方差为∑(sk|ωs,ωc)的多维高斯分布采样得到;∑(sk|ωs,ωc)=L(sk|ωs,ωa)L(sk|ωs,ωa)T;
3-2)更新评价网络的方法是最小化如下贝尔曼残差:
其中,ωs,ωa,ωc分别为共享层参数、策略网络参数和评价网络参数。D为存储历史数据(sk,ak,c(sk,ak),sk+1)的回放记忆;(sk,ak)~D表示sk,ak为D中提取的数据;C(ωs,ωa,ωc)表示与目标神经网络的TD误差表达式:
C(ωs,ωa,ωc)=rk+1+γV′(sk+1|ωs,ωc)-V(sk|ωs,ωc)-A(sk,ak|ωs,ωc)
Y(sk,ak)=L-1(sk|ωs,ωc)(ak-μ(sk|ωs,ωa))
其中,目标神经网络与当前的强化学习神经网络结构相同,其参数更新较当前网络有延迟,评价网络和策略网络也对应有自己的目标网络;V′(sk+1|ωs,ωc)为目标评价网络输出的累计奖励量;A(sk,ak|ωs,ωc)表示无人机在当前状态下采取当前动作相较于其他动作的优势函数估计,采用二次型的形式近似,Y(sk,ak)是优势函数A(sk,ak|ωs,ωc)计算过程的中间变量,V(sk|ωs,ωc)由评价网络输出得到;
步骤4)、得到无人机最短时间轨迹规划的具体步骤如下:
4-1)参数设置;
设置评价网络和策略网络的最大训练次数M,每次训练的最大更新步数T,经验回放抽取的训练集大小N,目标神经网络的追踪比率β,评价网络与策略网络的同步更新学习率为α,衰减因子为γ;
4-2)初始化;
共享部分层数的评价网络和策略网络的权重参数初始值均为0;将初始化后的策略网络记为当前策略网络将初始化后的评价网络记为当前评价网络V(sk|ωs,ωc);
设空的经验队列集合D;
4-3)迭代开始,令初始化迭代次数为m=1;
4-4)初始化时刻为k=0,初始化无人机当前位置,、障碍位置和目标位置;
4-5)使用当前策略网络生成k时刻控制变量;输入控制变量ak与状态sk,无人机通过转移模型返回下一时刻状态变量sk+1,利用奖励函数计算该步转移的奖励rk+1;
4-6)将步骤4-4)至4-5)得到的数据记为一个经验样本dk=(sk,ak,rk+1,sk+1),存入经验队列D;
4-7)统计经验队列D中的经验样本个数设为ND并判定:若ND≤N,则转到步骤4-5);若NR>N,则进入步骤4-8);
4-8)从经验队列D中随机抽取N个经验样本d1,d2,...,dN;利用每个经验样本计算一个C(ωs,ωa,ωc)的值,第i个值定义为Ci(ωs,ωa,ωc);
4-9)使用
更新评价网络和策略网络的权重参数ωs,ωa,ωc;
使用更新目标神经网络的权重参数/>使用m+1更新训练次数m;
并将更新后的评价网络及策略网络记为新的评价网络及新的策略网络;
4-10)判定:若k>T或无人机当前状态满足设定的终止条件,则进入步骤4-11),否则返回步骤4-5),并使用k+1更新步数k;
4-11)进行判定:若m<M,则重新返回步骤4-4),无人机再一次进行初始化并开始新一次的轨迹规划任务;否则迭代结束,将迭代终止时的当前策略网络作为最终的策略网络,记为/>将状态变量输入最终策略/>输出控制变量得到无人机最短时间轨迹。
较佳的,所述4-10)中,设定的终止条件为无人机到达期望位置的距离小于设定阈值ξp。
本发明具有如下有益效果:
1)本发明提出一种基于连续动作优势函数学习的无人机轨迹规划方法,属于机器人智能决策与控制领域。首先构建无人机轨迹规划的马尔科夫决策过程模型,分别得到无人机轨迹规划的状态变量,控制变量,转移模型,损失函数的表达式;然后建立策略网络和评价网络;再通过连续动作优势函数学习在无人机每前进一步后训练更新策略网络和评价网络,直至二者收敛;最终得到用于无人机轨迹规划的策略网络。本发明在无人机动力学模型与所处环境完全未知的情况下实现无人机的轨迹规划,使其以最短时间抵达预定目标,具有很高的实用价值。
2)本发明在无人机模型未知的条件下实现轨迹规划。策略梯度更新方法通过无人机轨迹及传感信息的采样数据,自主学习出最优的评价网络与策略网络,该过程中不需要无人机模型的任何假设与参数,仅在马尔可夫决策过程的建模时对根据所需目标进行奖励函数设计。
3)本发明的方法将确定性策略梯度理论与人工神经网络相结合,设计了共享层数的评价网络和策略网络。评价网络用于拟合强化学习中的值函数(V函数),策略网络在给定状态生成相应的控制策略。利用神经网络的非线性拟合能力,使得在无人机模型及复杂的障碍环境未知的情况下,仍可学习到理想的轨迹规划策略。本发明通过二次型的优势函数估计及Dueling架构,很好的解决了连续动作空间极值难以求解的问题。
4)本发明的方法的可拓展性强。本发明的方法针对宽泛的无人机目标跟踪、轨迹跟踪任务设计轨迹规划方法,对实施环境不存在先验假设,只需要重新设定状态变量、控制输入以及损失函数,即可拓展于无人机在不同环境的轨迹规划任务。
附图说明
图1为本发明实施例中无人机三维平面内模型示意图。
图2为本发明实施例中本发明共享评价策略网络示意图。
图3为本发明实施例中连续动作优势函数学习架构示意图。
图4(a)、4(b)、4(c)、4(d)分别为本发明实施例中连续动作优势函数学习强化学习算法在4种通用测试环境中的学习情况示意图。
图5(a)、5(b)、5(c)分别为本发明实施例中深度连续动作优势函数学习强化学习算法在轨迹规划环境中的平均累积奖励、平均完成时间以及贝尔曼损失的变化示意图。
图6(a)、6(b)、6(c)、6(d)分别为本发明实施例中无人机在四个不同目标点的规划轨迹示意图。
具体实施方式
下面结合附图并举实施例,对本发明进行详细描述。
本发明提出的一种基于连续动作优势函数学习的无人机轨迹规划方法,该方法无需无人机动力学模型,只需要无人机与环境不断交互即可训练得轨迹规划策略,包括以下步骤:
步骤1)、构建无人机的最短时间轨迹优化问题;
无人机的最短时间轨迹优化问题中包括确定目标函数和约束条件。
1-1)确定目标函数;
无人机的最短时间轨迹优化问题的目标函数J的表达式为:
其中,表示求均值算子,rk表示无人机的奖励函数,k表示状态转移的第k步,kf为终点步数,uk≥1表示步数k≥1的无人机控制输入序列,γ表示对未来损失的权重的衰减因子,0<γ<1;
1-2)确定约束条件;
无人机的轨迹优化问题的约束条件的表达式为:
sk+1=g(sk,ak),k=1,...,kf,kf为终点步数;
其中,sk和sk+1分别为无人机在第k步和第k+1步的状态向量,ak表示第k步的控制变量,函数g(·,·)表示无人机的动力学模型,即转移模型。
步骤2)、根据步骤1)构建的无人机的最短时间轨迹优化问题,建立无人机轨迹规划的马尔科夫决策过程模型;
马尔科夫决策过程模型由一个四元组表示,即状态变量、控制变量、转移模型、损失函数;构建的具体步骤如下:
2-1)确定状态变量;
本发明面向无人机最短时间轨迹规划任务,故在无人机所在高度建立平面直角坐标系,以其初始位置为原点,状态变量sk表达式为:
sk=[ρk,θk,ψk,f(pk,k)]T
其中,pk=(ρk,θk,ψk)表示无人机在当前第k步的球坐标位置,f(pk,k)表示无人机在当前第k步所获知的障碍信息表示;
2-2)确定控制变量;
控制变量表达式为无人机的航向角速度ak=[ωk,φk]T,即(θk,ψk)随时间的变化率;
2-3)确定转移模型;
转移模型的表达式为:
sk+1=g(sk,ak),
该转移模型表示在给定当前k步状态变量与控制变量,返回下一时刻的状态变量;
2-4)确定损失函数;
损失函数用于评价无人机状态sk下执行控制变量ak的效果,表达式为:
其中,ρ,λ分别表示各项的权重系数;
Δd(k)=||(xk-xr,yk-yr,zk-zr)′||-||(xk-1-xr,yk-1-yr,zk-1-zr)′||,
rs(k)=1/||(xk-xo,yk-yo,zk-zo)′||
其中,“′”表示转置;(xk,yk,zk)为无人机当前球坐标位置pk在上述平面直角坐标系下的表示,(xr,yr,zr)为直角坐标系下无人机的目标位置;(xo,yo,zo)为直角坐标系下的障碍坐标,当无人机靠近至障碍一定范围内,指示函数取值1。设奖励量rk为负的损失函数,即rk=--c(sk,ak);
步骤3)、设计强化学习求解算法并训练规划策略;
3-1)构建包括评价网络和策略网络的强化学习神经网络;
评价网络与策略网络共享一个两层的全连接网络,采用ReLU激活函数;两层全连接网络之后分出两个分支,其中一个分支连接单层全连接网络,连同两层全连接网络构成评价网络,该单层全连接网络采用Identity激活函数;另一个分支也连接单层全连接网络,连同两层全连接网络构成策略网络,该单层全连接网络采用Tanh激活函数;
评价网络:使用ωs,ωc参数化评价网络V(sk|ωs,ωc),ωs表示与策略网络共享的权重参数,ωc表示评价网络独有的权重参数;评价网络V(sk|ωs,ωc)的输入为状态变量sk,输出为累计奖励量,累计奖励量的函数表达式如下:
策略网络:采用ωs,ωa参数化一个策略网络ωs表示与评价网络共享的权重参数;ωa表示策略网络独有的权重参数。策略网络的输入为状态变量sk,直接输出为动作均值μ(sk|ωs,ωa)和协方差矩阵L(sk|ωs,ωa),由此构造控制变量ak,表示为:
其中,ak由均值为μ(sk|ωs,ωa),协方差为∑(sk|ωs,ωc)的多维高斯分布采样得到;∑(sk|ωs,ωc)=L(sk|ωs,ωa)L(sk|ωs,ωa)T,其正定性由科列斯基分解保证。
3-2)更新评价网络的方法是最小化如下贝尔曼残差:
其中,ωs,ωa,ωc分别为共享层参数、策略网络参数和评价网络参数。D为存储历史数据(sk,ak,c(sk,ak),sk+1)的回放记忆;(sk,ak)~D表示sk,ak为D中提取的数据;C(ωs,ωa,ωc)表示与目标神经网络的TD误差表达式:
C(ωs,ωa,ωc)=rk+1+γV′(sk+1|ωs,ωc)-V(sk|ωs,ωc)-A(sk,ak|ωs,ωc)
Y(sk,ak)=L-1(sk|ωs,ωc)(ak-μ(sk|ωs,ωa))
其中,目标神经网络与当前的强化学习神经网络结构相同,其参数更新较当前网络有延迟,评价网络和策略网络也对应有自已的目标网络;V′(sk+1|ωs,ωc)为目标评价网络输出的累计奖励量。A(sk,ak|ωs,ωc)表示无人机在当前状态下采取当前动作相较于其他动作的优势函数估计,采用二次型的形式近似,Y(sk,ak)是优势函数A(sk,ak|ωs,ωc)计算过程的中间变量,V(sk|ωs,ωc)由评价网络输出得到;
步骤4)、得到无人机最短时间轨迹规划的具体步骤如下:
4-1)参数设置;
令评价网络和策略网络的最大训练次数M=100000,每次训练的最大更新步数T=1000,经验回放抽取的训练集大小N=80,目标神经网络的追踪比率β=0.995,评价网络与策略网络的同步更新学习率为α=0.001,衰减因子为γ=0.99;
4-2)初始化;
共享部分层数的评价网络和策略网络的权重参数初始值均为0;将初始化后的策略网络记为当前策略网络将初始化后的评价网络记为当前评价网络V(sk|ωs,ωc);
设空的经验队列集合D,并设置集合大小为100万;
4-3)迭代开始,令初始化迭代次数为m=1;
4-4)初始化时刻为k=0,初始化无人机当前位置pk,、障碍位置po和目标位置pr;
4-5)使用当前策略网络生成k时刻控制变量;输入控制变量ak与状态sk,无人机通过转移模型返回下一时刻状态变量sk+1,利用奖励函数计算该步转移的奖励rk+1;
4-6)将步骤4-4)至4-5)得到的数据记为一个经验样本dk=(sk,ak,rk+1,sk+1),存入经验队列D;
4-7)统计经验队列D中的经验样本个数设为ND并判定:若ND≤N,则转到步骤4-5);若NR>N,则进入步骤4-8);
4-8)从经验队列D中随机抽取N个经验样本d1,d2,...,dN;利用每个经验样本计算一个C(ωs,ωa,ωc)的值,第i个值定义为Ci(ωs,ωa,ωc);
4-9)使用
更新评价网络和策略网络的权重参数ωs,ωa,ωc;
使用更新目标神经网络的权重参数/>使用m+1更新训练次数m;
并将更新后的评价网络及策略网络记为新的评价网络及新的策略网络;
4-10)判定:若k>T或无人机当前状态满足终止条件||p(k)-pd||≤ξp,即无人机到达期望位置的距离小于阈值ξp,则进入步骤4-11),否则返回步骤4-5),并使用k+1更新步数k;
4-11)进行判定:若m<M,则重新返回步骤4-4),无人机再一次进行初始化并开始新一次的轨迹规划任务;否则迭代结束,将迭代终止时的当前策略网络作为最终的策略网络,记为/>将状态变量输入最终策略/>输出控制变量得到无人机最短时间轨迹。
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (2)
1.一种基于连续动作优势函数学习的无人机轨迹规划方法,其特征在于,包括:
步骤1)、构建无人机的最短时间轨迹优化问题,包括确定目标函数和约束条件:
1-1)确定目标函数;
无人机的最短时间轨迹优化问题的目标函数J的表达式为:
其中,表示求均值算子,rk表示无人机的奖励函数,k表示状态转移的第k步,kf为终点步数,uk≥1表示步数k≥1的无人机控制输入序列,γ表示对未来损失的权重的衰减因子,0<γ<1;
1-2)无人机的轨迹优化问题的约束条件的表达式为:
sk+1=g(sk,ak),k=1,…,kf,kf为终点步数;
其中,sk和sk+1分别为无人机在第k步和第k+1步的状态向量,ak表示第k步的控制变量,函数g(·,·)表示无人机的动力学模型,即转移模型;
步骤2)、根据步骤1)构建的无人机的最短时间轨迹优化问题,建立无人机轨迹规划的马尔科夫决策过程模型;
马尔科夫决策过程模型由一个四元组表示,即状态变量、控制变量、转移模型、损失函数,构建的具体步骤如下:
2-1)确定状态变量;
在无人机所在高度建立平面直角坐标系,以其初始位置为原点,状态变量sk表达式为:
sk=[ρk,θk,ψk,f(pk,k)]T
其中,pk=(ρk,θk,ψk)表示无人机在当前第k步的球坐标位置,f(pk,k)表示无人机在当前第k步所获知的障碍信息表示;
2-2)确定控制变量;
控制变量表达式为无人机的航向角速度ak=[ωk,φk]T,即(θk,ψk)随时间的变化率;
2-3)转移模型的表达式为:
sk+1=g(sk,ak);
该转移模型表示在给定当前k步状态变量与控制变量,返回下一时刻的状态变量;
2-4)确定损失函数;
损失函数用于评价无人机状态sk下执行控制变量ak的效果,表达式为:
其中,ρ,λ分别表示各项的权重系数;
Δd(k)=‖(xk-xr,yk-yr,zk-zr)′‖-‖(xk-1-xr,yk-1-yr,zk-1-zr)′‖,
rs(k)=1/‖(xk-xo,yk-yo,zk-zo)′‖
其中,“′”表示转置;(xk,yk,zk)为无人机当前球坐标位置pk在平面直角坐标系下的表示,(xr,yr,zr)为直角坐标系下无人机的目标位置;(xo,yo,zo)为直角坐标系下的障碍坐标,当无人机靠近至障碍一定范围内,指示函数取值1;设奖励量rk为负的损失函数,即rk=-c(sk,ak);
步骤3)、设计强化学习求解算法并训练规划策略;
3-1)构建包括评价网络和策略网络的强化学习神经网络;
评价网络与策略网络共享一个两层的全连接网络,采用ReLU激活函数;两层全连接网络之后分出两个分支,其中一个分支连接单层全连接网络,连同两层全连接网络构成评价网络,该单层全连接网络采用Identity激活函数;另一个分支也连接单层全连接网络,连同两层全连接网络构成策略网络,该单层全连接网络采用Tanh激活函数;
评价网络:使用ωs,ωc参数化评价网络V(sk|ωs,ωc),ωs表示与策略网络共享的权重参数,ωc表示评价网络独有的权重参数;评价网络V(sk|ωs,ωc)的输入为状态变量sk,输出为累计奖励量,累计奖励量的函数表达式如下:
策略网络:采用ωs,ωa参数化一个策略网络ωs表示与评价网络共享的权重参数;ωa表示策略网络独有的权重参数。策略网络的输入为状态变量sk,直接输出为动作均值μ(sk|ωs,ωa)和协方差矩阵L(sk|ωs,ωa),由此构造控制变量ak,表示为:
其中,ak由均值为μ(sk|ωs,ωa),协方差为Σ(sk|ωs,ωc)的多维高斯分布采样得到;Σ(sk|ωs,ωc)=L(sk|ωs,ωa)L(sk|ωs,ωa)T;
3-2)更新评价网络的方法是最小化如下贝尔曼残差:
其中,ωs,ωa,ωc分别为共享层参数、策略网络参数和评价网络参数。D为存储历史数据(sk,ak,c(sk,ak),sk+1)的回放记忆;(sk,ak)~D表示sk,ak为D中提取的数据;C(ωs,ωa,ωc)表示与目标神经网络的TD误差表达式:
C(ωs,ωa,ωc)=rk+1+γV′(sk+1|ωs,ωc)-V(sk|ωs,ωc)-A(sk,ak|ωs,ωc)
Y(sk,ak)=L-1(sk|ωs,ωc)(ak-μ(sk|ωs,ωa))
其中,目标神经网络与当前的强化学习神经网络结构相同,其参数更新较当前网络有延迟,评价网络和策略网络也对应有自己的目标网络;V′(sk+1|ωs,ωc)为目标评价网络输出的累计奖励量;A(sk,ak|ωs,ωc)表示无人机在当前状态下采取当前动作相较于其他动作的优势函数估计,采用二次型的形式近似,Y(sk,ak)是优势函数A(sk,ak|ωs,ωc)计算过程的中间变量,V(sk|ωs,ωc)由评价网络输出得到;
步骤4)、得到无人机最短时间轨迹规划的具体步骤如下:
4-1)参数设置;
设置评价网络和策略网络的最大训练次数M,每次训练的最大更新步数T,经验回放抽取的训练集大小N,目标神经网络的追踪比率β,评价网络与策略网络的同步更新学习率为α,衰减因子为γ;
4-2)初始化;
共享部分层数的评价网络和策略网络的权重参数初始值均为0;将初始化后的策略网络记为当前策略网络将初始化后的评价网络记为当前评价网络V(sk|ωs,ωc);
设空的经验队列集合D;
4-3)迭代开始,令初始化迭代次数为m=1;
4-4)初始化时刻为k=0,初始化无人机当前位置,、障碍位置和目标位置;
4-5)使用当前策略网络生成k时刻控制变量;输入控制变量ak与状态sk,无人机通过转移模型返回下一时刻状态变量sk+1,利用奖励函数计算该步转移的奖励rk+1;
4-6)将步骤4-4)至4-5)得到的数据记为一个经验样本dk=(sk,ak,rk+1,sk+1),存入经验队列D;
4-7)统计经验队列D中的经验样本个数设为ND并判定:若ND≤N,则转到步骤4-5);若NR>N,则进入步骤4-8);
4-8)从经验队列D中随机抽取N个经验样本d1,d2,…,dn;利用每个经验样本计算一个C(ωs,ωa,ωc)的值,第i个值定义为Ci(ωs,ωa,ωc);
4-9)使用
更新评价网络和策略网络的权重参数ωs,ωa,ωc;
使用更新目标神经网络的权重参数/>使用m+1更新训练次数m;
并将更新后的评价网络及策略网络记为新的评价网络及新的策略网络;
4-10)判定:若k>T或无人机当前状态满足设定的终止条件,则进入步骤4-11),否则返回步骤4-5),并使用k+1更新步数k;
4-11)进行判定:若m<M,则重新返回步骤4-4),无人机再一次进行初始化并开始新一次的轨迹规划任务;否则迭代结束,将迭代终止时的当前策略网络作为最终的策略网络,记为/>将状态变量输入最终策略/>输出控制变量得到无人机最短时间轨迹。
2.如权利要求1所述的一种基于连续动作优势函数学习的无人机轨迹规划方法,其特征在于,所述4-10)中,设定的终止条件为无人机到达期望位置的距离小于设定阈值ξp。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310612411.5A CN116700327A (zh) | 2023-05-29 | 2023-05-29 | 一种基于连续动作优势函数学习的无人机轨迹规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310612411.5A CN116700327A (zh) | 2023-05-29 | 2023-05-29 | 一种基于连续动作优势函数学习的无人机轨迹规划方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116700327A true CN116700327A (zh) | 2023-09-05 |
Family
ID=87844375
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310612411.5A Pending CN116700327A (zh) | 2023-05-29 | 2023-05-29 | 一种基于连续动作优势函数学习的无人机轨迹规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116700327A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117193378A (zh) * | 2023-10-24 | 2023-12-08 | 安徽大学 | 基于改进ppo算法的多无人机路径规划方法 |
CN117376661A (zh) * | 2023-12-06 | 2024-01-09 | 山东大学 | 一种基于神经网络的细粒度视频流自适应调节系统及方法 |
CN117437188A (zh) * | 2023-10-17 | 2024-01-23 | 广东电力交易中心有限责任公司 | 一种用于智慧电网的绝缘子缺陷检测系统 |
-
2023
- 2023-05-29 CN CN202310612411.5A patent/CN116700327A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117437188A (zh) * | 2023-10-17 | 2024-01-23 | 广东电力交易中心有限责任公司 | 一种用于智慧电网的绝缘子缺陷检测系统 |
CN117437188B (zh) * | 2023-10-17 | 2024-05-28 | 广东电力交易中心有限责任公司 | 一种用于智慧电网的绝缘子缺陷检测系统 |
CN117193378A (zh) * | 2023-10-24 | 2023-12-08 | 安徽大学 | 基于改进ppo算法的多无人机路径规划方法 |
CN117193378B (zh) * | 2023-10-24 | 2024-04-12 | 安徽大学 | 基于改进ppo算法的多无人机路径规划方法 |
CN117376661A (zh) * | 2023-12-06 | 2024-01-09 | 山东大学 | 一种基于神经网络的细粒度视频流自适应调节系统及方法 |
CN117376661B (zh) * | 2023-12-06 | 2024-02-27 | 山东大学 | 一种基于神经网络的细粒度视频流自适应调节系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gupta et al. | Half a dozen real-world applications of evolutionary multitasking, and more | |
CN116700327A (zh) | 一种基于连续动作优势函数学习的无人机轨迹规划方法 | |
CN110181508B (zh) | 水下机器人三维航路规划方法及系统 | |
Mehr et al. | Maximum-entropy multi-agent dynamic games: Forward and inverse solutions | |
CN110928189A (zh) | 一种基于强化学习和李雅普诺夫函数的鲁棒控制方法 | |
Van Den Berg et al. | Efficient approximate value iteration for continuous Gaussian POMDPs | |
CN113848974B (zh) | 一种基于深度强化学习的飞行器轨迹规划方法及系统 | |
CN116820093A (zh) | 基于多智能体强化学习的多车协同侦测系统轨迹规划方法 | |
CN117055605A (zh) | 多无人机姿态控制方法及系统 | |
CN111798494A (zh) | 广义相关熵准则下的机动目标鲁棒跟踪方法 | |
Chen et al. | An overview of robust reinforcement learning | |
Banerjee et al. | A survey on physics informed reinforcement learning: Review and open problems | |
Sun et al. | Event-triggered reconfigurable reinforcement learning motion-planning approach for mobile robot in unknown dynamic environments | |
Haklidir et al. | Guided soft actor critic: A guided deep reinforcement learning approach for partially observable Markov decision processes | |
Xiao et al. | A multi-agent flocking collaborative control method for stochastic dynamic environment via graph attention autoencoder based reinforcement learning | |
Pshikhopov et al. | Trajectory planning algorithms in two-dimensional environment with obstacles | |
CN115562345B (zh) | 一种基于深度强化学习的无人机侦测轨迹规划方法 | |
Fang et al. | Quadrotor navigation in dynamic environments with deep reinforcement learning | |
CN115047769A (zh) | 一种基于约束跟随的无人作战平台避障-到达控制方法 | |
Zhang et al. | Trajectory-tracking control of robotic systems via deep reinforcement learning | |
Riccio et al. | LoOP: Iterative learning for optimistic planning on robots | |
Wu et al. | Path planning for autonomous mobile robot using transfer learning-based Q-learning | |
Wang et al. | A review of deep reinforcement learning methods and military application research | |
Qin et al. | A path planning algorithm based on deep reinforcement learning for mobile robots in unknown environment | |
Wang et al. | An Obstacle Avoidance Method Using Asynchronous Policy-based Deep Reinforcement Learning with Discrete Action |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |