CN116700327A - 一种基于连续动作优势函数学习的无人机轨迹规划方法 - Google Patents

一种基于连续动作优势函数学习的无人机轨迹规划方法 Download PDF

Info

Publication number
CN116700327A
CN116700327A CN202310612411.5A CN202310612411A CN116700327A CN 116700327 A CN116700327 A CN 116700327A CN 202310612411 A CN202310612411 A CN 202310612411A CN 116700327 A CN116700327 A CN 116700327A
Authority
CN
China
Prior art keywords
network
unmanned aerial
aerial vehicle
strategy
evaluation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310612411.5A
Other languages
English (en)
Inventor
孙健
李卓
赵若男
吴蔚然
王钢
陈杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202310612411.5A priority Critical patent/CN116700327A/zh
Publication of CN116700327A publication Critical patent/CN116700327A/zh
Pending legal-status Critical Current

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了一种基于连续动作优势函数学习的无人机轨迹规划方法,属于机器人智能决策与控制领域;首先构建无人机轨迹规划的马尔科夫决策过程模型,分别得到无人机轨迹规划的状态变量,控制变量,转移模型,损失函数的表达式;然后建立策略网络和评价网络;再通过连续动作优势函数学习在无人机每前进一步后训练更新策略网络和评价网络,直至二者收敛;最终得到用于无人机轨迹规划的策略网络。本发明在无人机动力学模型与所处环境完全未知的情况下实现无人机的轨迹规划,使其以最短时间抵达预定目标,具有很高的实用价值。

Description

一种基于连续动作优势函数学习的无人机轨迹规划方法
技术领域
本发明涉及一种基于连续优势函数学习的无人机轨迹规划方法,属于机器人智能决策与控制技术领域。
背景技术
随着社会的发展和科技的进步,无人机在军用和民用场景中的应用日益丰富。但现有无人机大多仍以预编程或遥控模式工作,需要人在环路控制,限制了无人机的应用范围。无人机的任务步骤包括三项:环境感知、轨迹规划、底层控制,其中轨迹规划的智能性是体现无人机智能性的关键步骤。
无人机常用的轨迹规划方法大致可分为三大类:基于图搜索、基于随机采样和基于优化问题求解。基于图搜索的典型方法包括Dijkstra算法和A*算法等,其基本步骤是将无人机工作空间的地图构建为一个包括节点和边的图,然后进行路径搜索,即更新一个访问节点的序列,循环“移除节点、扩展节点、塞入节点”三个步骤,直至抵达终点。基于随机采样的典型方法包括单查询的概率路图算法(Probabilistic Road Map,PRM)、快速随机扩展树算法(Rapidly-exploring Random Tree,RRT)等,该类方法不需要遍历无人机工作空间的整个地图,而是在状态空间中均匀随机采样,从而构建一个连通图并检测碰撞等,直到初始点和终止点都出现在图中。与基于图搜索的方法相比,基于随机采样的方法规划效率更高。
实际应用中,无人记得轨迹规划需要考虑其动力学、能量消耗、外部威胁等多重约束及不同目标。而以上两种方法几乎未考虑无人机的动力学约束,而仅偏重于无人机的路径规划。针对此问题,现有研究常采用基于优化方法中的最优控制进行解析或数值求解。但对于具有非线性、耦合和不确定动力学的无人机,基于优化求解的方法也面临诸多挑战。为了应对这一挑战,近年来无模型强化学习(RL)得到了广泛的发展,这是一种不需要无人机动力学先验知识的通用决策框架。通过无人机与环境之间的交互,可以学习到最优策略,而RL算法可以分为值函数法、策略法和演员-评论家法三类。
Q学习算法及其扩展,深度Q学习算法,是值函数型强化学习(RL)算法中的典型代表,其从值函数中推导出策略。此外,值函数型强化学习算法主要应用于具有小且离散动作空间的马尔科夫决策过程(Markov Decision Process,MDP)。然而,在现实世界中的场景中,需要使用离散化技术,从而使得学习最优策略变得困难。相比之下,策略型强化学习算法不需要值函数,可以直接学习连续策略。然而,这些算法可能效率低下且难以实施,尤其是在使用难以处理的策略梯度时。结合这两种类型的算法,演员-评论家强化学习算法可以克服它们的缺点,其中演员估计在给定状态下采取的策略,评论家近似值函数以评估当前策略。
用于连续动作空间的演员-评论家强化学习算法大致可分为两类:基于TD误差的方法和基于策略梯度的方法。基于TD误差的方法,如DDPG、TD3、SAC等主要通过贝尔曼方程更新得到最优动作-值函数估计。该类方法样本效率较高,但会引入偏差。基于策略梯度的方法,如TRPO、PPO等,往往采用蒙特卡罗方法估计值函数以降低偏差,因而具有更好的收敛性保证,但会牺牲一定的样本效率。
无人机时间最小轨迹规划问题具有较大的挑战性。在该任务中,无人机的动力学模型具有其非线性、耦合和不确定的动力学性质。对于该问题,使用优化问题进行数值求解需要极大的计算量,在强化学习框架下则具有奖励稀疏的难点,因此有待进一步研究解决。
发明内容
有鉴于此,本发明的目的是提供一种基于连续动作优势函数学习的无人机轨迹规划方法,不依赖无人机动力学模型,仅以无人机位置及目标位置作为神经网络输入,以无人机角速度的控制指令为输出,训练得到无人机轨迹规划策略网络,使无人机在最短时间内抵达预定目标位置。
一种基于连续动作优势函数学习的无人机轨迹规划方法,包括:
步骤1)、构建无人机的最短时间轨迹优化问题,包括确定目标函数和约束条件:
1-1)确定目标函数;
无人机的最短时间轨迹优化问题的目标函数J的表达式为:
其中,表示求均值算子,rk表示无人机的奖励函数,k表示状态转移的第k步,kf为终点步数,uk≥1表示步数k≥1的无人机控制输入序列,γ表示对未来损失的权重的衰减因子,0<γ<1;
1-2)无人机的轨迹优化问题的约束条件的表达式为:
sk+1=g(sk,ak),k=1,…,kf,kf为终点步数;
其中,sk和sk+1分别为无人机在第k步和第k+1步的状态向量,ak表示第k步的控制变量,函数g(·,·)表示无人机的动力学模型,即转移模型;
步骤2)、根据步骤1)构建的无人机的最短时间轨迹优化问题,建立无人机轨迹规划的马尔科夫决策过程模型;
马尔科夫决策过程模型由一个四元组表示,即状态变量、控制变量、转移模型、损失函数,构建的具体步骤如下:
2-1)确定状态变量;
在无人机所在高度建立平面直角坐标系,以其初始位置为原点,状态变量sk表达式为:
sk=[ρk,θk,ψk,f(pk,k)]T
其中,pk=(ρk,θk,ψk)表示无人机在当前第k步的球坐标位置,f(Pk,k)表示无人机在当前第k步所获知的障碍信息表示;
2-2)确定控制变量;
控制变量表达式为无人机的航向角速度ak=[ωk,φk]T,即(θk,ψk)随时间的变化率;
2-3)转移模型的表达式为:
sk+1=g(sk,ak);
该转移模型表示在给定当前k步状态变量与控制变量,返回下一时刻的状态变量;
2-4)确定损失函数;
损失函数用于评价无人机状态sk下执行控制变量ak的效果,表达式为:
其中,ρ,λ分别表示各项的权重系数;
Δd(k)=||(xk-xr,yk-yr,zk-zr)′||-||(xk-1-xr,yk-1-yr,zk-1-zr)′||,
rs(k)=1/||(xk-xo,yk-yo,zk-zo)′||
其中,“′”表示转置;(xk,yk,zk)为无人机当前球坐标位置pk在平面直角坐标系下的表示,(xr,yr,zr)为直角坐标系下无人机的目标位置;(xo,yo,zo)为直角坐标系下的障碍坐标,当无人机靠近至障碍一定范围内,指示函数取值1;设奖励量rk为负的损失函数,即rk=-c(sk,ak);
步骤3)、设计强化学习求解算法并训练规划策略;
3-1)构建包括评价网络和策略网络的强化学习神经网络;
评价网络与策略网络共享一个两层的全连接网络,采用ReLU激活函数;两层全连接网络之后分出两个分支,其中一个分支连接单层全连接网络,连同两层全连接网络构成评价网络,该单层全连接网络采用Identity激活函数;另一个分支也连接单层全连接网络,连同两层全连接网络构成策略网络,该单层全连接网络采用Tanh激活函数;
评价网络:使用ωs,ωc参数化评价网络V(sks,ωc),ωs表示与策略网络共享的权重参数,ωc表示评价网络独有的权重参数;评价网络V(sks,ωc)的输入为状态变量sk,输出为累计奖励量,累计奖励量的函数表达式如下:
策略网络:采用ωs,ωa参数化一个策略网络ωs表示与评价网络共享的权重参数;ωa表示策略网络独有的权重参数。策略网络的输入为状态变量sk,直接输出为动作均值μ(sks,ωa)和协方差矩阵L(sks,ωa),由此构造控制变量ak,表示为:
其中,ak由均值为μ(sks,ωa),协方差为∑(sks,ωc)的多维高斯分布采样得到;∑(sks,ωc)=L(sks,ωa)L(sks,ωa)T
3-2)更新评价网络的方法是最小化如下贝尔曼残差:
其中,ωs,ωa,ωc分别为共享层参数、策略网络参数和评价网络参数。D为存储历史数据(sk,ak,c(sk,ak),sk+1)的回放记忆;(sk,ak)~D表示sk,ak为D中提取的数据;C(ωs,ωa,ωc)表示与目标神经网络的TD误差表达式:
C(ωs,ωa,ωc)=rk+1+γV′(sk+1s,ωc)-V(sks,ωc)-A(sk,aks,ωc)
Y(sk,ak)=L-1(sks,ωc)(ak-μ(sks,ωa))
其中,目标神经网络与当前的强化学习神经网络结构相同,其参数更新较当前网络有延迟,评价网络和策略网络也对应有自己的目标网络;V′(sk+1s,ωc)为目标评价网络输出的累计奖励量;A(sk,aks,ωc)表示无人机在当前状态下采取当前动作相较于其他动作的优势函数估计,采用二次型的形式近似,Y(sk,ak)是优势函数A(sk,aks,ωc)计算过程的中间变量,V(sks,ωc)由评价网络输出得到;
步骤4)、得到无人机最短时间轨迹规划的具体步骤如下:
4-1)参数设置;
设置评价网络和策略网络的最大训练次数M,每次训练的最大更新步数T,经验回放抽取的训练集大小N,目标神经网络的追踪比率β,评价网络与策略网络的同步更新学习率为α,衰减因子为γ;
4-2)初始化;
共享部分层数的评价网络和策略网络的权重参数初始值均为0;将初始化后的策略网络记为当前策略网络将初始化后的评价网络记为当前评价网络V(sks,ωc);
设空的经验队列集合D;
4-3)迭代开始,令初始化迭代次数为m=1;
4-4)初始化时刻为k=0,初始化无人机当前位置,、障碍位置和目标位置;
4-5)使用当前策略网络生成k时刻控制变量;输入控制变量ak与状态sk,无人机通过转移模型返回下一时刻状态变量sk+1,利用奖励函数计算该步转移的奖励rk+1
4-6)将步骤4-4)至4-5)得到的数据记为一个经验样本dk=(sk,ak,rk+1,sk+1),存入经验队列D;
4-7)统计经验队列D中的经验样本个数设为ND并判定:若ND≤N,则转到步骤4-5);若NR>N,则进入步骤4-8);
4-8)从经验队列D中随机抽取N个经验样本d1,d2,...,dN;利用每个经验样本计算一个C(ωs,ωa,ωc)的值,第i个值定义为Cis,ωa,ωc);
4-9)使用
更新评价网络和策略网络的权重参数ωs,ωa,ωc
使用更新目标神经网络的权重参数/>使用m+1更新训练次数m;
并将更新后的评价网络及策略网络记为新的评价网络及新的策略网络;
4-10)判定:若k>T或无人机当前状态满足设定的终止条件,则进入步骤4-11),否则返回步骤4-5),并使用k+1更新步数k;
4-11)进行判定:若m<M,则重新返回步骤4-4),无人机再一次进行初始化并开始新一次的轨迹规划任务;否则迭代结束,将迭代终止时的当前策略网络作为最终的策略网络,记为/>将状态变量输入最终策略/>输出控制变量得到无人机最短时间轨迹。
较佳的,所述4-10)中,设定的终止条件为无人机到达期望位置的距离小于设定阈值ξp
本发明具有如下有益效果:
1)本发明提出一种基于连续动作优势函数学习的无人机轨迹规划方法,属于机器人智能决策与控制领域。首先构建无人机轨迹规划的马尔科夫决策过程模型,分别得到无人机轨迹规划的状态变量,控制变量,转移模型,损失函数的表达式;然后建立策略网络和评价网络;再通过连续动作优势函数学习在无人机每前进一步后训练更新策略网络和评价网络,直至二者收敛;最终得到用于无人机轨迹规划的策略网络。本发明在无人机动力学模型与所处环境完全未知的情况下实现无人机的轨迹规划,使其以最短时间抵达预定目标,具有很高的实用价值。
2)本发明在无人机模型未知的条件下实现轨迹规划。策略梯度更新方法通过无人机轨迹及传感信息的采样数据,自主学习出最优的评价网络与策略网络,该过程中不需要无人机模型的任何假设与参数,仅在马尔可夫决策过程的建模时对根据所需目标进行奖励函数设计。
3)本发明的方法将确定性策略梯度理论与人工神经网络相结合,设计了共享层数的评价网络和策略网络。评价网络用于拟合强化学习中的值函数(V函数),策略网络在给定状态生成相应的控制策略。利用神经网络的非线性拟合能力,使得在无人机模型及复杂的障碍环境未知的情况下,仍可学习到理想的轨迹规划策略。本发明通过二次型的优势函数估计及Dueling架构,很好的解决了连续动作空间极值难以求解的问题。
4)本发明的方法的可拓展性强。本发明的方法针对宽泛的无人机目标跟踪、轨迹跟踪任务设计轨迹规划方法,对实施环境不存在先验假设,只需要重新设定状态变量、控制输入以及损失函数,即可拓展于无人机在不同环境的轨迹规划任务。
附图说明
图1为本发明实施例中无人机三维平面内模型示意图。
图2为本发明实施例中本发明共享评价策略网络示意图。
图3为本发明实施例中连续动作优势函数学习架构示意图。
图4(a)、4(b)、4(c)、4(d)分别为本发明实施例中连续动作优势函数学习强化学习算法在4种通用测试环境中的学习情况示意图。
图5(a)、5(b)、5(c)分别为本发明实施例中深度连续动作优势函数学习强化学习算法在轨迹规划环境中的平均累积奖励、平均完成时间以及贝尔曼损失的变化示意图。
图6(a)、6(b)、6(c)、6(d)分别为本发明实施例中无人机在四个不同目标点的规划轨迹示意图。
具体实施方式
下面结合附图并举实施例,对本发明进行详细描述。
本发明提出的一种基于连续动作优势函数学习的无人机轨迹规划方法,该方法无需无人机动力学模型,只需要无人机与环境不断交互即可训练得轨迹规划策略,包括以下步骤:
步骤1)、构建无人机的最短时间轨迹优化问题;
无人机的最短时间轨迹优化问题中包括确定目标函数和约束条件。
1-1)确定目标函数;
无人机的最短时间轨迹优化问题的目标函数J的表达式为:
其中,表示求均值算子,rk表示无人机的奖励函数,k表示状态转移的第k步,kf为终点步数,uk≥1表示步数k≥1的无人机控制输入序列,γ表示对未来损失的权重的衰减因子,0<γ<1;
1-2)确定约束条件;
无人机的轨迹优化问题的约束条件的表达式为:
sk+1=g(sk,ak),k=1,...,kf,kf为终点步数;
其中,sk和sk+1分别为无人机在第k步和第k+1步的状态向量,ak表示第k步的控制变量,函数g(·,·)表示无人机的动力学模型,即转移模型。
步骤2)、根据步骤1)构建的无人机的最短时间轨迹优化问题,建立无人机轨迹规划的马尔科夫决策过程模型;
马尔科夫决策过程模型由一个四元组表示,即状态变量、控制变量、转移模型、损失函数;构建的具体步骤如下:
2-1)确定状态变量;
本发明面向无人机最短时间轨迹规划任务,故在无人机所在高度建立平面直角坐标系,以其初始位置为原点,状态变量sk表达式为:
sk=[ρk,θk,ψk,f(pk,k)]T
其中,pk=(ρk,θk,ψk)表示无人机在当前第k步的球坐标位置,f(pk,k)表示无人机在当前第k步所获知的障碍信息表示;
2-2)确定控制变量;
控制变量表达式为无人机的航向角速度ak=[ωk,φk]T,即(θk,ψk)随时间的变化率;
2-3)确定转移模型;
转移模型的表达式为:
sk+1=g(sk,ak),
该转移模型表示在给定当前k步状态变量与控制变量,返回下一时刻的状态变量;
2-4)确定损失函数;
损失函数用于评价无人机状态sk下执行控制变量ak的效果,表达式为:
其中,ρ,λ分别表示各项的权重系数;
Δd(k)=||(xk-xr,yk-yr,zk-zr)′||-||(xk-1-xr,yk-1-yr,zk-1-zr)′||,
rs(k)=1/||(xk-xo,yk-yo,zk-zo)′||
其中,“′”表示转置;(xk,yk,zk)为无人机当前球坐标位置pk在上述平面直角坐标系下的表示,(xr,yr,zr)为直角坐标系下无人机的目标位置;(xo,yo,zo)为直角坐标系下的障碍坐标,当无人机靠近至障碍一定范围内,指示函数取值1。设奖励量rk为负的损失函数,即rk=--c(sk,ak);
步骤3)、设计强化学习求解算法并训练规划策略;
3-1)构建包括评价网络和策略网络的强化学习神经网络;
评价网络与策略网络共享一个两层的全连接网络,采用ReLU激活函数;两层全连接网络之后分出两个分支,其中一个分支连接单层全连接网络,连同两层全连接网络构成评价网络,该单层全连接网络采用Identity激活函数;另一个分支也连接单层全连接网络,连同两层全连接网络构成策略网络,该单层全连接网络采用Tanh激活函数;
评价网络:使用ωs,ωc参数化评价网络V(sks,ωc),ωs表示与策略网络共享的权重参数,ωc表示评价网络独有的权重参数;评价网络V(sks,ωc)的输入为状态变量sk,输出为累计奖励量,累计奖励量的函数表达式如下:
策略网络:采用ωs,ωa参数化一个策略网络ωs表示与评价网络共享的权重参数;ωa表示策略网络独有的权重参数。策略网络的输入为状态变量sk,直接输出为动作均值μ(sks,ωa)和协方差矩阵L(sks,ωa),由此构造控制变量ak,表示为:
其中,ak由均值为μ(sks,ωa),协方差为∑(sks,ωc)的多维高斯分布采样得到;∑(sks,ωc)=L(sks,ωa)L(sks,ωa)T,其正定性由科列斯基分解保证。
3-2)更新评价网络的方法是最小化如下贝尔曼残差:
其中,ωs,ωa,ωc分别为共享层参数、策略网络参数和评价网络参数。D为存储历史数据(sk,ak,c(sk,ak),sk+1)的回放记忆;(sk,ak)~D表示sk,ak为D中提取的数据;C(ωs,ωa,ωc)表示与目标神经网络的TD误差表达式:
C(ωs,ωa,ωc)=rk+1+γV′(sk+1s,ωc)-V(sks,ωc)-A(sk,aks,ωc)
Y(sk,ak)=L-1(sks,ωc)(ak-μ(sks,ωa))
其中,目标神经网络与当前的强化学习神经网络结构相同,其参数更新较当前网络有延迟,评价网络和策略网络也对应有自已的目标网络;V′(sk+1s,ωc)为目标评价网络输出的累计奖励量。A(sk,aks,ωc)表示无人机在当前状态下采取当前动作相较于其他动作的优势函数估计,采用二次型的形式近似,Y(sk,ak)是优势函数A(sk,aks,ωc)计算过程的中间变量,V(sks,ωc)由评价网络输出得到;
步骤4)、得到无人机最短时间轨迹规划的具体步骤如下:
4-1)参数设置;
令评价网络和策略网络的最大训练次数M=100000,每次训练的最大更新步数T=1000,经验回放抽取的训练集大小N=80,目标神经网络的追踪比率β=0.995,评价网络与策略网络的同步更新学习率为α=0.001,衰减因子为γ=0.99;
4-2)初始化;
共享部分层数的评价网络和策略网络的权重参数初始值均为0;将初始化后的策略网络记为当前策略网络将初始化后的评价网络记为当前评价网络V(sks,ωc);
设空的经验队列集合D,并设置集合大小为100万;
4-3)迭代开始,令初始化迭代次数为m=1;
4-4)初始化时刻为k=0,初始化无人机当前位置pk,、障碍位置po和目标位置pr
4-5)使用当前策略网络生成k时刻控制变量;输入控制变量ak与状态sk,无人机通过转移模型返回下一时刻状态变量sk+1,利用奖励函数计算该步转移的奖励rk+1
4-6)将步骤4-4)至4-5)得到的数据记为一个经验样本dk=(sk,ak,rk+1,sk+1),存入经验队列D;
4-7)统计经验队列D中的经验样本个数设为ND并判定:若ND≤N,则转到步骤4-5);若NR>N,则进入步骤4-8);
4-8)从经验队列D中随机抽取N个经验样本d1,d2,...,dN;利用每个经验样本计算一个C(ωs,ωa,ωc)的值,第i个值定义为Cis,ωa,ωc);
4-9)使用
更新评价网络和策略网络的权重参数ωs,ωa,ωc
使用更新目标神经网络的权重参数/>使用m+1更新训练次数m;
并将更新后的评价网络及策略网络记为新的评价网络及新的策略网络;
4-10)判定:若k>T或无人机当前状态满足终止条件||p(k)-pd||≤ξp,即无人机到达期望位置的距离小于阈值ξp,则进入步骤4-11),否则返回步骤4-5),并使用k+1更新步数k;
4-11)进行判定:若m<M,则重新返回步骤4-4),无人机再一次进行初始化并开始新一次的轨迹规划任务;否则迭代结束,将迭代终止时的当前策略网络作为最终的策略网络,记为/>将状态变量输入最终策略/>输出控制变量得到无人机最短时间轨迹。
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种基于连续动作优势函数学习的无人机轨迹规划方法,其特征在于,包括:
步骤1)、构建无人机的最短时间轨迹优化问题,包括确定目标函数和约束条件:
1-1)确定目标函数;
无人机的最短时间轨迹优化问题的目标函数J的表达式为:
其中,表示求均值算子,rk表示无人机的奖励函数,k表示状态转移的第k步,kf为终点步数,uk≥1表示步数k≥1的无人机控制输入序列,γ表示对未来损失的权重的衰减因子,0<γ<1;
1-2)无人机的轨迹优化问题的约束条件的表达式为:
sk+1=g(sk,ak),k=1,…,kf,kf为终点步数;
其中,sk和sk+1分别为无人机在第k步和第k+1步的状态向量,ak表示第k步的控制变量,函数g(·,·)表示无人机的动力学模型,即转移模型;
步骤2)、根据步骤1)构建的无人机的最短时间轨迹优化问题,建立无人机轨迹规划的马尔科夫决策过程模型;
马尔科夫决策过程模型由一个四元组表示,即状态变量、控制变量、转移模型、损失函数,构建的具体步骤如下:
2-1)确定状态变量;
在无人机所在高度建立平面直角坐标系,以其初始位置为原点,状态变量sk表达式为:
sk=[ρkkk,f(pk,k)]T
其中,pk=(ρkkk)表示无人机在当前第k步的球坐标位置,f(pk,k)表示无人机在当前第k步所获知的障碍信息表示;
2-2)确定控制变量;
控制变量表达式为无人机的航向角速度ak=[ωkk]T,即(θkk)随时间的变化率;
2-3)转移模型的表达式为:
sk+1=g(sk,ak);
该转移模型表示在给定当前k步状态变量与控制变量,返回下一时刻的状态变量;
2-4)确定损失函数;
损失函数用于评价无人机状态sk下执行控制变量ak的效果,表达式为:
其中,ρ,λ分别表示各项的权重系数;
Δd(k)=‖(xk-xr,yk-yr,zk-zr)′‖-‖(xk-1-xr,yk-1-yr,zk-1-zr)′‖,
rs(k)=1/‖(xk-xo,yk-yo,zk-zo)′‖
其中,“′”表示转置;(xk,yk,zk)为无人机当前球坐标位置pk在平面直角坐标系下的表示,(xr,yr,zr)为直角坐标系下无人机的目标位置;(xo,yo,zo)为直角坐标系下的障碍坐标,当无人机靠近至障碍一定范围内,指示函数取值1;设奖励量rk为负的损失函数,即rk=-c(sk,ak);
步骤3)、设计强化学习求解算法并训练规划策略;
3-1)构建包括评价网络和策略网络的强化学习神经网络;
评价网络与策略网络共享一个两层的全连接网络,采用ReLU激活函数;两层全连接网络之后分出两个分支,其中一个分支连接单层全连接网络,连同两层全连接网络构成评价网络,该单层全连接网络采用Identity激活函数;另一个分支也连接单层全连接网络,连同两层全连接网络构成策略网络,该单层全连接网络采用Tanh激活函数;
评价网络:使用ωsc参数化评价网络V(sksc),ωs表示与策略网络共享的权重参数,ωc表示评价网络独有的权重参数;评价网络V(sksc)的输入为状态变量sk,输出为累计奖励量,累计奖励量的函数表达式如下:
策略网络:采用ωsa参数化一个策略网络ωs表示与评价网络共享的权重参数;ωa表示策略网络独有的权重参数。策略网络的输入为状态变量sk,直接输出为动作均值μ(sksa)和协方差矩阵L(sksa),由此构造控制变量ak,表示为:
其中,ak由均值为μ(sksa),协方差为Σ(sksc)的多维高斯分布采样得到;Σ(sks,ωc)=L(sks,ωa)L(sks,ωa)T
3-2)更新评价网络的方法是最小化如下贝尔曼残差:
其中,ωsac分别为共享层参数、策略网络参数和评价网络参数。D为存储历史数据(sk,ak,c(sk,ak),sk+1)的回放记忆;(sk,ak)~D表示sk,ak为D中提取的数据;C(ωsac)表示与目标神经网络的TD误差表达式:
C(ωsac)=rk+1+γV′(sk+1sc)-V(sksc)-A(sk,aksc)
Y(sk,ak)=L-1(sksc)(ak-μ(sksa))
其中,目标神经网络与当前的强化学习神经网络结构相同,其参数更新较当前网络有延迟,评价网络和策略网络也对应有自己的目标网络;V′(sk+1sc)为目标评价网络输出的累计奖励量;A(sk,aksc)表示无人机在当前状态下采取当前动作相较于其他动作的优势函数估计,采用二次型的形式近似,Y(sk,ak)是优势函数A(sk,aksc)计算过程的中间变量,V(sksc)由评价网络输出得到;
步骤4)、得到无人机最短时间轨迹规划的具体步骤如下:
4-1)参数设置;
设置评价网络和策略网络的最大训练次数M,每次训练的最大更新步数T,经验回放抽取的训练集大小N,目标神经网络的追踪比率β,评价网络与策略网络的同步更新学习率为α,衰减因子为γ;
4-2)初始化;
共享部分层数的评价网络和策略网络的权重参数初始值均为0;将初始化后的策略网络记为当前策略网络将初始化后的评价网络记为当前评价网络V(sksc);
设空的经验队列集合D;
4-3)迭代开始,令初始化迭代次数为m=1;
4-4)初始化时刻为k=0,初始化无人机当前位置,、障碍位置和目标位置;
4-5)使用当前策略网络生成k时刻控制变量;输入控制变量ak与状态sk,无人机通过转移模型返回下一时刻状态变量sk+1,利用奖励函数计算该步转移的奖励rk+1
4-6)将步骤4-4)至4-5)得到的数据记为一个经验样本dk=(sk,ak,rk+1,sk+1),存入经验队列D;
4-7)统计经验队列D中的经验样本个数设为ND并判定:若ND≤N,则转到步骤4-5);若NR>N,则进入步骤4-8);
4-8)从经验队列D中随机抽取N个经验样本d1,d2,…,dn;利用每个经验样本计算一个C(ωsac)的值,第i个值定义为Cisac);
4-9)使用
更新评价网络和策略网络的权重参数ωsac
使用更新目标神经网络的权重参数/>使用m+1更新训练次数m;
并将更新后的评价网络及策略网络记为新的评价网络及新的策略网络;
4-10)判定:若k>T或无人机当前状态满足设定的终止条件,则进入步骤4-11),否则返回步骤4-5),并使用k+1更新步数k;
4-11)进行判定:若m<M,则重新返回步骤4-4),无人机再一次进行初始化并开始新一次的轨迹规划任务;否则迭代结束,将迭代终止时的当前策略网络作为最终的策略网络,记为/>将状态变量输入最终策略/>输出控制变量得到无人机最短时间轨迹。
2.如权利要求1所述的一种基于连续动作优势函数学习的无人机轨迹规划方法,其特征在于,所述4-10)中,设定的终止条件为无人机到达期望位置的距离小于设定阈值ξp
CN202310612411.5A 2023-05-29 2023-05-29 一种基于连续动作优势函数学习的无人机轨迹规划方法 Pending CN116700327A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310612411.5A CN116700327A (zh) 2023-05-29 2023-05-29 一种基于连续动作优势函数学习的无人机轨迹规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310612411.5A CN116700327A (zh) 2023-05-29 2023-05-29 一种基于连续动作优势函数学习的无人机轨迹规划方法

Publications (1)

Publication Number Publication Date
CN116700327A true CN116700327A (zh) 2023-09-05

Family

ID=87844375

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310612411.5A Pending CN116700327A (zh) 2023-05-29 2023-05-29 一种基于连续动作优势函数学习的无人机轨迹规划方法

Country Status (1)

Country Link
CN (1) CN116700327A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117193378A (zh) * 2023-10-24 2023-12-08 安徽大学 基于改进ppo算法的多无人机路径规划方法
CN117376661A (zh) * 2023-12-06 2024-01-09 山东大学 一种基于神经网络的细粒度视频流自适应调节系统及方法
CN117437188A (zh) * 2023-10-17 2024-01-23 广东电力交易中心有限责任公司 一种用于智慧电网的绝缘子缺陷检测系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117437188A (zh) * 2023-10-17 2024-01-23 广东电力交易中心有限责任公司 一种用于智慧电网的绝缘子缺陷检测系统
CN117437188B (zh) * 2023-10-17 2024-05-28 广东电力交易中心有限责任公司 一种用于智慧电网的绝缘子缺陷检测系统
CN117193378A (zh) * 2023-10-24 2023-12-08 安徽大学 基于改进ppo算法的多无人机路径规划方法
CN117193378B (zh) * 2023-10-24 2024-04-12 安徽大学 基于改进ppo算法的多无人机路径规划方法
CN117376661A (zh) * 2023-12-06 2024-01-09 山东大学 一种基于神经网络的细粒度视频流自适应调节系统及方法
CN117376661B (zh) * 2023-12-06 2024-02-27 山东大学 一种基于神经网络的细粒度视频流自适应调节系统及方法

Similar Documents

Publication Publication Date Title
Gupta et al. Half a dozen real-world applications of evolutionary multitasking, and more
CN116700327A (zh) 一种基于连续动作优势函数学习的无人机轨迹规划方法
CN110181508B (zh) 水下机器人三维航路规划方法及系统
Mehr et al. Maximum-entropy multi-agent dynamic games: Forward and inverse solutions
CN110928189A (zh) 一种基于强化学习和李雅普诺夫函数的鲁棒控制方法
Van Den Berg et al. Efficient approximate value iteration for continuous Gaussian POMDPs
CN113848974B (zh) 一种基于深度强化学习的飞行器轨迹规划方法及系统
CN116820093A (zh) 基于多智能体强化学习的多车协同侦测系统轨迹规划方法
CN117055605A (zh) 多无人机姿态控制方法及系统
CN111798494A (zh) 广义相关熵准则下的机动目标鲁棒跟踪方法
Chen et al. An overview of robust reinforcement learning
Banerjee et al. A survey on physics informed reinforcement learning: Review and open problems
Sun et al. Event-triggered reconfigurable reinforcement learning motion-planning approach for mobile robot in unknown dynamic environments
Haklidir et al. Guided soft actor critic: A guided deep reinforcement learning approach for partially observable Markov decision processes
Xiao et al. A multi-agent flocking collaborative control method for stochastic dynamic environment via graph attention autoencoder based reinforcement learning
Pshikhopov et al. Trajectory planning algorithms in two-dimensional environment with obstacles
CN115562345B (zh) 一种基于深度强化学习的无人机侦测轨迹规划方法
Fang et al. Quadrotor navigation in dynamic environments with deep reinforcement learning
CN115047769A (zh) 一种基于约束跟随的无人作战平台避障-到达控制方法
Zhang et al. Trajectory-tracking control of robotic systems via deep reinforcement learning
Riccio et al. LoOP: Iterative learning for optimistic planning on robots
Wu et al. Path planning for autonomous mobile robot using transfer learning-based Q-learning
Wang et al. A review of deep reinforcement learning methods and military application research
Qin et al. A path planning algorithm based on deep reinforcement learning for mobile robots in unknown environment
Wang et al. An Obstacle Avoidance Method Using Asynchronous Policy-based Deep Reinforcement Learning with Discrete Action

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination