CN115016534A

CN115016534A - 一种基于记忆增强学习的无人机自主避障导航方法

Info

Publication number: CN115016534A
Application number: CN202210620004.4A
Authority: CN
Inventors: 凌波; 项森伟; 谢安桓; 吴巍炜; 傅忱忱; 徐学永; 张运涛; 魏宁; 高勇
Original assignee: Southeast University; Zhejiang Lab
Current assignee: Southeast University; Zhejiang Lab
Priority date: 2022-06-02
Filing date: 2022-06-02
Publication date: 2022-09-06

Abstract

本发明公开了一种基于记忆增强学习的无人机自主避障导航方法，克服了传统深度强化学习导航方法在部分可测环境中极易陷入局部困境的问题。首先把无人机自主避障导航问题建模为目标驱动的马尔可夫决策过程，提出动态相对目标的目标特征提取方法，引导无人机学习导航问题的本质特征；然后考虑到传统导航方法由于没有保存历史信息，导致无人机在部分可测环境中极易陷入局部困境，本发明设计了一种保存动作记忆和空间信息的记忆增强模块，在决策时额外考虑历史的观测以及动作序列，使无人机更易脱离困境；最后本发明提出基于高斯分布探索增强的深度强化学习算法，使其能够在提高算法收敛速度的前提下保持并提高无人机避障导航的成功率。

Description

一种基于记忆增强学习的无人机自主避障导航方法

技术领域

本发明智能控制技术领域，尤其涉及一种基于记忆增强学习的无人机自主避障导航技术。

背景技术

基于视觉信息的无人机避障导航算法作为无人机控制系统主要研究点之一，国内外学者针对该问题提出的理论与方法数不胜数，但是这些方法目前仍然存在着一些缺陷。在传统算法领域，基于感知避免的方法只能应用于障碍稀疏的开放环境中，基于视觉SLAM算法的避障导航方法一般应用于封闭、静态、特征丰富的场景中，而且通过图像信息构建场景的地图信息需要耗费大量的计算开销。此外这些方法需要针对不同环境精心调节算法的参数，不能达到自主的要求，无法满足现有无人机应用的需求。更好的方法应该是基于当前感知到的信息进行实时规避，强化学习是实现实时规避的一种有效方法。

采用强化学习技术的无人机自主避障导航系统可以通过与环境的交互进行学习，足以实现真正的自主性，而深度学习技术的应用使得这些系统可以直接处理图片这种高维度的信息，并且基于深度强化学习技术的无人机避障导航系统不需要专家经验或者标记数据，可以做到从经验中自主学习，能够很好的适用于无人机的各种应用场景。但是目前强化学习算法在无人机自主避障导航系统中的应用仍处于初始阶段，存在需要为不同的目标重新训练新模型的问题以及训练时间长等问题。此外，在经典的深度强化学习算法中，智能体只按照当前的观测进行决策，由于只依赖当前的观测很难确定智能体所处的准确状态，导致深度强化学习算法收敛速度慢，学习效果差等问题，并且由于缺乏对历史动作和历史观测的记忆，导致其很容易陷入一个局部困境中，极大地阻碍了经典深度强化学习方法在部分可测环境中的应用。

发明内容

为解决上述问题，本发明提出了一种基于记忆增强学习的无人机自主避障方法，该方法首先把无人机避障导航问题建模为目标驱动的马尔可夫决策过程，并提出用动态的相对距离代替全局的目标与单步的无人机位置，从而利用不同导航目标之间的共同特征引导无人机学习导航问题的本质特征，解决了经典深度强化学习算法需要为不同的目标重新训练新模型的问题。然后提出了记忆增强的深度强化学习算法，通过设计一种包含空间记忆与动作记忆的记忆结构，使用注意力机制实现对历史信息进行整合处理，再根据这些历史信息与当前的观测共同决定无人机的动作，解决了传统导航算法在部分可测环境中容易陷入局部困境的问题。最后提出了高斯分布增强的深度强化学习算法，实现了强化学习探索-利用之间的均衡，使其即能充分的利用现有的样本，又能增强样本的多样性，解决了现有技术收敛速度慢的问题，能够在提高算法收敛速度的前提下保持并提高无人机避障导航的成功率。

达到上述目的，本发明提供一种基于深度强化学习的无人机自主避障导航方法，包括以下步骤：

步骤1：采用如下步骤把无人机自主避障导航问题定义为一个目标驱动的马尔可夫模型：对马尔科夫决策过程MDP五元组(s,A,P,R,γ)进行建模，其中s为无人机的输入状态，A为无人机的输出动作集，P为状态转移概率函数，R为奖励函数，γ为折扣系数；

步骤1-1：确定无人机的输入状态s：每个时刻t无人机对环境进行观察，得到对环境的观测o_t，并根据全局目标计算对应的局部目标g_t，然后利用深度学习的方法对其进行特征提取，得到具体的状态特征表示s_t；无人机的视觉观测信息o_t无人机的观测有两部分组成，分别为视觉传感器信息和无人机的位置信息，主要包含无人机飞行方向相对于XOY平面的偏转角度yaw_t以及无人机当前的位置(x_t,y_t)；动态相对目标代替全局绝对目标的方法，使用无人机当前位置与导航目标之间的相对值作为每一个决策节点的临时目标g_t，包括临时目标的位置和作为辅助目标特征的临时目标的偏转角度yaw_gt，将g_t＝(x_gt,y_gt,yaw_gt)作为融合信息代替无人机的目标信息以及位置信息；采用卷积神经网络对图像信息进行特征提取，得到观测的特征向量

使用多层感知机提取目标信息的特征向量

并使用拼接的方式将图像特征与目标特征进行融合得到状态特征

并将得到的状态特征用于后续的融合与处理；无人机的输入状态为

步骤1-2：确定无人机的输出动作集A：本发明主要关注无人机在固定高度避障导航的问题，选择固定高度飞行的原因有两个，首先就是由于是在开放环境下进行导航，在变动高度的情况下，无人机容易学到一些作弊的行为(如首先飞到足够的高度，越过障碍后再进行降落)，其次是因为本发明只用无人机前置视觉传感器的信息作为避障的主要输入，该信息并不能指示高度方向是否会发生碰撞；为了避免强化学习算法与动力学控制指令耦合，首先根据无人机的一些速度控制和方向控制指令实现了一些较为高层的控制指令，主要包含以固定的速度前行特定的时间、左转一定的角度以及右转一定的角度，更进一步地，我们将无人机的控制动作进行离散化，离散化后包含左转、右转、直行三个动作，动作的具体细节为：

动作(1)左转：以30°/s的速度左转1秒；

动作(2)右转：以30°/s的速度右转0.7秒；

动作(3)直行：向搭载摄像头的方向以2m/s的速度前进1秒；其中左转和右转动作的角度并不相同，这样设计的主要动机是为了创建两个不会互相抵消的动作，防止无人机被困在某些环境中；

步骤1-3：定义四旋翼无人机由当前时刻输入状态s且采取动作量为a的条件下，能够到达下一输入状态s′的概率为状态转移概率函数P；

步骤1-4：本发明设计了一种应用于无人机避障导航问题的非稀疏奖励函数，该奖励函数主要有四部分构成，分别为转移奖励、碰撞惩戒、目标奖赏以及步数惩罚：转移奖励用于表示无人机相对于导航目标的距离变化，可以使无人机每一步的移动都能得到相应的反馈信号而不是在情节的结束才能得到有效的奖励；使用(x_g,y_g)代表无人机在一个完整情节的导航的目标，转移奖励r_trans为：

碰撞惩戒被定义为r_collision＝c_t，其中c_t是一个指示变量，指示无人机是否发生碰撞，如果发生了碰撞则c_t为1，否则c_t为0；类似地，目标奖赏用于指示无人机是否成功到达了目标，其被定义为r_tgt＝d_t，d_t也是一个指示变量，用于指示无人机是否到达了目标,如果无人机到达了目标，则d_t＝1，否则d_t为0；步数惩罚用于打破无人机的导航目标方向存在障碍情况下的困境；使用步数惩罚的主要原因是如果不存在步数惩罚，而障碍物和导航的目标方向均在无人机的正前方，由于转向动作几乎不产生负的奖励，而向其他方向前进都会导致奖励变少，因此可能导致无人机困在转向的循环中，因此步数惩戒也是必须的一部分；步数惩戒被简单地定义为r_step＝-0.01；最终的奖励函数根据各部分进行加权得到，最终奖励函数R(s_t,a_t,s_t+1)为：

R(s_t,a_t,s_t+1)＝0.01*r_trans-3*r_collision+2*r_tgt+r_step

步骤1-5：定义折扣系数0<γ<1，用于计算整个过程中的回报累计值，折扣系数越大，表示越注重长期收益；

步骤2：根据步骤1建模出的马尔可夫决策过程五元组(s,A,P,R,γ)，基于DQN算法进行无人机避障导航策略求解并引入基于时序差分法的优先经验回放技术提高稀有样本的利用率；

步骤2-1：使用Q网络代替Q表对状态动作值函数进行近似，不直接将与环境交互得到的状态转换序列用于深度神经网络的训练，而是采用经验回放机制进行Q网络的训练；DQN算法将与环境交互得到的包含当前状态、动作、奖励、下一时刻状态的状态转换序列保存到经验回放池D中，然后在训练策略时以随机采样的方法抽取一定量的数据样本，并以这些抽取的数据执行批梯度下降算法；

步骤2-2：DQN算法中的经验回放单元是一个固定大小的列表，保存智能体与环境交互过程中的状态转换信息，主要包含<s,a,r,s',d>，其中s代表当前状态，a代表智能体在状态s执行的动作，r代表执行动作a之后获得的即时奖励，s'代表执行动作后的环境状态，d是一个指示变量，用于表示状态s'是否是终止状态，如果是终止状态则d＝1，否则d＝0；

步骤2-3：固定目标DQN算法中存在两个结构相同的神经网络，为当前值网络与目标值网络；当前值网络用于与环境交互，计算当前状态的Q值Q(s,a|θ)，目标值网络用于计算下一状态的Q值Q(s′,a′|θ′)，并且每隔一段时间同当前值网络进行参数同步；

步骤2-4：针对一个状态转换序列<s,a,r,s',d>，根据贝尔曼方程对当前状态动作值Q(s,a|θ)进行估计，其估计值使用Q_target(s,a)表示，Q_target(s,a)与目标状态动作值Q(s′,a′|θ′)之间的递推关系公式为：

步骤2-5：Q_target(s,a)与Q(s,a)的差值被称为时序差分法，使用最小化均方时序差分法的方法对Q网络的参数θ进行更新；使用B表示从经验回放池采样得到的一批状态转换序列样本集合，则对应的损失函数为：

步骤2-6：引入基于时序差分法的优先经验回放技术提高稀有样本的利用率：时序差分法用δ表示，优先经验采样算法使用时序差分法计算每一个状态转换序列的优先级；DQN算法中的时序差分法为：

步骤2-7：计算得到状态转换序列的时序差分法后，其优先级可以表示为p＝|δ|+∈，其中∈是一个极小的正数，主要用于防止时序差分法是0的情形；得到优先级之后，对优先级进行归一化可以计算得到其被采样的概率为P(i)，α是一个超参数，主要用于决定误差对优先级的影响，如果α是0，则退化为均匀采样；

步骤2-8：为了解决优先采样导致经验回放池中的数据分布发生改变，给损失函数带来额外偏差的问题，通过重要性采样技术对损失函数进行修正，在每个状态转换序列带来的损失累加之前乘以一个修正系数，在优先经验回放中，修正系数为ω_i，N代表经验样本的数目，β是决定重要性因子的超参数，如果β为0，则表示不使用重要性采样技术对样本偏差进行修正；

步骤3：设计一种应用于深度强化学习场景下的记忆模块保存动作记忆以及空间信息，额外考虑历史的观测以及动作序列，并提出一种额外的惩罚方法，给予无人机额外的奖励信号，结合历史记忆赋予智能体脱离部分困境的能力；

步骤3-1：构建动作记忆：动作记忆保存并提取历史动作序列的特征，将无人机的历史轨迹信息融入到状态信息中；使用简单的线性变换进行动作记忆的构建，假设A_t＝(a_t-1,a_t-2,…,a_t-k)代表时刻t之前K次决策的动作所构成的向量，使用

代表时刻t的动作记忆的内容，使用两层全连接神经网络对其进行特征提取；

步骤3-2：构建空间记忆：空间记忆由无人机的历史视觉观测以及历史动作构建，根据无人机的观测信息以及获取该观测信息后的运动信息还原出观测信息对应的空间布局；历史视觉信息代表了无人机在某一位置的观测，历史的动作代表得到这些观测之前无人机的移动方式；历史记忆增强的深度强化学习算法研究t时刻大小为K的空间记忆通过最近K步的观测信息(o_t-1,o_t-2,…,o_t-k)以及动作序列(a_t-1,a_t-2,…,a_t-k)生成，其中o_i代表时刻i的观测信息，a_i代表时刻i执行的动作；t时刻大小为K的空间记忆被定义为

其中

代表第i个空间记忆单元的内容；计算每一个记忆单元的内容时，使用

代表时刻t-i的视觉观测通过卷积神经网络提取到的特征向量，使用

代表时刻t-i的执行动作通过使用多层感知机与动作嵌入结合的方式计算得到的特征向量；动作嵌入使用向量对动作的序号进行编码，首先使用one-hot编码方式对动作序号进行编码，得到动作编码向量，然后使用嵌入矩阵E对编码向量进行线性变换得到动作对应的中间特征，最后使用两层全连接神经网络进行特征提取得到动作所对应的特征向量f^a，具体计算过程为：

得到动作序列的特征向量与观测序列的特征向量后，时刻t的第i个记忆单元的内容可以通过动作特征以及观测特征的拼接得到,也就是

时刻t的空间记忆

可以重写为

步骤3-3：空间记忆的整合与提取：在空间记忆构建完成后，设计了一种基于注意力机制的记忆提取整合机制，提取整合空间记忆；假设通过注意力机制获得的权重向量为(α_t-1,α_t-2,…,α_t-k)，则空间记忆的特征为：

空间记忆的权重向量通过多层感知机的注意力机制计算得到；对于每一个满足t-K≤t-i≤t-1的i，可以得到第i个记忆单元的权重比例e_i＝W^Ttanh(W_∝q_i+U_∝m_i+b_∝)，其中W,W_∝,U_∝,b_∝是可训练的权重，q_t是当前观测的特征向量以及目标特征融合后的特征

得到每个记忆单元的权重比例之后，为了对权重进行标准化，采用softmax函数对其进行归一化；空间记忆的权重向量为：

步骤3-4：记忆增强的深度强化学习算法：将历史记忆信息与当前观测和目标特征以拼接的方式进行融合，共同作为当前的环境状态

得到时刻t的环境状态特征

之后，将该状态信息替换原始的观测信息以及目标信息，进行Q值和策略的计算，并针对相应算法的优化目标对相关参数进行优化，将记忆模块融入到DQN算法中，称为MEDQN算法；

步骤3-5：基于历史动作序列的奖励函数改进：在深度强化学习算法中融入记忆模块，智能体可以学习到其过去执行的动作；无人机会遇到避障策略与导航策略矛盾造成的局部循环问题，本发明提出了一种基于历史动作序列的额外惩罚方法；命名为动作惩罚r_act，其计算方式为：

在r_act的计算公式中，l_lr代表智能体仅执行左转和右转操作的动作序列长度；为了整合动作惩罚，将额外的动作惩罚r_act添加到奖励函数中，得到新的奖励函数为：

R(s_t,a_t,s_t+1)＝0.01*r_trans-3*r_collision+2*r_tgt+r_step+r_act

步骤4：提出了基于高斯分布的强化学习探索增强方法并应用到DQN算法中，得到了高斯分布探索增强的GEDQN算法，从而验证高斯分布探索增强方法在基于值的强化学习算法以及基于演员评论家的强化学习算法中的有效性；

步骤4-1：利用深度强化学习算法学习到的值分布信息，设计一种基于状态动作值分布采样的强化学习探索方法：基于值分布的强化学习算法在选择动作时，首先根据值分布采样得到状态s下某一动作对应的价值

然后根据采样的结果选择对应的动作，在这种方法中，虽然不同动作值分布的均值大小是确定的，由于分布之间存在交叉，在选择动作时不一定选择到价值均值最大的动作，仍然具有随机性；而且随着强化学习算法的收敛，针对值分布估计逐渐准确，分布的方差也会逐渐变小，因此算法的探索性会随着收敛而逐渐降低，能够自动控制探索利用的均衡而不需要额外的操作；得到状态值分布的期望与方差之后，利用状态动作值分布进行采样从而利用策略进行探索；为了使用状态动作值分布信息，在每次计算状态动作值函数时，首先计算出当前状态的动作值函数的均值Q^π(s,a)以及方差D^π(s,a)，然后按照该分布进行采样，得到最终的状态动作值函数

并选择状态动作值函数价值最高的动作作为策略的输出，从而增加策略的随机性；最终的策略公式为：

步骤4-2：设计基于高斯分布探索增强的DQN算法：高斯分布的DQN算法(GEDQN)的结构类似于经典DQN算法，但是GEDQN算法同时预测了值函数的均值与方差，并采用EM距离作为值函数的误差函数；与DQN算法相同，该算法同样含有两个Q网络，分别用于计算当前的值分布以及目标值分布；在与环境进行交互时，由当前值网络进行策略的计算，并将生成的状态转换信息＜s,a,r,s′>保存到记忆回放单元D中；在训练时，当前值网络用于计算当前状态动作对＜s,a>对应的值分布信息，包含分布的均值Q(s,a|θ)以及方差D(s,a|θ)；目标值网络根据下一状态信息计算所有动作对应的值分布信息，包含{Q(s′,a′|θ′)|a′∈A}以及{D(s′,a′|θ′)|a′∈A}，并周期性地同步当前值网络的参数从而对其网络参数进行更新；GEDQN的损失函数与传统DQN算法不同：在GEDQN的损失函数中，首先根据{Q(s′,a′|θ′)|a′∈A}中选择使动作平均价值最大的动作a*，然后分别计算出Q(s′,a*|θ′)以及D(s′,a*|θ′)作为下一状态的状态—动作值分布，然后依照最大化EM距离的方式对当前值网络进行优化，高斯DQN损失函数为：

在当前值网络与环境交互时，为了更好地均衡策略的探索与利用，使用基于值分布的自动探索方法替换传统DQN算法中的∈-greedy算法；具体来说，在状态s进行决策时，首先根据当前值网络计算每一个动作对应的Q(s,a|θ)以及D(s,a|θ)，然后在每个动作对应的值分布中进行采样，得到每一个动作对应的价值

然后选择采样得到的价值最大的动作作为策略的决策，也就是

把结合记忆增强方法的GE-DQN算法称为GEMEDQN算法，在GEMEDQN算法中，使用深度神经网络同时预测Q(s,a)与D(s,a)，而且两者共享浅层网络的参数，并在最后一层分别添加一层全连接网络进行均值与方差的预测。

本发明的有益效果：

(1)本发明提出了基于目标驱动强化学习算法的无人机避障导航方法，用动态的相对距离代替全局的目标与单步的无人机位置，利用不同导航目标之间的共同特征，引导无人机学习导航问题的本质特征，解决了经典深度强化学习算法需要为不同的目标重新训练新模型的问题。

(2)本发明提出了记忆增强的深度强化学习方法，设计了一种包含空间记忆与动作记忆的记忆结构，然后使用注意力机制提取历史信息之间的时序依赖关系，根据这些历史信息与当前的观测共同决定无人机的动作，增强在部分可测场景下对无人机以及环境状态估计的准确度，平衡强化学习算法在避障策略与导航策略之间的矛盾，并结合额外的动作惩罚引导无人机脱离目标障碍困境，解决了传统导航方案无法在部分可测场景下脱离困境的问题

(3)本发明提出了高斯分布增强的深度强化学习算法，并给出了高斯分布增强方法在基于值的强化学习算法和基于演员评论家的深度强化学习算法中的应用。高斯分布增强方法能够在充分利用现有样本的前提下增强深度强化学习策略的探索能力，增加样本的多样性，更好的平衡了深度强化学习算法在探索与利用之间的矛盾，从而能够花费更少的训练时间达到更高的导航成功率，解决了经典深度强化学习算法需要长时间训练的问题。

附图说明

图1为本发明提出的深度强化学习算法的无人机避障导航方法示意图。

图2为本发明提出的基于DQN算法进行无人机避障导航策略求解示意图。

图3为本发明提出的记忆增强的深度强化学习算法示意图。

图4为本发明提出的高斯分布探索增强的强化学习方法示意图。

图5为本发明提出的基于记忆增强学习的无人机避障导航框架示意图。

图6为目标驱动的深度强化学习避障导航算法在不同环境中平均累计奖励实验结果图。(其中图(a)为Blocks环境的平均累计奖励，图(b)为NeighborHood环境的平均累计奖励)

图7为目标驱动的深度强化学习避障导航算法在不同环境中成功率实验结果图。(其中图(a)为Blocks环境的成功率，图(b)为NeighborHood环境的成功率)

图8为记忆增强的DQN算法在不同环境中平均累计奖励实验结果图。(其中图(a)为Blocks环境的平均累计奖励，图(b)为NeighborHood环境的平均累计奖励)

图9为记忆增强的DQN算法在不同环境中成功率实验结果图。(其中图(a)为Blocks环境的成功率，图(b)为NeighborHood环境的成功率)

图10为高斯分布探索增强方法在DQN算法中的表现结果图。(其中图(a)为Blocks环境的平均累计奖励，图(b)为NeighborHood环境的平均累计奖励)

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。需要说明的是，下面描述中使用的词语“前”、“后”、“左”、“右”、“上”和“下”指的是附图中的方向，词语“内”和“外”分别指的是朝向或远离特定部件几何中心的方向。

下面结合附图和具体实施方式，进一步阐明本发明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

步骤1：如图1所示，是本发明提出的深度强化学习算法的无人机避障导航方法示意图，把无人机避障导航问题建模为一个马尔可夫决策过程后，该模型可以使用深度强化学习算法进行求解。无人机与环境的交互过程主要包含以下几步：

步骤1-1：每个时刻t无人机对环境进行观察，得到对环境的观测o_t，并根据全局目标计算对应的局部目标g_t，然后利用深度学习的方法对其进行特征提取，得到具体的状态特征表示s_t；

步骤1-2：将s_t输入到决策网络中，并得到对应的动作a_t；

步骤1-3：无人机在执行动作之后系统进入下一个状态s_t+1，并获得一定的奖励r_t+1；强化学习算法通过交互获得的<s_t,a_t,s_t+1,r_t>根据一定的优化算法更新自身参数以最大化累计折扣回报的期望；

步骤1-4：如果s_t+1是终止状态，则重置环境；在本发明中，如果无人机到达了目标、发生了碰撞或者决策次数超过了上限，则无人机进入到终止状态；

步骤1-5：重复步骤1-1到1-4的过程，直到策略收敛；

步骤2：如图2所示，本发明提供了基于DQN算法进行无人机避障导航策略求解方法，具体步骤如下：

步骤2-1：使用Q网络代替Q表对状态动作值函数进行近似，不直接将与环境交互得到的状态转换序列用于深度神经网络的训练，而是采用经验回放机制进行Q网络的训练；DQN算法将与环境交互得到的包含当前状态、动作、奖励、下一时刻状态的状态转换序列保存到经验回放池

中，然后在训练策略时以随机采样的方法抽取一定量的数据样本，并以这些抽取的数据执行批梯度下降算法；

步骤2-3：固定目标DQN算法中存在两个结构相同的神经网络，为当前值网络与目标值网络；当前值网络用于与环境交互，计算当前状态的Q值Q(s,a|θ)，目标值网络用于计算下一状态的Q值Q(s′,a′|θ′)，并且每隔一段时间同当前值网络进行参数同步；针对一个状态转换序列<s,a,r,s',d>，根据贝尔曼方程对当前状态动作值Q(s,a|θ)进行估计，其估计值使用Q_target(s,a)表示，Q_target(s,a)与目标状态动作值Q(s′,a′|θ′)之间的递推关系公式为：

步骤2-4：Q_target(s,a)与Q(s,a)的差值被称为时序差分法，使用最小化均方时序差分法的方法对Q网络的参数θ进行更新；使用B代表从经验回放池采样得到的一批状态转换序列样本集合，则对应的损失函数为：

引入基于时序差分法的优先经验回放技术提高稀有样本的利用率；时序差分法用δ表示，优先经验采样算法使用时序差分法计算每一个状态转换序列的优先级；DQN算法中的时序差分法为：

计算得到状态转换序列的时序差分法后，其优先级可以表示为p＝|δ|+∈，其中∈是一个极小的正数，主要用于防止时序差分法是0的情形；得到优先级之后，对优先级进行归一化可以计算得到其被采样的概率为P(i)，α是一个超参数，主要用于决定误差对优先级的影响，如果α是0，则退化为均匀采样

步骤2-5：为了解决优先采样导致经验回放池中的数据分布发生改变，给损失函数带来额外偏差的问题，通过重要性采样技术对损失函数进行修正，在每个状态转换序列带来的损失累加之前乘以一个修正系数，在优先经验回放中，修正系数为ω_i，N代表经验样本的数目，β是决定重要性因子的超参数，如果β为0，则表示不使用重要性采样技术对样本偏差进行修正，其中

步骤3：如图3所示，本发明提供一种记忆增强的深度强化学习算法，包括以下步骤：

代表时刻t的动作记忆的内容，使用两层全连接神经网络对其进行特征提取，则

为

步骤3-2：构建空间记忆：空间记忆由无人机的历史视觉观测以及历史动作构建，历史记忆增强的深度强化学习算法研究t时刻大小为K的空间记忆通过最近K步的观测信息(o_t-1,o_t-2,…,o_t-k)以及动作序列(a_t-1,a_t-2,…,a_t-k)生成，其中o_i代表时刻i的观测信息，a_i代表时刻i执行的动作；t时刻大小为K的空间记忆被定义为

其中

代表时刻t-i的执行动作通过使用多层感知机与动作嵌入结合的方式计算得到的特征向量；得到动作序列的特征向量与观测序列的特征向量后，时刻t的第i个记忆单元的内容可以通过动作特征以及观测特征的拼接得到,也就是

时刻t的空间记忆

可以重写为

空间记忆的权重向量通过多层感知机的注意力机制计算得到；对于每一个满足t-K≤t-i≤t-1的i，可以得到第i个记忆单元的权重比例e_i＝W^Ttanh(W_∝q_i+U_∝m_i+b_∝)，其中W,U_∝,b_∝是可训练的权重，q_t是当前观测的特征向量以及目标特征融合后的特征

将该状态信息替换原始的观测信息以及目标信息，进行Q值和策略的计算，并针对相应算法的优化目标对相关参数进行优化，将记忆模块融入到DQN算法中，称为MEDQN算法；

在r_act的计算公式中，l_lr代表智能体仅执行左转和右转操作的动作序列长度；为了整合动作惩罚，将额外的动作惩罚r_act添加到奖励函数中，得到新的奖励函数为：R(s_t,a_t,s_t+1)＝0.01*r_trans-3*r_collision+2*r_tgt+r_step+r_act；

步骤4：如图4所示，是本发明提出的高斯分布探索增强的强化学习方法示意图，包括以下步骤：

步骤4-1：GEDQN算法同时预测了值函数的均值与方差，并采用EM距离作为值函数的误差函数；与DQN算法相同，该算法同样含有两个Q网络，分别用于计算当前的值分布以及目标值分布；在与环境进行交互时，由当前值网络进行策略的计算，并将生成的状态转换信息＜s,a,r,s′>保存到记忆回放单元D中；在训练时，当前值网络用于计算当前状态动作对＜s,a>对应的值分布信息，包含分布的均值Q(s,a|θ)以及方差D(s,a|θ)；目标值网络根据下一状态信息计算所有动作对应的值分布信息，包含{Q(s′,a′|θ′)|a′∈A}以及{D(s′,a′|θ′)|a′∈A}，并周期性地同步当前值网络的参数从而对其网络参数进行更新；

步骤4-2：在GEDQN的损失函数中，首先根据{Q(s′,a′|θ′)|a′∈A}中选择使动作平均价值最大的动作a*，然后分别计算出Q(s′,a*|θ′)和D(s′,a*|θ′)作为下一状态的状态-动作值分布，然后用最大化EM距离的方式对当前值网络进行优化，

高斯DQN损失函数为：

步骤4-3：在当前值网络与环境交互时，为了更好地均衡策略的探索与利用，使用基于值分布的自动探索方法替换传统DQN算法中的∈-greedy算法；具体来说，在状态s进行决策时，首先根据当前值网络计算每一个动作对应的Q(s,a|θ)以及D(s,a|θ)，然后在每个动作对应的值分布中进行采样，得到每一个动作对应的价值

在GEMEDQN算法中，使用深度神经网络同时预测Q(s,a)与D(s,a)，且两者共享浅层网络的参数，并在最后一层分别添加全连接网络进行均值与方差的预测；

实施例：

本实施例使用AirSim提供的高保真度的3D环境对我们的算法进行测试评估；AirSim是一个基于虚幻引擎的插件，可以用于对现实世界中的四轴飞行器的飞行场景与物理引擎进行仿真；

在无人机导航任务的目标选取过程中，以无人机当前位置为导航的起点；为了保持导航距离的一致性，终点在以起点为中心的半径为100米的圆上随机均匀选取；在基于强化学习的无人机避障导航中，无人机重复观察环境、决策、获取奖励并保存状态转化序列到经验回放池的过程，直到达到导航目标的附近或者发生碰撞；由于环境中存在障碍物，假定无人机距离目标的距离在6米内则认为其到达了目标附近；此外，还设置了决策步数上限，如果经过200步的决策，无人机仍然未到达目标，也认为该次导航任务失败；除非有特殊说明，强化学习算法均采用相同的超参数；针对模型的优化，采取RMSprop优化器对深度神经网络的参数进行优化，其学习率为0.001,动量参数全部采取默认值0.99。

图6和图7分别是目标驱动的深度强化学习避障导航算法在不同环境中平均累计奖励和成功率的实验结果。

图8和图9分别是记忆增强的DQN算法在不同环境中平均累计奖励和成功率实验结果。

图10是高斯分布探索增强方法在DQN算法中的表现结果。

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。

Claims

1.一种基于记忆增强学习的无人机自主避障导航方法，其特征在于，包括如下步骤：

步骤1：采用如下步骤把无人机自主避障导航问题定义为一个目标驱动的马尔可夫模型：对马尔科夫决策过程MDP五元组s,A,P,R,γ进行建模，其中s为无人机的输入状态，A为无人机的输出动作集，P为状态转移概率函数，R为奖励函数，γ为折扣系数；

步骤2：根据步骤1建模出的马尔可夫决策过程五元组s,A,P,R,γ，基于DQN算法进行无人机避障导航策略求解并引入基于时序差分法的优先经验回放技术提高稀有样本的利用率；

步骤4：提出了基于高斯分布的强化学习探索增强方法并应用到DQN算法中，得到了高斯分布探索增强的GEDQN算法，从而验证高斯分布探索增强方法在基于值的强化学习算法以及基于演员评论家的强化学习算法中的有效性。

2.根据权利要求1所述的一种基于记忆增强学习的无人机自主避障导航方法，其特征在于，所述步骤1具体包括如下：

使用多层感知机提取目标信息的特征向量

步骤1-2：确定无人机的输出动作集A：我们将无人机的控制动作进行离散化，离散化后包含左转、右转、直行三个动作，动作的具体细节为：

动作(1)左转：以30°/s的速度左转1秒；

动作(2)右转：以30°/s的速度右转0.7秒；

步骤1-4：设计了一种应用于无人机避障导航问题的非稀疏奖励函数，该奖励函数主要有四部分构成，分别为转移奖励、碰撞惩戒、目标奖赏以及步数惩罚：转移奖励用于表示无人机相对于导航目标的距离变化，可以使无人机每一步的移动都能得到相应的反馈信号而不是在情节的结束才能得到有效的奖励；使用(x_g,y_g)代表无人机在一个完整情节的导航的目标，转移奖励r_trans为：

R(s_t,a_t,s_t+1)＝0.01*r_trans-3*r_collision+2*r_tgt+r_step

步骤1-5：定义折扣系数0<γ<1，用于计算整个过程中的回报累计值，折扣系数越大，表示越注重长期收益。

3.根据权利要求1所述的一种基于记忆增强学习的无人机自主避障导航方法，其特征在于，所述步骤2具体包括如下：

4.根据权利要求1所述的一种基于记忆增强学习的无人机自主避障导航方法，其特征在于，所述步骤3具体包括如下：

其中

f_i ^a＝W_a(E_aonehot(a_i))+b_ma

时刻t的空间记忆

可以重写为

得到时刻t的环境状态特征

R(s_t,a_t,s_t+1)＝0.01*r_trans-3*r_collision+2*r_tgt+r_step+r_act。

5.根据权利要求1所述的一种基于记忆增强学习的无人机自主避障导航方法，其特征在于，所述步骤4具体包括如下：

步骤4-1：利用深度强化学习算法学习到的值分布信息，设计一种基于状态-动作值分布采样的强化学习探索方法：基于值分布的强化学习算法在选择动作时，首先根据值分布采样得到状态s下某一动作对应的价值

步骤4-2：设计基于高斯分布探索增强的DQN算法：高斯分布的DQN算法(GEDQN)的结构类似于经典DQN算法，但是GEDQN算法同时预测了值函数的均值与方差，并采用EM距离作为值函数的误差函数；与DQN算法相同，该算法同样含有两个Q网络，分别用于计算当前的值分布以及目标值分布；在与环境进行交互时，由当前值网络进行策略的计算，并将生成的状态转换信息<s,a,r,s′>保存到记忆回放单元D中；在训练时，当前值网络用于计算当前状态动作对<s,a>对应的值分布信息，包含分布的均值Q(s,a|θ)以及方差D(s,a|θ)；目标值网络根据下一状态信息计算所有动作对应的值分布信息，包含{Q(s′,a′|θ′)|a′∈A}以及{D(s′,a′|θ′)|a′∈A}，并周期性地同步当前值网络的参数从而对其网络参数进行更新；GEDQN的损失函数与传统DQN算法不同：在GE-DQN的损失函数中，首先根据{Q(s′,a′|θ′)|a′∈A}中选择使动作平均价值最大的动作a*，然后分别计算出Q(s′,a^*|θ′)以及D(s′,a^*|θ′)作为下一状态的状态—动作值分布，然后依照最大化EM距离的方式对当前值网络进行优化，高斯DQN损失函数为：

把结合记忆增强方法的GEDQN算法称为GEMEDQN算法，在GEMEDQN算法中，使用深度神经网络同时预测Q(s,a)与D(s,a)，而且两者共享浅层网络的参数，并在最后一层分别添加一层全连接网络进行均值与方差的预测。