CN116817909A

CN116817909A - 一种基于深度强化学习的无人机中继式导航方法

Info

Publication number: CN116817909A
Application number: CN202310280577.1A
Authority: CN
Inventors: 任璐; 冯士营; 孙长银; 李晓峰
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2023-03-22
Filing date: 2023-03-22
Publication date: 2023-09-29

Abstract

本发明公开了一种基于深度强化学习的无人机中继式导航方法，包括：收集无人机在执行中继式导航任务时的无人机状态向量；构建深度强化学习网络，依次将无人机状态向量输入深度强化学习网络中，输出最优参数化动作，并根据最优参数化动作进行原始经验存储和原始经验扩充，更新深度强化学习网络，直至达到最大训练回合数，完成对深度强化学习网络的训练；重新获取一架无人机状态向量，输入到训练好的深度强化学习网络中，得到无人机的最优参数化动作，通过无人机的最优参数化动作指引无人机中继式导航。本发明在多阶段导航这类中继式任务中自主规划无人机路径，实现导航过程。

Description

一种基于深度强化学习的无人机中继式导航方法

技术领域

本发明涉及无人机导航技术领域，具体地，涉及一种基于深度强化学习的无人机中继式导航方法。

背景技术

近年来，无人机已广泛应用于应急救援领域，如物资运输、人员搜索等，这些应用背后的关键技术之一就是无人机自主导航。传统方法往往基于建模技术和同时定位技术(Simultaneous localization and mapping，SLAM)解决此类问题，但由于依赖模型的准确度和环境的先验知识，此类方法一般只能在环境较为简单的情况下取得比较理想的效果，而在复杂变化的环境中，精确的环境模型和正确的先验知识往往都难以获得，因为环境的场景会频繁变化，导致这类方法无法工作。随着深度学习和强化学习的不断发展，逐渐衍生出一个新兴的交叉领域，即深度强化学习。它结合了深度神经网络的表征能力和强化学习的决策能力，为智能体提供了一种端到端学习策略的方式。一些无人机导航领域的相关研究基于深度强化学习算法，通过设计合理的奖励函数，完成了无人机在复杂多变的环境中自主导航的任务。

尽管现有的基于深度强化学习的研究工作已经取得了令人满意的结果，但依然存在一些潜在的问题没有解决。一方面，无人机的动作空间往往仅被考虑为单纯的离散动作空间或单纯的连续动作空间，但实际无人机执行任务中往往同时需要进行高级决策和低级控制，例如先选择加速或者转向(离散值)，在选择具体的加速值或转向角度(连续值)，使用同质的动作空间往往导致无人机学习到的策略缺乏灵活性，也难以利用无人机动作本身的结构信息，所以研究的一大目标就是解决具有参数化动作空间(同时包含离散动作和连续参数的动作空间)的无人机导航问题；另一方面，现有工作大都通过设计精密具体的奖励函数引导训练，虽然这种设计可以显著加快智能体学习，但存在两个问题：一是设计过程需要大量的专家知识，也即需要付出很大的人工成本；二是训练初期过多的奖励信号可能会屏蔽任务的真实目标，进而导致智能体陷入局部最优的情况。使用稀疏奖励设置可以解决上述问题，其通用性也更加符合应用的要求，即仅在智能体完成任务时给予奖励，而中间的任何探索都无法获得奖励，但是，由于缺乏奖励信号的引导，稀疏奖励机制会带来智能体学习缓慢甚至无法学习的问题。

发明内容

针对现有技术中存在的问题，本发明提供了一种基于深度强化学习的无人机中继式导航方法，该无人机中继式导航方法通过引入目标切换和目标替换机制解决中继式导航任务中的稀疏奖励问题，以确保无人机能够在这类任务中自主规划无人机路径，并沿着高效路径到达目标区域。

为实现上述技术目的，本发明采用如下技术方案：一种基于深度强化学习的无人机中继式导航方法，具体包括如下步骤：

步骤1、收集无人机在执行中继式导航任务时的无人机状态向量；

步骤2、构建深度强化学习网络，所述深度强化学习网络由动作网络、Q值网络、原始经验存储池、经验扩充模块、经验回放池依次连接组成；

步骤3、依次将无人机状态向量输入深度强化学习网络中，输出最优参数化动作，并根据最优参数化动作进行原始经验存储和原始经验扩充，更新深度强化学习网络，直至达到最大训练回合数，完成对深度强化学习网络的训练；

步骤4、重新获取一架无人机状态向量，输入到训练好的深度强化学习网络中，得到无人机的最优参数化动作，通过无人机的最优参数化动作指引无人机中继式导航。

进一步地，所述无人机状态向量由无人机状态信息s_t和即时目标g_t组成，所述无人机状态信息s_t＝[x_t,y_t,v_t,θ_t,d_t,n_t]，其中，x_t为t时刻无人机所在位置的横坐标，y_t为t时刻无人机所在位置的纵坐标，v_t为t时刻无人机速度，θ_t为t时刻无人机与即时目标g_t之间的方向角，d_t为无人机与即时目标g_t之间的距离，n_t为无人机已执行的动作次数；所述即时目标g_t为t时刻无人机需要到达的即时目标的位置坐标

进一步地，所述动作网络、Q值网络均由三层大小分别为256、128、64的全连接层组成。

进一步地，步骤3包括如下子步骤：

步骤31、在无人机中继式导航过程中，存在物资点集，调用仿真环境的reset()方法，选取某个物资点作为即时目标g_t，并获取对应的无人机状态信息s_t，得到对应的无人机状态向量；

步骤32、将无人机状态向量输入动作网络中，得到无人机连续参数向量

步骤33、将步骤32中的无人机状态向量以及得到的无人机连续参数向量输入Q值网络中，得到无人机的最优参数化动作/>

步骤34、无人机执行最优参数化动作获取下一时刻无人机状态信息s_t+1，并通过环境反馈获取即时奖励r_t以及下一时刻的即时目标g_t+1，将/>作为原始经验存储于原始经验存储池中；

步骤35、重复步骤32-34，直至无人机将所有物资运输到目标区域内或执行的动作次数达到环境限制的最大次数；

步骤36、将原始经验存储池中的原始经验通过经验扩充模块进行经验扩充，并将扩充的经验存储于经验回放池中；

步骤37、从经验回放池中抽取128个经验更新深度强化学习网络；

步骤38、通过更新的深度强化学习网络重复步骤31-37，直至达到最大训练回合数，完成对深度强化学习网络的训练。

进一步地，步骤33的具体过程为：将步骤32的无人机连续参数向量通过零扩充法变换为如下的矩阵/>将步骤31中的无人机状态向量分别与矩阵X′_t的每一行拼接，输入到Q值网络中，得到状态动作值估计矩阵/>取出状态动作值估计矩阵Q的所有对角线元素构成离散动作估计Q值集合{Q_ii}，根据离散动作估计Q值集合中最大的元素得到离散动作从步骤32的无人机连续参数向量X_t中取出离散动作/>对应的连续参数将/>与/>进行组合作为t时刻无人机需要执行的最优参数化动作/>其中，t为当前时刻，N为离散动作的个数，i为离散动作/>的索引，i∈[1,2,…,N]。

进一步地，所述无人机连续参数向量中每一个元素为t时刻无人机加速度/>或t时刻无人机转向角度/>所述离散动作/>为t时刻无人机移动/>t时刻无人机转向/>或t时刻无人机进行物资抓取/>

进一步地，步骤34包括如下子步骤：

步骤341、无人机执行最优参数化动作获取t+1时刻的无人机速度v_t+1、t+1时刻的无人机与即时目标g_t之间的方向角θ_t+1、t+1时刻的无人机所在位置(x_t+1,y_t+1)：

其中，θ_t表示t时刻无人机与即时目标g_t之间的方向角，表示t时刻无人机转向角度，v_t表示t时刻无人机速度，/>表示t时刻无人机加速度，(x_t,y_t)表示t时刻无人机所在位置坐标；

步骤342、无人机执行一次最优参数化动作后，由仿真环境计算下一时刻无人机与即时目标的距离d_t+1，并进行无人机已执行动作次数的更新：

n_t+1＝n_t+1

其中，表示t时刻无人机需要到达的即时目标的位置坐标，n_t表示无人机已执行的动作次数；

步骤343、在无人机执行一次最优参数化动作后，通过环境反馈判断无人机是否将所有物资运输到目标区域来建立奖励函数：

步骤344、通过环境反馈判断即时目标中的物资是否运输完成，若否，下一时刻的即时目标不发生变化；否则从物资点集中选取新的物资点作为下一时刻的即时目标g_t+1，若物资点集中不存在新的物资点，则将目标区域作为下一时刻的即时目标g_t+1；

步骤345、将作为原始经验存储于原始经验存储池中。

进一步地，当最优参数化动作为无人机移动时，对应的连续参数为无人机加速度/>此时无人机转向角度/>当最优参数化动作为无人机转向/>时，对应的连续参数为无人机转向角度/>此时无人机加速度/>当最优参数化动作为无人机抓取操作时，无人机速度和无人机所在位置不发生改变。

进一步地，步骤36的具体过程为：随机从原始经验存储池的原始经验中选取四个无人机已经历过的位置，输入到经验扩充模块中，分别将四个无人机已经历过的位置替换掉即时目标g_t，再依据奖励函数重新计算奖励值并将扩充的经验(s_t,a_t,r′_t,s_t+1,ag)存储于经验回放池中，其中，ag为随机选取的无人机已经历过的位置。

进一步地，步骤37的具体过程为：从经验回放池中抽取128个经验，基于损失函数L(θ_Q)采用最小化均方贝尔曼误差法更新深度强化学习网络中Q值网络参数θ_Q：

其中，为Q值网络，θ_Q为Q值网络的参数，/>为动作网络，θ_x为动作网络的参数，s_t||g_t表示由t时刻的状态信息和即时目标组成的无人机状态向量，/>为t时刻Q值网络输出的离散动作，h_t为Q值网络的输出需要拟合的目标值，r_t为t时刻环境反馈的即时奖励，0<γ<1为折扣因子，k为使/>最大的离散动作，K＝[k¹,k²,k³]为所有离散动作组成的集合，为Q值网络的目标网络，/>为/>中的参数，/>为动作网络的目标网络，θ′_x为/>中的参数，s_t+1||g_t+1表示t+1时刻的无人机状态向量；

基于Q值网络累积的梯度，使用随机梯度下降法来更新深度强化学习网络中的动作网络/>并软更新θ′_Q和θ′_x：

θ′_Q←τ*θ_Q+(1-τ)*θ′_Q

θ′_x←τ*θ_x+(1-τ)*θ′_x

其中，0<τ<1为软更新因子。

与现有技术相比，本发明具有如下有益效果：本发明基于深度强化学习的无人机中继式导航方法，利用深度强化学习网络的结构特点，对原始多通道深度Q值网络的输入向量进行扩展，并将无人机的导航目标作为扩展向量传递给深度强化学习网络，同时基于虚拟目标替换方式扩充经验池，加快了无人机在缺少正反馈的情景下的学习速度。在此基础上，针对中继式导航任务本发明提出了一种实时目标切换机制，即不再始终采用固定目标，而是根据无人机当前所处阶段实时进行即时目标分配，在无人机还无法执行中继操作时，将无人机下一时刻的即时目标切换为物资点坐标；只有在所有物资都被携带后才会以导航目标区域为无人机的目标，本发明通过即时目标的不断切换，使得整个中继导航任务被解耦为多个单导航阶段，实现了由阶段目标逐渐过渡到最终目标，原始任务中由于包含中继操作而导致的复杂探索问题被分解为不同阶段下的简单探索问题，通过奖励的稀疏性问题得到缓解，从而使无人机完成了导航路径的高效规划，克服了无人机在奖励极度稀疏环境中无法学习的问题。本发明基于深度强化学习的无人机中继式导航方法综合考虑并解决了具有参数化动作空间和稀疏奖励性质的无人机导航任务，不仅提升了无人机行为策略的灵活性，也有效避免了人工设计奖励函数花费的成本。

附图说明

图1为本发明基于深度强化学习的无人机中继式导航方法的流程图；

图2为本发明考虑的无人机中继式导航任务仿真环境示意图；

图3为本发明基于深度强化学习的无人机中继式导航方法的仿真结果与现有技术的对比示意图。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步地解释说明。

如图1为本发明基于深度强化学习的无人机中继式导航方法的流程图，该无人机中继式导航方法具体包括如下步骤：

步骤1、收集无人机在执行中继式导航任务时的无人机状态向量；本发明中无人机状态向量由无人机状态信息s_t和即时目标g_t组成，无人机状态信息s_t＝[x_t,y_t,v_t,θ_t,d_t,n_t]，其中，x_t为t时刻无人机所在位置的横坐标，y_t为t时刻无人机所在位置的纵坐标，v_t为t时刻无人机速度，θ_t为t时刻无人机与即时目标g_t之间的方向角，d_t为无人机与即时目标g_t之间的距离，n_t为无人机已执行的动作次数；即时目标g_t为t时刻无人机需要到达的即时目标的位置坐标

步骤2、构建深度强化学习网络，本发明中深度强化学习网络由动作网络、Q值网络、原始经验存储池、经验扩充模块、经验回放池依次连接组成，动作网络和Q值网络的设计有效解决了参数化动作空间问题，将原始经验存储池的原始经验通过经验扩充模块的扩充，大幅增加了可利用的有效经验数量，将原始经验和扩充经验同时加入经验回放池来共同更新深度强化学习网络，提供了解决稀疏奖励问题的能力；此外，由于不需要处理图像输入，考虑到任务难度特点，采用三层神经元数量成倍减少的全连接层组成网络，为了参数调整的方便，本发明中的动作网络、Q值网络均由三层大小分别为256、128、64的全连接层组成。

步骤3、依次将无人机状态向量输入深度强化学习网络中，输出最优参数化动作，并根据最优参数化动作进行原始经验存储和原始经验扩充，更新深度强化学习网络，直至达到最大训练回合数，完成对深度强化学习网络的训练，具体包括如下子步骤：

步骤32、将无人机状态向量输入动作网络中，得到无人机连续参数向量无人机连续参数向量/>中每一个元素为t时刻无人机加速度/>或t时刻无人机转向角度/>

步骤33、将步骤32中的无人机状态向量以及得到的无人机连续参数向量以多通道的方式输入Q值网络中，得到无人机的最优参数化动作具体地，将步骤32的无人机连续参数向量/>通过零扩充法变换为如下的矩阵/>此时，已获取无人机在t时刻观测下选择执行的连续参数值，但由于目前还缺少离散动作的选择，因此需要将步骤31中的无人机状态向量分别与矩阵X′_t的每一行拼接，输入到Q值网络中，得到状态动作值估计矩阵取出状态动作值估计矩阵Q的所有对角线元素构成离散动作估计Q值集合{Q_ii}，根据集合中使Q值最大的元素得到无人机在t时刻的离散动作选择从而保证了Q值网络能够对无人机在当前观测下所选择的动作值进行评判，本发明中离散动作/>为t时刻无人机移动/>t时刻无人机转向/>或t时刻无人机进行物资抓取/>从无人机连续参数向量X_t中取出离散动作/>对应的连续参数/>将/>与/>进行组合作为t时刻无人机需要执行的最优参数化动作/>其中，t为当前时刻，N为离散动作的个数，i为离散动作/>的索引，i∈[1,2,…,N]；

步骤34、无人机执行最优参数化动作获取下一时刻无人机状态信息s_t+1，并通过环境反馈获取即时奖励r_t以及下一时刻的即时目标g_t+1，将/>作为原始经验存储于原始经验存储池中；具体包括如下子步骤：

其中，θ_t表示t时刻无人机与即时目标g_t之间的方向角，表示t时刻无人机转向角度，v_t表示t时刻无人机速度，/>表示t时刻无人机加速度，(x_t,y_t)表示t时刻无人机所在位置坐标；当最优参数化动作为无人机移动/>时，对应的连续参数为无人机加速度/>此时无人机转向角度/>当最优参数化动作为无人机转向/>时，对应的连续参数为无人机转向角度/>此时无人机加速度/>当最优参数化动作为无人机抓取操作/>时，无人机速度和无人机所在位置不发生改变；

n_t+1＝n_t+1

步骤343、在无人机执行一次最优参数化动作后，通过环境反馈判断无人机是否将所有物资运输到目标区域来建立奖励函数，由于本发明要解决的问题之一是稀疏奖励问题，因此根据无人机中继式导航任务特点设计如下的稀疏奖励方案，其中在没有完成任务目标时全部反馈-1奖励，是为了鼓励无人机以最少的步数完成任务：

步骤344、通过环境反馈判断即时目标中的物资是否运输完成，若否，下一时刻的即时目标不发生变化；否则从物资点集中选取新的物资点作为下一时刻的即时目标g_t+1，若物资点集中不存在新的物资点，则将目标区域作为下一时刻的即时目标g_t+1；通过即时目标的更换，使得无人机可以在单个子任务的导航过程中对原始经验进行具有学习意义的扩充，从而保证了经验回放池中的经验有效性；

步骤345、将作为原始经验存储于原始经验存储池中；

步骤36、将原始经验存储池中的原始经验通过经验扩充模块进行经验扩充，并将扩充的经验存储于经验回放池中；具体地，随机从原始经验存储池的原始经验中选取四个无人机已经历过的位置，输入到经验扩充模块中，分别将四个无人机已经历过的位置替换掉即时目标g_t，再依据奖励函数重新计算奖励值并将扩充的经验(s_t,a_t,r′_t,s_t+1,ag)存储于经验回放池中，其中，ag为随机选取的无人机已经历过的位置；

步骤37、从经验回放池中抽取128个经验更新深度强化学习网络；具体地，从经验回放池中抽取128个经验，基于损失函数L(θ_Q)采用最小化均方贝尔曼误差法更新深度强化学习网络中Q值网络参数θ_Q，贝尔曼方程采用递归的形式将动态最优化问题变成了嵌套的子最优化问题，适合解决具有马尔可夫决策过程的强化学习问题，提供了连续决策的最优性，而最小化均方贝尔曼方程的误差则可以借助最优性原理保证收敛性，从而帮助深度强化学习网络的收敛，让无人机学习到最优行为策略：

其中，为Q值网络，θ_Q为Q值网络的参数，/>为动作网络，θ_x为动作网络的参数，s_t||g_t表示由t时刻的状态信息和即时目标组成的无人机状态向量，/>为t时刻Q值网络输出的离散动作，h_t为Q值网络的输出需要拟合的目标值，表示网络优化的方向，r_t为t时刻环境反馈的即时奖励，0<γ<1为折扣因子，k为使/>最大的离散动作，K＝[k¹,k²,k³]为所有离散动作组成的集合，为Q值网络的目标网络，/>为/>中的参数，/>为动作网络的目标网络，θ′_x为/>中的参数，s_t+1||g_t+1表示表示t+1时刻的无人机状态向量；

θ′_Q←τ*θ_Q+(1-τ)*θ′_Q

θ′_x←τ*θ_x+(1-τ)*θ′_x

其中，0<τ<1为软更新因子；

本发明基于深度强化学习的无人机中继式导航方法综合考虑并解决了具有参数化动作空间和稀疏奖励性质的无人机导航任务，不仅提升了无人机行为策略的灵活性，也有效避免了人工设计奖励函数花费的成本。

实施例

本实施例给出了考虑无人机中继式导航任务的仿真环境，如图2，该环境模拟了长度a＝2km的正方形飞行区域，给出了无人机、物资、目标区域三个对象的位置坐标，设定无人机飞行高度固定为H＝100m。在该环境中无人机的目标是通过合理的动作选择首先到达物资附近并成功“抓取”物资，最终将物资携带至目标区域，无人机可选择的离散动作有加速、转向和抓取，即N＝3，加速和转向动作对应的连续参数取值范围均为[-1,1]；同时设置深度强化学习网络的模型参数：动作网络、Q值网络均由大小为256、128、64的全连接层组成，动作网络的学习率为10^-5，Q值网络的学习率为10^-3，Q值网络探索因子ε＝0.05，Q值网络损失函数中的目标值计算所需的折扣因子γ＝0.99，经验回放池大小为150000，批大小为128，无人机的最大步长为100，最大训练回合数为30000，Adam优化器衰减率β₁＝0.9、β₂＝0.999，网络更新频率为[1～10]。通过本发明基于深度强化学习的无人机中继式导航方法指引无人机中继式导航，与HER-PDQN、MP-DQN算法进行比较，结果为：本发明在初始回合到5000回合的训练过程中与HER-PDQN、MP-DQN算法一样都没有学习到有效的策略，致使无人机完成中继式导航任务的成功率均为0，但从5000训练回合开始，由于本发明的方法积累了更多的有效经验，实现了有效的网络更新，无人机逐渐可以以较小概率(约为1％～5％)完成任务目标，随后成功率不断上升，并在20,000训练回合开始达成收敛趋势，而HER-PDQN、MP-DQN算法始终未成功完成任务目标，因此，本发明中继式导航方法能够完成具有参数化动作空间和稀疏奖励性质的无人机中继式导航任务，且与HER-PDQN、MP-DQN算法相比，本发明具有较好的收敛性；此外，从图3中可以看出，本发明最终收敛时的成功率约为85％～87％，满足执行中继式导航任务的成功率要求。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种基于深度强化学习的无人机中继式导航方法，其特征在于，具体包括如下步骤：

2.根据权利要求1所述的一种基于深度强化学习的无人机中继式导航方法，其特征在于，所述无人机状态向量由无人机状态信息s_t和即时目标g_t组成，所述无人机状态信息s_t＝[x_t，y_t，v_t，θ_t，d_t，n_t]，其中，x_t为t时刻无人机所在位置的横坐标，y_t为t时刻无人机所在位置的纵坐标，v_t为t时刻无人机速度，θ_t为t时刻无人机与即时目标g_t之间的方向角，d_t为无人机与即时目标g_t之间的距离，n_t为无人机已执行的动作次数；所述即时目标g_t为t时刻无人机需要到达的即时目标的位置坐标

3.根据权利要求1所述的一种基于深度强化学习的无人机中继式导航方法，其特征在于，所述动作网络、Q值网络均由三层大小分别为256、128、64的全连接层组成。

4.根据权利要求1所述的一种基于深度强化学习的无人机中继式导航方法，其特征在于，步骤3包括如下子步骤：

步骤32、将无人机状态向量输入动作网络中，得到无人机连续参数向量 N为离散动作的个数；

5.根据权利要求4所述的一种基于深度强化学习的无人机中继式导航方法，其特征在于，步骤33的具体过程为：将步骤32的无人机连续参数向量通过零扩充法变换为如下的矩阵/>将步骤31中的无人机状态向量分别与矩阵X′_t的每一行拼接，输入到Q值网络中，得到状态动作值估计矩阵/>取出状态动作值估计矩阵Q的所有对角线元素构成离散动作估计Q值集合{Q_ii}，根据离散动作估计Q值集合中最大的元素得到离散动作/>从步骤32的无人机连续参数向量X_t中取出离散动作/>对应的连续参数/>将/>与/>进行组合作为t时刻无人机需要执行的最优参数化动作/>其中，i为离散动作/>的索引，i∈[1，2，...，N]。

6.根据权利要求5所述的一种基于深度强化学习的无人机中继式导航方法，其特征在于，所述无人机连续参数向量中每一个元素为t时刻无人机加速度/>或t时刻无人机转向角度/>所述离散动作/>为t时刻无人机移动/>t时刻无人机转向/>或t时刻无人机进行物资抓取/>

7.根据权利要求4所述的一种基于深度强化学习的无人机中继式导航方法，其特征在于，步骤34包括如下子步骤：

步骤341、无人机执行最优参数化动作获取t+1时刻的无人机速度v_t+1、t+1时刻的无人机与即时目标g_t之间的方向角θ_t+1、t+1时刻的无人机所在位置(x_t+1，y_t+1)：

步骤345、将作为原始经验存储于原始经验存储池中。

8.根据权利要求7所述的一种基于深度强化学习的无人机中继式导航方法，其特征在于，当最优参数化动作为无人机移动时，对应的连续参数为无人机加速度/>此时无人机转向角度/>当最优参数化动作为无人机转向/>时，对应的连续参数为无人机转向角度/>此时无人机加速度/>当最优参数化动作为无人机抓取操作/>时，无人机速度和无人机所在位置不发生改变。

9.根据权利要求4所述的一种基于深度强化学习的无人机中继式导航方法，其特征在于，步骤36的具体过程为：随机从原始经验存储池的原始经验中选取四个无人机已经历过的位置，输入到经验扩充模块中，分别将四个无人机已经历过的位置替换掉即时目标g_t，再依据奖励函数重新计算奖励值并将扩充的经验(s_t，a_t，r′_t，s_t+1，ag)存储于经验回放池中，其中，ag为随机选取的无人机已经历过的位置。

10.根据权利要求4所述的一种基于深度强化学习的无人机中继式导航方法，其特征在于，步骤37的具体过程为：从经验回放池中抽取128个经验，基于损失函数L(θ_Q)采用最小化均方贝尔曼误差法更新深度强化学习网络中Q值网络参数θ_Q：

其中，为Q值网络，θ_Q为Q值网络的参数，/>为动作网络，θ_x为动作网络的参数，s_t||g_t表示由t时刻的状态信息和即时目标组成的无人机状态向量，/>为t时刻Q值网络输出的离散动作，h_t为Q值网络的输出需要拟合的目标值，/>r_t为t时刻环境反馈的即时奖励，0＜γ＜1为折扣因子，k为使/>最大的离散动作，K＝[k¹，k²，k³]为所有离散动作组成的集合，/>为Q值网络的目标网络，θ′_Q为/>中的参数，/>为动作网络的目标网络，θ′_x为/>中的参数，s_t+1||g_t+1表示t+1时刻的无人机状态向量；

θ′_Q←τ*θ_Q+(1-τ)*θ′_Q

θ′_x←τ*θ_x+(1-τ)*θ′_x，

其中，0＜τ＜1为软更新因子。