CN114967721A

CN114967721A - 一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法

Info

Publication number: CN114967721A
Application number: CN202210648007.9A
Authority: CN
Inventors: 李波; 黄晶益; 谢国燕; 杨帆; 骆双双; 万开方; 高晓光
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2022-06-08
Filing date: 2022-06-08
Publication date: 2022-08-30
Anticipated expiration: 2042-06-08
Also published as: CN114967721B

Abstract

本发明公开了一种基于DQ‑CapsNet的无人机自助路径规划和避障策略方法，首先设定无人机状态信息，再设定无人机的动作信息和无人机的状态更新过程；然后定义奖励函数，引入胶囊网络算法，构建深度强化学习网络DQ‑CapsNet网络：最后基于DQ‑CapsNet网络，构建无人机路径规划与避障预训练模型并进行训练；本发明对提升无人机路径规划与避障模型训练效率以及无人机在陌生环境下对障碍物的识别率，且构建的无人机路径规划与避障模型具有更好的规划性能。

Description

一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法

技术领域

本发明属于无人机技术领域，具体涉及一种无人机自助路径规划和避障策略方法。

背景技术

无人机路径规划和避障是无人机技术研究领域及应用的核心问题，其指无人机在一定的目标环境下，从出发点到目标点之间找到或者规划出一条最优或次优的路径，并在其航迹飞行中实现避障。随着无人机在军事领域以及民用领域普及，无人机所应用的环境也日益复杂，规划一条实用有效的路径并进行实时避障不仅能够帮助无人机完成任务而且可以降低无人机损耗。在未知的环境下进行无人机路径规划称为环境信息未知的路径规划，无人机对环境的感知来源于机载传感器，由机载传感器所得信息规划出最优、次优路径具有一定的局限性，需要采用技术手段进行优化。

无人机路径规划相关算法发展迅速，传统常用的方法包括：导航向量场、蚁群算法、Dijkstra最短路径搜索法(贪婪算法)、D*算法等，这些方法虽然能够动态地规划出无人机的飞行路径，是一种局部路径规划方法，但是需要对具体环境建立模型，因此缺乏通用性。

近些年来随着人工智能技术的快速发展，机器学习在无人机领域展现出巨大潜力。深度强化学习(Deep Reinforcement Learning，简称DRL)已被广泛应用于智能控制、仿真模拟、任务优化、无人机路径规划等领域，其基本思想是通过智能体(Agent)在环境中不断试错从而获得最高累计奖励回报，以优化参数获得最优决策。但是在传统的卷积神经网络(Convolutional Neural Networks，CNN)网络与强化学习(Reinforcement Learning，DL)结合过程中会出现以下问题：1.DL需要大量的带标签的样本进行监督学习而RL只有reward返回值，而且伴随着噪声，延迟，稀疏等；2.DL的样本独立而RL前后state状态相关；3.DL目标分布固定而RL的分布一直变化即每个环境都需要单独训练等问题，简单的将DQN算法应用于无人机路径规划，缺乏泛化性。

胶囊(Capsule)的概念是由Sabour S等人首次提出，Hinton等人在2018年发表的论文中对胶囊网络中的动态路由迭代算法进行了介绍，并提出一种新的路由算法，对胶囊网络核心路由算法进行改进。改进的胶囊网络通过动态路由算法替代了CNN的池化操作，从而使得特征损失有所减小，能够在一定程度上提高图像识别的准确率。

在胶囊网络中，每个胶囊包含众多的神经元，每一个神经元存储了从图片中获取的部分特征。与CNN不同，胶囊网络中采用的是向量神经元而非标量神经元，这就使得神经元可以表达的信息更丰富，从而能够提高网络的识别率。每一个向量神经元都有其自身的属性，各种各样的实例化参数都可以包含于其属性当中，比如姿态、变形、速度等。除此之外胶囊还存在一个特殊属性，该属性描述的是图像中某一实例的存在与否。该属性的值为概率，其大小又取决于该向量的神经元的模长，模长越大则概率越大，反之亦然。向量神经元通过squash()函数进行激活，该函数能够对该向量的长度进行放大或缩小，而向量的长度又代表某一时间发生的可能性。经过该函数的激活后，能够将特征显著的向量进行放大，将特征不够明显的向量进行缩小，从而提高识别率。

相对于卷积网络的缺陷，胶囊网络具有很大的优势，胶囊网络仅需要少量的数据即可进行泛化，通过动态路由算法可降低噪声影响，因为算法只对两个方向一致的胶囊才产生较大的耦合系数，能通过此算法过滤掉返回值中的噪声。胶囊网络采用的是多胶囊向量形式，一个单元由多个胶囊进行表征，这可以解决传统深度学习与强化学习结合过程中，深度学习的样本独立，强化学习前后状态相关问题。由多个胶囊表征状态，当状态改变时仍然有一部分的胶囊相同。胶囊网络其使用空间细粒度表征，可以学习到更多的姿态信息，通过所学习到的姿态信息可预测到智能体下一步的状态，同时胶囊网络使用屏蔽机制保留不同环境下各个环境特征相近的胶囊。

发明内容

为了克服现有技术的不足，本发明提供了一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法，首先设定无人机状态信息，再设定无人机的动作信息和无人机的状态更新过程；然后定义奖励函数，引入胶囊网络算法，构建深度强化学习网络DQ-CapsNet网络：最后基于DQ-CapsNet网络，构建无人机路径规划与避障预训练模型并进行训练；本发明对提升无人机路径规划与避障模型训练效率以及无人机在陌生环境下对障碍物的识别率，且构建的无人机路径规划与避障模型具有更好的规划性能。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤1：设定无人机状态信息；

无人机的状态信息S设定为：

S＝[S_uav,S_detect,S_envir]

其中，S_uav,S_detect,S_envir分别表示无人机自身状态信息、自身探测状态信息和环境状态信息；

设定任务场景宽度和长度分别为l_width和l_length，无人机的最大飞行高度为h_max；

设定无人机自身状态信息为：

其中，x,y,z分别表示无人机在x,y,z轴上的坐标信息，v_x,v_y,v_z分别表示无人机在x,y,z轴上的速度信息，v_max为无人机最大速度；

分别利用j个距离传感器和j个高度传感器对无人机周围环境进行探测；

设定无人机自身探测状态信息为：

S^l _detect＝[T_l1,T_l2,...T_lj]/D_Tl

S^h _detect＝[T_h1,T_h2...T_hj]/D_Th

其中，S^l _detect为无人机自身距离探测状态信息，T_l1～T_lj表示无人机的各距离传感器示数，D_Tl表示距离传感器探测范围；S^h _detect为无人机自身高度探测状态信息，T_h1～T_hj表示无人机的各高度传感器示数，D_Th表示高度传感器探测范围；

设定无人机环境状态信息为：

S_envir＝[d_i,σ_i]

其中d_i和σ_i分别表示无人机与障碍物i的距离和水平相对方位角；

步骤2：设定无人机的动作信息和无人机的状态更新过程；

通过直接控制无人机的受力，实现对无人机的运动姿态和飞行速度的控制；因此，设定无人机的动作状态信息为：

A_F＝[F_x,F_y,F_z]

其中F_x,F_y,F_z分别表示无人机在x,y,z轴上的受力，则无人机的加速度表示为：

a＝[a_x,a_y,a_z]＝A_F/m_uav＝[F_x,F_y,F_z]/m_uav

其中，a_x,a_y,a_z分别表示无人机在x,y,z轴上的加速度，m_uav表示无人机的质量；基于无人机受力的无人机状态更新过程表示为：

其中，其中上标t表示时间，P^t、V^t、

分别表示t时刻无人机的位置信息、速度信息和偏航角，x^t-1,y^t-1,z^t-1分别表示t-1时刻无人机在x、y、z轴上的位置分量，

分别表示t时刻无人机在x、y、z轴上的速度分量，

分别表示t-1时刻无人机在x、y、z轴上的速度分量，dt表示无人机运动时间间隔，

分别表示t时刻无人机加速度在x、y、z轴上的加速度分量；

定义无人机动作空间：

A＝E[e₁,e₂,...e₇]

其中e₁,e₂,...e₇表示三维空间内无人机七种动作即上、下、前、后、左、右、悬停，网络执行动作状态信息选取无人机下一刻动作；

步骤3：定义奖励函数R；

步骤3-1：设定无人机靠近目的地奖励；

其中，x^t,y^t,z^t分别表示t时刻无人机在x、y、z轴上的位置分量；x_o,y_o,z_o分别为目的地的三维坐标位置；P_o为目的地的位置；

步骤3-2：设定无人机安全飞行奖励；

其中，

表示无人机到障碍物i的距离，

表示无人机与障碍物i的最小安全距离；

表示无人机到障碍物i的高度，

表示无人机到障碍物i的最小安全高度；

步骤3-3：设定无人机任务完成奖励；

其中，r_destin为设定的到目的地的边界范围，当无人机的位置与目的地的位置相距小于r_destin时，视为无人机到达目的地；x_o,y_o,z_o分别为目的地的三维坐标位置；

步骤3-4：设定无人机受到的总奖励为：

R＝ρ₁R_close+ρ₂R_safe+ρ₃R_finish

其中，ρ₁～ρ₃表示三项奖励的相应的权重值；

步骤3-5：设定无人机路径规划与避障判定条件：当无人机位于目的地附近且无人机的位置与目的地的位置相距小于r_destin时，视为无人机到达目的地，此时无人机路径规划与避障任务完成；

步骤4：引入胶囊网络算法，构建深度强化学习网络DQ-CapsNet网络；

所述深度强化学习网络DQ-CapsNet网络包括深度强化学习DQN框架和胶囊网络框架；深度强化学习DQN框架包括Experience replay经验池、当前动作值网络和目标价值网络；胶囊网络框架包括卷积层、PrimaryCapsule主胶囊层、DigitCapsule数字胶囊层以及囊间动态路由算法；

由深度强化学习DQN框架改进后得到DQ-CapsNet网络包括以下步骤：

步骤4-1：构建状态特征提取层：特征提取层由一层卷积层构成Conv1，卷积核大小、输入维度、输出维度、滑动步长如下所示，采用Relu激活函数：

Conv1：5×5,1,256,2；

步骤4-2：构建融合PrimaryCapsule层：该层采用PrimaryCapsule胶囊层构成，将Conv1层的输出C^o展平为

的矢量，其中

为该层的胶囊的数量，

为该层胶囊的维度；将展平的矢量进行维度变换得到低层胶囊C_lower；

该层使用的卷积核大小，输入维度、输出维度、滑动步长如下所示：

PrimaryCapsule：9×9,256,8,2；

步骤4-3：低层胶囊动态路由Routing算法处理：对低层胶囊C_lower采用动态路由算法，初始化低层胶囊C_lower中向量v_p与高层胶囊C_high中向量u_p|q的连接概率参数b_qp＝0，设置算法迭代次数r_iter次开始迭代，得到向量加权求和的权重参数c_qp：

得到低层胶囊p层中向量：

v_p＝∑_qc_qpu_p|q

然后将向量v_p输入非线性函数squash()得到输出向量υ_p：

更新连接概率参数b_qp＝b_qp+u_p|qυ_p；

迭代r_iter次后输出由高层特征向量υ_p组成的高层胶囊C_high；

步骤4-4：构建DigitCapsule数字胶囊层：

初始化关系矩阵W，该层的输入为D_lc_ow维的高层胶囊C_high，对高层胶囊C_high中的特征向量继续采用动态路由算法，得到本层输出：

υ_dim＝W_dimυ_p

其中，υ_dim是一个

的矢量矩阵，

为矩阵W_dim的维度，

为高层胶囊的个数；

步骤4-5：网络增加第四层全连接层Fully层，降低由DigitCapsule数字胶囊层输出的矩阵的维度，得到无人机飞行动作输出；

步骤5：基于DQ-CapsNet网络，构建无人机路径规划与避障预训练模型并进行训练；

步骤5-1：构建无人机动作值网络Q(s,a；θ)，基于θ←θ′，同步参数至目标价值网络

步骤5-2：初始化超参数：经验回放池大小为N，采样大小为S_batch，每回合最大步长为T，奖励折扣因子γ，最大回合数为M，训练频次为C，批处理数B_size，网络学习率l_r，路由算法迭代次数r_iter，目标网络更新间隔T_p，设定初始回合数ep＝0；

步骤5-3：初始化无人机的状态s₁＝{x₁}和状态预处理队列φ₁＝φ₁(s₁)，更新当前时刻为t＝0；其中，x₁为初始时刻系统状态；

步骤5-4：对于每个无人机，如已有策略则根据策略ε选取t时刻动作a_t，否则a_t＝argmax_a Q(φ(s_t),a；θ)；

步骤5-5：无人机与环境交互执行动作a_t后，得到奖励值r_t，得到下一时刻状态s_t+1＝{x_t+1}；设置t+1时刻无人机状态s_t+1＝s_t，动作a_t，t+1系统状态x_t+1和状态预处理队列φ_t+1＝φ(s_t+1)；

步骤5-6：存储经验样本(φ_t,a_t,r_t,φ_t+1)于经验回放队列中；

步骤5-7：根据

采样S_batch个(φ_g,a_g,r_g,φ_g+1)样本数据，其中c表示被抽取的经验样本的序号，p_c表示优先级，参数α为用于调节样本优先采样程度的参数；

计算目标值：

其中，γ为奖励折扣因子，a′为下一时刻无人机的动作；

通过损失函数对在线价值网络进行更新：

L(θ,k)＝E[(y_g-Q(s,a,θ))²+β(T_kmax(0,m⁺-||a_k||)²+λ(1-T_k)max(0,||a_k||-m^-)²)]

其中，y_g为目标值；γ为奖励折扣因子；s,a分别表示此刻的状态和动作，Q(s,a,θ)为价值函数，θ表示逼近函数的网络参数，在此采用胶囊网络逼近，θ为CapsNet网络的权值，采用CapsNet网络的权值作为Q(s,a,θ)的网络参数；β为组合系数；T_k表示下一时刻k类动作是否存在，存在为1，不存在为0；m⁺为惩罚假阳性动作a_k因子；m^-为惩罚假阴性动作a_k因子；

步骤5-8：更新无人机智能体目标价值网络参数：

θ′＝τθ+(1-τ)θ′

其中，τ表示更新比例系数；

步骤5-9：更新步长t+1，执行条件判定：当t<T且不满足步骤3-5所示无人机路径规划与避障条件时，进入步骤5-4；否则进入步骤5-10；

步骤5-10：更新回合数ep加1，执行判定：若ep<M，则更新步骤至步骤5-3；否则，训练完成，进入步骤5-11；

步骤5-11：终止DQ-CapsNet网络训练过程，保存当前网络参数；将保存好的参数加载至无人机路径规划与避障系统中；每一时刻，无人机分别将其状态信息输入至神经网络中，通过DQ-CapsNet神经网络进行拟合，输出无人机飞行动作，使无人机能够在环境中进行路径规划和避障。

本发明的有益效果如下：

1)本发明构建的基于深度强化学习的无人机系统控制模型，采用离线式训练、在线式执行方法，能够实现无人机自主规划路径与避障，且无人机产生的行为策略更加灵活；

2)本发明将深度强化学习DQN网络和胶囊网络相结合，针对无人机路径规划与避障任务场景，设立相应的奖励函数鼓励无人机在不同的状态下学习合适的行为策略，能够使无人机在面对不同的环境时其探测的泛化能力增强；

3)本发明在训练之前改变网络结构，利用胶囊网络动态路由算法可降低环境噪声影响，然后在经验样本中引入多种路径规划与避障数据，对样本采样效率进行改进、提升无人机路径规划与避障模型训练效率以及无人机在陌生环境下对障碍物的识别率，且构建的无人机路径规划与避障模型具有更好的规划性能。

附图说明

图1为本发明基于DQ-CapsNet的无人机路径规划与避障模型构建示意图。

图2为本发明无人机二维平面探测示意图。

图3为本发明无人机三维探测示意图。

图4为本发明探测无人机与目的地和障碍物的位置关系示意图。

图5为本发明构建的DQ-CapsNet网络模型；

具体实施方式

下面结合附图和实施例对本发明进一步说明。

本发明的目的在于提供一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法，该方法能够解决卷积神经网络与强化学习结合的问题、使无人机在环境信息未知的连续状态下进行无人机路径规划与避障、增加网络泛化能力，具有很好的适用性。

其模型训练、测试和构建流程如图1所示。下面结合附图和具体实施例，对该技术方案进一步清晰和完整的描述：

步骤1：设定无人机状态信息：

对于无人机，其状态信息S设定为：

S＝[S_uav,S_detect,S_envir]

其中，S_uav,S_detect,S_envir分别表示无人机自身状态信息、自身探测状态信息、环境状态信息；

具体地，在无人机自助路径规划和避障任务中，设定任务场景宽度和长度分别为l_width和l_length，设定l_width＝5km，l_length＝5km；无人机的最大飞行高度为h_max，设定h_max＝1km，对于无人机设定无人机自身状态信息为：

其中，x,y,z分别表示无人机在x,y,z轴上的坐标信息，v_x,v_y,v_z分别表示无人机在x,y,z轴上的速度信息，v_max为无人机最大速度，设定v_max＝0.1km/s；

分别利用j＝8个距离传感器和j＝8个高度传感器对无人机周围环境进行探测；对于无人机，设定自身探测状态信息为：

S^l _detect＝[T_l1,T_l2,...T_lj]/D_Tl

S^h _detect＝[T_h1,T_h2...T_hj]/D_Th

其中，S^l _detect为无人机自身距离探测状态信息，T_l1～T_lj表示无人机的各距离传感器示数，D_Tl表示距离传感器探测范围，设定D_Tl＝0.2km；S^h _detect为无人机自身高度探测状态信息T_h1～T_hj表示无人机的各高度传感器示数，D_Th表示高度传感器探测范围，设定D_Th＝0.2km。无人机二维探测模型如图2所示，三维探测模型如图3所示。当传感器探测到障碍物时，T_l∈[0,0.2km]，T_h∈[0,0.2km]，分别表示无人机到障碍物的距离和高度；

对于无人机，设定环境状态信息为：

其中d_i和σ_i分别表示无人机与障碍物i的距离和水平相对方位角；其中，x^t,y^t,z^t分别表示t时刻无人机在x、y、z轴上的位置分量；

分别为障碍物i的三维坐标位置；

步骤2：设定无人机的动作信息、动作空间和无人机的状态更新过程：

通过直接控制无人机的受力，实现对无人机的运动姿态和飞行速度的控制进而执行无人机动作；

设定无人机的动作状态信息为：

A_F＝[F_x,F_y,F_z]

a＝[a_x,a_y,a_z]＝A_F/m_uav＝[F_x,F_y,F_z]/m_uav

其中，a_x,a_y,a_z分别表示无人机在x,y,z轴上的加速度，无人机最大加速度的值||a||＝0.04km/s²，m_uav表示无人机的质量，设定m_uav＝3kg；基于无人机受力的无人机状态更新过程表示为：

其中，其中上标t表示时间，P^t，V^t，

分别表示t时刻无人机在x、y、z轴上的速度分量，

分别表示t时刻无人机加速度在x、y、z轴上的加速度分量；

定义无人机动作空间：

A＝E[e₁,e₂,...e₇]

步骤3：定义奖励函数R：

步骤3-1：对于无人机，设定无人机靠近目的地奖励：

步骤3-2：对于无人机，设定无人机安全飞行奖励：

其中，

表示无人机到障碍物i的距离，

表示无人机与障碍物i的最小安全距离，设定

表示无人机到障碍物i的高度，

表示无人机到障碍物i的最小安全高度，设定

步骤3-3：对于无人机，设定无人机任务完成奖励：

r_destin为设定的到目的地的边界范围，当无人机的位置与目的地的位置相距小于r_destin＝0.01km时，视为无人机到达目的地。

步骤3-4：对于无人机，设定其受到的总奖励为：

R＝ρ₁R_close+ρ₂R_safe+ρ₃R_finish

其中，ρ₁～ρ₃表示三项奖励的相应的权重值，设定ρ₁＝0.2,ρ₂＝0.3,ρ₃＝0.5；

步骤3-5：设定无人机路径规划与避障判定条件：当无人机位于目的地附近且无人机的位置与目的地的位置相距小于r_destin＝0.01km时，视为无人机到达目的地，此时无人机路径规划与避障任务完成；

步骤4：引入胶囊网络，构建DQ-CapsNet网络：

所述深度强化学习网络DQ-CapsNet网络包括深度强化学习DQN框架和胶囊网络框架；DQN深度强化学习网络框架包括Experience replay经验池、当前动作值网络、目标价值网络等；胶囊网络框架包括卷积层、PrimaryCapsule主胶囊层、DigitCapsule数字胶囊层以及囊间动态路由算法；

DQN网络包括：

当前动作值网络：使用神经网络构建的当前动作值网络，用来评估当前状态动作对的值函数，输出为Q(s,a；θ)；

目标价值网络：使用另一个网络产生目标Q值，输出为Q(s,a；θ^-)；根据损失函数更新当前动作值网络的参数，经过一定次数的迭代，将当前动作值网络的参数复制给目标价值网络；

其中s,a,θ,θ^-分别表示无人机状态，无人机动作，动作值网络参数和目标价值网络参数；

进一步地，由深度强化学习DQN网络改进后得到DQ-CapsNet网络包括以下步骤：

步骤4-1：构建状态特征提取层：特征提取层由一层卷积层构成Conv1，各层的卷积核大小、输入维度、输出维度、滑动步长如下所示，采用Relu激活函数：

Conv1：5×5,1,256,2；

步骤4-2：构建融合PrimaryCapsule层：该层主要为PrimaryCapsule胶囊层构成，将Conv1层的输出C^o展平为

的矢量，其中

为该层的胶囊的数量，

PrimaryCapsule：9×9,256,8,2；

步骤4-3：低层胶囊动态路由Routing算法处理：对低层胶囊C_lower采用动态路由算法，初始化低层胶囊C_lower中向量v_p与高层胶囊C_high中向量u_p|q的连接概率b_qp＝0，设置算法迭代次数r_iter＝3次开始迭代，得到向量加权求和的权重参数c_qp：

得到低层胶囊中的向量：

v_p＝∑_qc_qpu_p|q

最后将向量v_p输入非线性函数squash()得到输出向量υ_p：

更新连接概率参数b_qp＝b_qp+u_p|qυ_p；

迭代r_iter次后输出由高层特征向量υ_p组成的高层胶囊C_high；

步骤4-4：构建DigitCapsule数字胶囊层：

初始化关系矩阵W，该层的输入为

维的高层胶囊C_high，对高层胶囊C_high中的特征向量继续采用动态路由算法，得到本层输出：

υ_dim＝W_dimυ_p

其中υ_dim是一个

的矢量，

为矩阵W_dim的维度，

为高层胶囊的个数；

步骤4-5：网络增加第四层全连接层Fully层，降低由DigitCapsule数字胶囊层输出的矩阵参数的维度，得到无人机飞行动作输出；

构建的DQ-CapsNet网络模型如图5所示；

步骤5：基于DQ-CapsNet算法，构建无人机路径规划与避障预训练模型并进行训练：

步骤5-1：对于无人机，构建动作值网络Q(s,a；θ)，基于θ←θ′，同步参数至目标价值网络

步骤5-2：初始化超参数：经验回放池大小为N＝100000，采样大小为S_batch＝256，每回合最大步长为T＝100，奖励折扣因子γ＝0.99，最大回合数为M＝20000，批处理数B_size＝256，网络学习率l_r＝0.0001～0.01，路由算法迭代次数r_iter＝3次，目标网络更新间隔T_p＝10步，设定初始回合数ep＝0；在训练过程中使用GPU进行加速训练；

步骤5-4：对于每个无人机，如有策略则根据策略ε选取t时刻动作a_t，否则a_t＝argmax_aQ(φ(s_t),a；θ)；

步骤5-6：存储经验样本(φ_t,a_t,r_t,φ_t+1)于经验回放队列中；

步骤5-7：根据

采样S_batch个(φ_g,a_g,r_g,φ_g+1)样本数据，其中c表示被抽取的经验样本的序号，p_c表示优先级，根据程序运行进行设置，参数α为用于调节样本优先采样程度的参数，设置为α＝0.2；

计算目标值：

其中，γ＝0.99为奖励折扣因子，a′为下一时刻无人机的动作；

通过损失函数对在线价值网络进行更新：

其中，y_g为目标值；γ＝0.99为奖励折扣因子，距离当前时刻越远的奖励衰减越显著；s,a分别表示此刻的状态和动作，Q(s,a,θ)为价值函数，θ表示逼近函数的网络参数，在此采用胶囊网络逼近，θ为CapsNet网络的权值，采用CapsNet网络的权值作为Q(s,a,θ)的网络参数；β为组合系数，设置β＝0.9；T_k表示下一时刻k类动作是否存在，存在为1，不存在为0；m⁺为惩罚假阳性动作a_k因子设置m⁺＝0.9，a_k存在但是预测不存在会导致此部分损失函数很大；m^-为惩罚假阴性动作a_k因子，设置m^-＝0.1，a_k不存在但是预测存在，会导致此部分损失函数很大。

步骤5-8：更新无人机智能体目标价值网络参数

θ′＝τθ+(1-τ)θ′

τ表示更新比例系数，在训练过程中设置τ＝0.01；

步骤5-10：更新回合数ep+1，执行判定：若ep<M，则更新步骤至步骤5-3；否则，训练完成，进入步骤5-11；

本发明提出的无人机路径规划与避障策略方法，能够为无人机系统提供自主学习和自适应能力，使无人机系统能够动态感知环境变化，在不同的状态下决策出合适的动作，最终完成路径规划与避障任务，同时提升了无人机系统在面对不同环境时的泛化能力。