CN115826621B

CN115826621B - 一种基于深度强化学习的无人机运动规划方法及系统

Info

Publication number: CN115826621B
Application number: CN202211679084.7A
Authority: CN
Inventors: 魏巍; 冯宇轩; 李琳; 梁吉业; 司瑞华; 王达
Original assignee: Shanxi University
Current assignee: Shanxi University
Priority date: 2022-12-27
Filing date: 2022-12-27
Publication date: 2023-12-01
Anticipated expiration: 2042-12-27
Also published as: CN115826621A

Abstract

本发明公开一种基于深度强化学习的无人机运动规划方法及系统，涉及路径规划领域，该方法包括：根据飞行任务对无人机的环境空间建模，获得三维空间模型；基于三维空间模型，采用深度强化学习网络模拟多轮飞行任务获得样本数据集；样本数据集中各样本数据包括时刻t的状态、动作、即时奖励和时刻t+1的状态；即时奖励包括内在动机奖励和环境反馈奖励，时刻t的内在动机奖励为均匀动作分布的微分熵与时刻t+1的状态的的动作分布的微分熵的差值；采用样本数据集训练深度强化学习网络，获得训练好的深度强化学习网络；利用训练好的深度强化学习网络为无人机的飞行任务输出当前状态下的执行动作。本发明提高了无人机运动规划的效率和适用性。

Description

一种基于深度强化学习的无人机运动规划方法及系统

技术领域

本发明涉及路径规划技术领域，特别是涉及一种基于深度强化学习的无人机运动规划方法及系统。

背景技术

路径规划是给定一个机器人和环境描述，在指定的起始位置和目标位置之间规划一条无碰撞的路径。传统的路径规划算法有基于图搜索的路径规划算法、基于采样的路径规划算法，而基于图搜索的路径规划算法适用于低维空间，在高维环境中搜索效率低。目前多采用基于采样的方法进行高维空间下的路径规划，但是规划出的路径不光滑，无人机无法很好的执行。基于反应的规划方法如人工势场法(Artificial Potential Field，APF)和局部规划算法(Dynamic Window Approach，DWA)等易陷入局部最优解。运动规划通过对前期路径规划算法搜索出的离散路径点进行轨迹优化，使优化后的路径更加适合无人机执行，但是随着无人机应用场景复杂性和随机性的增加，该运动规划能力受到挑战。基于深度强化学习的无人机运动规划是一种基于无模型的不需要提供先验地图的且不需要精确的机器人模型和传感器模型的，即使环境发生变化，智能体仍然可以根据观察结果选择合适的动作的无人机运动规划方法，逐渐成为研究热点。

现有的基于深度强化学习的运动规划在长距离导航中由于正奖励一般设置在目标点位置，存在奖励稀疏的问题，严重减慢了训练过程中的收敛速度，使学习能力下降，也可能陷入局部最优解无法学习到最优路径。

发明内容

本发明的目的是提供一种基于深度强化学习的无人机运动规划方法及系统，提高了无人机运动规划的效率和适用性。

为实现上述目的，本发明提供了如下方案：

一种基于深度强化学习的无人机运动规划方法及系统，包括：

根据飞行任务对无人机的环境空间建模，获得三维空间模型；所述三维空间模型包括所述无人机、所述飞行任务的起始点、所述飞行任务中的障碍物和所述飞行任务的目标点；

基于所述三维空间模型，采用深度强化学习网络模拟多轮所述飞行任务获得样本数据集；所述样本数据集中各样本数据包括时刻t的状态、时刻t的动作、时刻t的即时奖励和时刻t+1的状态；所述即时奖励包括内在动机奖励和环境反馈奖励，时刻t的所述内在动机奖励为均匀动作分布的微分熵与时刻t+1的状态的动作分布的微分熵的差值；

采用所述样本数据集训练所述深度强化学习网络，获得训练好的所述深度强化学习网络；

利用训练好的所述深度强化学习网络为所述无人机的所述飞行任务输出当前状态下的执行动作。

可选地，基于所述三维空间模型，对于每轮所述飞行任务的模拟，具体包括：

获得所述无人机的当前时刻的状态；当前时刻的状态包括所述无人机相机拍摄的连续设定帧数的深度图像和所述目标点；

将当前时刻的状态输入所述深度强化学习网络，输出当前时刻的动作；

使所述无人机执行当前时刻的动作，并得到当前时刻的即时奖励，然后获取所述无人机下一时刻的状态，将当前时刻的状态、当前时刻的动作、当前时刻的即时奖励和下一时刻的状态构成的样本数据放入所述样本数据集中，返回步骤“将当前时刻的状态输入所述深度强化学习网络，输出当前时刻的动作”进行迭代，直到迭代达到停止条件。

可选地，所述停止条件包括所述无人机碰撞到所述障碍物、迭代次数达到设置迭代阈值和所述无人机到达所述目标点。

可选地，所述设定帧数为4。

可选地，时刻t的即时奖励表示为：

其中，表示时刻t的环境反馈奖励，/>表示时刻t的内在动机奖励，α表示/>的权重，α>0；

的计算公式为：/>

其中，r_goal表示目标奖励，当无人机到达所述目标点时r_goal＝+10，否则为0；r_collision表示碰撞惩罚，当无人机撞到障碍物时r_collision＝-100，否则为0；r_step表示时间惩罚，在每一时间步无人机移动时r_step＝-1；

的计算公式为：/>

其中，β为参数，β取值范围为0到1，β值从0随时间步增加，H(u)为均匀动作分布的微分熵，H(·|s_t+1)为时刻t+1的状态的动作分布的微分熵，H(u)和H(·|s_t+1)的差值表示时刻t+1的状态作为拐点的程度，表示时刻t的状态被访问的次数，s_t表示时刻t的状态，s_t+1表示时刻t+1的状态。

可选地，时刻t的动作为由无人机的线速度和角速度构成的控制动作。

本发明公开了一种基于深度强化学习的无人机运动规划系统，包括：

三维空间模型构建模块，用于根据飞行任务对无人机的环境空间建模，获得三维空间模型；所述三维空间模型包括所述无人机、所述飞行任务的起始点、所述飞行任务中的障碍物和所述飞行任务的目标点；

样本数据集确定模块，用于基于所述三维空间模型，采用深度强化学习网络模拟多轮所述飞行任务获得样本数据集；所述样本数据集中各样本数据包括时刻t的状态、时刻t的动作、时刻t的即时奖励和时刻t+1的状态；所述即时奖励包括内在动机奖励和环境反馈奖励，时刻t的所述内在动机奖励为均匀动作分布的微分熵与时刻t+1的状态的动作分布的微分熵的差值；

深度强化学习网络训练模块，用于采用所述样本数据集训练所述深度强化学习网络，获得训练好的所述深度强化学习网络；

飞行任务执行模块，用于利用训练好的所述深度强化学习网络为所述无人机的所述飞行任务输出当前状态下的执行动作。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明采用深度强化学习网络模拟多轮所述飞行任务获得样本数据集，在采用样本数据集对深度强化学习网络进行训练时，即时奖励包括均匀动作分布的微分熵与下一状态的动作分布的微分熵的差值，在连续的动作空间上生成路径，提高了深度强化学习网络学习能力，从而提高了无人机运动规划的效率和适用性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种基于深度强化学习的无人机运动规划方法及系统流程示意图；

图2为本发明深度强化学习网络结构示意图；

图3为本发明一种基于深度强化学习的无人机运动规划系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1

图1为本发明一种基于深度强化学习的无人机运动规划方法及系统流程示意图，如图1所示，本发明一种基于深度强化学习的无人机运动规划方法及系统，包括以下步骤：

步骤101：根据飞行任务对无人机的环境空间建模，获得三维空间模型；所述三维空间模型包括所述无人机、所述飞行任务的起始点、所述飞行任务中的障碍物和所述飞行任务的目标点。

无人机起始点、目标点和障碍物的位置用3维笛卡尔空间直角坐标系表示。

无人机为四旋翼无人机。

步骤102：基于所述三维空间模型，采用深度强化学习网络模拟多轮所述飞行任务获得样本数据集；所述样本数据集中各样本数据包括时刻t的状态、时刻t的动作、时刻t的即时奖励和时刻t+1的状态；所述即时奖励包括内在动机奖励和环境反馈奖励，时刻t的所述内在动机奖励为均匀动作分布的微分熵与时刻t+1的状态的动作分布的微分熵的差值。

步骤103：采用所述样本数据集训练所述深度强化学习网络，获得训练好的所述深度强化学习网络。

步骤104：利用训练好的所述深度强化学习网络为所述无人机的所述飞行任务输出当前状态下的执行动作。

其中，步骤102中，基于所述三维空间模型，对于每轮所述飞行任务的模拟，具体包括：

获得所述无人机的当前时刻的状态；当前时刻的状态包括所述无人机相机拍摄的连续设定帧数的深度图像和所述目标点。

所述设定帧数为4。

作为具体实施方式，采用无人机RGB-D深度相机获取连续设定帧数的深度图像。

将当前时刻的状态输入所述深度强化学习网络，输出当前时刻的动作。

深度强化学习网络为SoftActor-Critic(SAC)深度强化学习网络。

当前时刻的动作为无人机的线速度和角速度构成的控制动作。

当前时刻t的状态s_t＝(o,g)，其中o为无人机RGB-D深度相机观测的连续4帧图像，g为目标点的位置。其中在每一个飞行任务开始时，无人机和目标点被放置在环境的随机位置。

无人机在当前状态根据深度强化学习方法(深度强化学习网络)计算最优控制动作：将无人机当前时刻t的状态s_t作为SAC深度强化学习算法的输入，通过策略网络(Policy网络)计算，得到当前时刻t的动作输出a_t，作为无人机在当前状态下所需要执行的最优控制动作。其中，Policy网络输入状态s_t到输出动作a_t的过程为：首先输出平均值μ_t和log标准差logσ_t，公式为π_φ(s_t)＝μ_t,logσ_t，然后利用exp(logσ_t)得到σ_t，由均值和方差得到u_t＝N(μ_t,σ_t ²)，通过挤压函数tanh将动作限制在(-1,1)之间，即a_t＝tanh(u_t)。由此得到当前状态对应的动作a_t。

无人机执行控制动作a_t并获得即时奖励，然后感知下一状态s_t+1，将经验(样本数据)存放经验池中。

无人机执行SAC算法给出的动作a_t，并与环境进行交互，得到环境反馈的奖励及内在动机奖励/>这两个共同组成即时奖励r_t，并且无人机转移到下一个位置获得下一个状态s_t+1，此时获得时刻t下的经验e_t＝(s_t,a_t,r_t,s_t+1)，即样本数据，将经验存放入经验回放池/>中。

在路径规划中离障碍物比较近的点往往是最优路径附近的点，这类点通常被称为拐点。本发明旨在鼓励无人机快速找到拐点，再进行更深入的探索，此方法能更快的找到最优路径。基于此，本发明提出基于内在动机奖励的技术，为拐点赋予内在奖励以达到上述目的。

本发明的内在动机奖励理解为：当某一状态的动作概率分布发生巨大变化时，比如上一次撞到了某个障碍物，则为了避开该障碍物，下一轮任务时，该状态处的该动作的概率会降低，降低程度与负奖励值的大小有关，则该状态处的微分熵会变小。因此利用某一状态处动作概率分布的微分熵的差距来度量动作分布的变化，作为拐点的确定依据，并根据变化程度，确定内在奖励值。

具体的，对于一个经验e_t＝(s_t,a_t,r_t,s_t+1)，即时奖励值为：其中，为外部奖励即环境本身的奖励，/>为内在动机奖励。α>0表示/>的权重。

的计算：/>其中，r_goal表示目标奖励，r_collision表示碰撞惩罚，r_step表示时间惩罚，当无人机到达目标点时r_goal＝+10，否则为0；当无人机撞到障碍物时r_collision＝-100，否则为0；在每一时间步无人机移动时r_step＝-1。

时刻t与时刻t+1之间相差一个时间步。

的计算：/>β为参数，β取值范围为0到1，β值从0随时间步增加到1，其中，H(u)为均匀动作分布的微分熵，H(·|s_t+1)为下一状态的动作分布的微分熵，H(u)和H(·|s_t+1)的差值表示下一状态作为拐点的程度，用作内在奖励。/>表示当前状态选择的这个动作到达下一个状态，如果执行这个动作到达的下一个状态是拐点，即这个下一个状态前几轮有过碰撞，此时该状态处的微分熵会变小，那么说明这个动作是优的，给出更高的奖励。通过这种内在动机奖励机制以加速无人机向关键的位置移动。/>表示状态s_t被访问的次数，访问的次数越多该值越小。用来权衡前一部分微分熵差值在后期训练过程中可能变大的问题。

所述停止条件包括所述无人机碰撞到所述障碍物、迭代次数达到设置迭代阈值和所述无人机到达所述目标点。

如图2所示，所述深度强化学习网络包括策略网络(Policy网络)、第一价值网络(Q网络)、第二价值网络(Q网络)、第一目标价值网络(Target Q网络)和第二目标价值网络(Target Q网络)。

图2中价值网络Q₁为第一价值网络，价值网络Q₂为第二价值网络，目标价值网络Q_target1为第一目标价值网络，目标价值网络Q_target2为第二目标价值网络。

采用样本数据集中大量样本数据对深度强化学习网络进行训练。

Policy网络从状态空间映射到动作空间，输入状态输出动作的分布以及根据下一状态来计算对应的动作。Q网络对Policy网络产生的决策进行评价，输入状态动作对输出在该状态下采取的动作的价值。Target Q网络产生目标Q值并评估动作。Target Q网络经过一定步数后复制Q网络的权重进行软更新。

无人机与环境交互过程种产生大量经验存入经验回放池中，当经验回放池中的经验数量达到最大容量，替换多余的经验(多余的经验为最先放入经验回放池中经验)，并从经验回放池中随机采样数量为n的样本数据集合B用于训练网络，更新Policy网络、两个Q网络以及两个Target Q网络权重，直到Policy网络和Q网络收敛。

所述深度强化学习网络的训练过程包括网络初始化、所述第一价值网络和所述第二价值网络的训练、所述策略网络的训练、以及所述第一目标价值网络和所述第二目标价值网络的网络参数更新。

所述网络初始化包括：初始化所述策略网络、所述第一价值网络、所述第二价值网络、所述第一目标价值网络和所述第二目标价值网络的网络参数；所述第一价值网络和所述第二价值网络的初始网络参数不同，所述第一目标价值网络和所述第二目标价值网络的初始网络参数不同；所述第一价值网络和所述第一目标价值网络的网络参数相同，所述第二价值网络和所述第二目标价值网络的网络参数相同。初始化表示为：初始化Policy网络参数φ和两个Q网络参数θ₁,θ₂；初始化Target Q网络参数初始化经验回放池/>θ₁表示所述第一价值网络的网络参数，θ₂表示所述第二价值网络的网络参数，/>表示所述第一目标价值网络的网络参数，/>表示所述第二目标价值网络的网络参数。

所述第一价值网络和所述第二价值网络的训练包括：将样本数据中时刻t的状态和时刻t的动作(s_t,a_t)输入到所述第一价值网络中，得到时刻t的第一动作价值将样本数据中时刻t的状态和时刻t的动作输入到所述第二价值网络中，得到时刻t的第二动作价值/>

将样本数据中时刻t+1的状态s_t+1输入到所述策略网络，输出时刻t+1的动作a_t+1和时刻t+1的动作的熵logπ_θ(a_t+1|s_t+1)。

将样本数据中时刻t+1的状态和时刻t+1的动作输入到所述第一目标价值网络中，得到时刻t+1的第三动作价值，将样本数据中时刻t+1的状态和时刻t+1的动作输入到所述第二目标价值网络中，得到时刻t+1的第四动作价值。第一目标价值网络Q_target1，第二目标价值网络Q_target2通过(s_t+1,a_t+1)得到对应的Q值并选择两个(第三动作价值和第四动作价值)中最小值做为

得到目标Q网络值估计：

根据所述第一动作价值、所述第三动作价值和所述第四动作价值确定第一损失函数；

所述第一损失函数表示为：

根据所述所述第二动作价值、所述第三动作价值和所述第四动作价值确定第二损失函数。

所述第二损失函数表示为：

其中，J_Q(θ₁)表示所述第一损失函数，J_Q(θ₂)表示所述第二损失函数，B表示样本数据集，表示所述第一动作价值，/>表示所述第二动作价值，s_t表示时刻t的状态，a_t表示时刻t的动作，s表示样本数据集B中状态，a表示样本数据集B中的动作，r表示样本数据集B中的即使奖励，s'表示样本数据集B中s的下一时刻的状态，y表示目标动作价值，/>表示所述第三动作价值和所述第四动作价值中的最小值，s_t+1表示时刻t+1的状态，a_t+1表示时刻t+1的动作，logπ_θ(a_t+1|s_t+1)表示时刻t+1动作的熵，γ表示折扣率，α表示熵的权重，用于调整对熵值的重视程度。

根据所述第一损失函数采用梯度下降更新所述第一价值网络的网络参数；根据所述第二损失函数采用梯度下降更新所述第二价值网络的网络参数。

使用梯度下降更新Q网络(第一价值网络和第二价值网络)的参数表示为：完成此次Q网络的更新。

所述策略网络的训练包括：

将样本数据中时刻t的状态输入到所述策略网络，获得时刻t的实际输出动作a'_t和时刻t的实际输出动作的熵logπ_θ(a'_t|s_t)。

将时刻t的状态和时刻t的实际输出动作输入所述第一价值网络中，得到第一实际输出动作价值将时刻t的状态和时刻t的实际输出动作输入所述第二价值网络中，得到第二实际输出动作价值/>

从和/>中选出最小值做为Q_θ(s_t,a'_t)。

根据时刻t的实际输出动作的熵、所述第一实际输出动作价值和所述第二实际输出动作价值确定第三损失函数。

所述第三损失函数表示为：

其中，J_π(φ)表示所述第三损失函数，B表示样本数据集，s_t表示样本数据集B中状态，logπ_θ(a'_t|s)表示时刻t的实际输出动作的熵，α表示熵的权重，用于调整对熵值的重视程度，Q_θ(s_t,a'_t)表示所述第一实际输出动作价值和所述第二实际输出动作价值中最小值，a'_t表示时刻t的实际输出动作。

根据所述第三损失函数更新Policy网络参数：完成本次Policy网络的更新。

其中，λ_π表示步长，表示对J_π(φ)进行梯度运算。

所述第一目标价值网络和所述第二目标价值网络的网络参数更新包括：

当所述第一价值网络和所述第二价值网络的网络参数更新设定次数后，根据所述第一价值网络的网络参数更新所述第一目标价值网络的网络参数，根据所述第二价值网络的网络参数更新所述第二目标价值网络的网络参数。

更新所述第一目标价值网络的网络参数的公式为：

θ_target,1←τθ_target,1+(1-τ)θ₁；

其中，θ_target,1表示所述第一目标价值网络更新后的网络参数，τ表示表示比例系数，θ₁表示所述第一价值网络的网络参数；

更新所述第二目标价值网络的网络参数的公式为：

θ_target,2←τθ_target,2+(1-τ)θ₂；

其中，θ_target,2表示所述第二目标价值网络更新后的网络参数，θ₂表示所述第二价值网络的网络参数。

综上，本发明一种基于深度强化学习的无人机运动规划方法及系统的简述步骤具体包括：

Step1：无人机环境空间建模。

Step2：无人机感知当前状态。

Step3：无人机在当前状态根据深度强化学习网络计算最优控制动作。

Step4：无人机执行控制动作并获得即时奖励，然后感知下一状态，将经验存放经验池中。

Step5：重复过程Step2-Step4直到碰到障碍物或达到目标点或达到规定操作步数，采集经验存放经验池中样本数据并训练深度强化学习网络，最终完成路径规划任务。

无人机在路径规划过程中往往存在奖励信号稀疏问题，从而导致学习缓慢和收敛困难，无人机在有障碍物环境中进行长距离导航，环境提供的正奖励在终点处，无人机很难获得最终的正奖励，本发明设计了一种内在动机奖励机制，重视在路径上改变移动方向的点，在环境中设置内在奖励机制，使无人机去除无意义的探索能够更有效地探索环境。本发明实施例1上述方案的原理如下：当是拐点即要发生转向时赋予内在动机奖励。当前后的动作概率分布发生巨大变化时，比如在训练过程中无人机上一次撞到了某个障碍物，环境会赋给无人机在该状态处该动作一个负奖励，更新策略网络，在下一轮任务时为了避开该障碍物，该状态处的该动作的概率会降低(降低程度与负奖励值的大小有关)。因此利用前后动作概率分布的“微分熵”的差距来度量动作分布的变化，作为拐点的确定依据，并根据变化程度，确定内在奖励值。在迭代训练一定轮数后，无人机会直接飞往拐点的地方，从而去除无意义的探索。SoftActor-Critic采用随机策略，相比于确定性策略不止考虑一个最优动作，利用最大熵去探索所有可能的最优路径。

采用基于策略的深度强化学习算法，相比于离散动作空间，设计的连续动作空间生成的路径更适合无人机执行。

实施例2

图3为本发明一种基于深度强化学习的无人机运动规划系统结构示意图，如图3所示，一种基于深度强化学习的无人机运动规划系统，包括：

三维空间模型构建模块201，用于根据飞行任务对无人机的环境空间建模，获得三维空间模型；所述三维空间模型包括所述无人机、所述飞行任务的起始点、所述飞行任务中的障碍物和所述飞行任务的目标点。

样本数据集确定模块202，用于基于所述三维空间模型，采用深度强化学习网络模拟多轮所述飞行任务获得样本数据集；所述样本数据集中各样本数据包括时刻t的状态、时刻t的动作、时刻t的即时奖励和时刻t+1的状态；所述即时奖励包括内在动机奖励和环境反馈奖励，时刻t的所述内在动机奖励为均匀动作分布的微分熵与时刻t+1的状态的动作分布的微分熵的差值。

深度强化学习网络训练模块203，用于采用所述样本数据集训练所述深度强化学习网络，获得训练好的所述深度强化学习网络。

飞行任务执行模块204，用于利用训练好的所述深度强化学习网络为所述无人机的所述飞行任务输出当前状态下的执行动作。

实施例3

本发明还公开了一种无人机运动规划装置，包括：

传感器模块：包括无人机RGB-D深度相机和GPS，RGB-D深度相机用于获取无人机当前环境中障碍物的深度信息，GPS用于提供目标信息。

运动规划模块：用于根据无人机由无人机RGB-D深度相机和GPS获取到的连续四帧图像以及目标信息作为SoftActor-Critic深度强化学习网络的输入，通过迭代训练直到无人机可以自主避开障碍物并达到目标点，使无人机可以学习到一条无碰撞的最优路径。

控制模块：用于无人机沿着运动规划模块规划出的最优控制动作飞行。

其中，传感器模块通过无人机RGB-D深度相机和GPS获取到当前环境数据以及目标信息作为当前状态，然后输入到运动规划模块的Soft Actor-Critic深度强化学习网络中，输出当前最优的动作给控制模块，然后控制模块将动作解析成四旋翼无人机四个电机的转速并执行，与环境交互到达下一状态以及获得奖励，判断是否到达目标点或碰撞到障碍物，如果没有到达目标点或碰撞到障碍物，则重复上述步骤直到到达目的地；如果到达目标点或达到规定的操作步数，进一步判断是否达到最大迭代次数，若达到最大迭代次数，则结束总体任务。

实施例4

本发明实施例4提供一种电子设备包括存储器及处理器，该存储器用于存储计算机程序，该处理器运行计算机程序以使电子设备执行实施例1的方法。

可选地，上述电子设备可以是服务器。

另外，本发明实施例还提供一种计算机可读存储介质，其存储有计算机程序，该计算机程序被处理器执行时实现实施例1的方法。

计算机可读存储介质包括CD-ROM、U盘和移动硬盘。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于深度强化学习的无人机运动规划方法，其特征在于，包括：

利用训练好的所述深度强化学习网络为所述无人机的所述飞行任务输出当前状态下的执行动作；

时刻t的即时奖励表示为：

的计算公式为：/>

2.根据权利要求1所述的基于深度强化学习的无人机运动规划方法，其特征在于，基于所述三维空间模型，对于每轮所述飞行任务的模拟，具体包括：

3.根据权利要求2所述的基于深度强化学习的无人机运动规划方法，其特征在于，所述停止条件包括所述无人机碰撞到所述障碍物、迭代次数达到设置迭代阈值和所述无人机到达所述目标点。

4.根据权利要求2所述的基于深度强化学习的无人机运动规划方法，其特征在于，所述设定帧数为4。

5.根据权利要求1所述的基于深度强化学习的无人机运动规划方法，其特征在于，时刻t的动作为由无人机的线速度和角速度构成的控制动作。

6.一种基于深度强化学习的无人机运动规划系统，其特征在于，包括：

飞行任务执行模块，用于利用训练好的所述深度强化学习网络为所述无人机的所述飞行任务输出当前状态下的执行动作；

时刻t的即时奖励表示为：

的计算公式为：/>