CN114089776A

CN114089776A - 一种基于深度强化学习的无人机避障方法

Info

Publication number: CN114089776A
Application number: CN202111317296.6A
Authority: CN
Inventors: 曹红波; 赵启; 刘亮; 甄子洋
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2021-11-09
Filing date: 2021-11-09
Publication date: 2022-02-25
Anticipated expiration: 2041-11-09
Also published as: CN114089776B

Abstract

本发明公开了一种基于深度强化学习的无人机避障方法，包括以下步骤：1)在三维空间内建立无人机避障飞行模型，随机生成障碍物数量位置，以及无人机的起始点；2)基于马尔可夫过程框架建立环境模型，3)基于状态和策略选择动作，无人机采取动作后与环境交互产生新的状态并计算得到的奖励，将状态、动作、奖励和下一时刻动作组成四元数通过改进的方法存储在样本空间中，以供样本采样训练；4)采用改进DDQN算法对环境模型采样得到的样本进行网络更新，并对样本的状态‑动作对进行赋值；5)根据样本中状态下各个动作的赋值选择最优动作，进而得到最优策略。本发明提出了采用分割采样池的强化学习避障方法，提高了生成策略的训练效率。

Description

一种基于深度强化学习的无人机避障方法

技术领域

本发明属于智能决策技术领域，具体涉及一种基于深度强化学习的无人机避障方法。

背景技术

随着无人机在军事战争和民用领域中起着越来越重要的作用，在多种任务场景中都需要无人机在没有人为干预的情况下自主飞行完成任务。因此，找到一种合适的方法来解决无人机自主飞行时的避障问题，可以在一定程度上提高无人机任务的成功率。传统的避障方法，如人工势场法、可视图法、粒子群优化算法，虽然已经十分成熟，但却需要根据不同的情况建立不同的模型。然而在实际的无人机飞行环境中，往往需要无人机在未知环境中进行探测并实时决策。

强化学习是一种通过不断和环境交互进行优化的方法，无人机选择动作作用于环境，对产生状态变化进行评估，通过训练优化，最终使无人机在每个状态都能采取最优的动作。强化学习已经应用于无人机的避障问题中，由于无人机避障是连续空间中的问题，需要结合神经网络来对每一个状态-动作对赋值，但是结合神经网络的学习容易出现训练过程不稳定的情况。

发明内容

为了解决现有技术中的不足，本发明提供了一种基于深度强化学习的无人机避障方法，将改进的DDQN算法应用到无人机避障飞行中，利用无人机与环境的交互训练得到飞行策略，从而实现无人机在不确定环境中的避障。

为达到上述目的，本发明采用如下技术方案：本发明的一种基于深度强化学习的无人机避障方法，包括如下步骤：

步骤1，在三维空间内建立无人机避障飞行模型，随机生成障碍物数量、位置、以及无人机的起始点；

步骤2，基于马尔可夫过程框架建立环境模型，包括状态空间S、动作空间A、奖励函数R，状态转移概率P；

步骤3，基于状态和策略选择动作，无人机采取动作后与环境交互产生新的状态并计算得到的奖励，将状态、动作、奖励和下一时刻动作组成四元数存储在DDQN算法的经验池中，以供样本采样训练；

步骤4，采用DDQN算法对环境模型采样得到的样本进行网络更新，并对样本的状态-动作对进行赋值；

步骤5，根据样本中状态下各个动作的赋值选择最优动作，进而得到最优策略。

进一步的，步骤2中基于马尔可夫过程框架建立环境模型，包括状态空间S、动作空间A、奖励函数R和状态转移概率P，具体为：

建立的状态空间S包括无人机的当前方位角

无人机与最近障碍物的水平距离d_a、无人机与最近障碍物高度差d_ha、无人机与和离其距离最短障碍物中心点组成的向量与x轴的夹角

无人机与飞行任务点的水平距离d_o、无人机与飞行任务点的高度差d_ho、无人机与飞行任务点组成向量与x轴的夹角

记为

动作空间A包括无人机单位时间内航向角的变化和航迹倾斜角的变化；

建立的奖励函数R设计为：

式中，r_o(k)为无人机与障碍物距离发生变化产生的奖励，r_s为任务成功是产生的奖励，r_f为任务失败产生的奖励，r_a(k)无人机与目标点距离发生变化产生的奖励，r_a(k)人机与目标点距离变化产生的奖励，r_ha(k)为无人机与目标点高度差变化产生的奖励，d_o为无人机与最近障碍物的距离，是判断无人机是否发生碰撞最主要的参数，d_a为无人机与目标点之间的距离，r_ha为无人机与目标点之间的高度差，D_et为无人机安全距离。

状态转移概率P(s'|s)，表示状态s下根据采用训练得到的策略执行动作，状态由s转移到s′的概率。

进一步的，步骤3中四元数被存储在DDQN算法的经验池中，具体存储方法为，对DDQN算法的经验池进行划分，分为正经验池和负经验池，奖励值为正则将四元数存储在正经验池，奖励值为负则将四元数存储在负经验池。

进一步的，步骤3中样本采样的方法是，对正经验池中的样本采用先随机后优先的采样方法，对负经验池的样本采用随机采样的方法，采样得到的样本表示为：

D＝m_p+m_n

式中，D为训练中选取的样本，m_p表示从正经验池中抽取的样本，m_n表示从负经验池中抽取的样本。

本发明的有益效果：本发明基于DDQN算法，建立无人机三维避障飞行模型，使用分割经验池的方法对DDQN训练时的采样数据进行优化，实现了无人机在不确定环境中的避障飞行，解决了传统避障方法需要进行大规模环境建模的问题，且对采样方法的优化在一定程度上解决了强化学习避障中的训练不稳定问题。

本发明提出的方法适用于环境未完全已知的情形下，不考虑环境的具体建模，仅以无人机与环境的交互来作为学习的基础，可以使无人机在探索的过程中有效避障，适用性和可扩展性较强。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明的结构原理示意图。

图2为本发明方法与改进前在训练过程中的平均奖励图。

图3为本发明实例中无人机避障的轨迹图。

具体实施方式

为使本领域技术人员更好地理解本发明的技术方案，下面结合具体实施方式对本发明作进一步详细描述。

本发明的一种基于深度强化学习的无人机避障方法，方法流程图如图1所示，无人机在含有未知障碍物的环境中飞行，按照贪婪策略选择动作后，执行动作与环境交互后会产生新的状态并计算得到状态改变产生的奖励，算法将无人机执行动作前的状态，采取的动作，得到的奖励和执行动作后的状态根据奖励值的大小存储在正负两个经验池中，算法分别从两个经验池中抽取样本组成训练样本，利用这些样本对目标神经网络和估计神经网络采用时序差分误差的方法进行训练和参数更新，使两个网络得到的Q值差收敛到0，最终使得策略能使无人机在每个状态下选择Q值最大的动作，得到飞行策略。训练得到的策略输入为无人机当前的状态，输出为当前状态下使得状态动作Q值最大时的动作，这样就实现了无人机在不确定环境中的避障飞行决策。

本发明的一种基于深度强化学习的无人机避障方法，包括如下步骤：

步骤1，在三维空间内建立无人机避障飞行模型，随机生成障碍物数量位置，以及无人机的起始点；

以某个无人机在不确定环境中飞行为例，应用避障算法，训练最优策略。无人机在三维空间内的状态转移公式为：

式中，x，y，z表示无人机的坐标点，v表示无人机的速度，设为定值，

表示无人机的航向角，α表示无人机的航迹倾斜角，

表示无人机的航向角速度，u_α表示无人机的航迹倾斜角速度。

建立的状态空间包括无人机的当前方位角

无人机与飞行任务点的水平距离d_o、无人机与飞行任务点的高度差d_ho、无人机与飞行任务点组成的向量与x轴的夹角

记为

动作空间包括无人机单位时间内航向角的变化和航迹倾斜角的变化，无人机单位时间内航向角改变量为(-6°，-3°，0°，3°，6°)，单位时间内航迹倾斜角改变量为(-5.74°，0°，5.74°)。

建立的奖励函数设计为：

具体存储方法为，对DDQN算法的经验池进行划分，分为正经验池和负经验池，奖励值为正则将四元数存储在正经验池，奖励值为负则将四元数存储在负经验池。

样本采样的方法是，对正经验池中的样本采用先随机后优先的采样方法，对负经验池的样本采用随机采样的方法，采样得到的样本表示为：

D＝m_p+m_n (1)

采用神经网络对状态-动作对进行赋值，具体如下

f(s,a,θ)≈Q*(s,a) (4)

其中，s表示状态，a表示动作，θ表示网络参数。

在更新时，改进DDQN算法采用两个不同的网络分别计算状态动作对的Q值，两个网络分别是估计神经网络和目标神经网络，利用两个网络对同一状态动作对计算得到的Q值差采用时序差分误差的方法进行更新，表示表示为：

式中，L_t表示两个网络计算得到的Q值差，y_t为优化目标，θ_t和θ_t ^-分别表示t时刻目标网络的参数和估计网络的参数，

为在状态s_t+1处各个动作对应Q值中最大的一个，r_t+1为执行动作后所获得的奖赏值，γ为折扣因子。

随着训练的进行，算法会找到每个状态下能得到更好飞行效果的动作，最终实现无人机在不确定环境下根据实时的状态进行决策，实现无碰撞飞向目标点。

在本实施例中，无人机随机生成初始位置和目标点位置，无人机的速度设为10m/s，无人机在1000×1000×400m大小的三维空间内朝着目标点飞行，由每次执行动作后的状态改变为输入，进行神经网络的训练，训练的目标是使无人机以最优的路径到达目标点，完成飞行任务，该实施例进行40000次场景的训练。训练过程中获得的平均奖励回报如图2所示，采用训练得到策略进行避障飞行的效果如图3。

从上述仿真结果看出，图2中改进的DDQN算法平均回报值更快的收敛到最大值，且训练过程中曲线的波动更小。图3中采用发明训练的策略用于无人机的避障飞行决策，面对不同的障碍物，无人机采取不同的策略避开障碍物，朝着目标点飞行直至完成飞行任务。说明了该发明得到策略的实时性和有效性。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于深度强化学习的无人机避障方法，其特征在于，包括如下步骤：

2.根据权利要求1所述一种基于深度强化学习的无人机避障方法，其特征在于，步骤2中基于马尔可夫过程框架建立环境模型，包括状态空间S、动作空间A、奖励函数R和状态转移概率P，具体为：

建立的状态空间S包括无人机的当前方位角

记为

建立的奖励函数R设计为：

式中，r_o(k)为无人机与障碍物距离发生变化产生的奖励，r_s为任务成功是产生的奖励，r_f为任务失败产生的奖励，r_a(k)无人机与目标点距离发生变化产生的奖励，r_a(k)人机与目标点距离变化产生的奖励，r_ha(k)为无人机与目标点高度差变化产生的奖励，d_o为无人机与最近障碍物的距离，是判断无人机是否发生碰撞最主要的参数，d_a为无人机与目标点之间的距离，r_ha为无人机与目标点之间的高度差，D_et为无人机安全距离；

3.根据权利要求1所述一种基于深度强化学习的无人机避障方法，其特征在于，步骤3中四元数被存储在DDQN算法的经验池中，具体存储方法为，对DDQN算法的经验池进行划分，分为正经验池和负经验池，奖励值为正则将四元数存储在正经验池，奖励值为负则将四元数存储在负经验池。

4.根据权利要求3所述一种基于深度强化学习的无人机避障方法，其特征在于，步骤3中样本采样的方法是，对正经验池中的样本采用先随机后优先的采样方法，对负经验池的样本采用随机采样的方法，采样得到的样本表示为：

D＝m_p+m_n

5.根据权利要求1所述一种基于深度强化学习的无人机避障方法，其特征在于，步骤4中采用DDQN算法对环境模型采样得到的样本进行网络更新，并对样本的状态-动作对进行赋值；具体包括如下内容：

采用神经网络对状态-动作对进行赋值，具体如下

f(s,a,θ)≈Q*(s,a)

其中，s表示状态，a表示动作，θ表示网络参数；

在更新时，改进DDQN算法采用两个不同的网络分别计算状态动作对的Q值，两个网络分别是估计神经网络和目标神经网络，利用两个网络对同一状态动作对计算得到的Q值差采用时序差分误差的方法进行更新，表示为：

L_t(θ_t)＝E(y_t-Q(s,a,θ_t))²