CN114089776A - 一种基于深度强化学习的无人机避障方法 - Google Patents

一种基于深度强化学习的无人机避障方法 Download PDF

Info

Publication number
CN114089776A
CN114089776A CN202111317296.6A CN202111317296A CN114089776A CN 114089776 A CN114089776 A CN 114089776A CN 202111317296 A CN202111317296 A CN 202111317296A CN 114089776 A CN114089776 A CN 114089776A
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
state
action
obstacle avoidance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111317296.6A
Other languages
English (en)
Other versions
CN114089776B (zh
Inventor
曹红波
赵启
刘亮
甄子洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202111317296.6A priority Critical patent/CN114089776B/zh
Publication of CN114089776A publication Critical patent/CN114089776A/zh
Application granted granted Critical
Publication of CN114089776B publication Critical patent/CN114089776B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/08Control of attitude, i.e. control of roll, pitch, or yaw
    • G05D1/0808Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了一种基于深度强化学习的无人机避障方法,包括以下步骤:1)在三维空间内建立无人机避障飞行模型,随机生成障碍物数量位置,以及无人机的起始点;2)基于马尔可夫过程框架建立环境模型,3)基于状态和策略选择动作,无人机采取动作后与环境交互产生新的状态并计算得到的奖励,将状态、动作、奖励和下一时刻动作组成四元数通过改进的方法存储在样本空间中,以供样本采样训练;4)采用改进DDQN算法对环境模型采样得到的样本进行网络更新,并对样本的状态‑动作对进行赋值;5)根据样本中状态下各个动作的赋值选择最优动作,进而得到最优策略。本发明提出了采用分割采样池的强化学习避障方法,提高了生成策略的训练效率。

Description

一种基于深度强化学习的无人机避障方法
技术领域
本发明属于智能决策技术领域,具体涉及一种基于深度强化学习的无人机避障方法。
背景技术
随着无人机在军事战争和民用领域中起着越来越重要的作用,在多种任务场景中都需要无人机在没有人为干预的情况下自主飞行完成任务。因此,找到一种合适的方法来解决无人机自主飞行时的避障问题,可以在一定程度上提高无人机任务的成功率。传统的避障方法,如人工势场法、可视图法、粒子群优化算法,虽然已经十分成熟,但却需要根据不同的情况建立不同的模型。然而在实际的无人机飞行环境中,往往需要无人机在未知环境中进行探测并实时决策。
强化学习是一种通过不断和环境交互进行优化的方法,无人机选择动作作用于环境,对产生状态变化进行评估,通过训练优化,最终使无人机在每个状态都能采取最优的动作。强化学习已经应用于无人机的避障问题中,由于无人机避障是连续空间中的问题,需要结合神经网络来对每一个状态-动作对赋值,但是结合神经网络的学习容易出现训练过程不稳定的情况。
发明内容
为了解决现有技术中的不足,本发明提供了一种基于深度强化学习的无人机避障方法,将改进的DDQN算法应用到无人机避障飞行中,利用无人机与环境的交互训练得到飞行策略,从而实现无人机在不确定环境中的避障。
为达到上述目的,本发明采用如下技术方案:本发明的一种基于深度强化学习的无人机避障方法,包括如下步骤:
步骤1,在三维空间内建立无人机避障飞行模型,随机生成障碍物数量、位置、以及无人机的起始点;
步骤2,基于马尔可夫过程框架建立环境模型,包括状态空间S、动作空间A、奖励函数R,状态转移概率P;
步骤3,基于状态和策略选择动作,无人机采取动作后与环境交互产生新的状态并计算得到的奖励,将状态、动作、奖励和下一时刻动作组成四元数存储在DDQN算法的经验池中,以供样本采样训练;
步骤4,采用DDQN算法对环境模型采样得到的样本进行网络更新,并对样本的状态-动作对进行赋值;
步骤5,根据样本中状态下各个动作的赋值选择最优动作,进而得到最优策略。
进一步的,步骤2中基于马尔可夫过程框架建立环境模型,包括状态空间S、动作空间A、奖励函数R和状态转移概率P,具体为:
建立的状态空间S包括无人机的当前方位角
Figure BDA0003344171460000021
无人机与最近障碍物的水平距离da、无人机与最近障碍物高度差dha、无人机与和离其距离最短障碍物中心点组成的向量与x轴的夹角
Figure BDA0003344171460000022
无人机与飞行任务点的水平距离do、无人机与飞行任务点的高度差dho、无人机与飞行任务点组成向量与x轴的夹角
Figure BDA0003344171460000023
记为
Figure BDA0003344171460000024
动作空间A包括无人机单位时间内航向角的变化和航迹倾斜角的变化;
建立的奖励函数R设计为:
Figure BDA0003344171460000025
式中,ro(k)为无人机与障碍物距离发生变化产生的奖励,rs为任务成功是产生的奖励,rf为任务失败产生的奖励,ra(k)无人机与目标点距离发生变化产生的奖励,ra(k)人机与目标点距离变化产生的奖励,rha(k)为无人机与目标点高度差变化产生的奖励,do为无人机与最近障碍物的距离,是判断无人机是否发生碰撞最主要的参数,da为无人机与目标点之间的距离,rha为无人机与目标点之间的高度差,Det为无人机安全距离。
状态转移概率P(s'|s),表示状态s下根据采用训练得到的策略执行动作,状态由s转移到s′的概率。
进一步的,步骤3中四元数被存储在DDQN算法的经验池中,具体存储方法为,对DDQN算法的经验池进行划分,分为正经验池和负经验池,奖励值为正则将四元数存储在正经验池,奖励值为负则将四元数存储在负经验池。
进一步的,步骤3中样本采样的方法是,对正经验池中的样本采用先随机后优先的采样方法,对负经验池的样本采用随机采样的方法,采样得到的样本表示为:
D=mp+mn
式中,D为训练中选取的样本,mp表示从正经验池中抽取的样本,mn表示从负经验池中抽取的样本。
本发明的有益效果:本发明基于DDQN算法,建立无人机三维避障飞行模型,使用分割经验池的方法对DDQN训练时的采样数据进行优化,实现了无人机在不确定环境中的避障飞行,解决了传统避障方法需要进行大规模环境建模的问题,且对采样方法的优化在一定程度上解决了强化学习避障中的训练不稳定问题。
本发明提出的方法适用于环境未完全已知的情形下,不考虑环境的具体建模,仅以无人机与环境的交互来作为学习的基础,可以使无人机在探索的过程中有效避障,适用性和可扩展性较强。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明的结构原理示意图。
图2为本发明方法与改进前在训练过程中的平均奖励图。
图3为本发明实例中无人机避障的轨迹图。
具体实施方式
为使本领域技术人员更好地理解本发明的技术方案,下面结合具体实施方式对本发明作进一步详细描述。
本发明的一种基于深度强化学习的无人机避障方法,方法流程图如图1所示,无人机在含有未知障碍物的环境中飞行,按照贪婪策略选择动作后,执行动作与环境交互后会产生新的状态并计算得到状态改变产生的奖励,算法将无人机执行动作前的状态,采取的动作,得到的奖励和执行动作后的状态根据奖励值的大小存储在正负两个经验池中,算法分别从两个经验池中抽取样本组成训练样本,利用这些样本对目标神经网络和估计神经网络采用时序差分误差的方法进行训练和参数更新,使两个网络得到的Q值差收敛到0,最终使得策略能使无人机在每个状态下选择Q值最大的动作,得到飞行策略。训练得到的策略输入为无人机当前的状态,输出为当前状态下使得状态动作Q值最大时的动作,这样就实现了无人机在不确定环境中的避障飞行决策。
本发明的一种基于深度强化学习的无人机避障方法,包括如下步骤:
步骤1,在三维空间内建立无人机避障飞行模型,随机生成障碍物数量位置,以及无人机的起始点;
步骤2,基于马尔可夫过程框架建立环境模型,包括状态空间S、动作空间A、奖励函数R,状态转移概率P;
以某个无人机在不确定环境中飞行为例,应用避障算法,训练最优策略。无人机在三维空间内的状态转移公式为:
Figure BDA0003344171460000041
式中,x,y,z表示无人机的坐标点,v表示无人机的速度,设为定值,
Figure BDA0003344171460000042
表示无人机的航向角,α表示无人机的航迹倾斜角,
Figure BDA0003344171460000043
表示无人机的航向角速度,uα表示无人机的航迹倾斜角速度。
建立的状态空间包括无人机的当前方位角
Figure BDA0003344171460000044
无人机与最近障碍物的水平距离da、无人机与最近障碍物高度差dha、无人机与和离其距离最短障碍物中心点组成的向量与x轴的夹角
Figure BDA0003344171460000051
无人机与飞行任务点的水平距离do、无人机与飞行任务点的高度差dho、无人机与飞行任务点组成的向量与x轴的夹角
Figure BDA0003344171460000052
记为
Figure BDA0003344171460000053
动作空间包括无人机单位时间内航向角的变化和航迹倾斜角的变化,无人机单位时间内航向角改变量为(-6°,-3°,0°,3°,6°),单位时间内航迹倾斜角改变量为(-5.74°,0°,5.74°)。
建立的奖励函数设计为:
Figure BDA0003344171460000054
式中,ro(k)为无人机与障碍物距离发生变化产生的奖励,rs为任务成功是产生的奖励,rf为任务失败产生的奖励,ra(k)无人机与目标点距离发生变化产生的奖励,ra(k)人机与目标点距离变化产生的奖励,rha(k)为无人机与目标点高度差变化产生的奖励,do为无人机与最近障碍物的距离,是判断无人机是否发生碰撞最主要的参数,da为无人机与目标点之间的距离,rha为无人机与目标点之间的高度差,Det为无人机安全距离。
状态转移概率P(s'|s),表示状态s下根据采用训练得到的策略执行动作,状态由s转移到s′的概率。
步骤3,基于状态和策略选择动作,无人机采取动作后与环境交互产生新的状态并计算得到的奖励,将状态、动作、奖励和下一时刻动作组成四元数存储在DDQN算法的经验池中,以供样本采样训练;
具体存储方法为,对DDQN算法的经验池进行划分,分为正经验池和负经验池,奖励值为正则将四元数存储在正经验池,奖励值为负则将四元数存储在负经验池。
样本采样的方法是,对正经验池中的样本采用先随机后优先的采样方法,对负经验池的样本采用随机采样的方法,采样得到的样本表示为:
D=mp+mn (1)
式中,D为训练中选取的样本,mp表示从正经验池中抽取的样本,mn表示从负经验池中抽取的样本。
步骤4,采用DDQN算法对环境模型采样得到的样本进行网络更新,并对样本的状态-动作对进行赋值;
采用神经网络对状态-动作对进行赋值,具体如下
f(s,a,θ)≈Q*(s,a) (4)
其中,s表示状态,a表示动作,θ表示网络参数。
在更新时,改进DDQN算法采用两个不同的网络分别计算状态动作对的Q值,两个网络分别是估计神经网络和目标神经网络,利用两个网络对同一状态动作对计算得到的Q值差采用时序差分误差的方法进行更新,表示表示为:
Figure BDA0003344171460000061
式中,Lt表示两个网络计算得到的Q值差,yt为优化目标,θt和θt -分别表示t时刻目标网络的参数和估计网络的参数,
Figure BDA0003344171460000062
为在状态st+1处各个动作对应Q值中最大的一个,rt+1为执行动作后所获得的奖赏值,γ为折扣因子。
步骤5,根据样本中状态下各个动作的赋值选择最优动作,进而得到最优策略。
随着训练的进行,算法会找到每个状态下能得到更好飞行效果的动作,最终实现无人机在不确定环境下根据实时的状态进行决策,实现无碰撞飞向目标点。
在本实施例中,无人机随机生成初始位置和目标点位置,无人机的速度设为10m/s,无人机在1000×1000×400m大小的三维空间内朝着目标点飞行,由每次执行动作后的状态改变为输入,进行神经网络的训练,训练的目标是使无人机以最优的路径到达目标点,完成飞行任务,该实施例进行40000次场景的训练。训练过程中获得的平均奖励回报如图2所示,采用训练得到策略进行避障飞行的效果如图3。
从上述仿真结果看出,图2中改进的DDQN算法平均回报值更快的收敛到最大值,且训练过程中曲线的波动更小。图3中采用发明训练的策略用于无人机的避障飞行决策,面对不同的障碍物,无人机采取不同的策略避开障碍物,朝着目标点飞行直至完成飞行任务。说明了该发明得到策略的实时性和有效性。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (5)

1.一种基于深度强化学习的无人机避障方法,其特征在于,包括如下步骤:
步骤1,在三维空间内建立无人机避障飞行模型,随机生成障碍物数量、位置、以及无人机的起始点;
步骤2,基于马尔可夫过程框架建立环境模型,包括状态空间S、动作空间A、奖励函数R,状态转移概率P;
步骤3,基于状态和策略选择动作,无人机采取动作后与环境交互产生新的状态并计算得到的奖励,将状态、动作、奖励和下一时刻动作组成四元数存储在DDQN算法的经验池中,以供样本采样训练;
步骤4,采用DDQN算法对环境模型采样得到的样本进行网络更新,并对样本的状态-动作对进行赋值;
步骤5,根据样本中状态下各个动作的赋值选择最优动作,进而得到最优策略。
2.根据权利要求1所述一种基于深度强化学习的无人机避障方法,其特征在于,步骤2中基于马尔可夫过程框架建立环境模型,包括状态空间S、动作空间A、奖励函数R和状态转移概率P,具体为:
建立的状态空间S包括无人机的当前方位角
Figure FDA0003344171450000011
无人机与最近障碍物的水平距离da、无人机与最近障碍物高度差dha、无人机与和离其距离最短障碍物中心点组成的向量与x轴的夹角
Figure FDA0003344171450000012
无人机与飞行任务点的水平距离do、无人机与飞行任务点的高度差dho、无人机与飞行任务点组成向量与x轴的夹角
Figure FDA0003344171450000013
记为
Figure FDA0003344171450000014
动作空间A包括无人机单位时间内航向角的变化和航迹倾斜角的变化;
建立的奖励函数R设计为:
Figure FDA0003344171450000021
式中,ro(k)为无人机与障碍物距离发生变化产生的奖励,rs为任务成功是产生的奖励,rf为任务失败产生的奖励,ra(k)无人机与目标点距离发生变化产生的奖励,ra(k)人机与目标点距离变化产生的奖励,rha(k)为无人机与目标点高度差变化产生的奖励,do为无人机与最近障碍物的距离,是判断无人机是否发生碰撞最主要的参数,da为无人机与目标点之间的距离,rha为无人机与目标点之间的高度差,Det为无人机安全距离;
状态转移概率P(s'|s),表示状态s下根据采用训练得到的策略执行动作,状态由s转移到s′的概率。
3.根据权利要求1所述一种基于深度强化学习的无人机避障方法,其特征在于,步骤3中四元数被存储在DDQN算法的经验池中,具体存储方法为,对DDQN算法的经验池进行划分,分为正经验池和负经验池,奖励值为正则将四元数存储在正经验池,奖励值为负则将四元数存储在负经验池。
4.根据权利要求3所述一种基于深度强化学习的无人机避障方法,其特征在于,步骤3中样本采样的方法是,对正经验池中的样本采用先随机后优先的采样方法,对负经验池的样本采用随机采样的方法,采样得到的样本表示为:
D=mp+mn
式中,D为训练中选取的样本,mp表示从正经验池中抽取的样本,mn表示从负经验池中抽取的样本。
5.根据权利要求1所述一种基于深度强化学习的无人机避障方法,其特征在于,步骤4中采用DDQN算法对环境模型采样得到的样本进行网络更新,并对样本的状态-动作对进行赋值;具体包括如下内容:
采用神经网络对状态-动作对进行赋值,具体如下
f(s,a,θ)≈Q*(s,a)
其中,s表示状态,a表示动作,θ表示网络参数;
在更新时,改进DDQN算法采用两个不同的网络分别计算状态动作对的Q值,两个网络分别是估计神经网络和目标神经网络,利用两个网络对同一状态动作对计算得到的Q值差采用时序差分误差的方法进行更新,表示为:
Ltt)=E(yt-Q(s,a,θt))2
Figure FDA0003344171450000031
式中,Lt表示两个网络计算得到的Q值差,yt为优化目标,θt和θt -分别表示t时刻目标网络的参数和估计网络的参数,
Figure FDA0003344171450000032
为在状态st+1处各个动作对应Q值中最大的一个,rt+1为执行动作后所获得的奖赏值,γ为折扣因子。
CN202111317296.6A 2021-11-09 2021-11-09 一种基于深度强化学习的无人机避障方法 Active CN114089776B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111317296.6A CN114089776B (zh) 2021-11-09 2021-11-09 一种基于深度强化学习的无人机避障方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111317296.6A CN114089776B (zh) 2021-11-09 2021-11-09 一种基于深度强化学习的无人机避障方法

Publications (2)

Publication Number Publication Date
CN114089776A true CN114089776A (zh) 2022-02-25
CN114089776B CN114089776B (zh) 2023-10-24

Family

ID=80299374

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111317296.6A Active CN114089776B (zh) 2021-11-09 2021-11-09 一种基于深度强化学习的无人机避障方法

Country Status (1)

Country Link
CN (1) CN114089776B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114415737A (zh) * 2022-04-01 2022-04-29 天津七一二通信广播股份有限公司 一种无人机强化学习训练系统的实现方法
CN115494879A (zh) * 2022-10-31 2022-12-20 中山大学 基于强化学习sac的旋翼无人机避障方法、装置及设备
CN118051063A (zh) * 2024-04-16 2024-05-17 中国民用航空飞行学院 一种低空无人机避障飞行的训练方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111667513A (zh) * 2020-06-01 2020-09-15 西北工业大学 一种基于ddpg迁移学习的无人机机动目标跟踪方法
CN112435275A (zh) * 2020-12-07 2021-03-02 中国电子科技集团公司第二十研究所 一种融合卡尔曼滤波和ddqn算法的无人机机动目标追踪方法
US20210123741A1 (en) * 2019-10-29 2021-04-29 Loon Llc Systems and Methods for Navigating Aerial Vehicles Using Deep Reinforcement Learning
CN112947562A (zh) * 2021-02-10 2021-06-11 西北工业大学 一种基于人工势场法和maddpg的多无人机运动规划方法
CN113156985A (zh) * 2021-03-18 2021-07-23 南京航空航天大学 基于预设性能的固定翼无人机避障鲁棒抗扰飞行控制方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210123741A1 (en) * 2019-10-29 2021-04-29 Loon Llc Systems and Methods for Navigating Aerial Vehicles Using Deep Reinforcement Learning
CN111667513A (zh) * 2020-06-01 2020-09-15 西北工业大学 一种基于ddpg迁移学习的无人机机动目标跟踪方法
CN112435275A (zh) * 2020-12-07 2021-03-02 中国电子科技集团公司第二十研究所 一种融合卡尔曼滤波和ddqn算法的无人机机动目标追踪方法
CN112947562A (zh) * 2021-02-10 2021-06-11 西北工业大学 一种基于人工势场法和maddpg的多无人机运动规划方法
CN113156985A (zh) * 2021-03-18 2021-07-23 南京航空航天大学 基于预设性能的固定翼无人机避障鲁棒抗扰飞行控制方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
何金;丁勇;杨勇;黄鑫城;: "未知环境下基于PF-DQN的无人机路径规划", 兵工自动化, no. 09, pages 15 - 21 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114415737A (zh) * 2022-04-01 2022-04-29 天津七一二通信广播股份有限公司 一种无人机强化学习训练系统的实现方法
CN115494879A (zh) * 2022-10-31 2022-12-20 中山大学 基于强化学习sac的旋翼无人机避障方法、装置及设备
CN115494879B (zh) * 2022-10-31 2023-09-15 中山大学 基于强化学习sac的旋翼无人机避障方法、装置及设备
CN118051063A (zh) * 2024-04-16 2024-05-17 中国民用航空飞行学院 一种低空无人机避障飞行的训练方法
CN118051063B (zh) * 2024-04-16 2024-06-14 中国民用航空飞行学院 一种低空无人机避障飞行的训练方法

Also Published As

Publication number Publication date
CN114089776B (zh) 2023-10-24

Similar Documents

Publication Publication Date Title
CN113110592B (zh) 一种无人机避障与路径规划方法
CN112947562B (zh) 一种基于人工势场法和maddpg的多无人机运动规划方法
CN114089776B (zh) 一种基于深度强化学习的无人机避障方法
CN110703766B (zh) 一种基于迁移学习策略深度q网络的无人机路径规划方法
CN110806756B (zh) 基于ddpg的无人机自主引导控制方法
CN113095481B (zh) 一种基于并行自我博弈的空战机动方法
CN107300925B (zh) 基于改进鱼群算法的四旋翼无人机姿控参数整定方法
CN113093802B (zh) 一种基于深度强化学习的无人机机动决策方法
CN110531786B (zh) 基于dqn的无人机机动策略自主生成方法
CN111950873B (zh) 基于深度强化学习的卫星实时引导任务规划方法及系统
He et al. Deep reinforcement learning based local planner for UAV obstacle avoidance using demonstration data
CN111240345A (zh) 一种基于双bp网络增强学习框架的水下机器人轨迹跟踪方法
CN114330115B (zh) 一种基于粒子群搜索的神经网络空战机动决策方法
CN115755956B (zh) 一种知识与数据协同驱动的无人机机动决策方法与系统
CN111882047A (zh) 一种基于强化学习与线性规划的快速空管防冲突方法
CN113962012A (zh) 无人机对抗策略优化方法及装置
CN116679719A (zh) 基于动态窗口法与近端策略的无人车自适应路径规划方法
CN114518770A (zh) 一种电势场和深度强化学习融合的无人机路径规划方法
CN114355980B (zh) 基于深度强化学习的四旋翼无人机自主导航方法与系统
CN115373415A (zh) 一种基于深度强化学习的无人机智能导航方法
CN115562357A (zh) 一种面向无人机集群的智能路径规划方法
CN113110101B (zh) 一种生产线移动机器人聚集式回收入库仿真方法及系统
CN113741186A (zh) 一种基于近端策略优化的双机空战决策方法
CN116796844A (zh) 一种基于m2gpi的无人机一对一追逃博弈方法
CN116400726A (zh) 一种基于强化学习的旋翼无人机逃逸方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant