CN114510078B - 一种基于深度强化学习的无人机机动规避决策方法 - Google Patents
一种基于深度强化学习的无人机机动规避决策方法 Download PDFInfo
- Publication number
- CN114510078B CN114510078B CN202210144676.2A CN202210144676A CN114510078B CN 114510078 B CN114510078 B CN 114510078B CN 202210144676 A CN202210144676 A CN 202210144676A CN 114510078 B CN114510078 B CN 114510078B
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- aerial vehicle
- network
- enemy
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000002787 reinforcement Effects 0.000 title claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 25
- 230000002452 interceptive effect Effects 0.000 claims abstract description 7
- 230000009471 action Effects 0.000 claims description 20
- 230000009191 jumping Effects 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 12
- 210000002569 neuron Anatomy 0.000 claims description 12
- 230000007123 defense Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 238000009826 distribution Methods 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 3
- 230000000737 periodic effect Effects 0.000 claims description 2
- 230000004083 survival effect Effects 0.000 abstract description 5
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 239000003795 chemical substances by application Substances 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 241000282461 Canis lupus Species 0.000 description 1
- 241000255588 Tephritidae Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000011664 nicotinic acid Substances 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明提供了一种基于深度强化学习的无人机机动规避决策方法,属于无人机技术领域;其技术方案为:包括以下步骤:S1、依据无人机机载传感器系统获取敌我态势信息;S2、构建无人机机动规避决策深度强化学习模型结构;S3、构建层次目标导向学习模型结构;S4、依据交互训练完成无人机机动规避决策方法学习;S5、无人机机动规避决策方法部署应用。本发明的有益效果为:本发明能够赋予无人机由浅向深的学习能力,能够令无人机自主完成机动规避决策,提高无人机在战场上的生存能力。
Description
技术领域
本发明涉及无人机技术领域,尤其涉及一种基于深度强化学习的无人机机动规避决策方法。
背景技术
目前,在空域一体化智能作战背景下,无人机技术已广泛应用于军事作战中。它在许多领域取得了巨大的成功,如合作侦察、地面攻击、摧毁敌人的防空系统等。在应用过程中,有效规避威胁,提高无人机在动态对抗环境中的生存能力是作战任务成功的关键。随着现代战场环境的复杂多变,操作者通过人工操作完成复杂的飞行任务越来越困难。无人机的生存能力和作战能力在军事作战中起着至关重要的作用,如何赋予无人机自主突防能力是一个迫切需要解决的问题。
近年来,许多研究集中在利用传统知识推理和仿生编程来解决无人机自主突防问题上。比如:采用改进的A-Star算法、稀疏A-Star搜索算法(SAS)和动态A-Star算法(D-STAR)解决不同威胁场景下无人机侵入路径规划;结合了灰狼优化算法和果蝇优化算法,完成了无人机路径优化等。这类方法更适合解决静态环境下的路径规划问题,难以应用于动态对抗和实时决策要求较高的环境。这严重限制了传统分析方法的应用范围。
尽管深度强化学习方法在无人机的自主突防方面取得了一定的成功,但在实际应用中,这些算法往往受益于精心塑造的奖励函数,帮助指导agent实现任务的总体目标。但是设计奖励功能对于更复杂的任务来说是一项挑战,它需要特定领域的知识。此外,奖励塑造可能会使政策倾向于不理想的行为,并限制代理获得安全动作。
发明内容
本发明的目的在于提供一种基于深度强化学习的无人机机动规避决策方法,首先依据无人机机载传感器系统获取敌我态势信息,其次构建无人机机动规避决策深度强化学习模型结构,再构建层次目标导向学习模型结构,再依据交互训练完成无人机机动规避决策方法学习,最后完成无人机机动规避决策方法部署应用。本发明能够赋予无人机由浅向深的学习能力,能够令无人机自主完成机动规避决策,提高无人机在战场上的生存能力。
本发明是通过如下措施实现的:一种基于深度强化学习的无人机机动规避决策方法,其中,包括以下步骤:
步骤一、依据无人机机载传感器系统获取敌我态势信息;
步骤二、构建无人机机动规避决策深度强化学习模型结构;
步骤三、构建层次目标导向学习模型结构;
步骤四、依据交互训练完成无人机机动规避决策方法学习;
步骤五、无人机机动规避决策方法部署应用。
进一步地,所述步骤一中,通过相控雷达和火控雷达等机载传感器系统周期性的采样获得我方无人机的姿态信息su、敌方无人机态势信息敌方发射的防空导弹信息其中px,py,pz分别为我方无人机的经度、纬度和高度态势信息,v,φ分别为我方无人机的速度、航向角和俯仰角态势信息, 分别为敌方无人机的经度、纬度和高度态势信息,分别为敌方无人机的速度、航向角和俯仰角态势信息, 为检测到敌方导弹的经度、纬度和高度态势信息,为敌方导弹的速度、航向角和俯仰角态势信息。
进一步地,所述步骤二包含如下步骤:
2-1)、构建用于深度强化学习的状态S、动作A和奖赏函数R,具体包括:
b)无人机依据当前状态生成的动作指令为a=(dx,dy,dz),其中dx,dy,dz分别为无人机基于当前位置信息的改变量,无人机下一时刻的期望位置信息为:
其中xt,yt,zt分别为t时刻无人机的坐标信息,xt+1,yt+1,zt+1为t+1时刻无人机的坐标信息;
c)定义无人机机动规避决策任务中的奖赏为稀疏形式,即奖赏函数定义为:
其中g当前目标任务。
2-2)、构建基于深度确定性强化学习的模型结构,包括Actor网络μ、Critic网络Q、Actor target网络μ'和Critic target网络Q'四个部分,网络μ、Q、μ'和Q'应的网络权重参数分别为θμ、θQ、θμ'和θQ';
2-3)、设置基于深度确定性强化学习的模型参数,具体包括:
b)Critic网络的输入为(s,a),输出为Q(s,a|θQ),网络包括两个隐含层,第一层隐含层神经元个数为128,第二层神经元个数为64;
c)Actor target网络μ'的结构与对应的Actor网络结构相同,Critic target网络Q'的结构与对应的Critic网络结构相同。
进一步地,所述步骤三中包含如下步骤:
3-2)、对于每一个子任务集Gi建立一个经验池Di存储完成任务gi∈Gi过程中智能体与环境的交互数据。
进一步地,所述步骤四中包含如下步骤:
4-1)、初始化Actor网络μ、Critic网络Q、Actor target网络μ'和Critic target网络Q'四个网络,其中μ和Q的网络权重参数通过随机数进行赋值,μ'和Q'的网络权重参数分别从μ和Q拷贝得到;
4-5)、依据态势信息su和通过Actor网络μ得到无人机理想动作变量a=μ(s|θμ),并在此基础上利用公式a=μ(s|θμ)+εN(0,1)得到实际无人机执行的动作变量,其中N(0,1)为标准正态分布,ε为小于1的探测控制量;
4-6)、依据上述公式(1)得到我方无人机的期望位置信息,并通过无人机指令系统控制我方无人机运动;
4-9)、当经验池存储的数据量大于设定的阈值M后,随机抽取小批量的N个数据计算Actor网络损失函数J(θμ)和J(θQ):
其中γ为折扣因子。利用所述公式(3),利用梯度下降法可以对网络参数θμ和θQ进行更新。在此基础上通过软更新方式对Actor target网络μ'和Critic target网络Q'进行权重更新,即:
4-10)、判定整局训练是否结束,如果整局训练结束,则跳转步骤4-11),如果整局训练未结束且导弹躲避成功,则跳转到步骤4-3),如果整局训练未结束且导弹躲避还未完成,则执行su=s'u和并跳转到步骤4-5)。
4-11)、判定Actor网络μ、Critic网络Q是否收敛,如果收敛,则结束训练,如果未收敛,则跳转到步骤4-2),开始新一轮训练。
进一步地,所述步骤五中包含如下步骤:
5-5)、判定整局任务是否结束,如果整局任务结束,则跳转到步骤5-6),如果整局任务未结束且导弹躲避成功,则跳转到步骤5-2),如果整局任务未结束且导弹躲避还未完成,则执行su=s'u和并跳转到步骤5-4)。
5-6)、结束实验。
与现有技术相比,本发明的有益效果为:
1、本发明融合层次目标学习方法和深度强化学习方法,基于目标引导方法,能够赋予无人机由浅向深的学习能力,能够令无人机学会自主完成机动规避决策,提高无人机在战场上的生存能力,实现无人机决策与执行的自主化、智能化;
2、本发明引入层次目标学习方法,不仅能够有效提升深度强化学习经验池中数据利用效率,而且利用多经验池模型,可以有效解决传统深度强化学习面临的稀疏奖赏问题,提高本法明方法的稳定性和扩展性;
3、本发明所提出的无人机机动规避决策方法不仅适合解决静态环境下的无人机机动决策问题,而且也能够应用于动态对抗和实时决策要求较高的作战环境,易于训练和部署,具有更广泛的应用场景;
4、本发明包含态势信息获取、模型构造与训练、模型部署与应用三个方面的内容,系统框架完整可靠,有益于直接部署到相应的无人机机动规避决策系统进行快速应用。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
图1为本发明提供的基于深度强化学习的无人机机动规避决策方法的整体流程图。
图2为本发明提供的基于深度强化学习的无人机机动规避决策方法的态势信息图。
图3为本发明提供的基于深度强化学习的无人机机动规避决策方法的规避决策深度强化学习模型结构图。
图4为本发明提供的基于深度强化学习的无人机机动规避决策方法的层次目标模型图。
图5为本发明提供的基于深度强化学习的无人机机动规避决策方法的交互训练流程图。
图6为本发明提供的基于深度强化学习的无人机机动规避决策方法的机动规避决策方法部署流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。当然,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明提供一种基于深度强化学习的无人机机动规避决策方法,如图1所示,包括以下五个步骤:
步骤1、依据无人机机载传感器系统获取敌我态势信息;
步骤2、构建无人机机动规避决策深度强化学习模型结构;
步骤3、构建层次目标导向学习模型结构;
步骤4、依据交互训练完成无人机机动规避决策方法学习;
步骤5、无人机机动规避决策方法部署应用。
参见图1至图6,本发明提供其技术方案实施步骤如下:
步骤1:如图2所示,通过相控雷达和火控雷达等机载传感器系统周期性的采样获得我方无人机的姿态信息su、敌方无人机态势信息敌方发射的防空导弹信息其中px,py,pz分别为我方无人机的经度、纬度和高度态势信息,v,φ分别为我方无人机的速度、航向角和俯仰角态势信息, 分别为敌方无人机的经度、纬度和高度态势信息,分别为敌方无人机的速度、航向角和俯仰角态势信息, 为检测到敌方导弹的经度、纬度和高度态势信息,为敌方导弹的速度、航向角和俯仰角态势信息。
步骤2:构建无人机机动规避决策深度强化学习模型结构。如图3所示,构建用于深度强化学习的状态S、动作A和奖赏函数R,具体包括:
2-1)、构建用于深度强化学习的状态S、动作A和奖赏函数R,具体包括:
b)无人机依据当前状态生成的动作指令为a=(dx,dy,dz),其中dx,dy,dz分别为无人机基于当前位置信息的改变量,无人机下一时刻的期望位置信息为:
其中xt,yt,zt分别为t时刻无人机的坐标信息,xt+1,yt+1,zt+1为t+1时刻无人机的坐标信息;
c)定义无人机机动规避决策任务中的奖赏为稀疏形式,即奖赏函数定义为:
其中g当前目标任务。
2-2)、构建基于深度确定性强化学习的模型结构,包括Actor网络μ、Critic网络Q、Actor target网络μ'和Critic target网络Q'四个部分,网络μ、Q、μ'和Q'应的网络权重参数分别为θμ、θQ、θμ'和θQ';
2-3)、设置基于深度确定性强化学习的模型参数,具体包括:
b)Critic网络的输入为(s,a),输出为Q(s,a|θQ),网络包括两个隐含层,第一层隐含层神经元个数为128,第二层神经元个数为64;
c)Actor target网络μ'的结构与对应的Actor网络结构相同,Critic target网络Q'的结构与对应的Critic网络结构相同。
步骤3:构建层次目标导向学习模型结构。如图4所示,依据敌方无人机与我方无人机的相对距离把整个机动规避决策任务集G分成m个子任务集Gi,即满足G1UG2UL UGm=G,且对任意两个不同的子任务集Gi和Gj满足约束关系对于每一个子任务集Gi建立一个经验池Di存储完成任务gi∈Gi过程中智能体与环境的交互数据。
步骤4:如图5所示,交互训练完成无人机机动规避决策方法学习过程为:
4-1)、初始化Actor网络μ、Critic网络Q、Actor target网络μ'和Critic target网络Q'四个网络,其中μ和Q的网络权重通过随机数进行赋值,μ'和Q'的网络权重分别从μ和Q拷贝得到;
4-5)、依据态势信息su和通过Actor网络μ得到无人机理想动作变量a=μ(s|θμ),并在此基础上利用公式a=μ(s|θμ)+εN(0,1)得到实际无人机执行的动作变量,其中N(0,1)为标准正态分布,ε为小于1的探测控制量;
4-6)、依据上述公式(1)得到我方无人机的期望位置信息,并通过无人机指令系统控制我方无人机运动;
4-9)、当经验池存储的数据量大于设定的阈值M后,随机抽取小批量的N个数据计算Actor网络损失函数J(θμ)和J(θQ):
其中γ为折扣因子。利用所述公式(3),利用梯度下降法可以对网络参数θμ和θQ进行更新。在此基础上通过软更新方式对Actor target网络μ'和Critic target网络Q'进行权重更新,即:
4-10)、判定整局训练是否结束,如果整局训练结束,则跳转步骤4-11),如果整局训练未结束且导弹躲避成功,则跳转到步骤4-3),如果整局训练未结束且导弹躲避还未完成,则执行su=s'u和并跳转到步骤4-5)。
4-11)、判定Actor网络μ、Critic网络Q是否收敛,如果收敛,则结束训练,如果未收敛,则跳转到步骤4-2),开始新一轮训练。
步骤5:如图6所示,无人机机动规避决策方法部署应用如下:
5-5)、判定整局任务是否结束,如果整局任务结束,则跳转到步骤5-6),如果整局任务未结束且导弹躲避成功,则跳转到步骤5-2),如果整局任务未结束且导弹躲避还未完成,则执行su=s'u和并跳转到步骤5-4);
5-6)、结束实验。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (1)
1.一种基于深度强化学习的无人机机动规避决策方法,其特征在于,包括以下步骤:
S1、依据无人机机载传感器系统获取敌我态势信息;
S2、构建无人机机动规避决策深度强化学习模型结构;
S3、构建层次目标导向学习模型结构;
S4、依据交互训练完成无人机机动规避决策方法学习;
S5、无人机机动规避决策方法部署应用;
所述步骤S1中,通过相控雷达和火控雷达的机载传感器系统周期性的采样获得我方无人机的姿态信息su、敌方无人机态势信息敌方发射的防空导弹信息其中px,py,pz分别为我方无人机的经度、纬度和高度态势信息,分别为我方无人机的速度、航向角和俯仰角态势信息, 分别为敌方无人机的经度、纬度和高度态势信息,分别为敌方无人机的速度、航向角和俯仰角态势信息, 为检测到敌方导弹的经度、纬度和高度态势信息,为敌方导弹的速度、航向角和俯仰角态势信息;
所述步骤S2具体包括如下步骤:
S21:构建用于深度强化学习的状态S、动作A和奖赏函数R,具体包括:
2)无人机依据当前状态生成的动作指令为a=(dx,dy,dz),其中dx,dy,dz分别为无人机基于当前位置信息的改变量,无人机下一时刻的期望位置信息为:
其中xt,yt,zt分别为t时刻无人机的坐标信息,xt+1,yt+1,zt+1为t+1时刻无人机的坐标信息;
3)定义无人机机动规避决策任务中的奖赏为稀疏形式,即奖赏函数定义为:
其中g为当前目标任务;
S22:构建基于深度确定性强化学习的模型结构,包括Actor网络μ、Critic网络Q、Actortarget网络μ'和Critic target网络Q'四个部分,网络μ、Q、μ'和Q'对应的网络权重参数分别为θμ、θQ、θμ'和θQ';
S23:设置基于深度确定性强化学习的模型参数,具体包括以下内容:
2)Critic网络的输入为(s,a),输出为Q(s,a|θQ),网络包括两个隐含层,第一层隐含层神经元个数为128,第二层神经元个数为64;
3)Actor target网络μ'的结构与对应的Actor网络结构相同,Critic target网络Q'的结构与对应的Critic网络结构相同;
所述步骤S3具体包括如下步骤:
S32:对于每一个子任务集Gi建立一个经验池Di存储完成任务gi∈Gi过程中智能体与环境的交互数据;
所述步骤S4具体包括如下步骤:
S41:初始化Actor网络μ、Critic网络Q、Actor target网络μ'和Critic target网络Q'四个网络,其中μ和Q的网络权重参数通过随机数进行赋值,μ'和Q'的网络权重参数分别从μ和Q拷贝得到;
S45:依据态势信息su和通过Actor网络μ得到无人机理想动作变量a=μ(s|θμ),并在此基础上利用公式a=μ(s|θμ)+εN(0,1)得到实际无人机执行的动作变量,其中N(0,1)为标准正态分布,ε为小于1的探测控制量;
S46:依据所述公式(1)得到我方无人机的期望位置信息,并通过无人机指令系统控制我方无人机运动;
S49:当经验池存储的数据量大于设定的阈值M后,随机抽取小批量的N个数据计算Actor网络损失函数J(θμ)和J(θQ):
其中γ为折扣因子,利用所述公式(3),利用梯度下降法对网络权重参数θμ和θQ进行更新,在此基础上通过软更新方式对Actor target网络μ'和Critic target网络Q'进行权重更新,即:
S410:判定整局训练是否结束,如果整局训练结束,则跳转步骤S411,如果整局训练未结束且导弹躲避成功,则跳转到步骤S43,如果整局训练未结束且导弹躲避还未完成,则执行su=s'u和并跳转到步骤S45;
S411:判定Actor网络μ、Critic网络Q是否收敛,如果收敛,则结束训练,如果未收敛,则跳转到步骤S42,开始新一轮训练;
所述步骤S5具体包括如下步骤:
S55:判定整局任务是否结束,如果整局任务结束,则跳转到步骤S56,如果整局任务未结束且导弹躲避成功,则跳转到步骤S52,如果整局任务未结束且导弹躲避还未完成,则执行su=s'u和并跳转到步骤S54;
S56:结束实验。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210144676.2A CN114510078B (zh) | 2022-02-16 | 2022-02-16 | 一种基于深度强化学习的无人机机动规避决策方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210144676.2A CN114510078B (zh) | 2022-02-16 | 2022-02-16 | 一种基于深度强化学习的无人机机动规避决策方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114510078A CN114510078A (zh) | 2022-05-17 |
CN114510078B true CN114510078B (zh) | 2022-12-09 |
Family
ID=81551553
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210144676.2A Active CN114510078B (zh) | 2022-02-16 | 2022-02-16 | 一种基于深度强化学习的无人机机动规避决策方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114510078B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114995468B (zh) * | 2022-06-06 | 2023-03-31 | 南通大学 | 一种基于贝叶斯深度强化学习的水下机器人智能控制方法 |
CN116069056B (zh) * | 2022-12-15 | 2023-07-18 | 南通大学 | 一种基于深度强化学习的无人机战场目标跟踪控制方法 |
CN116974204B (zh) * | 2023-08-23 | 2024-04-09 | 南通大学 | 无人机跟踪控制模型训练方法、使用方法及终端设备 |
CN117540626B (zh) * | 2023-10-30 | 2024-05-14 | 南通大学 | 一种基于贝叶斯神经网络的固定翼无人机态势预测方法 |
CN118051063B (zh) * | 2024-04-16 | 2024-06-14 | 中国民用航空飞行学院 | 一种低空无人机避障飞行的训练方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113093802A (zh) * | 2021-04-03 | 2021-07-09 | 西北工业大学 | 一种基于深度强化学习的无人机机动决策方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108614996A (zh) * | 2018-04-04 | 2018-10-02 | 杭州电子科技大学 | 一种基于深度学习的军船、民船自动识别方法 |
CN108647573A (zh) * | 2018-04-04 | 2018-10-12 | 杭州电子科技大学 | 一种基于深度学习的军事目标识别方法 |
CN110765948A (zh) * | 2019-10-24 | 2020-02-07 | 长沙品先信息技术有限公司 | 一种基于无人机的目标检测识别方法及系统 |
CN110866887A (zh) * | 2019-11-04 | 2020-03-06 | 深圳市唯特视科技有限公司 | 一种基于多传感器的目标态势融合感知方法和系统 |
CN112149715B (zh) * | 2020-08-31 | 2024-04-02 | 南京航空航天大学 | 一种基于深度学习的无人机空战威胁评估方法 |
-
2022
- 2022-02-16 CN CN202210144676.2A patent/CN114510078B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113093802A (zh) * | 2021-04-03 | 2021-07-09 | 西北工业大学 | 一种基于深度强化学习的无人机机动决策方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114510078A (zh) | 2022-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114510078B (zh) | 一种基于深度强化学习的无人机机动规避决策方法 | |
CN111880563B (zh) | 一种基于maddpg的多无人机任务决策方法 | |
Yan et al. | Towards real-time path planning through deep reinforcement learning for a UAV in dynamic environments | |
CN111260031B (zh) | 一种基于深度强化学习的无人机集群目标防卫方法 | |
CN113589842A (zh) | 一种基于多智能体强化学习的无人集群任务协同方法 | |
CN113093802B (zh) | 一种基于深度强化学习的无人机机动决策方法 | |
US20220315219A1 (en) | Air combat maneuvering method based on parallel self-play | |
CN112180967B (zh) | 基于评判-执行架构的多无人机协同对抗决策方法 | |
CN112465151A (zh) | 一种基于深度强化学习的多智能体联邦协作方法 | |
US8924069B1 (en) | Artificial immune system approach for airborne vehicle maneuvering | |
CN111859541B (zh) | 一种基于迁移学习改进的pmaddpg多无人机任务决策方法 | |
CN108459616B (zh) | 基于人工蜂群算法的无人机群协同覆盖航路规划方法 | |
CN114330115B (zh) | 一种基于粒子群搜索的神经网络空战机动决策方法 | |
CN110928329A (zh) | 一种基于深度q学习算法的多飞行器航迹规划方法 | |
CN114460959A (zh) | 一种基于多体博弈的无人机群协同自主决策方法及装置 | |
CN113625569B (zh) | 一种基于混合决策模型的小型无人机防控决策方法及系统 | |
Lee et al. | Autonomous control of combat unmanned aerial vehicles to evade surface-to-air missiles using deep reinforcement learning | |
CN112198892A (zh) | 一种多无人机智能协同突防对抗方法 | |
CN115097861B (zh) | 一种基于cel-maddpg的多无人机围捕策略方法 | |
Wu et al. | Heterogeneous mission planning for multiple uav formations via metaheuristic algorithms | |
CN112651486A (zh) | 一种提高maddpg算法收敛速度的方法及其应用 | |
CN113741186B (zh) | 一种基于近端策略优化的双机空战决策方法 | |
Shen | Bionic communication network and binary pigeon-inspired optimization for multiagent cooperative task allocation | |
CN113255893B (zh) | 一种多智能体行动策略自演进生成方法 | |
CN116400726A (zh) | 一种基于强化学习的旋翼无人机逃逸方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |