CN114510078A - 一种基于深度强化学习的无人机机动规避决策方法 - Google Patents

一种基于深度强化学习的无人机机动规避决策方法 Download PDF

Info

Publication number
CN114510078A
CN114510078A CN202210144676.2A CN202210144676A CN114510078A CN 114510078 A CN114510078 A CN 114510078A CN 202210144676 A CN202210144676 A CN 202210144676A CN 114510078 A CN114510078 A CN 114510078A
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
network
enemy
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210144676.2A
Other languages
English (en)
Other versions
CN114510078B (zh
Inventor
袁银龙
焦朋朋
戴傲寒
许亚龙
华亮
程赟
张雷
李俊红
傅怀梁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nantong University
Original Assignee
Nantong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nantong University filed Critical Nantong University
Priority to CN202210144676.2A priority Critical patent/CN114510078B/zh
Publication of CN114510078A publication Critical patent/CN114510078A/zh
Application granted granted Critical
Publication of CN114510078B publication Critical patent/CN114510078B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明提供了一种基于深度强化学习的无人机机动规避决策方法,属于无人机技术领域;其技术方案为:包括以下步骤:S1、依据无人机机载传感器系统获取敌我态势信息;S2、构建无人机机动规避决策深度强化学习模型结构;S3、构建层次目标导向学习模型结构;S4、依据交互训练完成无人机机动规避决策方法学习;S5、无人机机动规避决策方法部署应用。本发明的有益效果为:本发明能够赋予无人机由浅向深的学习能力,能够令无人机自主完成机动规避决策,提高无人机在战场上的生存能力。

Description

一种基于深度强化学习的无人机机动规避决策方法
技术领域
本发明涉及无人机技术领域,尤其涉及一种基于深度强化学习的无人机机动规避决策方法。
背景技术
目前,在空域一体化智能作战背景下,无人机技术已广泛应用于军事作战中。它在许多领域取得了巨大的成功,如合作侦察、地面攻击、摧毁敌人的防空系统等。在应用过程中,有效规避威胁,提高无人机在动态对抗环境中的生存能力是作战任务成功的关键。随着现代战场环境的复杂多变,操作者通过人工操作完成复杂的飞行任务越来越困难。无人机的生存能力和作战能力在军事作战中起着至关重要的作用,如何赋予无人机自主突防能力是一个迫切需要解决的问题。
近年来,许多研究集中在利用传统知识推理和仿生编程来解决无人机自主突防问题上。比如:采用改进的A-Star算法、稀疏A-Star搜索算法(SAS)和动态A-Star算法(D-STAR)解决不同威胁场景下无人机侵入路径规划;结合了灰狼优化算法和果蝇优化算法,完成了无人机路径优化等。这类方法更适合解决静态环境下的路径规划问题,难以应用于动态对抗和实时决策要求较高的环境。这严重限制了传统分析方法的应用范围。
尽管深度强化学习方法在无人机的自主突防方面取得了一定的成功,但在实际应用中,这些算法往往受益于精心塑造的奖励函数,帮助指导agent实现任务的总体目标。但是设计奖励功能对于更复杂的任务来说是一项挑战,它需要特定领域的知识。此外,奖励塑造可能会使政策倾向于不理想的行为,并限制代理获得安全动作。
发明内容
本发明的目的在于提供一种基于深度强化学习的无人机机动规避决策方法,首先依据无人机机载传感器系统获取敌我态势信息,其次构建无人机机动规避决策深度强化学习模型结构,再构建层次目标导向学习模型结构,再依据交互训练完成无人机机动规避决策方法学习,最后完成无人机机动规避决策方法部署应用。本发明能够赋予无人机由浅向深的学习能力,能够令无人机自主完成机动规避决策,提高无人机在战场上的生存能力。
本发明是通过如下措施实现的:一种基于深度强化学习的无人机机动规避决策方法,其中,包括以下步骤:
步骤一、依据无人机机载传感器系统获取敌我态势信息;
步骤二、构建无人机机动规避决策深度强化学习模型结构;
步骤三、构建层次目标导向学习模型结构;
步骤四、依据交互训练完成无人机机动规避决策方法学习;
步骤五、无人机机动规避决策方法部署应用。
进一步地,所述步骤一中,通过相控雷达和火控雷达等机载传感器系统周期性的采样获得我方无人机的姿态信息su、敌方无人机态势信息
Figure BDA0003507025360000021
敌方发射的防空导弹信息
Figure BDA0003507025360000022
其中
Figure BDA0003507025360000023
px,py,pz分别为我方无人机的经度、纬度和高度态势信息,v,
Figure BDA0003507025360000024
φ分别为我方无人机的速度、航向角和俯仰角态势信息,
Figure BDA0003507025360000025
Figure BDA0003507025360000026
分别为敌方无人机的经度、纬度和高度态势信息,
Figure BDA0003507025360000027
分别为敌方无人机的速度、航向角和俯仰角态势信息,
Figure BDA0003507025360000028
Figure BDA0003507025360000029
为检测到敌方导弹的经度、纬度和高度态势信息,
Figure BDA00035070253600000210
为敌方导弹的速度、航向角和俯仰角态势信息。
进一步地,所述步骤二包含如下步骤:
2-1)、构建用于深度强化学习的状态S、动作A和奖赏函数R,具体包括:
a)选择
Figure BDA00035070253600000211
作为我方无人机状态输入信息,其对应的状态空间为{s};
b)无人机依据当前状态生成的动作指令为a=(dx,dy,dz),其中dx,dy,dz分别为无人机基于当前位置信息的改变量,无人机下一时刻的期望位置信息为:
Figure BDA00035070253600000212
其中xt,yt,zt分别为t时刻无人机的坐标信息,xt+1,yt+1,zt+1为t+1时刻无人机的坐标信息;
c)定义无人机机动规避决策任务中的奖赏为稀疏形式,即奖赏函数定义为:
Figure BDA00035070253600000213
其中g当前目标任务。
2-2)、构建基于深度确定性强化学习的模型结构,包括Actor网络μ、Critic网络Q、Actor target网络μ'和Critic target网络Q'四个部分,网络μ、Q、μ'和Q'应的网络权重参数分别为θμ、θQ、θμ'和θQ'
2-3)、设置基于深度确定性强化学习的模型参数,具体包括:
a)Actor网络的输入为
Figure BDA0003507025360000031
输出为a=μ(s|θμ),网络包括两个隐含层,第一层隐含层神经元个数为128,第二层神经元个数为64;
b)Critic网络的输入为(s,a),输出为Q(s,a|θQ),网络包括两个隐含层,第一层隐含层神经元个数为128,第二层神经元个数为64;
c)Actor target网络μ'的结构与对应的Actor网络结构相同,Critic target网络Q'的结构与对应的Critic网络结构相同。
进一步地,所述步骤三中包含如下步骤:
3-1)、依据敌方无人机与我方无人机的相对距离把整个机动规避决策任务集G分成m个子任务集Gi,即满足G1 UG2UL UGm=G,且对任意两个不同的子任务集Gi和Gj满足约束关系
Figure BDA0003507025360000032
3-2)、对于每一个子任务集Gi建立一个经验池Di存储完成任务gi∈Gi过程中智能体与环境的交互数据。
进一步地,所述步骤四中包含如下步骤:
4-1)、初始化Actor网络μ、Critic网络Q、Actor target网络μ'和Critic target网络Q'四个网络,其中μ和Q的网络权重参数通过随机数进行赋值,μ'和Q'的网络权重参数分别从μ和Q拷贝得到;
4-2)、初始化任务环境,获得我方无人机的态势信息su和敌方无人机态势信息
Figure BDA0003507025360000033
4-3)、依据敌方无人机态势信息
Figure BDA0003507025360000034
通过无人机指令系统,控制我方无人机朝着敌方飞机坐标位置
Figure BDA0003507025360000035
进行飞行;
4-4)、敌方发射导弹后,利用我方无人机机载传感器系统,获取敌方导弹态势信息
Figure BDA0003507025360000036
4-5)、依据态势信息su
Figure BDA0003507025360000037
通过Actor网络μ得到无人机理想动作变量a=μ(s|θμ),并在此基础上利用公式a=μ(s|θμ)+εN(0,1)得到实际无人机执行的动作变量,其中N(0,1)为标准正态分布,ε为小于1的探测控制量;
4-6)、依据上述公式(1)得到我方无人机的期望位置信息,并通过无人机指令系统控制我方无人机运动;
4-7)、获得无人机执行动作a对应指令系统后的我方无人机新的态势信息s'u、敌方无人机态势信息
Figure BDA0003507025360000038
和敌方导弹态势信息
Figure BDA0003507025360000039
并获得对应的奖赏值r(s|g);
4-8)、依据任务目标g所处的任务集Gi,把态势信息su
Figure BDA0003507025360000041
s'u
Figure BDA0003507025360000042
a、r(s|g)存储到经验池Di中;
4-9)、当经验池存储的数据量大于设定的阈值M后,随机抽取小批量的N个数据计算Actor网络损失函数J(θμ)和J(θQ):
Figure BDA0003507025360000043
其中γ为折扣因子。利用所述公式(3),利用梯度下降法可以对网络参数θμ和θQ进行更新。在此基础上通过软更新方式对Actor target网络μ'和Critic target网络Q'进行权重更新,即:
Figure BDA0003507025360000044
4-10)、判定整局训练是否结束,如果整局训练结束,则跳转步骤4-11),如果整局训练未结束且导弹躲避成功,则跳转到步骤4-3),如果整局训练未结束且导弹躲避还未完成,则执行su=s'u
Figure BDA0003507025360000045
并跳转到步骤4-5)。
4-11)、判定Actor网络μ、Critic网络Q是否收敛,如果收敛,则结束训练,如果未收敛,则跳转到步骤4-2),开始新一轮训练。
进一步地,所述步骤五中包含如下步骤:
5-1)、初始化战场环境,获取敌我双发无人机态势信息su
Figure BDA0003507025360000046
5-2)、依据敌方无人机态势信息
Figure BDA0003507025360000047
通过无人机指令系统,控制我方无人机朝着敌方飞机坐标位置
Figure BDA0003507025360000048
进行飞行;
5-3)、敌方发射导弹后,利用我方无人机机载传感器系统,获取敌方导弹态势信息
Figure BDA0003507025360000049
5-4)、依据态势信息su
Figure BDA00035070253600000410
通过Actor网络μ得到无人机动作变量a=μ(s|θμ),并通过无人机指令系统控制我方无人机运动;
5-5)、判定整局任务是否结束,如果整局任务结束,则跳转到步骤5-6),如果整局任务未结束且导弹躲避成功,则跳转到步骤5-2),如果整局任务未结束且导弹躲避还未完成,则执行su=s'u
Figure BDA00035070253600000411
并跳转到步骤5-4)。
5-6)、结束实验。
与现有技术相比,本发明的有益效果为:
1、本发明融合层次目标学习方法和深度强化学习方法,基于目标引导方法,能够赋予无人机由浅向深的学习能力,能够令无人机学会自主完成机动规避决策,提高无人机在战场上的生存能力,实现无人机决策与执行的自主化、智能化;
2、本发明引入层次目标学习方法,不仅能够有效提升深度强化学习经验池中数据利用效率,而且利用多经验池模型,可以有效解决传统深度强化学习面临的稀疏奖赏问题,提高本法明方法的稳定性和扩展性;
3、本发明所提出的无人机机动规避决策方法不仅适合解决静态环境下的无人机机动决策问题,而且也能够应用于动态对抗和实时决策要求较高的作战环境,易于训练和部署,具有更广泛的应用场景;
4、本发明包含态势信息获取、模型构造与训练、模型部署与应用三个方面的内容,系统框架完整可靠,有益于直接部署到相应的无人机机动规避决策系统进行快速应用。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
图1为本发明提供的基于深度强化学习的无人机机动规避决策方法的整体流程图。
图2为本发明提供的基于深度强化学习的无人机机动规避决策方法的态势信息图。
图3为本发明提供的基于深度强化学习的无人机机动规避决策方法的规避决策深度强化学习模型结构图。
图4为本发明提供的基于深度强化学习的无人机机动规避决策方法的层次目标模型图。
图5为本发明提供的基于深度强化学习的无人机机动规避决策方法的交互训练流程图。
图6为本发明提供的基于深度强化学习的无人机机动规避决策方法的机动规避决策方法部署流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。当然,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明提供一种基于深度强化学习的无人机机动规避决策方法,如图1所示,包括以下五个步骤:
步骤1、依据无人机机载传感器系统获取敌我态势信息;
步骤2、构建无人机机动规避决策深度强化学习模型结构;
步骤3、构建层次目标导向学习模型结构;
步骤4、依据交互训练完成无人机机动规避决策方法学习;
步骤5、无人机机动规避决策方法部署应用。
参见图1至图6,本发明提供其技术方案实施步骤如下:
步骤1:如图2所示,通过相控雷达和火控雷达等机载传感器系统周期性的采样获得我方无人机的姿态信息su、敌方无人机态势信息
Figure BDA0003507025360000061
敌方发射的防空导弹信息
Figure BDA0003507025360000062
其中
Figure BDA0003507025360000063
px,py,pz分别为我方无人机的经度、纬度和高度态势信息,v,
Figure BDA0003507025360000064
φ分别为我方无人机的速度、航向角和俯仰角态势信息,
Figure BDA0003507025360000065
Figure BDA0003507025360000066
分别为敌方无人机的经度、纬度和高度态势信息,
Figure BDA0003507025360000067
分别为敌方无人机的速度、航向角和俯仰角态势信息,
Figure BDA0003507025360000068
Figure BDA0003507025360000069
为检测到敌方导弹的经度、纬度和高度态势信息,
Figure BDA00035070253600000610
为敌方导弹的速度、航向角和俯仰角态势信息。
步骤2:构建无人机机动规避决策深度强化学习模型结构。如图3所示,构建用于深度强化学习的状态S、动作A和奖赏函数R,具体包括:
2-1)、构建用于深度强化学习的状态S、动作A和奖赏函数R,具体包括:
a)选择
Figure BDA00035070253600000611
作为我方无人机状态输入信息,其对应的状态空间为{s};
b)无人机依据当前状态生成的动作指令为a=(dx,dy,dz),其中dx,dy,dz分别为无人机基于当前位置信息的改变量,无人机下一时刻的期望位置信息为:
Figure BDA00035070253600000612
其中xt,yt,zt分别为t时刻无人机的坐标信息,xt+1,yt+1,zt+1为t+1时刻无人机的坐标信息;
c)定义无人机机动规避决策任务中的奖赏为稀疏形式,即奖赏函数定义为:
Figure BDA00035070253600000613
其中g当前目标任务。
2-2)、构建基于深度确定性强化学习的模型结构,包括Actor网络μ、Critic网络Q、Actor target网络μ'和Critic target网络Q'四个部分,网络μ、Q、μ'和Q'应的网络权重参数分别为θμ、θQ、θμ'和θQ'
2-3)、设置基于深度确定性强化学习的模型参数,具体包括:
a)Actor网络的输入为
Figure BDA0003507025360000071
输出为a=μ(s|θμ),网络包括两个隐含层,第一层隐含层神经元个数为128,第二层神经元个数为64;
b)Critic网络的输入为(s,a),输出为Q(s,a|θQ),网络包括两个隐含层,第一层隐含层神经元个数为128,第二层神经元个数为64;
c)Actor target网络μ'的结构与对应的Actor网络结构相同,Critic target网络Q'的结构与对应的Critic网络结构相同。
步骤3:构建层次目标导向学习模型结构。如图4所示,依据敌方无人机与我方无人机的相对距离把整个机动规避决策任务集G分成m个子任务集Gi,即满足G1UG2UL UGm=G,且对任意两个不同的子任务集Gi和Gj满足约束关系
Figure BDA0003507025360000072
对于每一个子任务集Gi建立一个经验池Di存储完成任务gi∈Gi过程中智能体与环境的交互数据。
步骤4:如图5所示,交互训练完成无人机机动规避决策方法学习过程为:
4-1)、初始化Actor网络μ、Critic网络Q、Actor target网络μ'和Critic target网络Q'四个网络,其中μ和Q的网络权重通过随机数进行赋值,μ'和Q'的网络权重分别从μ和Q拷贝得到;
4-2)、初始化任务环境,获得我方无人机的态势信息su和敌方无人机态势信息
Figure BDA0003507025360000073
4-3)、依据敌方无人机态势信息
Figure BDA0003507025360000074
通过无人机指令系统,控制我方无人机朝着敌方飞机坐标位置
Figure BDA0003507025360000075
进行飞行;
4-4)、敌方发射导弹后,利用我方无人机机载传感器系统,获取敌方导弹态势信息
Figure BDA0003507025360000076
4-5)、依据态势信息su
Figure BDA0003507025360000077
通过Actor网络μ得到无人机理想动作变量a=μ(s|θμ),并在此基础上利用公式a=μ(s|θμ)+εN(0,1)得到实际无人机执行的动作变量,其中N(0,1)为标准正态分布,ε为小于1的探测控制量;
4-6)、依据上述公式(1)得到我方无人机的期望位置信息,并通过无人机指令系统控制我方无人机运动;
4-7)、获得无人机执行动作a对应指令系统后的我方无人机新的态势信息s'u、敌方无人机态势信息
Figure BDA0003507025360000081
和敌方导弹态势信息
Figure BDA0003507025360000082
并获得对应的奖赏值r(s|g);
4-8)、依据任务目标g所处的任务集Gi,把态势信息su
Figure BDA0003507025360000083
s'u
Figure BDA0003507025360000084
a、r(s|g)存储到经验池Di中;
4-9)、当经验池存储的数据量大于设定的阈值M后,随机抽取小批量的N个数据计算Actor网络损失函数J(θμ)和J(θQ):
Figure BDA0003507025360000085
其中γ为折扣因子。利用所述公式(3),利用梯度下降法可以对网络参数θμ和θQ进行更新。在此基础上通过软更新方式对Actor target网络μ'和Critic target网络Q'进行权重更新,即:
Figure BDA0003507025360000086
4-10)、判定整局训练是否结束,如果整局训练结束,则跳转步骤4-11),如果整局训练未结束且导弹躲避成功,则跳转到步骤4-3),如果整局训练未结束且导弹躲避还未完成,则执行su=s'u
Figure BDA0003507025360000087
并跳转到步骤4-5)。
4-11)、判定Actor网络μ、Critic网络Q是否收敛,如果收敛,则结束训练,如果未收敛,则跳转到步骤4-2),开始新一轮训练。
步骤5:如图6所示,无人机机动规避决策方法部署应用如下:
5-1)、初始化战场环境,获取敌我双发无人机态势信息su
Figure BDA0003507025360000088
5-2)、依据敌方无人机态势信息
Figure BDA00035070253600000813
通过无人机指令系统,控制我方无人机朝着敌方飞机坐标位置
Figure BDA0003507025360000089
进行飞行;
5-3)、敌方发射导弹后,利用我方无人机机载传感器系统,获取敌方导弹态势信息
Figure BDA00035070253600000810
5-4)、依据态势信息su
Figure BDA00035070253600000811
通过Actor网络μ得到无人机动作变量a=μ(s|θμ),并通过无人机指令系统控制我方无人机运动;
5-5)、判定整局任务是否结束,如果整局任务结束,则跳转到步骤5-6),如果整局任务未结束且导弹躲避成功,则跳转到步骤5-2),如果整局任务未结束且导弹躲避还未完成,则执行su=s'u
Figure BDA00035070253600000812
并跳转到步骤5-4);
5-6)、结束实验。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于深度强化学习的无人机机动规避决策方法,其特征在于,包括以下步骤:
S1、依据无人机机载传感器系统获取敌我态势信息;
S2、构建无人机机动规避决策深度强化学习模型结构;
S3、构建层次目标导向学习模型结构;
S4、依据交互训练完成无人机机动规避决策方法学习;
S5、无人机机动规避决策方法部署应用。
2.根据权利要求1所述的一种基于深度强化学习的无人机机动规避决策方法,其特征在于,所述步骤S1中,通过相控雷达和火控雷达的机载传感器系统周期性的采样获得我方无人机的姿态信息su、敌方无人机态势信息
Figure FDA0003507025350000011
敌方发射的防空导弹信息
Figure FDA0003507025350000012
其中
Figure FDA0003507025350000013
px,py,pz分别为我方无人机的经度、纬度和高度态势信息,v,
Figure FDA0003507025350000014
φ分别为我方无人机的速度、航向角和俯仰角态势信息,
Figure FDA0003507025350000015
Figure FDA0003507025350000016
分别为敌方无人机的经度、纬度和高度态势信息,
Figure FDA0003507025350000017
分别为敌方无人机的速度、航向角和俯仰角态势信息,
Figure FDA0003507025350000018
Figure FDA0003507025350000019
为检测到敌方导弹的经度、纬度和高度态势信息,
Figure FDA00035070253500000110
为敌方导弹的速度、航向角和俯仰角态势信息。
3.根据权利要求1所述的一种基于深度强化学习的无人机机动规避决策方法,其特征在于,所述步骤S2具体包括如下步骤:
S21:构建用于深度强化学习的状态S、动作A和奖赏函数R,具体包括:
1)选择
Figure FDA00035070253500000111
作为我方无人机状态输入信息,其对应的状态空间为{s};
2)无人机依据当前状态生成的动作指令为a=(dx,dy,dz),其中dx,dy,dz分别为无人机基于当前位置信息的改变量,无人机下一时刻的期望位置信息为:
Figure FDA00035070253500000112
其中xt,yt,zt分别为t时刻无人机的坐标信息,xt+1,yt+1,zt+1为t+1时刻无人机的坐标信息;
3)定义无人机机动规避决策任务中的奖赏为稀疏形式,即奖赏函数定义为:
Figure FDA00035070253500000113
其中g当前目标任务;
S22:构建基于深度确定性强化学习的模型结构,包括Actor网络μ、Critic网络Q、Actortarget网络μ'和Critic target网络Q'四个部分,网络μ、Q、μ'和Q'应的网络权重参数分别为θμ、θQ、θμ'和θQ'
S23:设置基于深度确定性强化学习的模型参数,具体包括以下内容:
1)Actor网络的输入为
Figure FDA0003507025350000026
输出为a=μ(s|θμ),网络包括两个隐含层,第一层隐含层神经元个数为128,第二层神经元个数为64;
2)Critic网络的输入为(s,a),输出为Q(s,a|θQ),网络包括两个隐含层,第一层隐含层神经元个数为128,第二层神经元个数为64;
3)Actor target网络μ'的结构与对应的Actor网络结构相同,Critic target网络Q'的结构与对应的Critic网络结构相同。
4.根据权利要求1所述的一种基于深度强化学习的无人机机动规避决策方法,其特征在于,所述步骤S3具体包括如下步骤:
S31:依据敌方无人机与我方无人机的相对距离把整个机动规避决策任务集G分成m个子任务集Gi,即满足G1UG2UL UGm=G,且对任意两个不同的子任务集Gi和Gj满足约束关系GiI
Figure FDA0003507025350000027
S32:对于每一个子任务集Gi建立一个经验池Di存储完成任务gi∈Gi过程中智能体与环境的交互数据。
5.根据权利要求1所述的一种基于深度强化学习的无人机机动规避决策方法,其特征在于,所述步骤S4具体包括如下步骤:
S41:初始化Actor网络μ、Critic网络Q、Actor target网络μ'和Critic target网络Q'四个网络,其中μ和Q的网络权重参数通过随机数进行赋值,μ'和Q'的网络权重参数分别从μ和Q拷贝得到;
S42:初始化任务环境,获得我方无人机的态势信息su和敌方无人机态势信息
Figure FDA0003507025350000024
S43:依据敌方无人机态势信息
Figure FDA0003507025350000025
通过无人机指令系统,控制我方无人机朝着敌方飞机坐标位置
Figure FDA0003507025350000021
进行飞行;
S44:敌方发射导弹后,利用我方无人机机载传感器系统,获取敌方导弹态势信息
Figure FDA0003507025350000022
S45:依据态势信息su
Figure FDA0003507025350000023
通过Actor网络μ得到无人机理想动作变量a=μ(s|θμ),并在此基础上利用公式a=μ(s|θμ)+εN(0,1)得到实际无人机执行的动作变量,其中N(0,1)为标准正态分布,ε为小于1的探测控制量;
S46:依据所述公式(1)得到我方无人机的期望位置信息,并通过无人机指令系统控制我方无人机运动;
S47:获得无人机执行动作a对应指令系统后的我方无人机新的态势信息s'u、敌方无人机态势信息
Figure FDA0003507025350000031
和敌方导弹态势信息
Figure FDA0003507025350000032
并获得对应的奖赏值r(s|g);
S48:依据任务目标g所处的任务集Gi,把态势信息su
Figure FDA0003507025350000033
a、r(s|g)存储到经验池Di中;
S49:当经验池存储的数据量大于设定的阈值M后,随机抽取小批量的N个数据计算Actor网络损失函数J(θμ)和J(θQ):
Figure FDA0003507025350000034
其中γ为折扣因子,利用所述公式(3),利用梯度下降法对网络参数θμ和θQ进行更新,在此基础上通过软更新方式对Actor target网络μ'和Critic target网络Q'进行权重更新,即:
Figure FDA0003507025350000035
S410:判定整局训练是否结束,如果整局训练结束,则跳转步骤S411,如果整局训练未结束且导弹躲避成功,则跳转到步骤S43,如果整局训练未结束且导弹躲避还未完成,则执行su=s'u
Figure FDA0003507025350000036
并跳转到步骤S45;
S411:判定Actor网络μ、Critic网络Q是否收敛,如果收敛,则结束训练,如果未收敛,则跳转到步骤S42,开始新一轮训练。
6.根据权利要求1所述的一种基于深度强化学习的无人机机动规避决策方法,其特征在于,所述步骤S5具体包括如下步骤:
S51:初始化战场环境,获取敌我双方无人机态势信息su
Figure FDA0003507025350000037
S52:依据敌方无人机态势信息
Figure FDA0003507025350000038
通过无人机指令系统,控制我方无人机朝着敌方飞机坐标位置
Figure FDA0003507025350000039
进行飞行;
S53:敌方发射导弹后,利用我方无人机机载传感器系统,获取敌方导弹态势信息
Figure FDA00035070253500000310
S54:依据态势信息su
Figure FDA0003507025350000041
通过Actor网络μ得到无人机动作变量a=μ(s|θμ),并通过无人机指令系统控制我方无人机运动;
S55:判定整局任务是否结束,如果整局任务结束,则跳转到步骤S56,如果整局任务未结束且导弹躲避成功,则跳转到步骤S52,如果整局任务未结束且导弹躲避还未完成,则执行su=s'u
Figure FDA0003507025350000042
并跳转到步骤S54;
S56:结束实验。
CN202210144676.2A 2022-02-16 2022-02-16 一种基于深度强化学习的无人机机动规避决策方法 Active CN114510078B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210144676.2A CN114510078B (zh) 2022-02-16 2022-02-16 一种基于深度强化学习的无人机机动规避决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210144676.2A CN114510078B (zh) 2022-02-16 2022-02-16 一种基于深度强化学习的无人机机动规避决策方法

Publications (2)

Publication Number Publication Date
CN114510078A true CN114510078A (zh) 2022-05-17
CN114510078B CN114510078B (zh) 2022-12-09

Family

ID=81551553

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210144676.2A Active CN114510078B (zh) 2022-02-16 2022-02-16 一种基于深度强化学习的无人机机动规避决策方法

Country Status (1)

Country Link
CN (1) CN114510078B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114995468A (zh) * 2022-06-06 2022-09-02 南通大学 一种基于贝叶斯深度强化学习的水下机器人智能控制方法
CN116069056A (zh) * 2022-12-15 2023-05-05 南通大学 一种基于深度强化学习的无人机战场目标跟踪控制方法
CN116974204A (zh) * 2023-08-23 2023-10-31 南通大学 无人机跟踪控制模型训练方法、使用方法及终端设备
CN117540626A (zh) * 2023-10-30 2024-02-09 南通大学 一种基于贝叶斯神经网络的固定翼无人机态势预测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108614996A (zh) * 2018-04-04 2018-10-02 杭州电子科技大学 一种基于深度学习的军船、民船自动识别方法
CN108647573A (zh) * 2018-04-04 2018-10-12 杭州电子科技大学 一种基于深度学习的军事目标识别方法
CN110765948A (zh) * 2019-10-24 2020-02-07 长沙品先信息技术有限公司 一种基于无人机的目标检测识别方法及系统
CN110866887A (zh) * 2019-11-04 2020-03-06 深圳市唯特视科技有限公司 一种基于多传感器的目标态势融合感知方法和系统
CN112149715A (zh) * 2020-08-31 2020-12-29 南京航空航天大学 一种基于深度学习的无人机空战威胁评估方法
CN113093802A (zh) * 2021-04-03 2021-07-09 西北工业大学 一种基于深度强化学习的无人机机动决策方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108614996A (zh) * 2018-04-04 2018-10-02 杭州电子科技大学 一种基于深度学习的军船、民船自动识别方法
CN108647573A (zh) * 2018-04-04 2018-10-12 杭州电子科技大学 一种基于深度学习的军事目标识别方法
CN110765948A (zh) * 2019-10-24 2020-02-07 长沙品先信息技术有限公司 一种基于无人机的目标检测识别方法及系统
CN110866887A (zh) * 2019-11-04 2020-03-06 深圳市唯特视科技有限公司 一种基于多传感器的目标态势融合感知方法和系统
CN112149715A (zh) * 2020-08-31 2020-12-29 南京航空航天大学 一种基于深度学习的无人机空战威胁评估方法
CN113093802A (zh) * 2021-04-03 2021-07-09 西北工业大学 一种基于深度强化学习的无人机机动决策方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
QIMING YANG等: ""Maneuver Decision of UAV in Short-Range Air Combat Based on Deep Reinforcement Learning"", 《IEEE ACCESS》 *
ZHANG JIANDONG等: ""UAV cooperative air combat maneuver decision based on multi-agent reinforcementlearning"", 《JOURNAL OF SYSTEMS ENGINEERING AND ELECTRONICS》 *
卢锐轩等: ""基于人工智能技术的智能自博弈平台研究"", 《战术导弹技术》 *
孙楚等: ""基于强化学习的无人机自主机动决策方法"", 《火力与指挥控制》 *
张雷等: ""基于粒子群优化的无人战斗机编队任务协调方法研究"", 《系统工程与电子技术》 *
辛昕等: ""人工智能在无人机系统中的应用与发展研究"", 《飞航导弹》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114995468A (zh) * 2022-06-06 2022-09-02 南通大学 一种基于贝叶斯深度强化学习的水下机器人智能控制方法
CN116069056A (zh) * 2022-12-15 2023-05-05 南通大学 一种基于深度强化学习的无人机战场目标跟踪控制方法
CN116974204A (zh) * 2023-08-23 2023-10-31 南通大学 无人机跟踪控制模型训练方法、使用方法及终端设备
CN116974204B (zh) * 2023-08-23 2024-04-09 南通大学 无人机跟踪控制模型训练方法、使用方法及终端设备
CN117540626A (zh) * 2023-10-30 2024-02-09 南通大学 一种基于贝叶斯神经网络的固定翼无人机态势预测方法
CN117540626B (zh) * 2023-10-30 2024-05-14 南通大学 一种基于贝叶斯神经网络的固定翼无人机态势预测方法

Also Published As

Publication number Publication date
CN114510078B (zh) 2022-12-09

Similar Documents

Publication Publication Date Title
CN114510078B (zh) 一种基于深度强化学习的无人机机动规避决策方法
CN111880563B (zh) 一种基于maddpg的多无人机任务决策方法
CN113589842B (zh) 一种基于多智能体强化学习的无人集群任务协同方法
Yan et al. Towards real-time path planning through deep reinforcement learning for a UAV in dynamic environments
CN111260031B (zh) 一种基于深度强化学习的无人机集群目标防卫方法
CN113093802B (zh) 一种基于深度强化学习的无人机机动决策方法
US20220315219A1 (en) Air combat maneuvering method based on parallel self-play
CN112465151A (zh) 一种基于深度强化学习的多智能体联邦协作方法
CN112180967B (zh) 基于评判-执行架构的多无人机协同对抗决策方法
US8924069B1 (en) Artificial immune system approach for airborne vehicle maneuvering
CN111859541B (zh) 一种基于迁移学习改进的pmaddpg多无人机任务决策方法
CN114330115B (zh) 一种基于粒子群搜索的神经网络空战机动决策方法
CN113625569B (zh) 一种基于混合决策模型的小型无人机防控决策方法及系统
CN113268081B (zh) 一种基于强化学习的小型无人机防控指挥决策方法及系统
CN110928329A (zh) 一种基于深度q学习算法的多飞行器航迹规划方法
CN114460959A (zh) 一种基于多体博弈的无人机群协同自主决策方法及装置
Liu et al. Potential odor intensity grid based UAV path planning algorithm with particle swarm optimization approach
Lee et al. Autonomous control of combat unmanned aerial vehicles to evade surface-to-air missiles using deep reinforcement learning
CN113282061A (zh) 一种基于课程学习的无人机空中博弈对抗的解决方法
Li et al. Autonomous air combat decision‐making of UAV based on parallel self‐play reinforcement learning
CN112651486A (zh) 一种提高maddpg算法收敛速度的方法及其应用
CN113741186B (zh) 一种基于近端策略优化的双机空战决策方法
Shen Bionic communication network and binary pigeon-inspired optimization for multiagent cooperative task allocation
Kouzeghar et al. Multi-target pursuit by a decentralized heterogeneous UAV swarm using deep multi-agent reinforcement learning
Wu et al. Heterogeneous Mission Planning for Multiple UAV Formations via Metaheuristic Algorithms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant