CN114492677B - 一种无人机对抗方法及装置 - Google Patents

一种无人机对抗方法及装置 Download PDF

Info

Publication number
CN114492677B
CN114492677B CN202210353487.6A CN202210353487A CN114492677B CN 114492677 B CN114492677 B CN 114492677B CN 202210353487 A CN202210353487 A CN 202210353487A CN 114492677 B CN114492677 B CN 114492677B
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
confrontation
data
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210353487.6A
Other languages
English (en)
Other versions
CN114492677A (zh
Inventor
高阳
李�浩
颜冠伟
常惠
聂勤
梁亚蓉
赵皓
张鑫辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
AVIC Chengdu Aircraft Design and Research Institute
Original Assignee
Institute of Automation of Chinese Academy of Science
AVIC Chengdu Aircraft Design and Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science, AVIC Chengdu Aircraft Design and Research Institute filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202210353487.6A priority Critical patent/CN114492677B/zh
Publication of CN114492677A publication Critical patent/CN114492677A/zh
Application granted granted Critical
Publication of CN114492677B publication Critical patent/CN114492677B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种无人机对抗方法及装置,包括:获取无人机智能体的多个经验数据;根据每个经验数据的优先级,在经验数据中确定多个样本经验数据;利用多个样本经验数据对无人机对抗模型进行训练;利用训练好的无人机对抗模型进行无人机对抗。本发明提供的无人机对抗方法及装置,通过对每个经验数据赋予优先级,使得更有价值的经验数据作为训练样本的概率更大,进而提高无人机对抗模型的训练效率。

Description

一种无人机对抗方法及装置
技术领域
本发明涉及人工智能技术领域,尤其涉及一种无人机对抗方法。
背景技术
利用智能对抗方法可以有效辅助飞行员决策,现有的智能对抗研究大多是基于博弈论方法,在一组离散的动作上建立效用函数,在无人机的博弈对抗中,大多是在环境和算法复杂性之间进行权衡,在合理的时间内达到近似最优解。
深度强化学习是将强化学习的决策能力与深度学习的感知能力相结合的端对端学习方法,结合两种学习方法的特点使其可以处理高维状态空间和连续动作空间的控制决策问题,适用于无人机的博弈对抗研究。
然而,在无人机的博弈对抗中,强化学习算法会出现重复的无效训练以及优秀经验样本利用率低的不足,导致学习效率较低的问题。
发明内容
本发明提供一种无人机对抗方法及装置,用以解决现有技术中学习效率较低的缺陷,实现无人机对抗模型的训练效率的有效提升。
本发明提供一种无人机对抗方法,包括:
获取无人机智能体的多个经验数据;
根据每个经验数据的优先级,在所述经验数据中确定多个样本经验数据;
利用所述多个样本经验数据对无人机对抗模型进行训练;
利用训练好的无人机对抗模型进行无人机对抗。
根据本发明提供的一种无人机对抗方法,所述优先级是基于以下方法确定的:
确定每个经验数据的初始偏好度;
并根据经验池中的每个经验数据的立即奖励值,确定奖励值基线;
根据所述奖励值基线,对所述初始偏好度进行调整,获取每个经验数据的更新偏好度;
根据所述更新偏好度,确定所述每个经验数据的优先级。
根据本发明提供的一种无人机对抗方法,所述无人机对抗模型中包括:第一无人机和第二无人机;所述利用所述多个样本经验数据对无人机对抗模型进行训练,包括:
利用所述多个样本经验数据,对所述无人机对抗模型的网络参数进行更新,确定更新后的无人机对抗模型;
基于总奖励函数,对所述更新后的无人机对抗模型进行训练,确定所述无人机对抗模型中每个无人机的奖励值;
根据所述奖励值,对所述无人机对抗模型进行训练,直至达到预设训练次数,得到训练好的无人机对抗模型;
所述无人机对抗模型包括:Critic当前网络、Critic目标网络、Actor当前网络和Actor目标网络。
根据本发明提供的一种无人机对抗方法,所述总奖励函数是基于以下方法构建的:
根据两个无人机在与环境交互过程中的脱离角和偏移角,构建角度奖励函数;
根据两个无人机的速度和最佳对抗速度,构建速度奖励函数;
根据两个无人机的高度差和最佳对抗高度差,构建高度奖励函数;
根据所述角度奖励函数、所述速度奖励函数和所述高度奖励函数,确定综合奖励函数;
根据所述综合奖励函数,构建所述总奖励函数。
根据本发明提供的一种无人机对抗方法,所述经验数据包括机动速度数据和空间轨迹数据;所述获取无人机智能体的多个经验数据,包括:
基于无人机智能体的速度矢量,构建无人机运动模型;
基于无人机在博弈对抗模型中的机动动作,对所述无人机运动模型进行求解,确定所述机动速度数据和所述空间轨迹数据。
根据本发明提供的一种无人机对抗方法,在所述获取无人机智能体的多个经验数据之前,所述方法还包括:
根据对抗态势因素,确定无人机的状态特征;
根据所述状态特征,确定无人机的状态空间;
根据所述状态空间,确定所述无人机的转移函数;
根据所述总奖励函数,以及无人机对抗模型中无人机的数量、所述状态空间和所述转移函数,确定元组;
根据所述元组,构建所述博弈对抗模型。
本发明还提供一种无人机对抗装置,包括:
获取模块,获取无人机智能体的多个经验数据;
确定模块,根据每个经验数据的优先级,在所述经验数据中确定多个样本经验数据;
训练模块,利用所述多个样本经验数据对无人机对抗模型进行训练;
对抗模块,利用训练好的无人机对抗模型进行无人机对抗。
根据本发明提供的无人机对抗装置,所述训练模块具体用于:
利用所述多个样本经验数据,对所述无人机对抗模型的网络参数进行更新,确定更新后的无人机对抗模型;
基于总奖励函数,对所述更新后的无人机对抗模型进行训练,确定所述无人机对抗模型中每个无人机的奖励值;
根据所述奖励值,对所述无人机对抗模型进行训练,直至达到预设训练次数,得到训练好的无人机对抗模型;
所述无人机对抗模型包括:Critic当前网络、Critic目标网络、Actor当前网络和Actor目标网络。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述无人机对抗方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述无人机对抗方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述无人机对抗方法。
本发明提供的无人机对抗方法及装置,通过对每个经验数据赋予优先级,使得更有价值的经验数据作为训练样本的概率更大,进而提高无人机对抗模型的训练效率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的无人机对抗方法的流程示意图之一;
图2是本发明提供的于奖励值的优先经验回放机制模块的流程示意图;
图3是本发明提供的RPER-DDPG算法的流程示意图;
图4是本发明提供的各回合步长的奖励值变化曲线的对比示意图;
图5是本发明提供的无人机对抗装置的结构示意图;
图6是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有的无人机对抗方法,除了将遗传模糊树(Genetic Fuzzy Trees,GFTs)方法应用于ALPHA人工智能系统之外,还有应用强化学习算法对计算机生成兵力行为建模,开发新的奖励函数学习到新战术,还可以利用强化学习算法在智能采集单元中自动识别目标运动,通过自主智能体实验改进对抗仿真软件行为建模方式,为决策应用提供辅助。
可见,现有技术中关于优化无人机博弈对抗的部分技术方案,适应的对抗场景和提供的对抗方案都比较有限,难以应对无人机对抗过程中动态变化的复杂环境信息,偏离无人机实际的对抗需求。
在每一次智能体与环境相交互的过程中,智能体会观察当前时刻自身在环境中所呈现的状态(State),或者部分状态,并以此为依据来决定自身在当前时刻所应该采取的行为(Action)。
同时,在每一次智能体与环境交互的过程中,智能体会从环境中接受到一个反馈信息,这里称为奖励(Reward)。奖励是用一个具体的数值来表示,它会告诉智能体,当前时刻其在环境的状态表现是有多好或者有多糟糕。
下面结合图1至图6描述本发明的实施例所提供的无人机对抗方法及装置。
图1是本发明提供的无人机对抗方法的流程示意图,如图1所示,包括但不限于以下步骤:
首先,在步骤S1中,获取无人机智能体的多个经验数据。
经验数据是无人机智能体(以下简称:无人机)在执行动作策略与环境交互后得到的。
进一步地,在步骤S2中,根据每个经验数据的优先级,在所述经验数据中确定多个样本经验数据。
将所有的经验数据回放至经验池,并对每个经验数据赋予抽取概率,使得更有价值的经验数据被抽取出作为训练样本的概率更大,在此基础上,从经验池中抽取多个样本经验数据。
进一步地,在步骤S3中,利用所述多个样本经验数据对无人机对抗模型进行训练。
在利用多个样本经验数据对无人机对抗模型进行训练的过程中,无人机对抗模型中的两个无人机进行一对一(1Vs1)对抗训练,更新无人机对抗模型的网络参数,直至达到预设训练次数,可以得到训练好的无人机对抗模型。
预设训练次数可以根据实际应用中对无人机对抗模型的表现能力的需求进行设置,预设训练次数越多,无人机对抗模型表现能力越好,同等条件下得到的奖励值越高。
进一步地,在步骤S4中,利用训练好的无人机对抗模型进行无人机对抗。
将训练好的无人机对抗模型移植至无人机,可以利用该无人机进行对抗演练。
本发明提供的无人机对抗方法,通过对每个经验数据赋予优先级,使得更有价值的经验数据作为训练样本的概率更大,进而提高无人机对抗模型的训练效率。
可选地,所述经验数据包括机动速度数据和空间轨迹数据;所述获取无人机智能体的多个经验数据,包括:
基于无人机智能体的速度矢量,构建无人机运动模型;
基于无人机在博弈对抗模型中的机动动作,对所述无人机运动模型进行求解,确定所述机动速度数据和所述空间轨迹数据。
假设无人机的速度矢量与机体轴向一致,无人机运动模型如公式(1)所示:
Figure 174702DEST_PATH_IMAGE001
其中,
Figure 764952DEST_PATH_IMAGE002
Figure 961578DEST_PATH_IMAGE003
Figure 135814DEST_PATH_IMAGE004
表示无人机在惯性坐标系中的位置;
Figure 76089DEST_PATH_IMAGE005
为无人机机速度;
Figure 52004DEST_PATH_IMAGE006
为轨迹 倾斜角,范围为([-180,180]);
Figure 153952DEST_PATH_IMAGE007
为轨迹偏转角(范围[-180,180]);
Figure 83993DEST_PATH_IMAGE008
为绕速度矢量滚转 角,范围为[-180,180];
Figure 562379DEST_PATH_IMAGE009
为切向过载;
Figure 127221DEST_PATH_IMAGE010
为法向过载,
Figure 665650DEST_PATH_IMAGE011
Figure 332255DEST_PATH_IMAGE012
Figure 367994DEST_PATH_IMAGE013
表示
Figure 803654DEST_PATH_IMAGE014
在三个坐标 轴方向的分量;
Figure 496673DEST_PATH_IMAGE015
为重力加速度。
可选地,在所述利用所述多个样本经验数据对无人机对抗模型进行训练之前,所述方法还包括:
根据对抗态势因素,确定无人机的状态特征;
根据所述状态特征,确定无人机的状态空间;
根据所述状态空间,确定所述无人机的转移函数;
根据所述总奖励函数,以及无人机对抗模型中无人机的数量、所述状态空间和所述转移函数,确定元组;
根据所述元组,构建所述博弈对抗模型。
无人机对抗模型包括红蓝双方无人机;将红蓝双方无人机作为智能体,以两个智能体1Vs1的零和博弈为条件构建博弈对抗模型,处理红蓝双方无人机的对抗问题。
首先,将对抗仿真实验中无人机的数量
Figure 650573DEST_PATH_IMAGE016
设定为2,即红方无人机和蓝方无人机实 现1Vs1对抗。
进一步地,根据影响无人机对抗态势的因素,可以确定无人机的状态特征,主要由 红方无人机的坐标
Figure 487073DEST_PATH_IMAGE017
、高度
Figure 511661DEST_PATH_IMAGE018
、速度
Figure 375581DEST_PATH_IMAGE019
、偏航角
Figure 751199DEST_PATH_IMAGE020
和滚转角
Figure 122881DEST_PATH_IMAGE021
以及蓝方无人机坐标
Figure 267554DEST_PATH_IMAGE022
、高度
Figure 833534DEST_PATH_IMAGE023
、速度
Figure 696447DEST_PATH_IMAGE024
、偏航角
Figure 671488DEST_PATH_IMAGE025
和滚转角
Figure 678190DEST_PATH_IMAGE026
组成。由此可得博弈的状态空间
Figure 900224DEST_PATH_IMAGE027
可表示 为:
Figure 234123DEST_PATH_IMAGE028
进一步地,确定转移函数
Figure 934225DEST_PATH_IMAGE029
,以红方无人机为例,红方当前状态
Figure 804223DEST_PATH_IMAGE030
在红方根据策略 选择的动作
Figure 197159DEST_PATH_IMAGE031
与对手蓝方根据策略选择的动作
Figure 283932DEST_PATH_IMAGE032
的联合行为
Figure 53305DEST_PATH_IMAGE033
影响下,转移函数
Figure 774880DEST_PATH_IMAGE029
表示 红方转移到下一状态
Figure 338717DEST_PATH_IMAGE034
的概率。同理,转移函数
Figure 647207DEST_PATH_IMAGE029
也可以表示蓝方从当前状态
Figure 954692DEST_PATH_IMAGE035
转移到下 一状态
Figure 799282DEST_PATH_IMAGE036
的概率。
进一步地,确定一个元组
Figure 534020DEST_PATH_IMAGE037
,根据此一元组来 构建红蓝双方对抗条件下的随机博弈模型。
其中,
Figure 329806DEST_PATH_IMAGE016
表示随机博弈模型中无人机的数量;
Figure 440982DEST_PATH_IMAGE038
表示无人机运动模型中无人机的空 间状态;
Figure 877429DEST_PATH_IMAGE039
表示第1至第n个无人机中每个无人机的动作;
Figure 783068DEST_PATH_IMAGE040
表示第1 至第n个无人机中每个无人机的奖励值;
Figure 66151DEST_PATH_IMAGE041
表示无人机与环境交互后反馈奖励。
利用由美国NASA提出的基本机动集合(Basic Fight Maneuvering,BFM)作为本发明的机动动作库,包括定常飞行、减速飞行、加速飞行、左转弯、右转弯、向上拉起和向下俯冲等机动动作;然后基于机动动作库,利用四阶龙格库塔算法对公式(1)的常微分方程组进行数值积分,得到无人机运动模型中每个无人机的经验数据,经验数据包括机动速度数据和空间轨迹数据,可以通过经验数据得到机动速度变化规律和空间轨迹变化规律。
可选地,所述无人机对抗模型中包括:第一无人机和第二无人机;所述利用所述多个样本经验数据对无人机对抗模型进行训练,包括:
利用所述多个样本经验数据,对所述无人机对抗模型的网络参数进行更新,确定更新后的无人机对抗模型;
基于总奖励函数,对所述更新后的无人机对抗模型进行训练,确定所述无人机对抗模型中每个无人机的奖励值;
根据所述奖励值,对所述无人机对抗模型进行训练,直至达到预设训练次数,得到训练好的无人机对抗模型;
所述无人机对抗模型包括:Critic当前网络、Critic目标网络、Actor当前网络和Actor目标网络。
在无人机1Vs1对抗的情况下,无法根据当前的智能体状态及其动作来确定敌方无人机的下一个状态,因为对手无人机可以使用不同的机动动作,进而导致对手无人机的下一个状态不同,特别是在多智能体竞争环境中,非平稳问题非常严重。
因此,可以采用DDPG算法让红蓝两个无人机智能体进行对抗。在无人机运动模型中,红蓝两个无人机分别拥有一个Q网络和一个策略网络,Q网络的输入是两个无人机的飞行状态、空战态势特征和动作向量,输出是自身无人机的Q值;策略网络的输入是两个无人机的飞行状态和空战态势特征,输出是自身无人机的行动矢量。在此过程中,为每个智能体学习一个集中的Q函数,能够有效解决非平稳问题,从而稳定训练。
可选地,所述优先级是基于以下方法确定的:
确定每个经验数据的初始偏好度;
并根据经验池中的每个经验数据的立即奖励值,确定奖励值基线;
根据所述奖励值基线,对所述初始偏好度进行调整,获取每个经验数据的更新偏好度;
根据所述更新偏好度,确定所述每个经验数据的优先级。
在DDPG算法基础上,设计基于奖励值的优先经验回放机制(Reward PrioritizedExperience Replay,RPER)模块,构建RPER-DDPG算法。图2是本发明提供的于奖励值的优先经验回放机制模块的流程示意图,如图2所示,对经验池中的经验数据进行重要性评估。
先对全部的经验数据设置一个偏好度
Figure 715438DEST_PATH_IMAGE042
同时将其初始化为0。
经验回放机制就是将无人机智能体以前的经验在一个经验池中存储,采用先进先 出(First In First Out,FIFO)的存储原则,然后在通过从经验池中采样从而对策略进行 优化,利用这一特性,将经验池中的所有经验数据的立即奖励值的均值作为基线,根据基线 就可以对各个经验数据的偏好度进行控制,从而更新偏好度
Figure 534621DEST_PATH_IMAGE042
,就可以对各个经验数 据进行重要性评估。具体步骤如下:
步骤1,随机初始化Critic当前网络的网络参数
Figure 611161DEST_PATH_IMAGE043
和Actor当前网络的 网络参数
Figure 381540DEST_PATH_IMAGE044
,对应的权重分别为
Figure 834518DEST_PATH_IMAGE045
Figure 505277DEST_PATH_IMAGE046
;对应的初始化Critic目标网络的网络参 数
Figure 752719DEST_PATH_IMAGE047
和Actor目标网络的网络参数
Figure 744815DEST_PATH_IMAGE048
,初始化作为经验池的回放记忆单元
Figure 735904DEST_PATH_IMAGE049
步骤2,为无人机的动作探索初始化一个随机过程
Figure 264100DEST_PATH_IMAGE050
,并获取无人机在环境中的初 始观测状态
Figure 682443DEST_PATH_IMAGE051
步骤3,Critic当前网络根据当前给定的动作策略和探索噪声,选择无人机在
Figure 692993DEST_PATH_IMAGE052
时 刻Q值最大的动作策略at,如公式(3)所示:
Figure 222195DEST_PATH_IMAGE053
中,
Figure 885124DEST_PATH_IMAGE054
表示无人机在
Figure 474369DEST_PATH_IMAGE052
时刻的状态;
Figure 441057DEST_PATH_IMAGE055
表示
Figure 773949DEST_PATH_IMAGE052
时刻的动作探索初始化一个随机过 程;μ表示最优行为策略,不再是一个需要采样的随机策略,
Figure 276737DEST_PATH_IMAGE056
表示Actor当前网络的 网络参数。
步骤4,Critic当前网络执行动作策略
Figure 302462DEST_PATH_IMAGE057
,并返回该动作的奖励值
Figure 490866DEST_PATH_IMAGE058
和新的状态
Figure 893029DEST_PATH_IMAGE059
步骤5,将状态转移过程
Figure 499591DEST_PATH_IMAGE060
储存至回放记忆单元
Figure 178440DEST_PATH_IMAGE049
中,并作为训练 Actor当前网络的数据集,并初始化偏好度
Figure 136032DEST_PATH_IMAGE061
步骤6,在Actor当前网络的训练中,不断更新基线,如公式(4)所示:
Figure 325574DEST_PATH_IMAGE062
其中,
Figure 786642DEST_PATH_IMAGE063
为基线,表示经验池中的所有经验数据的立即奖励值的均值;
Figure 639323DEST_PATH_IMAGE064
表示第
Figure 818631DEST_PATH_IMAGE065
步的奖励值;N表示经验池中的所有经验数据的个数。
步骤7,利用Actor当前网络更新经验样本偏好度,如公式(5)所示:
Figure 546285DEST_PATH_IMAGE066
其中,
Figure 127439DEST_PATH_IMAGE067
表示步长影响因子,即立即奖励值与基线差值对各个经验数据的偏好度 的影响大小;
Figure 419530DEST_PATH_IMAGE068
表示立即奖励值与基线的差值;
Figure 820555DEST_PATH_IMAGE069
表示各个经验数据被采样的概 率;
Figure 351899DEST_PATH_IMAGE070
为基线。
步骤8,由步骤7可以看出,当某经验数据的立即奖励值大于基线时,其偏好度就会 有较大幅度增大;当某经验数据的立即奖励值小于基线时,其偏好度仅会获得较小幅度的 增大。然后通过对偏好度
Figure 521981DEST_PATH_IMAGE042
进行softmax计算就可得到其采样概率
Figure 982043DEST_PATH_IMAGE069
,根据采样概 率确定经验样本的优先级,具体计算过程如公式(6)所示:
Figure 135944DEST_PATH_IMAGE071
步骤9,设定
Figure 205400DEST_PATH_IMAGE072
,通过最小化损失函数更新 Critic网络,定义损失函数L为均方误差,计算过程如公式(7)所示:
Figure 495567DEST_PATH_IMAGE073
其中,N表示经验池中的所有经验数据的个数;
Figure 123601DEST_PATH_IMAGE041
表示无人机与环境交互后反馈奖 励;
Figure 499219DEST_PATH_IMAGE074
表示更新后的Critic网络的网络参数;
Figure 372366DEST_PATH_IMAGE075
表示在第i步 预测的第i+1步Critic网络的网络参数;
Figure 517039DEST_PATH_IMAGE076
表示当前Critic网络表示第i步 Critic网络的网络参数。
步骤10,使用样本的策略梯度更新Actor当前网络,得到策略梯度的更新参数,计算过程如公式(8)所示:
Figure 318904DEST_PATH_IMAGE077
其中,
Figure 181818DEST_PATH_IMAGE078
表示策略梯度的更新参数,
Figure 593077DEST_PATH_IMAGE079
表示经验池中的所有经验数据的个 数,
Figure 123415DEST_PATH_IMAGE080
表示Critic当前网络的更新参数,
Figure 79870DEST_PATH_IMAGE081
表示Actor当前网络的 更新参数。
步骤11,更新Critic目标网络和Actor目标网络的网络参数,过程如公式(9)所示:
Figure 172023DEST_PATH_IMAGE082
其中,
Figure 137705DEST_PATH_IMAGE083
为Critic目标网络更新后的网络参数;
Figure 506238DEST_PATH_IMAGE084
为Actor目标网络更新后的 网络参数;
Figure 899174DEST_PATH_IMAGE085
为参数更新速率。
根据本发明提供的无人机对抗方法,在基于奖励值的优先经验回放机制模块中,无人机在完成某一动作后产生新的经验数据进入经验池后,基线就需要更新,然后对经验数据的优先级进行排序,完成重要性评估,最后按照优先级采样数据。由于改进后的经验回放机制要求的经验池大小并未改变,因此空间复杂度也没有增加。
图3是本发明提供的RPER-DDPG算法的流程示意图,如图3所示,包括:
首先,初始化神经网络的网络参数;
进一步地,构建神经网络;
进一步地,在神经网络的训练次数没有达到预设训练次数的情况下,初始化环境的状态;
进一步地,选择无人机的动作策略;
进一步地,无人机根据动作策略执行动作,与环境进行交互,获取经验数据;
进一步地,将经验数据回放到经验池;并对于经验池中的经验数据,初始化每个经验数据的偏好度,更新每个经验数据的偏好度和优先级,从而确定经验池中的样本经验数据;
进一步地,从经验池中抽取小批量的样本经验数据,利用样本经验数据对神经网络进行训练;
进一步地,更新神经网络的参数;
进一步地,在有一方获胜的情况下,重新对神经网络的训练次数进行判断;在没有一方获胜的情况下,重新选择无人机的动作策略。
其中,采样到经验池包括以下步骤:
首先,前期探索阶段,Actor网络还未训练,因此误差信息未知,故初始化网络参数,默认设置所有样本的TD误差为1;当Actor网络开始从经验池抽取样本训练时,以TD误差值统计每个样本的被采样的概率。当某个批次样本训练完成后,将其最新的TD误差更新经验池。随着训练进行,整个经验池的样本的TD误差都将被替换为真实的TD误差,能最大程度发挥算法性能。
将探索阶段策略与环境交互,得到样本并存储至经验池,并将TD误差设置为1。当经验池样本满足训练要求后算法即可开始训练;以TD误差统计各样本的采样概率进行采样。Q1和Q2分别计算其TD误差并更新梯度;为降低训练偏差,使用较小的Q值计算策略网络的误差。
根据本发明提供的无人机对抗方法,将DDPG算法应用到无人机博弈对抗中,让智能体通过所有Actor网络的数据更新Q的值,寻找最优的对抗策略,并且使系统比较平稳地优化。
可选地,所述总奖励函数是基于以下方法构建的:
根据两个无人机在与环境交互过程中的脱离角和偏移角,构建角度奖励函数;
根据两个无人机的速度和最佳对抗速度,构建速度奖励函数;
根据两个无人机的高度差和最佳对抗高度差,构建高度奖励函数;
根据所述角度奖励函数、所述速度奖励函数和所述高度奖励函数,确定综合奖励函数;
根据所述综合奖励函数,构建所述总奖励函数。
制定奖励规则如下:对于对抗中无人机的其中一方而言,当达成导弹发射条件时,获得最大奖励;当态势有利时,获得一般奖励;当态势不利时,获得负奖励。
依据该奖励规则,结合无人机的重力势能和动能因素,从相对角度、速度和高度等方面设计无人机决策过程中的综合奖励函数。本发明中的奖励函数设计均从红方无人机的角度进行分析和设计,红方采用改进的DDPG算法选取策略,把蓝方无人机当作敌方,蓝机采用基于规则的随机策略法选取策略。
构建角度奖励函数
Figure 487412DEST_PATH_IMAGE086
,无人机在对抗过程中综合脱离角和偏离角的角度奖励定 义为:
Figure 991206DEST_PATH_IMAGE087
其中,
Figure 479825DEST_PATH_IMAGE088
表示偏离角,取值范围为
Figure 43661DEST_PATH_IMAGE089
Figure 850687DEST_PATH_IMAGE090
表示脱离角,取值范围为
Figure 158171DEST_PATH_IMAGE091
。角 度奖励
Figure 766876DEST_PATH_IMAGE092
说明红方无人机占据优势角度,蓝方无人机处于劣势;
Figure 501614DEST_PATH_IMAGE093
说明蓝 方无人机占据优势角度,红方无人机处于劣势。
构建速度奖励函数
Figure 798865DEST_PATH_IMAGE094
,速度奖励与速度差之间呈现线性关系,定义为:
Figure 644462DEST_PATH_IMAGE095
其中,
Figure 842094DEST_PATH_IMAGE096
为红方无人机的速度;
Figure 747733DEST_PATH_IMAGE097
为蓝机的速度;
Figure 535210DEST_PATH_IMAGE098
为最佳对抗速度,其中, 最佳对抗速度根据空战数据库中飞行员的经验数据进行设定。
构建高度奖励函数
Figure 450076DEST_PATH_IMAGE099
,定义高度奖励函数如下:
Figure 502215DEST_PATH_IMAGE100
其中,
Figure 578755DEST_PATH_IMAGE101
表示由高度差决定的归一化后的高度奖励;
Figure 850599DEST_PATH_IMAGE102
表示红方相对于蓝方 的高度差;
Figure 303577DEST_PATH_IMAGE103
为最佳对抗高度差,其中,最佳对抗高度差根据空战数据库中飞行员的经 验数据进行设定。
将建立的角度奖励函数
Figure 210222DEST_PATH_IMAGE104
、高度奖励函数
Figure 723243DEST_PATH_IMAGE094
和速度奖励函数
Figure 731650DEST_PATH_IMAGE105
综合可得无人 机机动决策的综合奖励函数
Figure 470543DEST_PATH_IMAGE106
,定义为:
Figure 248006DEST_PATH_IMAGE107
其中,α1、α2和α3分别表示度奖励函数
Figure 915616DEST_PATH_IMAGE108
、高度奖励函数
Figure 411320DEST_PATH_IMAGE109
和速度奖励函数
Figure 956833DEST_PATH_IMAGE105
的权重。
为解决传统算法盲目选择动作的问题,在综合奖励函数的基础上,引入人工势场法作为前期训练的辅助,能够更快训练出神经网络模型。
具体地,对每步决策给出1个奖励值,神经网络根据状态做出具体的决策,环境根据决策执行更新,并计算出奖励值,神经网络根据反馈出来的奖励值更新网络参数,使网络下次计算时能够做出更优决策。基于人工势场法的奖励函数设计如下:
Figure 588803DEST_PATH_IMAGE110
其中,
Figure 692894DEST_PATH_IMAGE111
表示无人机下一步的位置;
Figure 410314DEST_PATH_IMAGE112
表示更新得到无人机实际的位置;
Figure 508587DEST_PATH_IMAGE113
表示计算
Figure 260642DEST_PATH_IMAGE111
Figure 270056DEST_PATH_IMAGE112
2个位置的距离;
Figure 474772DEST_PATH_IMAGE114
表示1个权重值,代表人工势场法的权重;
Figure 627667DEST_PATH_IMAGE115
表示神经网络反馈出来的奖励值。
无人机在选择出动作空间后,先根据人工势场法计算无人机下一步的位置
Figure 968650DEST_PATH_IMAGE116
,然 后再进行环境的更新得到无人机实际的位置
Figure 414543DEST_PATH_IMAGE112
。在原奖励函数的基础上,加上
Figure 106556DEST_PATH_IMAGE116
Figure 529053DEST_PATH_IMAGE117
的距 离,在前期比重较大,引导无人机更快作出决策,随着训练次数的增加,权重逐渐下降。
所以,红方无人机的总奖励函数如公式(15)所示:
Figure 990122DEST_PATH_IMAGE118
在达到预设训练次数后,可将训练好的无人机对抗模型中无人机的强化学习智能对抗方法和已经产生的规则移植到红方无人机中,再进行对抗,利用强化学习算法不断探索出新的策略,使得对抗的输出更加合理和完善。
在本发明的对抗仿真实验中,利用DDPG算法和改进的DDPG算法的两个无人机进行对抗,验证改进算法的有效性。其中,使用DDPG算法的蓝方与改进的DDPG算法的红方分别与基于规则的无人机进行1Vs1对抗。为保证的实验的有效性,红方与蓝方的性能参数和机动动作库相同。
通过训练可以让无人机在简单任务中学习到合适的攻击策略,表1为仿真实验的初始化参数设置。
表1 仿真实验的初始化参数设置
Figure 606917DEST_PATH_IMAGE119
在红方无人机和蓝方无人机的对抗仿真中,从初始状态向后运行40个决策步长,即一轮学习,执行1000轮完成算法的训练,分别统计训练过程中训练过程中各个阶段内红方胜出、蓝方胜出和打成平局的次数,并计算各个阶段内的奖励值。
图4是本发明提供的各回合步长的奖励值变化曲线的对比示意图,如图4所示,横坐标为回合步长(Number of episodes),纵坐标为奖励值(Reward),包括DDPG算法和改进的DDPG算法在各回合步长的奖励值变化曲线。可以看出经过一定阶段的训练学习之后,红方在对抗中取得了较为优秀的成绩,DDPG算法和改进的DDPG算法都可以在博弈情景下生成对抗策略,并且在本回合中获得的总奖励曲线是呈上升态势的,但改进DDPG算法的奖励值更大,并且可以更快的收敛,这说明智能体在经过训练之后,找到了在当前状态下取得对抗胜利的最优策略,引导无人机占领有利的态势位置。
本发明实现了对抗战场中无人机自主机动决策,采用改进的DDPG算法建立智能博弈对抗模型,并且通过实验证明了本发明的有效性,结果表明本发明的对抗模型可以通过自主学习可以获得正确的对抗策略,能够发挥更好的优势。
下面对本发明提供的无人机对抗装置进行描述,下文描述的无人机对抗装置与上文描述的无人机对抗方法可相互对应参照。
图5是本发明提供的无人机对抗装置的结构示意图,如图5所示,包括:
获取模块501,获取无人机智能体的多个经验数据;
确定模块502,根据每个经验数据的优先级,在所述经验数据中确定多个样本经验数据;
训练模块503,利用所述多个样本经验数据对无人机对抗模型进行训练;
对抗模块504,利用训练好的无人机对抗模型进行无人机对抗
首先,获取模块501获取无人机智能体的多个经验数据。
经验数据是无人机智能体(以下简称:无人机)在执行动作策略与环境交互后得到的。
进一步地,确定模块502根据每个经验数据的优先级,在所述经验数据中确定多个样本经验数据。
将所有的经验数据回放至经验池,并对每个经验数据赋予抽取概率,使得更有价值的经验数据被抽取出作为训练样本的概率更大,在此基础上,从经验池中抽取多个样本经验数据。
进一步地,训练模块503利用所述多个样本经验数据对无人机对抗模型进行训练。
在利用多个样本经验数据对无人机对抗模型进行训练的过程中,无人机对抗模型中的两个无人机进行一对一(1Vs1)对抗训练,更新无人机对抗模型的网络参数,直至达到预设训练次数,可以得到训练好的无人机对抗模型。
预设训练次数可以根据实际应用中对无人机对抗模型的表现能力的需求进行设置,预设训练次数越多,无人机对抗模型表现能力越好,同等条件下得到的奖励值越高。
进一步地,对抗模块504,利用训练好的无人机对抗模型进行无人机对抗。
将训练好的无人机对抗模型移植至无人机,可以利用该无人机进行对抗演练。
本发明提供的无人机对抗装置,通过对每个经验数据赋予优先级,使得更有价值的经验数据作为训练样本的概率更大,进而提高无人机对抗模型的训练效率。
所述训练模块具体用于:
利用所述多个样本经验数据,对所述无人机对抗模型的网络参数进行更新,确定更新后的无人机对抗模型;
基于总奖励函数,对所述更新后的无人机对抗模型进行训练,确定所述无人机对抗模型中每个无人机的奖励值;
根据所述奖励值,对所述无人机对抗模型进行训练,直至达到预设训练次数,得到训练好的无人机对抗模型;
所述无人机对抗模型包括:Critic当前网络、Critic目标网络、Actor当前网络和Actor目标网络。
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行无人机对抗方法,该方法包括:获取无人机智能体的多个经验数据;根据每个经验数据的优先级,在所述经验数据中确定多个样本经验数据;利用所述多个样本经验数据对无人机对抗模型进行训练;利用训练好的无人机对抗模型进行无人机对抗。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的无人机对抗方法,该方法包括:获取无人机智能体的多个经验数据;根据每个经验数据的优先级,在所述经验数据中确定多个样本经验数据;利用所述多个样本经验数据对无人机对抗模型进行训练;利用训练好的无人机对抗模型进行无人机对抗。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的无人机对抗方法,该方法包括:获取无人机智能体的多个经验数据;根据每个经验数据的优先级,在所述经验数据中确定多个样本经验数据;利用所述多个样本经验数据对无人机对抗模型进行训练;利用训练好的无人机对抗模型进行无人机对抗。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种无人机对抗方法,其特征在于,包括:
获取无人机智能体的多个经验数据;
根据每个经验数据的优先级,在所述经验数据中确定多个样本经验数据;
利用所述多个样本经验数据对无人机对抗模型进行训练;
利用训练好的无人机对抗模型进行无人机对抗;
所述优先级是基于以下方法确定的:
确定每个经验数据的初始偏好度;
并根据经验池中的每个经验数据的立即奖励值,确定奖励值基线;
根据所述奖励值基线,对所述初始偏好度进行调整,获取每个经验数据的更新偏好度;
根据所述更新偏好度,确定所述每个经验数据的优先级;
所述根据每个经验数据的优先级,在所述经验数据中确定多个样本经验数据,包括:
将所有的经验数据回放至所述经验池;
根据每个经验数据的优先级,对每个经验数据赋予抽取概率;
从所述经验池中抽取所述多个样本经验数据。
2.根据权利要求1所述的无人机对抗方法,其特征在于,所述无人机对抗模型中包括:第一无人机和第二无人机;所述利用所述多个样本经验数据对无人机对抗模型进行训练,包括:
利用所述多个样本经验数据,对所述无人机对抗模型的网络参数进行更新,确定更新后的无人机对抗模型;
基于总奖励函数,对所述更新后的无人机对抗模型进行训练,确定所述无人机对抗模型中每个无人机的奖励值;
根据所述奖励值,对所述无人机对抗模型进行训练,直至达到预设训练次数,得到训练好的无人机对抗模型;
所述无人机对抗模型包括:Critic当前网络、Critic目标网络、Actor当前网络和Actor目标网络。
3.根据权利要求2所述的无人机对抗方法,其特征在于,所述总奖励函数是基于以下方法构建的:
根据两个无人机在与环境交互过程中的脱离角和偏移角,构建角度奖励函数;
根据两个无人机的速度和最佳对抗速度,构建速度奖励函数;
根据两个无人机的高度差和最佳对抗高度差,构建高度奖励函数;
根据所述角度奖励函数、所述速度奖励函数和所述高度奖励函数,确定综合奖励函数;
根据所述综合奖励函数,构建所述总奖励函数。
4.根据权利要求2或3所述的无人机对抗方法,其特征在于,所述经验数据包括机动速度数据和空间轨迹数据;所述获取无人机智能体的多个经验数据,包括:
基于无人机智能体的速度矢量,构建无人机运动模型;
基于无人机在博弈对抗模型中的机动动作,对所述无人机运动模型进行求解,确定所述机动速度数据和所述空间轨迹数据。
5.根据权利要求4所述的无人机对抗方法,其特征在于,在所述获取无人机智能体的多个经验数据之前,所述方法还包括:
根据对抗态势因素,确定无人机的状态特征;
根据所述状态特征,确定无人机的状态空间;
根据所述状态空间,确定所述无人机的转移函数;
根据所述总奖励函数,以及无人机对抗模型中无人机的数量、所述状态空间和所述转移函数,确定元组;
根据所述元组,构建所述博弈对抗模型。
6.一种无人机对抗装置,其特征在于,包括:
获取模块,获取无人机智能体的多个经验数据;
确定模块,根据每个经验数据的优先级,在所述经验数据中确定多个样本经验数据;
训练模块,利用所述多个样本经验数据对无人机对抗模型进行训练;
对抗模块,利用训练好的无人机对抗模型进行无人机对抗;
所述优先级是基于以下方法确定的:
确定每个经验数据的初始偏好度;
并根据经验池中的每个经验数据的立即奖励值,确定奖励值基线;
根据所述奖励值基线,对所述初始偏好度进行调整,获取每个经验数据的更新偏好度;
根据所述更新偏好度,确定所述每个经验数据的优先级;
所述根据每个经验数据的优先级,在所述经验数据中确定多个样本经验数据,包括:
将所有的经验数据回放至所述经验池;
根据每个经验数据的优先级,对每个经验数据赋予抽取概率;
从所述经验池中抽取所述多个样本经验数据。
7.根据权利要求6所述的无人机对抗装置,其特征在于,所述训练模块具体用于:
利用所述多个样本经验数据,对所述无人机对抗模型的网络参数进行更新,确定更新后的无人机对抗模型;
基于总奖励函数,对所述更新后的无人机对抗模型进行训练,确定所述无人机对抗模型中每个无人机的奖励值;
根据所述奖励值,对所述无人机对抗模型进行训练,直至达到预设训练次数,得到训练好的无人机对抗模型;
所述无人机对抗模型包括:Critic当前网络、Critic目标网络、Actor当前网络和Actor目标网络。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述无人机对抗方法。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述无人机对抗方法。
CN202210353487.6A 2022-04-06 2022-04-06 一种无人机对抗方法及装置 Active CN114492677B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210353487.6A CN114492677B (zh) 2022-04-06 2022-04-06 一种无人机对抗方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210353487.6A CN114492677B (zh) 2022-04-06 2022-04-06 一种无人机对抗方法及装置

Publications (2)

Publication Number Publication Date
CN114492677A CN114492677A (zh) 2022-05-13
CN114492677B true CN114492677B (zh) 2022-07-12

Family

ID=81488639

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210353487.6A Active CN114492677B (zh) 2022-04-06 2022-04-06 一种无人机对抗方法及装置

Country Status (1)

Country Link
CN (1) CN114492677B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113095463A (zh) * 2021-03-31 2021-07-09 南开大学 一种基于进化强化学习的机器人对抗方法
CN113596160A (zh) * 2021-07-30 2021-11-02 电子科技大学 一种基于迁移学习的无人机内容缓存决策方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107479368B (zh) * 2017-06-30 2021-09-21 北京百度网讯科技有限公司 一种基于人工智能的训练无人机控制模型的方法及系统
WO2022021027A1 (zh) * 2020-07-27 2022-02-03 深圳市大疆创新科技有限公司 目标跟踪方法、装置、无人机、系统及可读存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113095463A (zh) * 2021-03-31 2021-07-09 南开大学 一种基于进化强化学习的机器人对抗方法
CN113596160A (zh) * 2021-07-30 2021-11-02 电子科技大学 一种基于迁移学习的无人机内容缓存决策方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A DRL Agent for Jointly Optimizing Computation Offloading and Resource Allocation in MEC;Juan Chen等;《IEEE Internet of Things Journal》;20210319;第8卷(第24期);全文 *
Hunter drones : drones cooperation for tracking an intruder drone;Cristino de Souza Junior;《Université de Technologie de Compiègne Heudiasyc 》;20220208;全文 *

Also Published As

Publication number Publication date
CN114492677A (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
CN110991545B (zh) 一种面向多智能体对抗的强化学习训练优化方法及装置
CN113791634B (zh) 一种基于多智能体强化学习的多机空战决策方法
CN113962012B (zh) 无人机对抗策略优化方法及装置
CN112180967B (zh) 基于评判-执行架构的多无人机协同对抗决策方法
CN113050686B (zh) 一种基于深度强化学习的作战策略优化方法及系统
CN113095481A (zh) 一种基于并行自我博弈的空战机动方法
CN115291625A (zh) 基于多智能体分层强化学习的多无人机空战决策方法
CN113282061A (zh) 一种基于课程学习的无人机空中博弈对抗的解决方法
CN113221444B (zh) 一种面向空中智能博弈的行为模仿训练方法
CN114063644B (zh) 基于鸽群反向对抗学习的无人作战飞机空战自主决策方法
CN115755956B (zh) 一种知识与数据协同驱动的无人机机动决策方法与系统
CN113625569B (zh) 一种基于混合决策模型的小型无人机防控决策方法及系统
CN110673488A (zh) 一种基于优先级随机抽样策略的Double DQN无人机隐蔽接敌方法
CN114089776B (zh) 一种基于深度强化学习的无人机避障方法
CN115933717A (zh) 基于深度强化学习的无人机智能空战机动决策训练系统及方法
CN116187777A (zh) 一种基于sac算法和联盟训练的无人机空战自主决策方法
CN114330115A (zh) 一种基于粒子群搜索的神经网络空战机动决策方法
CN112870721A (zh) 一种游戏互动方法、装置、设备及存储介质
CN116700079A (zh) 基于ac-nfsp的无人机对抗占位机动控制方法
Yuan et al. Research on UCAV maneuvering decision method based on heuristic reinforcement learning
CN112651486A (zh) 一种提高maddpg算法收敛速度的方法及其应用
Kong et al. Hierarchical multi‐agent reinforcement learning for multi‐aircraft close‐range air combat
CN113741186A (zh) 一种基于近端策略优化的双机空战决策方法
CN111773722B (zh) 一种模拟环境中的战斗机规避机动策略集生成方法
CN116468121A (zh) 基于通用经验博弈强化学习的多机空战决策方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant