CN114492677B - 一种无人机对抗方法及装置 - Google Patents
一种无人机对抗方法及装置 Download PDFInfo
- Publication number
- CN114492677B CN114492677B CN202210353487.6A CN202210353487A CN114492677B CN 114492677 B CN114492677 B CN 114492677B CN 202210353487 A CN202210353487 A CN 202210353487A CN 114492677 B CN114492677 B CN 114492677B
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- aerial vehicle
- confrontation
- data
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 238000012549 training Methods 0.000 claims abstract description 79
- 230000006870 function Effects 0.000 claims description 59
- 230000009471 action Effects 0.000 claims description 28
- 239000003795 chemical substances by application Substances 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 13
- 238000012546 transfer Methods 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 description 28
- 238000013528 artificial neural network Methods 0.000 description 9
- 230000002787 reinforcement Effects 0.000 description 7
- 238000005070 sampling Methods 0.000 description 7
- 239000000126 substance Substances 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 238000004088 simulation Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000721047 Danaus plexippus Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000009189 diving Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000005381 potential energy Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种无人机对抗方法及装置,包括:获取无人机智能体的多个经验数据;根据每个经验数据的优先级,在经验数据中确定多个样本经验数据;利用多个样本经验数据对无人机对抗模型进行训练;利用训练好的无人机对抗模型进行无人机对抗。本发明提供的无人机对抗方法及装置,通过对每个经验数据赋予优先级,使得更有价值的经验数据作为训练样本的概率更大,进而提高无人机对抗模型的训练效率。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种无人机对抗方法。
背景技术
利用智能对抗方法可以有效辅助飞行员决策,现有的智能对抗研究大多是基于博弈论方法,在一组离散的动作上建立效用函数,在无人机的博弈对抗中,大多是在环境和算法复杂性之间进行权衡,在合理的时间内达到近似最优解。
深度强化学习是将强化学习的决策能力与深度学习的感知能力相结合的端对端学习方法,结合两种学习方法的特点使其可以处理高维状态空间和连续动作空间的控制决策问题,适用于无人机的博弈对抗研究。
然而,在无人机的博弈对抗中,强化学习算法会出现重复的无效训练以及优秀经验样本利用率低的不足,导致学习效率较低的问题。
发明内容
本发明提供一种无人机对抗方法及装置,用以解决现有技术中学习效率较低的缺陷,实现无人机对抗模型的训练效率的有效提升。
本发明提供一种无人机对抗方法,包括:
获取无人机智能体的多个经验数据;
根据每个经验数据的优先级,在所述经验数据中确定多个样本经验数据;
利用所述多个样本经验数据对无人机对抗模型进行训练;
利用训练好的无人机对抗模型进行无人机对抗。
根据本发明提供的一种无人机对抗方法,所述优先级是基于以下方法确定的:
确定每个经验数据的初始偏好度;
并根据经验池中的每个经验数据的立即奖励值,确定奖励值基线;
根据所述奖励值基线,对所述初始偏好度进行调整,获取每个经验数据的更新偏好度;
根据所述更新偏好度,确定所述每个经验数据的优先级。
根据本发明提供的一种无人机对抗方法,所述无人机对抗模型中包括:第一无人机和第二无人机;所述利用所述多个样本经验数据对无人机对抗模型进行训练,包括:
利用所述多个样本经验数据,对所述无人机对抗模型的网络参数进行更新,确定更新后的无人机对抗模型;
基于总奖励函数,对所述更新后的无人机对抗模型进行训练,确定所述无人机对抗模型中每个无人机的奖励值;
根据所述奖励值,对所述无人机对抗模型进行训练,直至达到预设训练次数,得到训练好的无人机对抗模型;
所述无人机对抗模型包括:Critic当前网络、Critic目标网络、Actor当前网络和Actor目标网络。
根据本发明提供的一种无人机对抗方法,所述总奖励函数是基于以下方法构建的:
根据两个无人机在与环境交互过程中的脱离角和偏移角,构建角度奖励函数;
根据两个无人机的速度和最佳对抗速度,构建速度奖励函数;
根据两个无人机的高度差和最佳对抗高度差,构建高度奖励函数;
根据所述角度奖励函数、所述速度奖励函数和所述高度奖励函数,确定综合奖励函数;
根据所述综合奖励函数,构建所述总奖励函数。
根据本发明提供的一种无人机对抗方法,所述经验数据包括机动速度数据和空间轨迹数据;所述获取无人机智能体的多个经验数据,包括:
基于无人机智能体的速度矢量,构建无人机运动模型;
基于无人机在博弈对抗模型中的机动动作,对所述无人机运动模型进行求解,确定所述机动速度数据和所述空间轨迹数据。
根据本发明提供的一种无人机对抗方法,在所述获取无人机智能体的多个经验数据之前,所述方法还包括:
根据对抗态势因素,确定无人机的状态特征;
根据所述状态特征,确定无人机的状态空间;
根据所述状态空间,确定所述无人机的转移函数;
根据所述总奖励函数,以及无人机对抗模型中无人机的数量、所述状态空间和所述转移函数,确定元组;
根据所述元组,构建所述博弈对抗模型。
本发明还提供一种无人机对抗装置,包括:
获取模块,获取无人机智能体的多个经验数据;
确定模块,根据每个经验数据的优先级,在所述经验数据中确定多个样本经验数据;
训练模块,利用所述多个样本经验数据对无人机对抗模型进行训练;
对抗模块,利用训练好的无人机对抗模型进行无人机对抗。
根据本发明提供的无人机对抗装置,所述训练模块具体用于:
利用所述多个样本经验数据,对所述无人机对抗模型的网络参数进行更新,确定更新后的无人机对抗模型;
基于总奖励函数,对所述更新后的无人机对抗模型进行训练,确定所述无人机对抗模型中每个无人机的奖励值;
根据所述奖励值,对所述无人机对抗模型进行训练,直至达到预设训练次数,得到训练好的无人机对抗模型;
所述无人机对抗模型包括:Critic当前网络、Critic目标网络、Actor当前网络和Actor目标网络。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述无人机对抗方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述无人机对抗方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述无人机对抗方法。
本发明提供的无人机对抗方法及装置,通过对每个经验数据赋予优先级,使得更有价值的经验数据作为训练样本的概率更大,进而提高无人机对抗模型的训练效率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的无人机对抗方法的流程示意图之一;
图2是本发明提供的于奖励值的优先经验回放机制模块的流程示意图;
图3是本发明提供的RPER-DDPG算法的流程示意图;
图4是本发明提供的各回合步长的奖励值变化曲线的对比示意图;
图5是本发明提供的无人机对抗装置的结构示意图;
图6是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有的无人机对抗方法,除了将遗传模糊树(Genetic Fuzzy Trees,GFTs)方法应用于ALPHA人工智能系统之外,还有应用强化学习算法对计算机生成兵力行为建模,开发新的奖励函数学习到新战术,还可以利用强化学习算法在智能采集单元中自动识别目标运动,通过自主智能体实验改进对抗仿真软件行为建模方式,为决策应用提供辅助。
可见,现有技术中关于优化无人机博弈对抗的部分技术方案,适应的对抗场景和提供的对抗方案都比较有限,难以应对无人机对抗过程中动态变化的复杂环境信息,偏离无人机实际的对抗需求。
在每一次智能体与环境相交互的过程中,智能体会观察当前时刻自身在环境中所呈现的状态(State),或者部分状态,并以此为依据来决定自身在当前时刻所应该采取的行为(Action)。
同时,在每一次智能体与环境交互的过程中,智能体会从环境中接受到一个反馈信息,这里称为奖励(Reward)。奖励是用一个具体的数值来表示,它会告诉智能体,当前时刻其在环境的状态表现是有多好或者有多糟糕。
下面结合图1至图6描述本发明的实施例所提供的无人机对抗方法及装置。
图1是本发明提供的无人机对抗方法的流程示意图,如图1所示,包括但不限于以下步骤:
首先,在步骤S1中,获取无人机智能体的多个经验数据。
经验数据是无人机智能体(以下简称:无人机)在执行动作策略与环境交互后得到的。
进一步地,在步骤S2中,根据每个经验数据的优先级,在所述经验数据中确定多个样本经验数据。
将所有的经验数据回放至经验池,并对每个经验数据赋予抽取概率,使得更有价值的经验数据被抽取出作为训练样本的概率更大,在此基础上,从经验池中抽取多个样本经验数据。
进一步地,在步骤S3中,利用所述多个样本经验数据对无人机对抗模型进行训练。
在利用多个样本经验数据对无人机对抗模型进行训练的过程中,无人机对抗模型中的两个无人机进行一对一(1Vs1)对抗训练,更新无人机对抗模型的网络参数,直至达到预设训练次数,可以得到训练好的无人机对抗模型。
预设训练次数可以根据实际应用中对无人机对抗模型的表现能力的需求进行设置,预设训练次数越多,无人机对抗模型表现能力越好,同等条件下得到的奖励值越高。
进一步地,在步骤S4中,利用训练好的无人机对抗模型进行无人机对抗。
将训练好的无人机对抗模型移植至无人机,可以利用该无人机进行对抗演练。
本发明提供的无人机对抗方法,通过对每个经验数据赋予优先级,使得更有价值的经验数据作为训练样本的概率更大,进而提高无人机对抗模型的训练效率。
可选地,所述经验数据包括机动速度数据和空间轨迹数据;所述获取无人机智能体的多个经验数据,包括:
基于无人机智能体的速度矢量,构建无人机运动模型;
基于无人机在博弈对抗模型中的机动动作,对所述无人机运动模型进行求解,确定所述机动速度数据和所述空间轨迹数据。
假设无人机的速度矢量与机体轴向一致,无人机运动模型如公式(1)所示:
其中,、、表示无人机在惯性坐标系中的位置;为无人机机速度;为轨迹
倾斜角,范围为([-180,180]);为轨迹偏转角(范围[-180,180]);为绕速度矢量滚转
角,范围为[-180,180];为切向过载;为法向过载,、、表示在三个坐标
轴方向的分量;为重力加速度。
可选地,在所述利用所述多个样本经验数据对无人机对抗模型进行训练之前,所述方法还包括:
根据对抗态势因素,确定无人机的状态特征;
根据所述状态特征,确定无人机的状态空间;
根据所述状态空间,确定所述无人机的转移函数;
根据所述总奖励函数,以及无人机对抗模型中无人机的数量、所述状态空间和所述转移函数,确定元组;
根据所述元组,构建所述博弈对抗模型。
无人机对抗模型包括红蓝双方无人机;将红蓝双方无人机作为智能体,以两个智能体1Vs1的零和博弈为条件构建博弈对抗模型,处理红蓝双方无人机的对抗问题。
进一步地,根据影响无人机对抗态势的因素,可以确定无人机的状态特征,主要由
红方无人机的坐标、高度、速度、偏航角和滚转角以及蓝方无人机坐标、高度、速度、偏航角和滚转角组成。由此可得博弈的状态空间可表示
为:
进一步地,确定转移函数,以红方无人机为例,红方当前状态在红方根据策略
选择的动作与对手蓝方根据策略选择的动作的联合行为影响下,转移函数表示
红方转移到下一状态的概率。同理,转移函数也可以表示蓝方从当前状态转移到下
一状态的概率。
利用由美国NASA提出的基本机动集合(Basic Fight Maneuvering,BFM)作为本发明的机动动作库,包括定常飞行、减速飞行、加速飞行、左转弯、右转弯、向上拉起和向下俯冲等机动动作;然后基于机动动作库,利用四阶龙格库塔算法对公式(1)的常微分方程组进行数值积分,得到无人机运动模型中每个无人机的经验数据,经验数据包括机动速度数据和空间轨迹数据,可以通过经验数据得到机动速度变化规律和空间轨迹变化规律。
可选地,所述无人机对抗模型中包括:第一无人机和第二无人机;所述利用所述多个样本经验数据对无人机对抗模型进行训练,包括:
利用所述多个样本经验数据,对所述无人机对抗模型的网络参数进行更新,确定更新后的无人机对抗模型;
基于总奖励函数,对所述更新后的无人机对抗模型进行训练,确定所述无人机对抗模型中每个无人机的奖励值;
根据所述奖励值,对所述无人机对抗模型进行训练,直至达到预设训练次数,得到训练好的无人机对抗模型;
所述无人机对抗模型包括:Critic当前网络、Critic目标网络、Actor当前网络和Actor目标网络。
在无人机1Vs1对抗的情况下,无法根据当前的智能体状态及其动作来确定敌方无人机的下一个状态,因为对手无人机可以使用不同的机动动作,进而导致对手无人机的下一个状态不同,特别是在多智能体竞争环境中,非平稳问题非常严重。
因此,可以采用DDPG算法让红蓝两个无人机智能体进行对抗。在无人机运动模型中,红蓝两个无人机分别拥有一个Q网络和一个策略网络,Q网络的输入是两个无人机的飞行状态、空战态势特征和动作向量,输出是自身无人机的Q值;策略网络的输入是两个无人机的飞行状态和空战态势特征,输出是自身无人机的行动矢量。在此过程中,为每个智能体学习一个集中的Q函数,能够有效解决非平稳问题,从而稳定训练。
可选地,所述优先级是基于以下方法确定的:
确定每个经验数据的初始偏好度;
并根据经验池中的每个经验数据的立即奖励值,确定奖励值基线;
根据所述奖励值基线,对所述初始偏好度进行调整,获取每个经验数据的更新偏好度;
根据所述更新偏好度,确定所述每个经验数据的优先级。
在DDPG算法基础上,设计基于奖励值的优先经验回放机制(Reward PrioritizedExperience Replay,RPER)模块,构建RPER-DDPG算法。图2是本发明提供的于奖励值的优先经验回放机制模块的流程示意图,如图2所示,对经验池中的经验数据进行重要性评估。
经验回放机制就是将无人机智能体以前的经验在一个经验池中存储,采用先进先
出(First In First Out,FIFO)的存储原则,然后在通过从经验池中采样从而对策略进行
优化,利用这一特性,将经验池中的所有经验数据的立即奖励值的均值作为基线,根据基线
就可以对各个经验数据的偏好度进行控制,从而更新偏好度,就可以对各个经验数
据进行重要性评估。具体步骤如下:
步骤1,随机初始化Critic当前网络的网络参数和Actor当前网络的
网络参数,对应的权重分别为和;对应的初始化Critic目标网络的网络参
数和Actor目标网络的网络参数,初始化作为经验池的回放记忆单元。
步骤6,在Actor当前网络的训练中,不断更新基线,如公式(4)所示:
步骤7,利用Actor当前网络更新经验样本偏好度,如公式(5)所示:
步骤8,由步骤7可以看出,当某经验数据的立即奖励值大于基线时,其偏好度就会
有较大幅度增大;当某经验数据的立即奖励值小于基线时,其偏好度仅会获得较小幅度的
增大。然后通过对偏好度进行softmax计算就可得到其采样概率,根据采样概
率确定经验样本的优先级,具体计算过程如公式(6)所示:
其中,N表示经验池中的所有经验数据的个数;表示无人机与环境交互后反馈奖
励;表示更新后的Critic网络的网络参数;表示在第i步
预测的第i+1步Critic网络的网络参数;表示当前Critic网络表示第i步
Critic网络的网络参数。
步骤10,使用样本的策略梯度更新Actor当前网络,得到策略梯度的更新参数,计算过程如公式(8)所示:
步骤11,更新Critic目标网络和Actor目标网络的网络参数,过程如公式(9)所示:
根据本发明提供的无人机对抗方法,在基于奖励值的优先经验回放机制模块中,无人机在完成某一动作后产生新的经验数据进入经验池后,基线就需要更新,然后对经验数据的优先级进行排序,完成重要性评估,最后按照优先级采样数据。由于改进后的经验回放机制要求的经验池大小并未改变,因此空间复杂度也没有增加。
图3是本发明提供的RPER-DDPG算法的流程示意图,如图3所示,包括:
首先,初始化神经网络的网络参数;
进一步地,构建神经网络;
进一步地,在神经网络的训练次数没有达到预设训练次数的情况下,初始化环境的状态;
进一步地,选择无人机的动作策略;
进一步地,无人机根据动作策略执行动作,与环境进行交互,获取经验数据;
进一步地,将经验数据回放到经验池;并对于经验池中的经验数据,初始化每个经验数据的偏好度,更新每个经验数据的偏好度和优先级,从而确定经验池中的样本经验数据;
进一步地,从经验池中抽取小批量的样本经验数据,利用样本经验数据对神经网络进行训练;
进一步地,更新神经网络的参数;
进一步地,在有一方获胜的情况下,重新对神经网络的训练次数进行判断;在没有一方获胜的情况下,重新选择无人机的动作策略。
其中,采样到经验池包括以下步骤:
首先,前期探索阶段,Actor网络还未训练,因此误差信息未知,故初始化网络参数,默认设置所有样本的TD误差为1;当Actor网络开始从经验池抽取样本训练时,以TD误差值统计每个样本的被采样的概率。当某个批次样本训练完成后,将其最新的TD误差更新经验池。随着训练进行,整个经验池的样本的TD误差都将被替换为真实的TD误差,能最大程度发挥算法性能。
将探索阶段策略与环境交互,得到样本并存储至经验池,并将TD误差设置为1。当经验池样本满足训练要求后算法即可开始训练;以TD误差统计各样本的采样概率进行采样。Q1和Q2分别计算其TD误差并更新梯度;为降低训练偏差,使用较小的Q值计算策略网络的误差。
根据本发明提供的无人机对抗方法,将DDPG算法应用到无人机博弈对抗中,让智能体通过所有Actor网络的数据更新Q的值,寻找最优的对抗策略,并且使系统比较平稳地优化。
可选地,所述总奖励函数是基于以下方法构建的:
根据两个无人机在与环境交互过程中的脱离角和偏移角,构建角度奖励函数;
根据两个无人机的速度和最佳对抗速度,构建速度奖励函数;
根据两个无人机的高度差和最佳对抗高度差,构建高度奖励函数;
根据所述角度奖励函数、所述速度奖励函数和所述高度奖励函数,确定综合奖励函数;
根据所述综合奖励函数,构建所述总奖励函数。
制定奖励规则如下:对于对抗中无人机的其中一方而言,当达成导弹发射条件时,获得最大奖励;当态势有利时,获得一般奖励;当态势不利时,获得负奖励。
依据该奖励规则,结合无人机的重力势能和动能因素,从相对角度、速度和高度等方面设计无人机决策过程中的综合奖励函数。本发明中的奖励函数设计均从红方无人机的角度进行分析和设计,红方采用改进的DDPG算法选取策略,把蓝方无人机当作敌方,蓝机采用基于规则的随机策略法选取策略。
为解决传统算法盲目选择动作的问题,在综合奖励函数的基础上,引入人工势场法作为前期训练的辅助,能够更快训练出神经网络模型。
具体地,对每步决策给出1个奖励值,神经网络根据状态做出具体的决策,环境根据决策执行更新,并计算出奖励值,神经网络根据反馈出来的奖励值更新网络参数,使网络下次计算时能够做出更优决策。基于人工势场法的奖励函数设计如下:
无人机在选择出动作空间后,先根据人工势场法计算无人机下一步的位置,然
后再进行环境的更新得到无人机实际的位置。在原奖励函数的基础上,加上和的距
离,在前期比重较大,引导无人机更快作出决策,随着训练次数的增加,权重逐渐下降。
所以,红方无人机的总奖励函数如公式(15)所示:
在达到预设训练次数后,可将训练好的无人机对抗模型中无人机的强化学习智能对抗方法和已经产生的规则移植到红方无人机中,再进行对抗,利用强化学习算法不断探索出新的策略,使得对抗的输出更加合理和完善。
在本发明的对抗仿真实验中,利用DDPG算法和改进的DDPG算法的两个无人机进行对抗,验证改进算法的有效性。其中,使用DDPG算法的蓝方与改进的DDPG算法的红方分别与基于规则的无人机进行1Vs1对抗。为保证的实验的有效性,红方与蓝方的性能参数和机动动作库相同。
通过训练可以让无人机在简单任务中学习到合适的攻击策略,表1为仿真实验的初始化参数设置。
表1 仿真实验的初始化参数设置
在红方无人机和蓝方无人机的对抗仿真中,从初始状态向后运行40个决策步长,即一轮学习,执行1000轮完成算法的训练,分别统计训练过程中训练过程中各个阶段内红方胜出、蓝方胜出和打成平局的次数,并计算各个阶段内的奖励值。
图4是本发明提供的各回合步长的奖励值变化曲线的对比示意图,如图4所示,横坐标为回合步长(Number of episodes),纵坐标为奖励值(Reward),包括DDPG算法和改进的DDPG算法在各回合步长的奖励值变化曲线。可以看出经过一定阶段的训练学习之后,红方在对抗中取得了较为优秀的成绩,DDPG算法和改进的DDPG算法都可以在博弈情景下生成对抗策略,并且在本回合中获得的总奖励曲线是呈上升态势的,但改进DDPG算法的奖励值更大,并且可以更快的收敛,这说明智能体在经过训练之后,找到了在当前状态下取得对抗胜利的最优策略,引导无人机占领有利的态势位置。
本发明实现了对抗战场中无人机自主机动决策,采用改进的DDPG算法建立智能博弈对抗模型,并且通过实验证明了本发明的有效性,结果表明本发明的对抗模型可以通过自主学习可以获得正确的对抗策略,能够发挥更好的优势。
下面对本发明提供的无人机对抗装置进行描述,下文描述的无人机对抗装置与上文描述的无人机对抗方法可相互对应参照。
图5是本发明提供的无人机对抗装置的结构示意图,如图5所示,包括:
获取模块501,获取无人机智能体的多个经验数据;
确定模块502,根据每个经验数据的优先级,在所述经验数据中确定多个样本经验数据;
训练模块503,利用所述多个样本经验数据对无人机对抗模型进行训练;
对抗模块504,利用训练好的无人机对抗模型进行无人机对抗
首先,获取模块501获取无人机智能体的多个经验数据。
经验数据是无人机智能体(以下简称:无人机)在执行动作策略与环境交互后得到的。
进一步地,确定模块502根据每个经验数据的优先级,在所述经验数据中确定多个样本经验数据。
将所有的经验数据回放至经验池,并对每个经验数据赋予抽取概率,使得更有价值的经验数据被抽取出作为训练样本的概率更大,在此基础上,从经验池中抽取多个样本经验数据。
进一步地,训练模块503利用所述多个样本经验数据对无人机对抗模型进行训练。
在利用多个样本经验数据对无人机对抗模型进行训练的过程中,无人机对抗模型中的两个无人机进行一对一(1Vs1)对抗训练,更新无人机对抗模型的网络参数,直至达到预设训练次数,可以得到训练好的无人机对抗模型。
预设训练次数可以根据实际应用中对无人机对抗模型的表现能力的需求进行设置,预设训练次数越多,无人机对抗模型表现能力越好,同等条件下得到的奖励值越高。
进一步地,对抗模块504,利用训练好的无人机对抗模型进行无人机对抗。
将训练好的无人机对抗模型移植至无人机,可以利用该无人机进行对抗演练。
本发明提供的无人机对抗装置,通过对每个经验数据赋予优先级,使得更有价值的经验数据作为训练样本的概率更大,进而提高无人机对抗模型的训练效率。
所述训练模块具体用于:
利用所述多个样本经验数据,对所述无人机对抗模型的网络参数进行更新,确定更新后的无人机对抗模型;
基于总奖励函数,对所述更新后的无人机对抗模型进行训练,确定所述无人机对抗模型中每个无人机的奖励值;
根据所述奖励值,对所述无人机对抗模型进行训练,直至达到预设训练次数,得到训练好的无人机对抗模型;
所述无人机对抗模型包括:Critic当前网络、Critic目标网络、Actor当前网络和Actor目标网络。
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行无人机对抗方法,该方法包括:获取无人机智能体的多个经验数据;根据每个经验数据的优先级,在所述经验数据中确定多个样本经验数据;利用所述多个样本经验数据对无人机对抗模型进行训练;利用训练好的无人机对抗模型进行无人机对抗。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的无人机对抗方法,该方法包括:获取无人机智能体的多个经验数据;根据每个经验数据的优先级,在所述经验数据中确定多个样本经验数据;利用所述多个样本经验数据对无人机对抗模型进行训练;利用训练好的无人机对抗模型进行无人机对抗。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的无人机对抗方法,该方法包括:获取无人机智能体的多个经验数据;根据每个经验数据的优先级,在所述经验数据中确定多个样本经验数据;利用所述多个样本经验数据对无人机对抗模型进行训练;利用训练好的无人机对抗模型进行无人机对抗。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (9)
1.一种无人机对抗方法,其特征在于,包括:
获取无人机智能体的多个经验数据;
根据每个经验数据的优先级,在所述经验数据中确定多个样本经验数据;
利用所述多个样本经验数据对无人机对抗模型进行训练;
利用训练好的无人机对抗模型进行无人机对抗;
所述优先级是基于以下方法确定的:
确定每个经验数据的初始偏好度;
并根据经验池中的每个经验数据的立即奖励值,确定奖励值基线;
根据所述奖励值基线,对所述初始偏好度进行调整,获取每个经验数据的更新偏好度;
根据所述更新偏好度,确定所述每个经验数据的优先级;
所述根据每个经验数据的优先级,在所述经验数据中确定多个样本经验数据,包括:
将所有的经验数据回放至所述经验池;
根据每个经验数据的优先级,对每个经验数据赋予抽取概率;
从所述经验池中抽取所述多个样本经验数据。
2.根据权利要求1所述的无人机对抗方法,其特征在于,所述无人机对抗模型中包括:第一无人机和第二无人机;所述利用所述多个样本经验数据对无人机对抗模型进行训练,包括:
利用所述多个样本经验数据,对所述无人机对抗模型的网络参数进行更新,确定更新后的无人机对抗模型;
基于总奖励函数,对所述更新后的无人机对抗模型进行训练,确定所述无人机对抗模型中每个无人机的奖励值;
根据所述奖励值,对所述无人机对抗模型进行训练,直至达到预设训练次数,得到训练好的无人机对抗模型;
所述无人机对抗模型包括:Critic当前网络、Critic目标网络、Actor当前网络和Actor目标网络。
3.根据权利要求2所述的无人机对抗方法,其特征在于,所述总奖励函数是基于以下方法构建的:
根据两个无人机在与环境交互过程中的脱离角和偏移角,构建角度奖励函数;
根据两个无人机的速度和最佳对抗速度,构建速度奖励函数;
根据两个无人机的高度差和最佳对抗高度差,构建高度奖励函数;
根据所述角度奖励函数、所述速度奖励函数和所述高度奖励函数,确定综合奖励函数;
根据所述综合奖励函数,构建所述总奖励函数。
4.根据权利要求2或3所述的无人机对抗方法,其特征在于,所述经验数据包括机动速度数据和空间轨迹数据;所述获取无人机智能体的多个经验数据,包括:
基于无人机智能体的速度矢量,构建无人机运动模型;
基于无人机在博弈对抗模型中的机动动作,对所述无人机运动模型进行求解,确定所述机动速度数据和所述空间轨迹数据。
5.根据权利要求4所述的无人机对抗方法,其特征在于,在所述获取无人机智能体的多个经验数据之前,所述方法还包括:
根据对抗态势因素,确定无人机的状态特征;
根据所述状态特征,确定无人机的状态空间;
根据所述状态空间,确定所述无人机的转移函数;
根据所述总奖励函数,以及无人机对抗模型中无人机的数量、所述状态空间和所述转移函数,确定元组;
根据所述元组,构建所述博弈对抗模型。
6.一种无人机对抗装置,其特征在于,包括:
获取模块,获取无人机智能体的多个经验数据;
确定模块,根据每个经验数据的优先级,在所述经验数据中确定多个样本经验数据;
训练模块,利用所述多个样本经验数据对无人机对抗模型进行训练;
对抗模块,利用训练好的无人机对抗模型进行无人机对抗;
所述优先级是基于以下方法确定的:
确定每个经验数据的初始偏好度;
并根据经验池中的每个经验数据的立即奖励值,确定奖励值基线;
根据所述奖励值基线,对所述初始偏好度进行调整,获取每个经验数据的更新偏好度;
根据所述更新偏好度,确定所述每个经验数据的优先级;
所述根据每个经验数据的优先级,在所述经验数据中确定多个样本经验数据,包括:
将所有的经验数据回放至所述经验池;
根据每个经验数据的优先级,对每个经验数据赋予抽取概率;
从所述经验池中抽取所述多个样本经验数据。
7.根据权利要求6所述的无人机对抗装置,其特征在于,所述训练模块具体用于:
利用所述多个样本经验数据,对所述无人机对抗模型的网络参数进行更新,确定更新后的无人机对抗模型;
基于总奖励函数,对所述更新后的无人机对抗模型进行训练,确定所述无人机对抗模型中每个无人机的奖励值;
根据所述奖励值,对所述无人机对抗模型进行训练,直至达到预设训练次数,得到训练好的无人机对抗模型;
所述无人机对抗模型包括:Critic当前网络、Critic目标网络、Actor当前网络和Actor目标网络。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述无人机对抗方法。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述无人机对抗方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210353487.6A CN114492677B (zh) | 2022-04-06 | 2022-04-06 | 一种无人机对抗方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210353487.6A CN114492677B (zh) | 2022-04-06 | 2022-04-06 | 一种无人机对抗方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114492677A CN114492677A (zh) | 2022-05-13 |
CN114492677B true CN114492677B (zh) | 2022-07-12 |
Family
ID=81488639
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210353487.6A Active CN114492677B (zh) | 2022-04-06 | 2022-04-06 | 一种无人机对抗方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114492677B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113095463A (zh) * | 2021-03-31 | 2021-07-09 | 南开大学 | 一种基于进化强化学习的机器人对抗方法 |
CN113596160A (zh) * | 2021-07-30 | 2021-11-02 | 电子科技大学 | 一种基于迁移学习的无人机内容缓存决策方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107479368B (zh) * | 2017-06-30 | 2021-09-21 | 北京百度网讯科技有限公司 | 一种基于人工智能的训练无人机控制模型的方法及系统 |
WO2022021027A1 (zh) * | 2020-07-27 | 2022-02-03 | 深圳市大疆创新科技有限公司 | 目标跟踪方法、装置、无人机、系统及可读存储介质 |
-
2022
- 2022-04-06 CN CN202210353487.6A patent/CN114492677B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113095463A (zh) * | 2021-03-31 | 2021-07-09 | 南开大学 | 一种基于进化强化学习的机器人对抗方法 |
CN113596160A (zh) * | 2021-07-30 | 2021-11-02 | 电子科技大学 | 一种基于迁移学习的无人机内容缓存决策方法 |
Non-Patent Citations (2)
Title |
---|
A DRL Agent for Jointly Optimizing Computation Offloading and Resource Allocation in MEC;Juan Chen等;《IEEE Internet of Things Journal》;20210319;第8卷(第24期);全文 * |
Hunter drones : drones cooperation for tracking an intruder drone;Cristino de Souza Junior;《Université de Technologie de Compiègne Heudiasyc 》;20220208;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114492677A (zh) | 2022-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110991545B (zh) | 一种面向多智能体对抗的强化学习训练优化方法及装置 | |
CN113791634B (zh) | 一种基于多智能体强化学习的多机空战决策方法 | |
CN113962012B (zh) | 无人机对抗策略优化方法及装置 | |
CN112180967B (zh) | 基于评判-执行架构的多无人机协同对抗决策方法 | |
CN113050686B (zh) | 一种基于深度强化学习的作战策略优化方法及系统 | |
CN113095481A (zh) | 一种基于并行自我博弈的空战机动方法 | |
CN115291625A (zh) | 基于多智能体分层强化学习的多无人机空战决策方法 | |
CN113282061A (zh) | 一种基于课程学习的无人机空中博弈对抗的解决方法 | |
CN113221444B (zh) | 一种面向空中智能博弈的行为模仿训练方法 | |
CN114063644B (zh) | 基于鸽群反向对抗学习的无人作战飞机空战自主决策方法 | |
CN115755956B (zh) | 一种知识与数据协同驱动的无人机机动决策方法与系统 | |
CN113625569B (zh) | 一种基于混合决策模型的小型无人机防控决策方法及系统 | |
CN110673488A (zh) | 一种基于优先级随机抽样策略的Double DQN无人机隐蔽接敌方法 | |
CN114089776B (zh) | 一种基于深度强化学习的无人机避障方法 | |
CN115933717A (zh) | 基于深度强化学习的无人机智能空战机动决策训练系统及方法 | |
CN116187777A (zh) | 一种基于sac算法和联盟训练的无人机空战自主决策方法 | |
CN114330115A (zh) | 一种基于粒子群搜索的神经网络空战机动决策方法 | |
CN112870721A (zh) | 一种游戏互动方法、装置、设备及存储介质 | |
CN116700079A (zh) | 基于ac-nfsp的无人机对抗占位机动控制方法 | |
Yuan et al. | Research on UCAV maneuvering decision method based on heuristic reinforcement learning | |
CN112651486A (zh) | 一种提高maddpg算法收敛速度的方法及其应用 | |
Kong et al. | Hierarchical multi‐agent reinforcement learning for multi‐aircraft close‐range air combat | |
CN113741186A (zh) | 一种基于近端策略优化的双机空战决策方法 | |
CN111773722B (zh) | 一种模拟环境中的战斗机规避机动策略集生成方法 | |
CN116468121A (zh) | 基于通用经验博弈强化学习的多机空战决策方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |