CN113128698A - 多无人机协同对抗决策的强化学习方法 - Google Patents

多无人机协同对抗决策的强化学习方法 Download PDF

Info

Publication number
CN113128698A
CN113128698A CN202110269453.4A CN202110269453A CN113128698A CN 113128698 A CN113128698 A CN 113128698A CN 202110269453 A CN202110269453 A CN 202110269453A CN 113128698 A CN113128698 A CN 113128698A
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
data
state data
initial state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110269453.4A
Other languages
English (en)
Other versions
CN113128698B (zh
Inventor
王国强
陈宇轩
罗贺
马滢滢
蒋儒浩
胡笑旋
唐奕城
靳鹏
马华伟
夏维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202110269453.4A priority Critical patent/CN113128698B/zh
Publication of CN113128698A publication Critical patent/CN113128698A/zh
Application granted granted Critical
Publication of CN113128698B publication Critical patent/CN113128698B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种多无人机协同对抗决策的强化学习方法,涉及无人机领域,包括:获取无人机初始状态数据并进行格式转换;对无人机初始状态数据进行数据补全处理;对数据补全后的无人机初始状态数据进行数据转换和归一化处理,得到无人机状态数据;基于预设的Actor‑Critic算法对无人机状态数据进行处理,得到当前回合的多无人机协同对抗重决策结果;将多无人机协同对抗重决策结果输入到预设的仿真场景中,多无人机基于多无人机协同对抗重决策结果进行对抗,得到多无人机协同对抗数据,并将多无人机协同对抗数据作为下一回合的无人机初始状态数据,以得到下一回合的多无人机协同对抗重决策结果。本发明可以得到最适应当前环境下的无人机重决策方案。

Description

多无人机协同对抗决策的强化学习方法
技术领域
本发明涉及无人机技术领域,具体涉及一种多无人机协同对抗决策的强化学习方法。
背景技术
随着新兴技术的发展与应用,信息对抗、智能对抗已逐渐成为新的作战手段和作战形式,无人机由于其能够自主的完成多种任务而被广泛地应用。然而随着无人机在相关领域应用的不断推进,单架无人机在执行任务时暴露出了灵活性和任务完成率的短板,因此,运用多架无人机在空中构成相互协作、优势互补、效能倍增的协同作战系统,已成为本领域关注的热点和追求的目标。
多无人机协同对抗环境中,对抗情况瞬息万变,呈现高动态、高实时和高不确定性的特点,并且多机协同对抗整体过程时间较长,无法对敌方的行动作出详细预测,作战前的战术决策和目标分配等决策都可能随着对抗过程中的进行而不再适用当前环境,因此,决策者需要根据复杂、动态变化的战场环境对多无人机作战策略进行重决策。
现有的重决策方法普遍使用神经网络、模糊Petri网和影像图等方法进行,然而,由于多无人机协同对抗环境的变化较为迅速,这些方法已经不能适用当前环境,即现有技术提供的重决策方法的效果较差。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种多无人机协同对抗决策的强化学习方法,解决了现有技术提供的重决策方法的效果较差的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
本发明解决其技术问题所提供的一种多无人机协同对抗决策的强化学习方法,所述强化学习方法由计算机执行,包括以下步骤:
获取无人机初始状态数据,并对所述无人机初始状态数据进行格式转换,得到预设格式的无人机初始状态数据;
对预设格式的无人机初始状态数据进行数据补全处理;对数据补全后的无人机初始状态数据进行数据转换和归一化处理,得到无人机状态数据;
基于预设的Actor-Critic算法对所述无人机状态数据进行处理,得到当前回合的多无人机协同对抗重决策结果;
将所述多无人机协同对抗重决策结果输入到预设的仿真场景中,多无人机基于所述多无人机协同对抗重决策结果进行对抗,得到多无人机协同对抗数据,并将所述多无人机协同对抗数据作为下一回合的无人机初始状态数据,以得到下一回合的多无人机协同对抗重决策结果。
优选的,所述无人机初始状态数据包括:无人机横坐标、无人机纵坐标、无人机飞行高度、无人机飞行速度、无人机横滚角、无人机航向角、无人机俯仰角、无人机余弹数量和无人机类型。
优选的,对所述无人机初始状态数据进行格式转换,包括:
将Json格式的无人机初始状态数据转换为字符串的数据。
优选的,还包括:
获取所述预设的仿真场景反馈的信息,包括:多无人机协同对抗数据和结束指令;
当获取到多无人机协同对抗数据时,将所述多无人机协同对抗数据作为下一回合的无人机初始状态数据,并对无人机初始状态数据进行数据补全处理;
当获取到结束指令时,计算所有回合的奖励回报。
优选的,所述对预设格式的无人机初始状态数据进行数据补全处理,包括:
检测多架无人机中是否存在损毁情况;若是,则对损毁的无人机进行数据补零处理,若否,则不进行处理;
所述对数据补全后的无人机初始状态数据进行数据转换,包括:
将数据补全后的无人机初始状态数据的字符串格式转换成矩阵格式,以使数据可以作为神经网络的输入。
优选的,基于预设的Actor-Critic算法对所述无人机状态数据进行处理,包括:
计算所述无人机状态数据的奖励回报,并将所述无人机状态数据分别发送至Actor网络和Critic网络中;
基于Actor网络中的神经网络对所述无人机状态数据进行处理,得到所有重决策触发动作的概率,所述重决策触发动作包括:目标分配和不进行重决策;基于所有重决策触发动作的概率获取重决策触发结果;对所述重决策触发结果进行标准化处理,得到当前回合的多无人机协同对抗重决策结果;
基于Critic网络中的神经网络对所述无人机状态数据进行处理,得到状态值函数;
基于所述奖励回报和所述状态值函数计算TD误差;
基于所述TD误差分别计算Actor网络的LOSS和Critic网络的LOSS;
基于Actor网络的LOSS更新Actor网络的网络权值,基于所述Critic网络的LOSS更新Critic网络的网络权值。
优选的,所述奖励回报包括:无人机损毁奖励回报和无人机态势奖励回报;
所述无人机态势奖励回报包括:距离优势奖励回报、角度优势奖励回报和速度优势奖励回报。
优选的,所述无人机损毁奖励回报的计算方法包括:
r0=5*p+(-5)*q
其中:
r0表示无人机损毁奖励回报;
p表示敌方无人机损毁数量;
q表示我方无人机损毁数量。
优选的,所述距离优势奖励回报的计算方法包括:
Figure BDA0002973645490000051
Figure BDA0002973645490000052
其中:
r1表示距离优势奖励回报;
DRmax为雷达最大搜索距离;
DMmax为导弹攻击距离;
Figure BDA0002973645490000053
表示为我方第i架无人机到敌方第j架无人机的距离;
所述角度优势奖励回报的计算方法包括
Figure BDA0002973645490000054
其中:
r2表示角度优势奖励回报;
Figure BDA0002973645490000055
表示我方无人机方位角;为我方第i架无人机,以及我方第i架无人机到敌方第j架无人机连线间的夹角;
Figure BDA0002973645490000056
表示敌方无人机方位角;为敌方第j架无人机,以及敌方第j架无人机到我方第i架无人机连线间的夹角;
所述速度优势奖励回报的计算方法包括:
Figure BDA0002973645490000061
Figure BDA0002973645490000062
其中:
r3表示速度优势奖励回报;
v0表示最佳攻击速度;
vr表示我方无人机速度;
vb表示敌方无人机速度;
vmax表示无人机最大速度;
dw表示无人机的武器最大射程。
优选的,所述奖励回报的计算方法包括:
r=r0+r1+r2+r3
其中:
r0表示无人机损毁奖励回报;
r1表示距离优势奖励回报;
r2表示角度优势奖励回报;
r3表示速度优势奖励回报。
(三)有益效果
本发明提供了一种多无人机协同对抗决策的强化学习方法。与现有技术相比,具备以下有益效果:
本发明获取无人机初始状态数据,并对无人机初始状态数据进行格式转换;对预设格式的无人机初始状态数据进行数据补全处理;对数据补全后的无人机初始状态数据进行数据转换和归一化处理,得到无人机状态数据;基于预设的Actor-Critic算法对无人机状态数据进行处理,得到当前回合的多无人机协同对抗重决策结果;将多无人机协同对抗重决策结果输入到预设的仿真场景中,多无人机基于多无人机协同对抗重决策结果进行对抗,得到多无人机协同对抗数据,并将多无人机协同对抗数据作为下一回合的无人机初始状态数据,以得到下一回合的多无人机协同对抗重决策结果。由于现有的重决策一般采用神经网络、模糊Petri网和影像图,已经无法快速适用环境变化。而本发明采用Actor-Critic算法对无人机状态数据进行强化训练,可以得到最适应当前环境下的无人机重决策方案,以提高多无人机的作战效率,同时具有实时性和高效率的优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所提供的多无人机协同对抗决策的强化学习方法的整体流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例通过提供一种多无人机协同对抗决策的强化学习方法,解决了现有技术提供的重决策方法的效果较差的问题。
本申请实施例中的技术方案为解决上述技术问题,总体思路如下:
本发明实施例获取无人机初始状态数据,并对无人机初始状态数据进行格式转换;对预设格式的无人机初始状态数据进行数据补全处理;对数据补全后的无人机初始状态数据进行数据转换和归一化处理,得到无人机状态数据;基于预设的Actor-Critic算法对无人机状态数据进行处理,得到当前回合的多无人机协同对抗重决策结果;将多无人机协同对抗重决策结果输入到预设的仿真场景中,多无人机基于多无人机协同对抗重决策结果进行对抗,得到多无人机协同对抗数据,并将多无人机协同对抗数据作为下一回合的无人机初始状态数据,以得到下一回合的多无人机协同对抗重决策结果。由于现有的重决策一般采用神经网络、模糊Petri网和影像图,已经无法快速适用环境变化。而本发明采用Actor-Critic算法对无人机状态数据进行强化训练,可以得到最适应当前环境下的无人机重决策方案,以提高多无人机的作战效率,同时具有实时性和高效率的优点。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
需要说明的是,本发明实施例中所述的“回合”具体是指:多无人机进行协同作战时,会不断进行空中对战直至敌我双方有一方战败,此时多无人机对战结束。在整个对战过程中,多无人机可能会经历多次空战方案重决策过程,因此本发明实施例设定每一次重决策过程为一个回合。
本发明实施例提供了一种多无人机协同对抗决策的强化学习方法,所述强化学习方法由计算机执行,如图1所示,包括以下步骤:
S1、获取无人机初始状态数据,并对所述无人机初始状态数据进行格式转换,得到预设格式的无人机初始状态数据;
S2、对预设格式的无人机初始状态数据进行数据补全处理;对数据补全后的无人机初始状态数据进行数据转换和归一化处理,得到无人机状态数据;
S3、基于预设的Actor-Critic算法对所述无人机状态数据进行处理,得到当前回合的多无人机协同对抗重决策结果;
S4、将所述多无人机协同对抗重决策结果输入到预设的仿真场景中,多无人机基于所述多无人机协同对抗重决策结果进行对抗,得到多无人机协同对抗数据,并将所述多无人机协同对抗数据作为下一回合的无人机初始状态数据,以得到下一回合的多无人机协同对抗重决策结果。
本发明实施例获取无人机初始状态数据,并对无人机初始状态数据进行格式转换;对预设格式的无人机初始状态数据进行数据补全处理;对数据补全后的无人机初始状态数据进行数据转换和归一化处理,得到无人机状态数据;基于预设的Actor-Critic算法对无人机状态数据进行处理,得到当前回合的多无人机协同对抗重决策结果;将多无人机协同对抗重决策结果输入到预设的仿真场景中,多无人机基于多无人机协同对抗重决策结果进行对抗,得到多无人机协同对抗数据,并将多无人机协同对抗数据作为下一回合的无人机初始状态数据,以得到下一回合的多无人机协同对抗重决策结果。本发明采用Actor-Critic算法对无人机状态数据进行强化训练,可以得到最适应当前环境下的无人机重决策方案,以提高多无人机的作战效率。
需要说明的是,本发明实施例在具体实施时可以利用仿真环境模拟真实场景的多无人机对战,以得到最优的多无人机重决策结果,并进一步验证本发明的准确性。
下面对各步骤进行具体分析。
在步骤S1中,包括以下步骤:
获取无人机初始状态数据。
具体的,无人机初始状态数据包括:无人机横坐标、无人机纵坐标、无人机飞行高度、无人机飞行速度、无人机横滚角、无人机航向角、无人机俯仰角、无人机余弹数量和无人机类型。
对无人机初始状态数据进行格式转换,得到预设格式的无人机初始状态数据。
需要说明的是,一般来说无人机初始状态数据为字符串格式,因此需要将Json格式的无人机初始状态数据转换为字符串的数据,以使Actor网络和Critic网络可以进行识别处理。
在步骤S2中,包括以下步骤:
S201、对预设格式的无人机初始状态数据进行数据补全处理。具体包括以下步骤:
检测多架无人机中是否存在损毁情况;若是,则对损毁的无人机进行数据补零处理,若否,则不进行处理。
在对抗过程中,当发生无人机损毁情形时,接收到的多机数据就会相应减少损毁的无人机数据,而作为神经网络的输入维数是不可改变的,因为首先要对初始多机状态数据进行数据补全,将损毁的无人机,采取数据补零,使得维度不变。
数据补零的具体操作为:当接收到初始多机状态数据时,首先进行检查是否缺失无人机,再检查缺失无人机的型号,型号对应后,将已损毁的无人机的无人机坐标、速度、角度均用数字“0”代入到多机状态数据中,使其不会发生维度转变。
S202、对数据补全后的无人机初始状态数据进行数据转换和归一化处理,得到无人机状态数据。
其中,数据转换,包括:
将数据补全后的无人机初始状态数据的字符串格式转换成矩阵格式,以使数据可以作为神经网络的输入。
在步骤S3中,基于预设的Actor-Critic算法对无人机状态数据进行处理,得到当前回合的多无人机协同对抗重决策结果。具体包括以下步骤:
S301、计算所述无人机状态数据的奖励回报,并将所述无人机状态数据分别发送至Actor网络和Critic网络中。
具体的,奖励回报包括:无人机损毁奖励回报和无人机态势奖励回报。
所述无人机态势奖励回报包括:距离优势奖励回报、角度优势奖励回报和速度优势奖励回报。
其中,无人机损毁奖励回报的计算方法包括:
r0=5*p+(-5)*q
其中:
r0表示无人机损毁奖励回报;
p表示敌方无人机损毁数量;
q表示我方无人机损毁数量。
距离优势奖励回报的计算方法包括:
Figure BDA0002973645490000121
Figure BDA0002973645490000131
其中:
r1表示距离优势奖励回报;
DRmax为雷达最大搜索距离;
DMmax为导弹攻击距离;
Figure BDA0002973645490000132
表示我方第i架无人机到敌方第j架无人机的距离。
角度优势奖励回报的计算方法包括:
Figure BDA0002973645490000133
其中:
r2表示角度优势奖励回报;
Figure BDA0002973645490000134
表示我方无人机方位角;为我方第i架无人机,以及我方第i架无人机到敌方第j架无人机连线间的夹角;
Figure BDA0002973645490000135
表示敌方无人机方位角;为敌方第j架无人机,以及敌方第j架无人机到我方第i架无人机连线间的夹角。
Figure BDA0002973645490000136
趋于0、
Figure BDA0002973645490000137
趋于π时,角度优势函数最大,此时处于对目标的追尾攻击。
Figure BDA0002973645490000138
趋于π、
Figure BDA0002973645490000139
趋于0时,角度优势函数最小,此时处于被追尾攻击。
速度优势奖励回报的计算方法包括:
Figure BDA00029736454900001310
Figure BDA0002973645490000141
其中:
r3表示速度优势奖励回报;
v0表示最佳攻击速度;
vr表示我方无人机速度;
vb表示敌方无人机速度;
vmax表示无人机最大速度;
Figure BDA0002973645490000142
表示我方i无人机到敌方j无人机之间的距离;
dw表示无人机的武器最大射程。
在本发明实施例中,在求以上三类态势优势奖励回报时,需求得我方每架无人机到敌方每架无人机的奖励回报,再求其平均值记为相应回合的态势优势奖励回报。
因此,每一回合中总的奖励回报的计算方法包括:
r=r0+r1+r2+r3
其中:
r0表示无人机损毁奖励回报;
r1表示距离优势奖励回报;
r2表示角度优势奖励回报;
r3表示速度优势奖励回报。
S302、基于Actor网络中的神经网络对所述无人机状态数据进行处理,得到所有重决策触发动作的概率。其中,所述重决策触发动作包括:目标分配和不进行重决策。
基于所有重决策触发动作的概率获取重决策触发结果。
对所述重决策触发结果进行标准化处理,得到当前回合的多无人机协同对抗重决策结果。
多无人机协同对抗重决策结果即为重决策方案。
目标分配(WTA)问题是指将有限数量的拦截器分配到来袭的导弹以最小化导弹摧毁受保护资产的概率或将优先的导弹分配给来袭的目标以最大化催化目标的概率。
S303、基于Critic网络中的神经网络对所述无人机状态数据进行处理,得到状态值函数。
S304、基于所述奖励回报和所述状态值函数计算TD误差。
S305、基于所述TD误差分别计算Actor网络的LOSS和Critic网络的LOSS。
S306、基于Actor网络的LOSS更新Actor网络的网络权值,基于所述Critic网络的LOSS更新Critic网络的网络权值。
在步骤S4中,将所述多无人机协同对抗重决策结果输入到预设的仿真场景中,多无人机基于所述多无人机协同对抗重决策结果进行对抗,得到多无人机协同对抗数据,并将所述多无人机协同对抗数据作为下一回合的无人机初始状态数据,以得到下一回合的多无人机协同对抗重决策结果。
需要说明的是,本发明实施例中利用预设的仿真场景模拟真实对战场景,预设的仿真场景包括VR-Forces仿真环境。通过VR-Forces仿真环境执行多无人机协同对抗重决策结果,可以得到本回合的多无人机协同对抗数据,并进一步作为下一回合的无人机初始状态数据,通过若干次的重决策判定,可以对Actor网络、Critic网络进行权值更新,意义在下次进行更优的重决策,从而得到最利于我方的多无人机协同对抗重决策结果。通过这种强化训练也可以得到较优的Actor网络和Critic网络,并作为训练好的网络应用到真实对战场景中,以提高多无人机的作战效率。
本发明实施例在具体实施时,还包括:
获取所述预设的仿真场景反馈的信息,包括:多无人机协同对抗数据和结束指令。
具体的,仿真场景在执行多无人机协同对抗重决策结果时会有两种结果。一种是仿真场景在执行重决策之后,双方战斗并未结束,此时仿真场景反馈多无人机执行重决策方案后的多无人机协同对抗数据。一种是仿真场景在执行重决策之后,有一方的无人机作战失败,此时对战结束,仿真场景会反馈一个结束指令。
当获取到多无人机协同对抗数据时,将所述多无人机协同对抗数据作为下一回合的无人机初始状态数据,并对无人机初始状态数据进行数据补全处理以及后续操作。
当获取到结束指令时,计算所有回合的奖励回报,即本次作战的总奖励回报。
综上所述,与现有技术相比,具备以下有益效果:
本发明获取无人机初始状态数据,并对无人机初始状态数据进行格式转换;对预设格式的无人机初始状态数据进行数据补全处理;对数据补全后的无人机初始状态数据进行数据转换和归一化处理,得到无人机状态数据;基于预设的Actor-Critic算法对无人机状态数据进行处理,得到当前回合的多无人机协同对抗重决策结果;将多无人机协同对抗重决策结果输入到预设的仿真场景中,多无人机基于多无人机协同对抗重决策结果进行对抗,得到多无人机协同对抗数据,并将多无人机协同对抗数据作为下一回合的无人机初始状态数据,以得到下一回合的多无人机协同对抗重决策结果。由于现有的重决策一般采用神经网络、模糊Petri网和影像图,已经无法快速适用环境变化。而本发明采用Actor-Critic算法对无人机状态数据进行强化训练,可以得到最适应当前环境下的无人机重决策方案,以提高多无人机的作战效率,同时具有实时性和高效率的优点。
需要说明的是,通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件无人机的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种多无人机协同对抗决策的强化学习方法,所述强化学习方法由计算机执行,其特征在于,包括以下步骤:
获取无人机初始状态数据,并对所述无人机初始状态数据进行格式转换,得到预设格式的无人机初始状态数据;
对预设格式的无人机初始状态数据进行数据补全处理;对数据补全后的无人机初始状态数据进行数据转换和归一化处理,得到无人机状态数据;
基于预设的Actor-Critic算法对所述无人机状态数据进行处理,得到当前回合的多无人机协同对抗重决策结果;
将所述多无人机协同对抗重决策结果输入到预设的仿真场景中,多无人机基于所述多无人机协同对抗重决策结果进行对抗,得到多无人机协同对抗数据,并将所述多无人机协同对抗数据作为下一回合的无人机初始状态数据,以得到下一回合的多无人机协同对抗重决策结果。
2.如权利要求1所述的多无人机协同对抗决策的强化学习方法,其特征在于,所述无人机初始状态数据包括:无人机横坐标、无人机纵坐标、无人机飞行高度、无人机飞行速度、无人机横滚角、无人机航向角、无人机俯仰角、无人机余弹数量和无人机类型。
3.如权利要求1所述的多无人机协同对抗决策的强化学习方法,其特征在于,对所述无人机初始状态数据进行格式转换,包括:
将Json格式的无人机初始状态数据转换为字符串格式的数据。
4.如权利要求1所述的多无人机协同对抗决策的强化学习方法,其特征在于,还包括:
获取所述预设的仿真场景反馈的信息,包括:多无人机协同对抗数据和结束指令;
当获取到多无人机协同对抗数据时,将所述多无人机协同对抗数据作为下一回合的无人机初始状态数据,并对无人机初始状态数据进行数据补全处理;
当获取到结束指令时,计算所有回合的奖励回报。
5.如权利要求1所述的多无人机协同对抗决策的强化学习方法,其特征在于,所述对预设格式的无人机初始状态数据进行数据补全处理,包括:
检测多架无人机中是否存在损毁情况;若是,则对损毁的无人机进行数据补零处理,若否,则不进行处理;
所述对数据补全后的无人机初始状态数据进行数据转换,包括:
将数据补全后的无人机初始状态数据的字符串格式转换成矩阵格式,以使数据可以作为神经网络的输入。
6.如权利要求1所述的多无人机协同对抗决策的强化学习方法,其特征在于,基于预设的Actor-Critic算法对所述无人机状态数据进行处理,包括:
计算所述无人机状态数据的奖励回报,并将所述无人机状态数据分别发送至Actor网络和Critic网络中;
基于Actor网络中的神经网络对所述无人机状态数据进行处理,得到所有重决策触发动作的概率,所述重决策触发动作包括:目标分配和不进行重决策;基于所有重决策触发动作的概率获取重决策触发结果;对所述重决策触发结果进行标准化处理,得到当前回合的多无人机协同对抗重决策结果;
基于Critic网络中的神经网络对所述无人机状态数据进行处理,得到状态值函数;
基于所述奖励回报和所述状态值函数计算TD误差;
基于所述TD误差分别计算Actor网络的LOSS和Critic网络的LOSS;
基于Actor网络的LOSS更新Actor网络的网络权值,基于所述Critic网络的LOSS更新Critic网络的网络权值。
7.如权利要求6所述的多无人机协同对抗决策的强化学习方法,其特征在于,所述奖励回报包括:无人机损毁奖励回报和无人机态势奖励回报;
所述无人机态势奖励回报包括:距离优势奖励回报、角度优势奖励回报和速度优势奖励回报。
8.如权利要求7所述的多无人机协同对抗决策的强化学习方法,其特征在于,所述无人机损毁奖励回报的计算方法包括:
r0=5*p+(-5)*q
其中:
r0表示无人机损毁奖励回报;
p表示敌方无人机损毁数量;
q表示我方无人机损毁数量。
9.如权利要求7所述的多无人机协同对抗决策的强化学习方法,其特征在于,所述距离优势奖励回报的计算方法包括:
Figure FDA0002973645480000041
Figure FDA0002973645480000042
其中:
r1表示距离优势奖励回报;
DRmax为雷达最大搜索距离;
DMmax为导弹攻击距离;
Figure FDA0002973645480000043
表示为我方第i架无人机到敌方第j架无人机的距离;
所述角度优势奖励回报的计算方法包括:
Figure FDA0002973645480000044
其中:
r2表示角度优势奖励回报;
Figure FDA0002973645480000045
表示我方无人机方位角,为我方第i架无人机,以及我方第i架无人机到敌方第j架无人机连线间的夹角;
Figure FDA0002973645480000051
表示敌方无人机方位角,为敌方第j架无人机,以及敌方第j架无人机到我方第i架无人机连线间的夹角;
所述速度优势奖励回报的计算方法包括:
Figure FDA0002973645480000052
Figure FDA0002973645480000053
其中:
r3表示速度优势奖励回报;
v0表示最佳攻击速度;
vr表示我方无人机速度;
vb表示敌方无人机速度;
vmax表示无人机最大速度;
dw表示无人机的武器最大射程。
10.如权利要求7所述的多无人机协同对抗决策的强化学习方法,其特征在于,所述奖励回报的计算方法包括:
r=r0+r1+r2+r3
其中:
r0表示无人机损毁奖励回报;
r1表示距离优势奖励回报;
r2表示角度优势奖励回报;
r3表示速度优势奖励回报。
CN202110269453.4A 2021-03-12 2021-03-12 多无人机协同对抗决策的强化学习方法 Active CN113128698B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110269453.4A CN113128698B (zh) 2021-03-12 2021-03-12 多无人机协同对抗决策的强化学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110269453.4A CN113128698B (zh) 2021-03-12 2021-03-12 多无人机协同对抗决策的强化学习方法

Publications (2)

Publication Number Publication Date
CN113128698A true CN113128698A (zh) 2021-07-16
CN113128698B CN113128698B (zh) 2022-09-20

Family

ID=76773038

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110269453.4A Active CN113128698B (zh) 2021-03-12 2021-03-12 多无人机协同对抗决策的强化学习方法

Country Status (1)

Country Link
CN (1) CN113128698B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115113642A (zh) * 2022-06-02 2022-09-27 中国航空工业集团公司沈阳飞机设计研究所 一种多无人机时空关键特征自学习协同对抗决策方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111260031A (zh) * 2020-01-14 2020-06-09 西北工业大学 一种基于深度强化学习的无人机集群目标防卫方法
US20200312163A1 (en) * 2019-03-26 2020-10-01 Sony Corporation Concept for designing and using an uav controller model for controlling an uav
CN112131660A (zh) * 2020-09-10 2020-12-25 南京大学 一种基于多智能体强化学习的无人机集群协同学习方法
CN112180967A (zh) * 2020-04-26 2021-01-05 北京理工大学 基于评判-执行架构的多无人机协同对抗决策方法
CN112215283A (zh) * 2020-10-12 2021-01-12 中国人民解放军海军航空大学 基于有人/无人机系统的近距空战智能决策方法
CN112256056A (zh) * 2020-10-19 2021-01-22 中山大学 基于多智能体深度强化学习的无人机控制方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200312163A1 (en) * 2019-03-26 2020-10-01 Sony Corporation Concept for designing and using an uav controller model for controlling an uav
CN111260031A (zh) * 2020-01-14 2020-06-09 西北工业大学 一种基于深度强化学习的无人机集群目标防卫方法
CN112180967A (zh) * 2020-04-26 2021-01-05 北京理工大学 基于评判-执行架构的多无人机协同对抗决策方法
CN112131660A (zh) * 2020-09-10 2020-12-25 南京大学 一种基于多智能体强化学习的无人机集群协同学习方法
CN112215283A (zh) * 2020-10-12 2021-01-12 中国人民解放军海军航空大学 基于有人/无人机系统的近距空战智能决策方法
CN112256056A (zh) * 2020-10-19 2021-01-22 中山大学 基于多智能体深度强化学习的无人机控制方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
G. ZHANG等: ""Efficient Training Techniques for Multi-Agent Reinforcement Learning in Combat Tasks"", 《IEEE ACCESS》 *
丁林静等: ""基于强化学习的无人机空战机动决策"", 《航空电子技术》 *
余敏建等: ""基于合作协同进化的多机空战目标分配"", 《系统工程与电子技术》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115113642A (zh) * 2022-06-02 2022-09-27 中国航空工业集团公司沈阳飞机设计研究所 一种多无人机时空关键特征自学习协同对抗决策方法

Also Published As

Publication number Publication date
CN113128698B (zh) 2022-09-20

Similar Documents

Publication Publication Date Title
CN110348708B (zh) 一种基于极限学习机的地面目标动态威胁评估方法
CN106203870A (zh) 一种面向联合作战的目标体系分析及武器分配方法
CN113705102B (zh) 海空集群对抗的推演仿真系统及方法、设备、存储介质
CN105678030B (zh) 基于专家系统和战术战法分形化的空战战术团队仿真方法
CN113159266B (zh) 基于麻雀搜索神经网络的空战机动决策方法
CN112486200B (zh) 多无人机协同对抗在线重决策方法
CN113128698B (zh) 多无人机协同对抗决策的强化学习方法
CN113128021B (zh) 多无人平台协同对抗的实时重决策方法和系统
CN115047907B (zh) 一种基于多智能体ppo算法的空中同构编队指挥方法
CN110163519B (zh) 面向基地攻防任务的uuv红蓝方威胁评估方法
CN116225049A (zh) 一种多无人机狼群协同作战攻防决策算法
CN113741186B (zh) 一种基于近端策略优化的双机空战决策方法
CN113190041B (zh) 一种基于约束松弛技术的无人机集群在线目标分配方法
CN110986680B (zh) 一种城市环境中低慢小目标的复合拦截方法
CN112101747A (zh) 一种基于禁忌共识拍卖算法的无人艇拦截任务分配方法
CN113126651B (zh) 多无人机协同对抗的智能决策装置和系统
CN113255234B (zh) 一种对导弹群进行在线目标分配的方法
CN112464549B (zh) 对抗单位的动态分配方法
CN114202185A (zh) 一种高功率微波武器协同防空的体系贡献率评估方法
WO2021227303A1 (zh) 无人机信号压制设备的调度方法、装置、电子设备与介质
CN114911269A (zh) 一种基于无人机群的组网雷达干扰策略生成方法
Wang et al. Research on naval air defense intelligent operations on deep reinforcement learning
CN112818496A (zh) 基于蚁群算法的要地防空策略
CN113128699B (zh) 快速收敛的多无人机协同对抗强化学习方法
Zhao et al. Deep Reinforcement Learning‐Based Air Defense Decision‐Making Using Potential Games

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant