CN117556681B - 一种智能空战决策方法、系统及电子设备 - Google Patents
一种智能空战决策方法、系统及电子设备 Download PDFInfo
- Publication number
- CN117556681B CN117556681B CN202310889524.XA CN202310889524A CN117556681B CN 117556681 B CN117556681 B CN 117556681B CN 202310889524 A CN202310889524 A CN 202310889524A CN 117556681 B CN117556681 B CN 117556681B
- Authority
- CN
- China
- Prior art keywords
- model
- moment
- time
- action
- airplane
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000009471 action Effects 0.000 claims abstract description 89
- 238000012549 training Methods 0.000 claims abstract description 56
- 230000004927 fusion Effects 0.000 claims abstract description 26
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 23
- 230000003993 interaction Effects 0.000 claims abstract description 16
- 230000006870 function Effects 0.000 claims description 56
- 230000008569 process Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 8
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 9
- 230000002787 reinforcement Effects 0.000 description 8
- 238000005457 optimization Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- BTCSSZJGUNDROE-UHFFFAOYSA-N gamma-aminobutyric acid Chemical compound NCCCC(O)=O BTCSSZJGUNDROE-UHFFFAOYSA-N 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- General Engineering & Computer Science (AREA)
- Geometry (AREA)
- Computer Hardware Design (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种智能空战决策方法、系统及电子设备,属于人工智能领域,方法包括:针对任一飞机,根据当前时刻飞机的观测数据、前一时刻飞机的隐状态及前一时刻飞机的动作,基于空战策略模型,确定当前时刻飞机的动作,以调整飞机的运行状态;空战策略模型为预先采用自博弈算法进行智能体联盟对抗训练得到的;空战策略模型包括状态预测模型及动作预测模型;状态预测模型为预先根据历史交互数据,基于轨迹判别器,对世界模型进行训练得到的;历史交互数据包括历史设定时段内飞机的观测数据、隐状态及动作;动作预测模型为预先基于融合奖励,根据历史设定时段内飞机的隐状态,对演员评论家模型进行训练得到的。本发明提高了空战策略的准确度。
Description
技术领域
本发明涉及人工智能领域,特别是涉及一种基于融合塑造奖励的具有轨迹判别能力的世界模型的智能空战决策方法、系统及电子设备。
背景技术
近年来,人工智能技术迅速发展,各类算法层出不穷,尤其是深度学习在计算机视觉和自然语言处理等领域的应用取得了巨大的成果。随着计算机硬件和存储技术的进步,很多基于强化学习技术的算法被提出,这些算法主要用于解决简单的强化学习问题,如迷宫游戏等,但处理高维输入数据仍然十分困难,难以解决复杂问题。在近年来,深度学习技术和神经网络结构的发展极大地推进了强化学习的发展。深度学习算法的优势在于,它可以从数据中自动提取特征,这大大提高了强化学习算法的鲁棒性和性能,为强化学习领域的发展提供了更强的动力和支持。
随着计算机技术、人工智能技术不断发展,越来越多的人工智能算法被应用到了空战中,包括专家系统方法、监督学习算法、强化学习算法等。专家系统是一种基于知识表示和推理的人工智能技术,它利用专家知识库中的规则和条件,通过推理来决定最优的机动或飞行路径,以实现飞机的自动导航。2016年,辛辛那提大学提出了一种利用遗传模糊树方法训练空战人工智能(Artificial Intelligence,AI)系统的方法。他们建立了一个名为ALPHA的系统,在模拟环境中击败了退休的上校Gene Lee,展示了用人工智能取代传统策略的可能性。由于专家系统是基于专家知识进行决策,因此专家系统具有较高的可靠性和可解释性。然而该方法完全依赖于专家知识,并且缺乏适应环境变化所需的灵活性和能力,鲁棒性较差。
监督学习方法通过使用大量的标记数据,学习到将空战态势映射到机动动作的映射关系,从而实现智能决策。但使用监督学习的方法需要大量的飞机数据样本以及精确的标注,并且该方法同专家系统一样依赖机动库,这些严重限制了监督学习在空战决策中的应用。
深度强化学习是近年来备受关注的一种算法,它可以直接处理高维度、连续空间的问题,具有很强的自主学习和实时决策的能力。但目前很多方法依旧依赖动作库的限制,并且强化学习算法在空战中仍然面临着奖励稀疏以及算法样本效率过低等问题,导致空战策略不够精准。
发明内容
本发明的目的是提供一种智能空战决策方法、系统及电子设备,可提高空战策略的准确度。
为实现上述目的,本发明提供了如下方案:
一种智能空战决策方法,包括:
针对任一飞机,获取当前时刻所述飞机的观测数据、前一时刻所述飞机的隐状态及前一时刻所述飞机的动作;
根据当前时刻所述飞机的观测数据、前一时刻所述飞机的隐状态及前一时刻所述飞机的动作,基于空战策略模型,确定当前时刻所述飞机的动作,以调整所述飞机的运行状态;所述空战策略模型为预先采用自博弈算法进行智能体联盟对抗训练得到的;所述空战策略模型包括状态预测模型及动作预测模型;所述状态预测模型为预先根据历史交互数据,基于轨迹判别器,对世界模型进行训练得到的;所述历史交互数据包括历史设定时段内飞机的观测数据、隐状态及动作;所述动作预测模型为预先基于融合奖励,根据历史设定时段内飞机的隐状态,对演员评论家模型进行训练得到的;所述状态预测模型用于根据当前时刻飞机的观测数据、前一时刻飞机的隐状态及前一时刻飞机的动作,确定当前时刻飞机的隐状态;所述动作预测模型用于根据当前时刻飞机的隐状态,确定当前时刻飞机的动作。
可选地,所述飞机的观测数据包括位置及速度;所述飞机的动作为执行机构的操控量。
可选地,所述空战策略模型的训练过程包括:
针对任一次智能体联盟对抗训练,根据t时刻的观测数据、t-1时刻的隐状态及t-1时刻的动作,采用世界模型,确定t时刻的预测隐状态及t时刻的奖励;t时刻为历史设定时段内的任一时刻;
根据t时刻的观测数据、t-1时刻的隐状态及t-1时刻的动作,采用轨迹判别器,确定t时刻的判别数据;
根据t时刻的预测隐状态、t时刻的真实隐状态及t时刻的判别数据,确定世界模型的目标函数,并基于世界模型的目标函数对世界模型进行迭代训练,以得到状态预测模型;
根据t时刻的预测隐状态,采用演员评论家模型,确定t时刻的预测动作;
基于能量机动理论和态势评估方法,根据t时刻的奖励,确定t时刻的融合奖励;
根据t时刻的判别数据及t时刻的融合奖励,确定演员评论家模型的目标函数,并基于演员评论家模型的目标函数对演员评论家模型进行迭代训练,以得到动作预测模型。
可选地,所述演员评论家模型包括演员模型及评论家模型;
根据t时刻的预测隐状态,采用演员评论家模型,确定t时刻的预测动作,具体包括:
根据t时刻的预测隐状态,采用评论家模型,确定预测状态价值;
根据预测状态价值,采用演员模型,确定t时刻的预测动作。
可选地,根据t时刻的判别数据及t时刻的融合奖励,确定演员评论家模型的目标函数,并基于演员评论家模型的目标函数对演员评论家模型进行迭代训练,具体包括:
根据t时刻的融合奖励,确定真实状态价值;
根据所述预测状态价值及所述真实状态价值,确定评论家模型的目标函数,并基于评论家模型的目标函数对评论家模型进行迭代训练,以得到训练好的评论家模型;
根据t时刻的判别数据及所述真实状态价值,确定演员模型的目标函数,并基于演员模型的目标函数对演员模型进行迭代训练,以得到训练好的演员模型。
可选地,基于能量机动理论和态势评估方法,根据t时刻的奖励,确定t时刻的融合奖励,具体包括:
基于能量机动理论和态势评估方法,确定t时刻的势函数;
根据t时刻的势函数及t时刻的奖励,确定t时刻的融合奖励。
可选地,采用以下公式,确定t时刻的融合奖励:
;
其中,为t时刻的融合奖励,rt为t时刻的奖励,Ft为t时刻的势函数。
为实现上述目的,本发明还提供了如下方案:
一种智能空战决策系统,包括:
数据获取单元,用于针对任一飞机,获取当前时刻所述飞机的观测数据、前一时刻所述飞机的隐状态及前一时刻所述飞机的动作;
决策单元,与所述数据获取单元连接,用于根据当前时刻所述飞机的观测数据、前一时刻所述飞机的隐状态及前一时刻所述飞机的动作,基于空战策略模型,确定当前时刻所述飞机的动作,以调整所述飞机的运行状态;所述空战策略模型为预先采用自博弈算法进行智能体联盟对抗训练得到的;所述空战策略模型包括状态预测模型及动作预测模型;所述状态预测模型为预先根据历史交互数据,基于轨迹判别器,对世界模型进行训练得到的;所述历史交互数据包括历史设定时段内飞机的观测数据、隐状态及动作;所述动作预测模型为预先基于融合奖励,根据历史设定时段内飞机的隐状态,对演员评论家模型进行训练得到的;所述状态预测模型用于根据当前时刻飞机的观测数据、前一时刻飞机的隐状态及前一时刻飞机的动作,确定当前时刻飞机的隐状态;所述演员评论家模型用于根据当前时刻飞机的隐状态,确定当前时刻飞机的动作。
为实现上述目的,本发明还提供了如下方案:
一种电子设备,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行上述的智能空战决策方法。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明根据当前时刻飞机的观测数据、前一时刻飞机的隐状态及前一时刻飞机的动作,基于空战策略模型,确定当前时刻飞机的动作,以调整飞机的运行状态;其中,空战策略模型为预先采用自博弈算法进行智能体联盟对抗训练得到的。通过自博弈方法进行策略优化,并引入智能体联盟进行对抗训练,增强空战策略的鲁棒性。空战策略模型包括状态预测模型及动作预测模型;状态预测模型为预先根据历史交互数据,基于轨迹判别器,对世界模型进行训练得到的。本发明在世界模型的基础上,通过引入轨迹判别器,使世界模型具有更好的时序动力学状态表征能力。动作预测模型为预先基于融合奖励,根据历史设定时段内飞机的隐状态,对演员评论家模型进行训练得到的。将塑造奖励与世界模型中的奖励模型相结合,引入塑造奖励解决了空战任务中奖励稀疏的问题,进而提高了空战策略的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的智能空战决策方法的流程图;
图2为融合塑造奖励的具有轨迹判别能力的世界模型的整体结构图;
图3为轨迹判别器的训练过程示意图;
图4为本发明提供的智能空战决策系统的示意图。
符号说明:
1-数据获取单元,2-决策单元。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种智能空战决策方法、系统及电子设备,通过学习更好的时序动力学状态表征,提高样本效率和性能。通过轨迹判别器对预测轨迹误差的感知,减小状态价值估计的误差,从而减小学习到的环境模型的误差对策略优化的影响。同时,引入塑造奖励解决空战任务中奖励稀疏的问题。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例一
如图1所示,本实施例提供了一种智能空战决策方法,包括:
步骤100:针对任一飞机,获取当前时刻所述飞机的观测数据、前一时刻所述飞机的隐状态及前一时刻所述飞机的动作。
作为一种具体地实施方式,所述飞机的观测数据包括位置及速度。所述飞机的动作为执行机构的操控量(如油门大小,拉杆量等)。
步骤200:根据当前时刻所述飞机的观测数据、前一时刻所述飞机的隐状态及前一时刻所述飞机的动作,基于空战策略模型,确定当前时刻所述飞机的动作,以调整所述飞机的运行状态。
所述空战策略模型为预先采用自博弈算法进行智能体联盟对抗训练得到的。
所述空战策略模型包括状态预测模型及动作预测模型。其中,状态预测模型为具有轨迹判别能力的世界模型。
所述状态预测模型为预先根据历史交互数据,基于轨迹判别器,对世界模型进行训练得到的。所述历史交互数据包括历史设定时段内飞机的观测数据、隐状态及动作。所述状态预测模型用于根据当前时刻飞机的观测数据、前一时刻飞机的隐状态及前一时刻飞机的动作,确定当前时刻飞机的隐状态。
所述动作预测模型为预先基于融合奖励,根据历史设定时段内飞机的隐状态,对演员评论家模型进行训练得到的。所述动作预测模型用于根据当前时刻飞机的隐状态,确定当前时刻飞机的动作。
进一步地,所述空战策略模型的训练过程包括:
(1)针对任一次智能体联盟对抗训练,根据t时刻的观测数据、t-1时刻的隐状态及t-1时刻的动作,采用世界模型,确定t时刻的预测隐状态及t时刻的奖励。t时刻为历史设定时段内的任一时刻。
(2)根据t时刻的观测数据、t-1时刻的隐状态及t-1时刻的动作,采用轨迹判别器,确定t时刻的判别数据。
(3)根据t时刻的预测隐状态、t时刻的真实隐状态及t时刻的判别数据,确定世界模型的目标函数,并基于世界模型的目标函数对世界模型进行迭代训练,以得到状态预测模型。
具有轨迹判别能力的世界模型通过过去与环境的交互获得的数据(当前时刻的观测数据o,动作a,奖励r,下一时刻的观测数据),将历史第1到第t时刻的观测数据o1:t和历史第1到第t-1时刻的动作a1:t-1编码为t时刻的隐状态st,并预测t时刻的奖励rt和t+1时刻的隐状态st+1。轨迹判别器编码轨迹/>,通过多层感知机后输出值,该值通过判别损失进行优化。状态预测模型的结构如图2所示。
具体地,具有轨迹判别能力的世界模型包括:
表征模块:;
;
转移模块:;
观测模块:;
奖励模块:;
判别模块:;
其中,为世界模型的参数,st-1为t-1时刻的隐状态,at-1为t-1时刻的动作,ot为t时刻的观测数据,bt为t时刻的中间状态,rt为t时刻的奖励,zt为t时刻的判别数据。
将具有轨迹判别能力的世界模型视为一个端到端的模型,轨迹判别器与表征模型共享特征提取器。在生成虚假轨迹的过程中,会随机添加动作噪声或者将真实轨迹中的观测数据替换为其他时刻的观测数据,以使轨迹偏离正确的轨迹,如图3所示,图3中,为生成虚假轨迹时添加噪声后的动作,/>为生成虚假轨迹时添加噪声后的观测数据。
为了训练轨迹判别器,使用Wasserstein度量来计算判别损失,并最小化目标函数:
;
其中,为判别损失,/>为真实轨迹,/>为任一虚假轨迹,/>为手工生成的虚假轨迹,D()为轨迹判别器。
世界模型的目标函数为:
;
其中,为世界模型的目标函数值,/>为世界模型预测的想象轨迹(通过隐状态确定),DKL为KL散度,/>为KL散度DKL的权重。
综上,具有轨迹判别能力的世界模型最大化目标函数为:
;
其中,为具有轨迹判别能力的世界模型的目标函数值。
(4)根据t时刻的预测隐状态,采用演员评论家模型,确定t时刻的预测动作。具体地,所述演员评论家模型包括演员模型及评论家模型。
在本实施例中,首先根据t时刻的预测隐状态,采用评论家模型,确定预测状态价值,再根据预测状态价值,采用演员模型,确定t时刻的预测动作。
本发明中,具有轨迹判别能力的世界模型使用演员-评论家方法来优化策略。在世界模型的隐空间中训练演员模型和评论家模型。其中,演员模型和评论家模型的目标函数分别用于优化预测轨迹的累积奖励和状态值估计误差的最小化。演员模型用于选择动作,评论家模型用于预测状态价值,即在隐状态st处的期望奖励。
演员模型为:;
评论家模型为:;
其中,at为t时刻的动作,为演员模型的参数,/>表示q()分布下/>的期望,H为预测轨迹的长度。
(5)基于能量机动理论和态势评估方法,根据t时刻的奖励,确定t时刻的融合奖励。
具有轨迹判别能力的世界模型除了在奖励模型上额外增加了一个塑造奖励函数F外,其他的结构与世界模型的结构一致。通过增加额外的塑造奖励既可以解决奖励稀疏的问题,又可以使得策略优化过程更加平稳。
具体地,基于能量机动理论和态势评估方法,确定t时刻的势函数。根据t时刻的势函数及t时刻的奖励,确定t时刻的融合奖励:
;
;
;
其中,为t时刻的融合奖励,rt为t时刻的奖励,Ft为t时刻的势函数,/>为势函数,需根据专家知识进行设计,/>为折扣因子。
本发明基于能量机动理论和态势评估方法设计了如下的势函数:
;
;
;
其中,TE(st)是评估对双方飞机相对能量的势函数,A(st)是评估双方飞机攻击态势的势函数,E表示我方飞机的能量,E=hp+v2/2g,hp为飞机高度,v为飞机速度,g为重力加速度,ET表示敌方飞机的能量,表示我方飞机的方位角,qe表示敌方飞机的进入角,Dis表示双方飞机的距离,Dmin表示最小攻击距离,/>和k为超参数。
(6)根据t时刻的判别数据及t时刻的融合奖励,确定演员评论家模型的目标函数,并基于演员评论家模型的目标函数对演员评论家模型进行迭代训练,以得到动作预测模型。
具体地,根据t时刻的融合奖励,确定真实状态价值。
通过最大化想象轨迹的累积奖励和最小化价值估计的误差来训练演员和评论家模型。演员模型的目标函数类似于Dreamer,即最大化基于模型的值扩展。因此,在策略下想象轨迹/>的状态价值估计可以通过以下公式计算:
;
h=min(x+k,t+H);
其中,为x时刻的真实状态价值,ai为i时刻的动作,si为i时刻的隐状态,表示转移模块,H为预测轨迹的长度,/>为指数加权因子,/>为折扣因子,ri为i时刻的奖励,/>为融合奖励的权重,Fi为i时刻的势函数。对于每个预测长度k,基于世界模型从时刻t到h-1进行展开计算累计折扣奖励,并使用/>估计预测长度k后的状态价值。为了平衡偏差和方差,使用指数加权平均估计不同k值的状态价值,指数加权因子由表示。
根据所述预测状态价值及所述真实状态价值,确定评论家模型的目标函数,并基于评论家模型的目标函数对评论家模型进行迭代训练,以得到训练好的评论家模型。
根据t时刻的判别数据及所述真实状态价值,确定演员模型的目标函数,并基于演员模型的目标函数对演员模型进行迭代训练,以得到训练好的演员模型。
由于无法学习到一个完美的世界模型,基于世界模型的想象轨迹必须存在一定的误差。为了稳定地优化策略,根据轨迹判别器的输出估计x时刻融合奖励的权重。这意味着其更加关注准确的想象轨迹,而对不好的轨迹关注度更低。在初始阶段,轨迹判别器的输出不可靠,因此简单地通过调整温度系数TC来控制权重,即/>,其中,zx为x时刻的判别数据。最终,演员网络和评论家网络的目标函数分别为:
;
;
其中,为演员模型的目标函数值,/>为评论家模型的目标函数值,/>为x时刻的真实状态价值,/>为x时刻的预测状态价值。
本发明采用自博弈算法进行智能体训练。自博弈算法是一种多智能体学习的方法,它使用一个算法与自身进行对抗,可以在不需要人类专家数据的情况下从自博弈中学习,并在实践中可以达到超人类水平。智能体联盟的方法使得智能体在联盟中进行对抗训练,从而提高性能来进一步优化策略。
智能体联盟中包括多个智能体,这些智能体包括在训练过程中保存下来的不同参数的模型,从而可以更加真实的模拟对手。由于在使用自博弈方法进行训练的过程中,对手也会随着训练不断变强,无法简单通过胜率或者累计的奖励来评估智能体的性能,因此使用Elo算法来评估智能体的性能。
在训练过程中,会以概率p从联盟中按每个智能体的Elo评分进行对手采样,以概率1-p从联盟中按照出场率进行对手采样。在每个阶段训练结束后,将最新的模型与联盟中的智能体进行测试,动态更新联盟中每个智能体的Elo评分。引入智能体联盟可以使对手更加多样,避免训练陷入策略循环导致无法收敛,并可以提高策略性能和鲁棒性。
本发明在世界模型的基础上,通过引入轨迹判别任务,使世界模型具有更好的时序动力学状态表征能力;利用训练得到的轨迹判别器来感知预测轨迹与真实轨迹的偏差,轨迹判别器与实际模型共用世界模型的特征提取部分,通过判别生成的虚假轨迹和真实轨迹来学习对时序动力学信息的表征。针对世界模型的累积预测误差对状态价值估计的不良影响,在策略优化过程中,将轨迹判别器的输出经过计算后作为状态价值估计的权重。基于能量机动理论和态势评估方法设计势函数,将基于势函数的塑造奖励与世界模型中的奖励模型相结合进行策略优化,解决了空战决策中奖励稀疏的问题。通过自博弈方法进行策略优化,并引入智能体联盟进行对抗训练,增强策略的鲁棒性,同时避免策略循环,最终通过Elo评分进行策略性能评估,解决了缺少专家数据的问题。
实施例二
为了执行上述实施例一对应的方法,以实现相应的功能和技术效果,下面提供一种智能空战决策系统。
如图4所示,本实施例提供的智能空战决策系统包括:数据获取单元1及决策单元2。
其中,数据获取单元1用于针对任一飞机,获取当前时刻所述飞机的观测数据、前一时刻所述飞机的隐状态及前一时刻所述飞机的动作。
决策单元2与所述数据获取单元1连接,决策单元2用于根据当前时刻所述飞机的观测数据、前一时刻所述飞机的隐状态及前一时刻所述飞机的动作,基于空战策略模型,确定当前时刻所述飞机的动作,以调整所述飞机的运行状态。
所述空战策略模型为预先采用自博弈算法进行智能体联盟对抗训练得到的。所述空战策略模型包括状态预测模型及动作预测模型。所述状态预测模型为预先根据历史交互数据,基于轨迹判别器,对世界模型进行训练得到的。所述历史交互数据包括历史设定时段内飞机的观测数据、隐状态及动作。所述动作预测模型为预先基于融合奖励,根据历史设定时段内飞机的隐状态,对演员评论家模型进行训练得到的。所述状态预测模型用于根据当前时刻飞机的观测数据、前一时刻飞机的隐状态及前一时刻飞机的动作,确定当前时刻飞机的隐状态。所述演员评论家模型用于根据当前时刻飞机的隐状态,确定当前时刻飞机的动作。
相对于现有技术,本实施例提供的智能空战决策系统与实施例一提供的智能空战决策方法的有益效果相同,在此不再赘述。
实施例三
本实施例提供一种电子设备,包括存储器及处理器,存储器用于存储计算机程序,处理器运行计算机程序以使电子设备执行实施例一的智能空战决策方法。
可选地,上述电子设备可以是服务器。
另外,本发明实施例还提供一种计算机可读存储介质,其存储有计算机程序,该计算机程序被处理器执行时实现实施例一的智能空战决策方法。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (8)
1.一种智能空战决策方法,其特征在于,所述智能空战决策方法包括:
针对任一飞机,获取当前时刻所述飞机的观测数据、前一时刻所述飞机的隐状态及前一时刻所述飞机的动作;
根据当前时刻所述飞机的观测数据、前一时刻所述飞机的隐状态及前一时刻所述飞机的动作,基于空战策略模型,确定当前时刻所述飞机的动作,以调整所述飞机的运行状态;所述空战策略模型为预先采用自博弈算法进行智能体联盟对抗训练得到的;所述空战策略模型包括状态预测模型及动作预测模型;所述状态预测模型为预先根据历史交互数据,基于轨迹判别器,对世界模型进行训练得到的;所述历史交互数据包括历史设定时段内飞机的观测数据、隐状态及动作;所述动作预测模型为预先基于融合奖励,根据历史设定时段内飞机的隐状态,对演员评论家模型进行训练得到的;所述状态预测模型用于根据当前时刻飞机的观测数据、前一时刻飞机的隐状态及前一时刻飞机的动作,确定当前时刻飞机的隐状态;所述动作预测模型用于根据当前时刻飞机的隐状态,确定当前时刻飞机的动作;
所述空战策略模型的训练过程包括:
针对任一次智能体联盟对抗训练,根据t时刻的观测数据、t-1时刻的隐状态及t-1时刻的动作,采用世界模型,确定t时刻的预测隐状态及t时刻的奖励;t时刻为历史设定时段内的任一时刻;
根据t时刻的观测数据、t-1时刻的隐状态及t-1时刻的动作,采用轨迹判别器,确定t时刻的判别数据;
根据t时刻的预测隐状态、t时刻的真实隐状态及t时刻的判别数据,确定世界模型的目标函数,并基于世界模型的目标函数对世界模型进行迭代训练,以得到状态预测模型;
根据t时刻的预测隐状态,采用演员评论家模型,确定t时刻的预测动作;
基于能量机动理论和态势评估方法,根据t时刻的奖励,确定t时刻的融合奖励;
根据t时刻的判别数据及t时刻的融合奖励,确定演员评论家模型的目标函数,并基于演员评论家模型的目标函数对演员评论家模型进行迭代训练,以得到动作预测模型。
2.根据权利要求1所述的智能空战决策方法,其特征在于,所述飞机的观测数据包括位置及速度;所述飞机的动作为执行机构的操控量。
3.根据权利要求1所述的智能空战决策方法,其特征在于,所述演员评论家模型包括演员模型及评论家模型;
根据t时刻的预测隐状态,采用演员评论家模型,确定t时刻的预测动作,具体包括:
根据t时刻的预测隐状态,采用评论家模型,确定预测状态价值;
根据预测状态价值,采用演员模型,确定t时刻的预测动作。
4.根据权利要求3所述的智能空战决策方法,其特征在于,根据t时刻的判别数据及t时刻的融合奖励,确定演员评论家模型的目标函数,并基于演员评论家模型的目标函数对演员评论家模型进行迭代训练,具体包括:
根据t时刻的融合奖励,确定真实状态价值;
根据所述预测状态价值及所述真实状态价值,确定评论家模型的目标函数,并基于评论家模型的目标函数对评论家模型进行迭代训练,以得到训练好的评论家模型;
根据t时刻的判别数据及所述真实状态价值,确定演员模型的目标函数,并基于演员模型的目标函数对演员模型进行迭代训练,以得到训练好的演员模型。
5.根据权利要求1所述的智能空战决策方法,其特征在于,基于能量机动理论和态势评估方法,根据t时刻的奖励,确定t时刻的融合奖励,具体包括:
基于能量机动理论和态势评估方法,确定t时刻的势函数;
根据t时刻的势函数及t时刻的奖励,确定t时刻的融合奖励。
6.根据权利要求5所述的智能空战决策方法,其特征在于,采用以下公式,确定t时刻的融合奖励:
;
其中,为t时刻的融合奖励,r t 为t时刻的奖励,F t 为t时刻的势函数。
7.一种智能空战决策系统,应用于权利要求1至6任一项所述的智能空战决策方法,其特征在于,所述智能空战决策系统包括:
数据获取单元,用于针对任一飞机,获取当前时刻所述飞机的观测数据、前一时刻所述飞机的隐状态及前一时刻所述飞机的动作;
决策单元,与所述数据获取单元连接,用于根据当前时刻所述飞机的观测数据、前一时刻所述飞机的隐状态及前一时刻所述飞机的动作,基于空战策略模型,确定当前时刻所述飞机的动作,以调整所述飞机的运行状态;所述空战策略模型为预先采用自博弈算法进行智能体联盟对抗训练得到的;所述空战策略模型包括状态预测模型及动作预测模型;所述状态预测模型为预先根据历史交互数据,基于轨迹判别器,对世界模型进行训练得到的;所述历史交互数据包括历史设定时段内飞机的观测数据、隐状态及动作;所述动作预测模型为预先基于融合奖励,根据历史设定时段内飞机的隐状态,对演员评论家模型进行训练得到的;所述状态预测模型用于根据当前时刻飞机的观测数据、前一时刻飞机的隐状态及前一时刻飞机的动作,确定当前时刻飞机的隐状态;所述演员评论家模型用于根据当前时刻飞机的隐状态,确定当前时刻飞机的动作。
8.一种电子设备,其特征在于,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行权利要求1至6中任一项所述的智能空战决策方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310889524.XA CN117556681B (zh) | 2023-07-20 | 2023-07-20 | 一种智能空战决策方法、系统及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310889524.XA CN117556681B (zh) | 2023-07-20 | 2023-07-20 | 一种智能空战决策方法、系统及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117556681A CN117556681A (zh) | 2024-02-13 |
CN117556681B true CN117556681B (zh) | 2024-03-29 |
Family
ID=89809940
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310889524.XA Active CN117556681B (zh) | 2023-07-20 | 2023-07-20 | 一种智能空战决策方法、系统及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117556681B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112947541A (zh) * | 2021-01-15 | 2021-06-11 | 南京航空航天大学 | 一种基于深度强化学习的无人机意图航迹预测方法 |
CN113625757A (zh) * | 2021-08-12 | 2021-11-09 | 中国电子科技集团公司第二十八研究所 | 一种基于强化学习和注意力机制的无人机群调度方法 |
CN115688268A (zh) * | 2022-10-14 | 2023-02-03 | 中国空气动力研究与发展中心空天技术研究所 | 一种飞行器近距空战态势评估自适应权重设计方法 |
CN115755956A (zh) * | 2022-11-03 | 2023-03-07 | 南京航空航天大学 | 一种知识与数据协同驱动的无人机机动决策方法与系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220036186A1 (en) * | 2020-07-30 | 2022-02-03 | Waymo Llc | Accelerated deep reinforcement learning of agent control policies |
-
2023
- 2023-07-20 CN CN202310889524.XA patent/CN117556681B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112947541A (zh) * | 2021-01-15 | 2021-06-11 | 南京航空航天大学 | 一种基于深度强化学习的无人机意图航迹预测方法 |
CN113625757A (zh) * | 2021-08-12 | 2021-11-09 | 中国电子科技集团公司第二十八研究所 | 一种基于强化学习和注意力机制的无人机群调度方法 |
CN115688268A (zh) * | 2022-10-14 | 2023-02-03 | 中国空气动力研究与发展中心空天技术研究所 | 一种飞行器近距空战态势评估自适应权重设计方法 |
CN115755956A (zh) * | 2022-11-03 | 2023-03-07 | 南京航空航天大学 | 一种知识与数据协同驱动的无人机机动决策方法与系统 |
Non-Patent Citations (2)
Title |
---|
基于隐马尔可夫模型的空战决策点理论研究;冯超;景小宁;李秋妮;姚鹏;;北京航空航天大学学报;20161118(第03期);全文 * |
战斗机嵌入式训练系统中的智能虚拟陪练;陈斌;王江;王阳;;航空学报;20191115(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117556681A (zh) | 2024-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112766561B (zh) | 一种基于注意力机制的生成式对抗轨迹预测方法 | |
CN110119844B (zh) | 引入情绪调控机制的机器人运动决策方法、系统、装置 | |
CN110235148B (zh) | 训练动作选择神经网络 | |
Yuan et al. | A novel GRU-RNN network model for dynamic path planning of mobile robot | |
CN113269363B (zh) | 一种高超声速飞行器的轨迹预测方法、系统、设备及介质 | |
Beliaev et al. | Imitation learning by estimating expertise of demonstrators | |
Khan et al. | A systematic review on reinforcement learning-based robotics within the last decade | |
Zeng et al. | A survey on causal reinforcement learning | |
CN117313029A (zh) | 一种基于卡尔曼滤波参数提取与状态更新的多传感器数据融合方法 | |
CN115374933A (zh) | 一种多节点探测器着陆行为智能规划及决策方法 | |
Hafez et al. | Efficient intrinsically motivated robotic grasping with learning-adaptive imagination in latent space | |
Xu et al. | Deep reinforcement learning with part-aware exploration bonus in video games | |
CN115938104A (zh) | 一种动态短时路网交通状态预测模型及预测方法 | |
CN117556681B (zh) | 一种智能空战决策方法、系统及电子设备 | |
CN113743603A (zh) | 控制方法、装置、存储介质及电子设备 | |
Montana et al. | Towards a unified framework for learning from observation | |
CN115906673A (zh) | 作战实体行为模型一体化建模方法及系统 | |
CN113139644B (zh) | 一种基于深度蒙特卡洛树搜索的信源导航方法及装置 | |
Ge et al. | Deep reinforcement learning navigation via decision transformer in autonomous driving | |
Hu et al. | An experience aggregative reinforcement learning with multi-attribute decision-making for obstacle avoidance of wheeled mobile robot | |
Zhang et al. | Stm-gail: Spatial-Temporal meta-gail for learning diverse human driving strategies | |
CN114970714B (zh) | 一种考虑移动目标不确定行为方式的轨迹预测方法及系统 | |
Manela | Deep reinforcement learning for complex manipulation tasks with sparse feedback | |
Yuwono et al. | Model Predictive Control with Adaptive PLC-based Policy on Low Dimensional State Representation for Industrial Applications | |
Arndt et al. | Domain curiosity: Learning efficient data collection strategies for domain adaptation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |