CN104484500A - 一种基于拟合强化学习的空战行为建模方法 - Google Patents

一种基于拟合强化学习的空战行为建模方法 Download PDF

Info

Publication number
CN104484500A
CN104484500A CN201410665956.3A CN201410665956A CN104484500A CN 104484500 A CN104484500 A CN 104484500A CN 201410665956 A CN201410665956 A CN 201410665956A CN 104484500 A CN104484500 A CN 104484500A
Authority
CN
China
Prior art keywords
action
aircraft
red
decision
making
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410665956.3A
Other languages
English (en)
Inventor
马耀飞
马小乐
宋晓
龚光红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201410665956.3A priority Critical patent/CN104484500A/zh
Publication of CN104484500A publication Critical patent/CN104484500A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出了一种基于拟合强化学习的空战行为建模方法,解决了虚拟空战仿真中战术动作的智能决策问题。本方法包含:对飞机作战过程的轨迹进行采样;在状态空间中对效用函数进行拟合,通过贝尔曼迭代和最小二乘法拟合对效用函数进行近似计算;作战决策,通过前瞻测试,在预测过程中采用所拟合的效用函数进行动作决策,根据预测的执行结果确定最终执行的动作。本发明方法可有效提高效用函数的拟合效率以及获取效率,相对传统方法,本发明方法能更快地获取最优行动策略。

Description

一种基于拟合强化学习的空战行为建模方法
技术领域
本发明属于计算机仿真技术领域,具体涉及一种用于飞机的空战智能决策任务的实现方法。
背景技术
随着无人机系统在现代战场中承担的任务越来越复杂,对无人机的智能决策水平的要求也越来越高;空战决策无疑是其中难度水平最高的任务之一。
强化学习技术是由学习对象通过“试错”的方式与行为环境进行交互,通过即时回报的累积来获取自身最优行动策略的一种方法。但在传统的强化学习过程中,为了使行动策略能够有效收敛,一种常用的处理方式是对状态空间各维度进行离散化,从而获取“有限”的基本状态单元;行动策略就是基于这些基本单元进行不断尝试,从而找到丛初始单元到目标单元的轨迹;最优策略是其中最短的。
但是,如果状态空间的维度较高,即时基本单元的数量是有限的,其数量规模也将达到很可观的水平;在这样的环境中,寻找最优策略的收敛过程将及其漫长。
发明内容
针对现有问题,本发明提供了一种基于拟合强化学习的空战行为建模方法,采用近似拟合的方法对空战决策问题求解,将近似的拟合方法应用到空战决策问题,以快速获得最优策略。
设红方飞机和蓝方飞机进行作战,本发明的基于拟合强化学习的空战行为建模方法,用于红方飞机,具体实现步骤如下:
步骤1:数据采样; 
采用轨迹采样法,对飞机作战过程的轨迹进行记录,获取采样点集合X;
步骤2:效用函数拟合;
采用适于连续状态空间函数的拟合方法拟合效用函数J(x),x为态势(或称状态);具体拟合方法为:首先,选取特征量描述空战状态空间,所有选取的特征量组成一个特征向量,用特征向量表示集合X中的每个状态x;然后,基于采样点集合X,使用贝尔曼迭代以及最小二乘法,进行效用函数的拟合;
步骤3:作战决策; 
对当前的状态x,采用前瞻测试对红方飞机的所有动作的执行后果进行预测,选取预测 结果最好的动作执行。所述的前瞻测试是一种虚拟执行的方法,以指定的动作开始虚拟推进作战过程,直到完成指定的回合数。前瞻测试的每个回合中红方飞机均采用步骤2得到的效用函数进行动作决策。
所述的步骤1进行数据采样的具体过程为:
● 建立红方、蓝方飞机,给定红、蓝双方的初始态势;
● 双方均采用式(1)定义的即时回报函数S(x),进行动作决策,展开空战。动作决策时,选取在当前态势下,使己方即时回报函数值最大、同时使对方即时回报函数值最小的动作。
S ( x ) = ( [ ( 1 - AA 180 ) + ( 1 - ATA 18 / 0 ) ] 2 ) e - ( | R - R d | 180 · k ) - - - ( 1 )
其中,AA表示脱离角,ATA表示进入角;R表示两架飞机之间的距离,Rd表示两架飞机之间的相对最佳距离;k是一个影响因子,单位是m/deg,用来调整距离和角度的相对影响。
● 对飞机交战的轨迹采样,形成双方轨迹集合X。
所述的步骤2中选取的特征量包括如下:
{ R , AA , A · A , | AA | , ATA , A T · A , | ATA | , HCA , | HCA | }
各特征量的具体含义为:
所述的步骤2中进行效用函数拟合时,具体如下:
设效用函数拟合时的循环次数为N,在第k轮循环中执行下面(2.1)和(2.2),k=1,2,…,N;
(2.1)获得蓝方飞机对于集合X决策的动作向量Ab
(2.2)获得红方飞机的动作向量Ar,以及当前循环下的优化效用
{ A r , J ~ k } = arg max { F } A = ar g max A { λ · J ~ k - 1 ( f ( X , A , A b ) ) + R ( f ( X , A , A b ) ) } - - - ( 2 )
β k = ( Φ T Φ ) - 1 Φ T · J ~ k - - - ( 3 )
J ^ k = Φ · β k - - - ( 4 )
其中,A为待选的红方飞机的动作向量,表示求取使得式F的值最大的A, 对应得到的最大F值为λ为折扣因子,0<λ<1;表示第k-1次循环得到的效用函数, R(X)为根据集合X得到的即时回报函数值向量;f(X,A,Ab)表示在状态X下,红方飞机动作向量为A、蓝方飞机动作向量为Ab的情况下到达的下一个状态向量;βk表示第k次循环中特征向量Φ的拟和系数;根据式(3)得到当前循环下的优化效用
第N次循环输出的为拟合得到的效用函数。
所述的步骤3进行前瞻测试时,对于红方飞机的每个待选动作ar,根据当前的状态x和蓝方飞机的决策动作,获得下一状态x′,然后从状态x′开始,预测Nroll个决策步长之后的未来状态每次决策时,红方飞机采用步骤2得到的效用函数进行动作决策。
对比各待选动作ar的未来状态选取其中后果最好的动作执行。对红方飞机的每个待选动作ar,预测Nroll个决策步长之后的未来状态选取使J值最大对应的动作作为最佳动作;
J = &lambda; &CenterDot; J ^ N ( x N roll ) + S ( x N roll ) - - - ( 5 )
其中,表示状态的效用,表示状态的即时回报。
本发明相对于现有技术,其优点和积极效果在于:
(1)本发明通过对历史交战轨迹采样,提高了采样效率;能够把空战过程中最可能访问的状态空间进行采样,增强了采样的合理性,使得后续效用函数拟合的效果更好;
(2)采用了适于连续状态空间函数的拟合方法,提高了效用函数的获取效率;通过前瞻测试评估飞机所有可能动作的执行后果,从而选取执行后果较好的动作执行;
(3)通过实验验证,相对传统方法,本发明提供的空战行为建模方法能更快地获取最优行动策略。
附图说明
图1是本发明的空战行为建模方法的流程示意图;
图2是基于采样的效用函数拟合方法的流程示意图;
图3是作战决策的前瞻测试方法的流程示意图;
图4是四种初始态势(进攻、中立、防御、对抗)示意图;
图5是以初态I(红方进攻)开始的作战过程示意图:红方采用本发明提出的方法,蓝方采用最大最小决策方法,红方4.5秒取胜;
图6是以初态II(红、蓝中立)开始的作战过程示意图:红方采用本发明提出的方法,蓝方采用最大最小决策方法,红方3秒钟取胜;
图7是以初态III(红方防御)开始的作战过程示意图:红方采用本发明提出的方法,蓝方采用最大最小决策方法,红方12秒钟取胜;
图8是以初态IV(红蓝面对面直接对抗)开始的作战过程示意图:红方采用本发明提出 的方法,蓝方采用最大最小决策方法,红方10.5秒钟取胜;
图9是以初态IV(红蓝面对面直接对抗)开始的作战过程示意:红、蓝双方均采用传统决策方法。
具体实施方式
下面将结合附图对本发明的实施过程作进一步说明。
本发明提出的一种基于拟合强化学习的空战行为建模方法,采用函数拟合的方法,对连续状态空间中的效用函数进行拟合,从而可快速获得最优策略。
如图1所示,本发明基于拟合强化学习的空战行为建模方法,包括三个步骤:步骤1:数据采样;步骤2:效用函数拟合;步骤3:作战决策。
步骤1:数据采样。 
数据采样的目的是为了获取空战状态空间中的有效点集,用于后续的效用函数拟合。数据采样的密度越高,效用函数的拟合效果越好。但是,考虑到计算时间的问题,采样样本必须满足两个条件:1)采样点应处于空战过程中访问概率较高的区间;2)数量不能过多。实验结果表明,105个采样点集合X能够比较好的满足实验要求。本发明采用了轨迹采样法,即通过记录历史空战过程满足以上采样条件,获得采样点集合。集合X为态势(或称状态)x的集合。
数据采样的具体过程为:
步骤101:交战过程仿真。
● 建立红方(假设为我方)、蓝方飞机,给定红、蓝双方的初始态势;
● 双方均采用式(1)定义的即时回报函数S(x),计算需要执行的动作,展开空战。以红方为例,在当前态势x下,选取使即时回报函数S(x)回报最大、同时使蓝方即时回报函数S(x)回报最小的动作u。蓝方亦如此决策。在式(1)中,脱离角AA和进入角ATA的最大幅度为180度;R和Rd是两架飞机之间的距离和相对最佳距离;k是一个影响因子(单位是m/deg),用来调整距离和角度的相对影响。
S ( x ) = ( [ ( 1 - AA 180 ) + ( 1 - ATA 18 / 0 ) ] 2 ) e - ( | R - R d | 180 &CenterDot; k ) - - - ( 1 )
本发明采用如式(1)所示的即时回报函数对飞机的作战态势进行评估。该回报函数的优点在于:可以在任意初始状态与目标状态之间建立平滑的过渡关系,从而更好地引导飞机从任意初始状态发现到达获胜的目标状态。
步骤102:对飞机交战的轨迹采样,记录双方轨迹集合X。
飞机作战过程由空战决策软件实现,如基于规则的决策软件。生成的交战轨迹可认为是 空战状态空间中到达概率较大的点集。这种采样方式能够把空战过程中最可能访问的状态空间进行采样,增强了采样的合理性,使后续效用函数拟合的效果更好。
步骤2:效用函数拟合。
效用函数J(x)是描述特定态势x效用的函数。在传统方法中,该效用由即时回报函数S(x)的长期积累得到。在本发明中,为了提高J(x)的获取效率,采用了适于连续状态空间函数的拟合方法。具体过程为:
步骤201:选取特征量描述空战状态空间。
选取特征量描述空战状态。特征量是对空战状态空间更直观的描述;选取合理的特征量将提高效用函数的拟合效果。特征量包括静态特征和动态特征两类。静态特征包括红、蓝双方的距离R、角度关系AA、ATA、HCA;动态特征包括描述了蓝方脱离角的变化率,以及红方进入角的变化率。考虑信息的完整性,特征量集合选择如下:
{ R , AA , A &CenterDot; A , | AA | , ATA , A T &CenterDot; A , | ATA | , HCA , | HCA | }
这些特征量的具体含义如表1所示。
表1 空战特征量
每个状态x为用上面所述的特征量集合表示的向量。
步骤202:效用函数拟合。
图2给出了基于采样点集合X,效用函数J(X)的拟合过程。 
本发明使用贝尔曼迭代以及最小二乘法方法,进行效用函数的拟合,设循环次数为N,每一轮的过程如下:
(1)获得蓝方飞机通过它的行动策略πmm(X)决策的动作向量Ab;对于集合X中的每个状态x都通过行动策略πmm(x)决策有一个动作ab
(2)获得基础之上的一次迭代优化效用以及红方飞机通过贝尔曼迭代得到的动 作向量Ar
{ A r , J ~ k } = arg max { F } A = ar g max A { &lambda; &CenterDot; J ~ k - 1 ( f ( X , A , A b ) ) + R ( f ( X , A , A b ) ) } - - - ( 2 )
&beta; k = ( &Phi; T &Phi; ) - 1 &Phi; T &CenterDot; J ~ k - - - ( 3 )
J ^ k = &Phi; &CenterDot; &beta; k - - - ( 4 )
对于集合X中的每个状态x及(1)中对应决策的蓝方飞机动作ab,计算有一个红方飞机动作,所有的红方飞机动作组成一个向量。设式子 表示求取使得式F的值最大的A,对应得到的最大F值为A为待选的红方动作向量;f(X,A,Ab)由函数f(x,ar,ab)计算得到;f(x,ar,ab)用于计算在状态x下,红方采取动作ar、蓝方采取动作ab的情况下到达的下一个状态x′。0<λ<1为折扣因子,确保在多次迭代后收敛,表示第k-1次循环得到的效用函数,其中S(X)为对集合X中的每个x根据式(1)计算得到的即时回报函数值的向量。使(2)式右侧取值最大的A记为Ar。βk表示第k次循环中特征向量的拟和系数。特征向量为Φ(X),上面式中简写为Φ。特征向量包含如表1所示的特征量,设Φ(X)={φ1(X),φ2(X),…φi(X),…φn(X)},n为特征量的个数,如表1所示n的值为9,φi(X)表示集合X中对应的第i个特征量对应的向量,i=1,2,…n。
循环N次输出就是最终拟合得到的效用函数J(x)。
步骤3:作战决策。本步骤对最终结果进行前瞻测试,即以指定的动作开始,虚拟推进作战过程,从而评估该动作的执行后果,只有后果较好的动作才最终被执行。
通过上个步骤得到拟合效用函数J(x)后,并不是通过它直接获取最优行动,而是采用前瞻测试的方法对所有可能的行动进行评估,具体过程如图3所示:
假设红方飞机根据拟合的效用函数J(x)进行决策。红方飞机将对每一个动作ar可能引起的后果进行预测。对每个ar,执行以下操作(3.1)~(3.3):
(3.1)根据当前状态x,红方飞机的行动ar,计算蓝方飞机通过它的行动策略πmm(x)决策的动作ab,并获得下一个状态x′:
x′=f(x,armm(x));
f(x,ar,ab)用于计算在状态x下,红方飞机采取动作ar、蓝方飞机采取动作ab=πmm(x)的情况下到达的下一个状态x′;
(3.2)从状态x′开始,预测Nroll个决策步长之后的未来状态,设预测Nroll个决策步长之后的未来状态为在每次决策中,红方飞机采用步骤2得到的效用函数进行动作决策,对于状态x,蓝方飞机的决策动作为πmm(x),红方飞机的决策动作为πappx(x)。Nroll个决策步长也就是进行Nroll次作战回合。
第1次决策中,x1=f(x0appx(x0),πmm(x0));其中,x0=x′;
第2次决策中,x2=f(x1appx(x1),πmm(x1));
第i次决策中,xi=f(xi-1appx(xi-1),πmm(xi-1));
第Nroll次决策中, x N roll = f ( x N roll - 1 , &pi; appx ( x N roll - 1 ) , &pi; mm ( x N roll - 1 ) ) .
(3.3)对未来状态估计它的即时回报和折扣效用之和J:
J = &lambda; &CenterDot; J ^ N ( x N roll ) + S ( x N roll )
若J大于当前记录的最大值Jbest,则更新Jbest=J,并将当前红方飞机的最佳行动abest为更新为当前的ar;否则,保持Jbest和abest不变。初始Jbest和abest均未空。
对红方飞机所有的待选动作ar遍历后,返回的abest就是红方飞机的最佳行动。
实施例
步骤1:进行数据采样。
步骤101:建立红、蓝双方飞机参与的交战仿真。其中,交战双方均采用一种传统的作战决策方法,称为最大最小方法。以红方为例,该方法的决策过程可描述为:对任何一个态势x选择使即时回报S(x)最大、同时使蓝方的即时回报最小的动作。蓝方也如此决策。采样结果如图5所示。
步骤102:记录交战仿真生成的交战轨迹,获得轨迹采样点集合。
步骤2:效用函数拟合。
步骤201:建立特征集合,如表1所示。
步骤202:进行效用函数的拟合,过程如图2所示。
步骤3:进行作战决策。
通过前瞻测试方法,得到最终行动,由飞机执行。
在实施的过程中,可将空战初始状态分为四种典型的初始态势(从红方视角):I进攻、II中立、III防御、IV对抗,如图4所示。在作战决策时,如表2所示设置四种初始态势:
表2 四种基本态势的初始设置
其中,x、y为位置,ψ为航行角;下标r和b分别代表红方和蓝方。决策性能的好坏用两个指标来衡量:a)获胜时间(TTW),获胜的定义为占据相对敌方有利位置并维持10s;b)累计被杀伤风险(APK),表示为被对方杀伤的概率累积值。TTW和APK越小,则表明决策效果越好。
对四种初始状态的每个都进行了作战决策测试,如图5~图8所示。在这些测试里,红方飞机(图中的my plane)均采用本发明提出的方法,而蓝方飞机(图中的enemy)均采用最 大最小方法。表3列出了两种决策方法下TTW和APK指标的统计结果。结果表明,采用本发明提出的方法,红方的进攻更有侵略性(APK值较大),但取胜的速度更快(TTW值较小)。
表3 采用不同决策方法时候的统计结果
图5是以红方进攻开始的作战过程示意,红方飞机4.5秒取胜。图6是以红、蓝中立开始的作战过程示意,红方飞机3秒钟取胜。图6左右两幅图分别为0-1.5s和1.5s-3s的作战过程。图7是以红方防御开始的作战过程示意,红方飞机12秒钟取胜。图7的四幅图分别为0-3s、3s-6s、6s-9s和9s-12s的作战过程。图8是以红蓝面对面直接对抗开始的作战过程示意,红方飞机10.5秒钟取胜。图8四幅图分别为0-2.5s、2.5s-5s、5s-7.5s以及7.5s-10.5s的作战过程。
为了进一步进行对比,图9对初始态势IV进行了重新决策,其中红蓝双方均采用最大最小决策方法。图9中的七幅图分为0-3s、3s-6s、6s-9s、9s-12s、12s-15s、15s-18s以及18s-23s的作战过程。可以看出,在这个过程中,红方飞机花费了较长时间(23秒)才最终取胜。这个对比结果说明了本发明提出方法是有效的,且能更快的获取最优行动策略。

Claims (5)

1.一种基于拟合强化学习的空战行为建模方法,用于作战的红方飞机,其特征在于,该空战行为建模方法包括如下三个步骤:
步骤1:数据采样;
采用轨迹采样法,对飞机作战过程的轨迹进行记录,获取采样点集合X;
步骤2:效用函数拟合;
首先,选取特征量描述空战状态空间,所有选取的特征量组成一个特征向量,用特征向量表示集合X中的每个状态x;然后,基于采样点集合X,使用贝尔曼迭代以及最小二乘法,进行效用函数的拟合;
设效用函数拟合时的循环次数为N,在第k轮循环中执行下面(2.1)和(2.2),k=1,2,…,N;
(2.1)获得蓝方飞机对于集合X决策的动作向量Ab
(2.2)获得红方飞机的动作向量Ar,以及当前循环下的优化效用
{ A r , J ~ k } = arg max A { F } = arg max A { &lambda; &CenterDot; J ~ k - 1 ( f ( X , A , A b ) ) + S ( f ( X , A , A b ) ) } - - - ( 1 )
&beta; k = ( &Phi; T &Phi; ) - 1 &Phi; T &CenterDot; J ~ k - - - ( 2 )
J ^ k = &Phi; &CenterDot; &beta; k - - - ( 3 )
其中,A为待选的红方飞机的动作向量,表示求取使得式F的值最大的A,对应得到的最大F值为λ为折扣因子,0<λ<1;表示第k-1次循环得到的效用函数,S(X)为根据集合X得到的即时回报函数值向量;f(X,A,Ab)表示在状态X下,红方飞机动作向量为A、蓝方飞机动作向量为Ab的情况下到达的下一个状态向量;βk表示第k次循环中特征向量Φ的拟和系数;根据式(3)得到当前循环下的优化效用
第N次循环输出的为拟合得到的效用函数;
步骤3:作战决策;
对当前的状态x,采用前瞻测试对红方飞机的所有待选动作的执行后果进行预测,选取预测结果最好的动作执行;所述的前瞻测试是一种虚拟执行的方法,以指定的动作开始虚拟推进作战过程,直到完成指定的回合数;前瞻测试的每个回合中红方飞机均采用步骤2得到的效用函数进行动作决策。
2.根据权利要求1所述的一种基于拟合强化学习的空战行为建模方法,其特征在于,所述的数据采样,具体过程为:
(1)首先,建立红方、蓝方飞机,给定红、蓝双方的初始状态;
(2)然后,双方均采用下面定义的即时回报函数S(x),进行动作决策,展开空战;在动作决策时,选取在当前状态x下,使己方即时回报函数值最大、同时使对方即时回报函数值最小的动作;
S ( x ) = ( [ ( 1 - AA 180 ) + ( 1 - ATA 180 ) ] 2 ) e - ( | R - R d | 180 &CenterDot; k ) - - - ( 4 )
其中,AA表示脱离角,ATA表示进入角;R表示两架飞机之间的距离,Rd表示两架飞机之间的相对最佳距离;k为影响因子,用来调整距离和角度的相对影响;
(3)对飞机交战的轨迹采样,形成采样点集合X。
3.根据权利要求1所述的一种基于拟合强化学习的空战行为建模方法,其特征在于,所述的步骤2中选取的特征量包括:两机之间的欧式距离R,脱离角AA,脱离角的变化率脱离角的绝对值|AA|,进入角ATA,进入角的变化率进入角的绝对值|ATA|,偏航角的偏差HCA,以及偏航角偏差的绝对值|HCA|。
4.根据权利要求1或3所述的一种基于拟合强化学习的空战行为建模方法,其特征在于,步骤3中所述的前瞻测试,对红方飞机的每个待选动作ar,根据当前的状态x和蓝方飞机的决策动作,获得下一状态x′,然后从状态x′开始,预测Nroll个决策步长之后的未来状态
5.根据权利要求4所述的一种基于拟合强化学习的空战行为建模方法,其特征在于,步骤3中所述的前瞻测试,对红方飞机的每个待选动作ar,预测Nroll个决策步长之后的未来状态选取使下式J值最大对应的动作作为最佳动作;
J = &lambda; &CenterDot; J ^ N ( x N roll ) + S ( x N roll ) - - - ( 5 )
其中,表示状态的效用,表示状态的即时回报。
CN201410665956.3A 2014-09-03 2014-11-19 一种基于拟合强化学习的空战行为建模方法 Pending CN104484500A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410665956.3A CN104484500A (zh) 2014-09-03 2014-11-19 一种基于拟合强化学习的空战行为建模方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN2014104461223 2014-09-03
CN201410446122 2014-09-03
CN201410665956.3A CN104484500A (zh) 2014-09-03 2014-11-19 一种基于拟合强化学习的空战行为建模方法

Publications (1)

Publication Number Publication Date
CN104484500A true CN104484500A (zh) 2015-04-01

Family

ID=52759041

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410665956.3A Pending CN104484500A (zh) 2014-09-03 2014-11-19 一种基于拟合强化学习的空战行为建模方法

Country Status (1)

Country Link
CN (1) CN104484500A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105678030A (zh) * 2016-03-03 2016-06-15 黄安祥 基于专家系统和战术战法分形化的空战战术团队仿真方法
CN106020215A (zh) * 2016-05-09 2016-10-12 北京航空航天大学 一种基于单步预测矩阵博弈的近距空战自主决策方法
CN106595671A (zh) * 2017-02-22 2017-04-26 南方科技大学 一种基于强化学习的无人机路径规划方法和装置
CN106952014A (zh) * 2017-02-10 2017-07-14 南京航空航天大学 一种基于军事仿真器的作战方案优化方法
CN107729696A (zh) * 2017-11-21 2018-02-23 中国运载火箭技术研究院 一种基于毁伤场或干扰场的lvc毁伤或干扰仿真方法及系统
CN108170158A (zh) * 2017-12-05 2018-06-15 中国科学院自动化研究所 基于数据驱动的无人机智能对抗控制方法
CN108287472A (zh) * 2017-12-20 2018-07-17 中国人民解放军海军大连舰艇学院 采用滚动时域框架的舰队防空决策与自动化调度系统与方法
CN109299491A (zh) * 2018-05-17 2019-02-01 西京学院 一种基于动态影响图对策的元模型建模方法及使用方法
KR102290251B1 (ko) * 2021-01-07 2021-08-20 국방과학연구소 항공기의 제어를 위한 학습 방법 및 학습 장치

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4926362A (en) * 1988-04-07 1990-05-15 The United States Of America As Represented By The Secretary Of The Air Force Airbase sortie generation analysis model (ABSGAM)
CN101132363A (zh) * 2007-08-10 2008-02-27 北京邮电大学 基于强化学习的自主联合无线资源管理系统和方法
CN103702387A (zh) * 2014-01-08 2014-04-02 重庆邮电大学 一种基于社会网络的车载自组织网络路由方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4926362A (en) * 1988-04-07 1990-05-15 The United States Of America As Represented By The Secretary Of The Air Force Airbase sortie generation analysis model (ABSGAM)
CN101132363A (zh) * 2007-08-10 2008-02-27 北京邮电大学 基于强化学习的自主联合无线资源管理系统和方法
CN103702387A (zh) * 2014-01-08 2014-04-02 重庆邮电大学 一种基于社会网络的车载自组织网络路由方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
XU AN 等: "Engagement Maneuvering Strategy of Air Combat Based on Fuzzy Markov Game Theory", 《CCIE,2011 IEEE 2ND INTERNATIONAL COMFERENCE》 *
韩月敏 等: "陆战Agent 学习机理模型研究", 《指挥控制与仿真》 *
马耀飞 等: "一种空战智能决策方法研究", 《PROCEEDINGS OF 2014 IEEE CHINESE GUIDANCE,NAVIGATION AND CONTROL CONFERENCE》 *
马耀飞 等: "基于强化学习的航空兵认知行为模型", 《北京航空航天大学学报》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105678030A (zh) * 2016-03-03 2016-06-15 黄安祥 基于专家系统和战术战法分形化的空战战术团队仿真方法
CN106020215B (zh) * 2016-05-09 2018-08-31 北京航空航天大学 一种基于单步预测矩阵博弈的近距空战自主决策方法
CN106020215A (zh) * 2016-05-09 2016-10-12 北京航空航天大学 一种基于单步预测矩阵博弈的近距空战自主决策方法
CN106952014A (zh) * 2017-02-10 2017-07-14 南京航空航天大学 一种基于军事仿真器的作战方案优化方法
CN106595671A (zh) * 2017-02-22 2017-04-26 南方科技大学 一种基于强化学习的无人机路径规划方法和装置
CN107729696A (zh) * 2017-11-21 2018-02-23 中国运载火箭技术研究院 一种基于毁伤场或干扰场的lvc毁伤或干扰仿真方法及系统
CN107729696B (zh) * 2017-11-21 2021-03-26 中国运载火箭技术研究院 一种基于毁伤场或干扰场的lvc毁伤或干扰仿真方法及系统
CN108170158B (zh) * 2017-12-05 2020-02-28 中国科学院自动化研究所 基于数据驱动的无人机智能对抗控制方法
CN108170158A (zh) * 2017-12-05 2018-06-15 中国科学院自动化研究所 基于数据驱动的无人机智能对抗控制方法
CN108287472A (zh) * 2017-12-20 2018-07-17 中国人民解放军海军大连舰艇学院 采用滚动时域框架的舰队防空决策与自动化调度系统与方法
CN108287472B (zh) * 2017-12-20 2021-11-16 中国人民解放军海军大连舰艇学院 采用滚动时域框架的舰队防空决策与自动化调度系统与方法
CN109299491A (zh) * 2018-05-17 2019-02-01 西京学院 一种基于动态影响图对策的元模型建模方法及使用方法
CN109299491B (zh) * 2018-05-17 2023-02-10 西京学院 一种基于动态影响图对策的元模型建模方法及使用方法
KR102290251B1 (ko) * 2021-01-07 2021-08-20 국방과학연구소 항공기의 제어를 위한 학습 방법 및 학습 장치

Similar Documents

Publication Publication Date Title
CN104484500A (zh) 一种基于拟合强化学习的空战行为建模方法
US11669110B2 (en) Control system based on multi-unmanned aerial vehicle cooperative strategic confrontation
WO2017014085A1 (ja) 航空機管理装置、航空機、及び航空機の軌道算出方法
CN105426970A (zh) 一种基于离散动态贝叶斯网络的气象威胁评估方法
CN108549402A (zh) 基于量子乌鸦群搜索机制的无人机群任务分配方法
CN108319132A (zh) 用于无人机空中对抗的决策系统及方法
CN112198892B (zh) 一种多无人机智能协同突防对抗方法
CN112800679B (zh) 一种光电装备防御规划方法、装置、设备及存储介质
CN112947541A (zh) 一种基于深度强化学习的无人机意图航迹预测方法
US11887485B2 (en) Control method and system for collaborative interception by multiple unmanned surface vessels
RU2585724C2 (ru) Устройство для оценки эффективности войск противовоздушной обороны оперативного уровня
CN105678030A (zh) 基于专家系统和战术战法分形化的空战战术团队仿真方法
CN112819303A (zh) 基于pce代理模型的飞行器追踪效能评估方法及系统
CN116360503A (zh) 一种无人机博弈对抗策略生成方法、系统及电子设备
Tang et al. A review of computational intelligence for StarCraft AI
Dantas et al. Engagement decision support for beyond visual range air combat
Kong et al. Hierarchical multi‐agent reinforcement learning for multi‐aircraft close‐range air combat
CN114638339A (zh) 基于深度强化学习的智能体任务分配方法
CN109299491B (zh) 一种基于动态影响图对策的元模型建模方法及使用方法
CN117648548A (zh) 基于离线-在线混合强化学习的智能决策方法和装置
Hong et al. Interoperation between engagement-and engineering-level models for effectiveness analyses
CN104898689B (zh) 一种区间信息条件下的多无人机目标分配决策方法
CN103853894A (zh) 基于rbf算法的诱饵弹延时投放时间精度计算方法
Wang et al. Research on naval air defense intelligent operations on deep reinforcement learning
CN115186378A (zh) 一种空战模拟环境中的战术控制距离实时解算方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150401

RJ01 Rejection of invention patent application after publication