CN115525058A - 一种基于深度强化学习的无人潜航器集群协同对抗方法 - Google Patents

一种基于深度强化学习的无人潜航器集群协同对抗方法 Download PDF

Info

Publication number
CN115525058A
CN115525058A CN202211300640.5A CN202211300640A CN115525058A CN 115525058 A CN115525058 A CN 115525058A CN 202211300640 A CN202211300640 A CN 202211300640A CN 115525058 A CN115525058 A CN 115525058A
Authority
CN
China
Prior art keywords
underwater vehicle
ith
enemy
neural network
unmanned
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211300640.5A
Other languages
English (en)
Other versions
CN115525058B (zh
Inventor
陈力恒
王龙才
吴昶懋
张勇刚
赵玉新
谈用杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN202211300640.5A priority Critical patent/CN115525058B/zh
Publication of CN115525058A publication Critical patent/CN115525058A/zh
Application granted granted Critical
Publication of CN115525058B publication Critical patent/CN115525058B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/04Control of altitude or depth
    • G05D1/06Rate of change of altitude or depth
    • G05D1/0692Rate of change of altitude or depth specially adapted for under-water vehicles
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明公开了一种基于深度强化学习的无人潜航器集群协同对抗方法,包括以下步骤:S1、设计无人潜航器集群协同对抗策略的动作空间、状态空间、观测空间与奖励函数;S2、设计每个无人潜航器的集中式评判模块;S3、设计每个无人潜航器的分布式执行模块;S4、每个无人潜航器通过自主学习得到协同对抗的最优动作。本发明采用上述基于深度强化学习的无人潜航器集群协同对抗方法,能够解决无人航器集群决策方法无法应对多约束、高动态的水下攻防对抗任务问题。

Description

一种基于深度强化学习的无人潜航器集群协同对抗方法
技术领域
本发明涉及无人潜航器决策技术领域,尤其是涉及一种基于深度强化学习的无人潜航器集群协同对抗方法。
背景技术
无人潜航器集群通过将各个单体潜航器联合在一起,从而形成一个可以合作执行任务的系统,在情报收集、侦查监视、协同作战等方面具有独特的优势。然而,由于水下攻防对抗态势随着时空不断演化,每个潜航器必须依据不断变化的态势和一定的准则调整自己的策略,进行己方个体之间的协同合作,并与对方进行博弈。因此,无人潜航器集群的协同决策技术能够提高无人潜航器在高强度海战场上的自适应能力,对于改善复杂动态环境中无人潜航器集群的智能化作战水平有着重要的意义。
目前,水下攻防对抗过程中往往采用以几何关系作为尺度的无人潜航器集群构建逻辑。然而,由于无人潜航器集群博弈对抗过程具有个体与群体交叉耦合、敌我双方攻防策略多样等特点,这种较为固定的作战方法的在面向高强度的协同对抗任务时存在灵活性不足,智能化程度低的问题。另一方面,在传统的博弈对抗攻防问题中,往往通过求解哈密顿-雅克比方程得到微分博弈问题的最优策略解析解。然而在无人潜航器集群协同攻防问题中,由于敌我双方的数量较多,攻防态势复杂且状态空间维数高,传统方法难以求得最优解。目前,我国的无人潜航器集群对抗决策技术的研究结果比较鲜见,相关的研究仍然较少。
发明内容
本发明的目的是提供一种基于深度强化学习的无人潜航器集群协同对抗方法,利用集中式评判和分布式执行的算法结构,使得无人潜航器集群在训练过程具备较强的自主学习能力,并通过与环境的不断交互得到各潜航器的最优动作,保证协同对抗过程中无人潜航器的动态适应能力;解决无人航器集群决策方法无法应对多约束、高动态的水下攻防对抗任务问题。
为实现上述目的,本发明提供了一种基于深度强化学习的无人潜航器集群协同对抗方法,包括以下步骤:
S1、设计无人潜航器集群协同对抗策略的动作空间、状态空间、观测空间与奖励函数;
S2、设计每个无人潜航器的集中式评判模块;
S3、设计每个无人潜航器的分布式执行模块;
S4、每个无人潜航器通过自主学习得到协同对抗的最优动作。
进一步地,所述步骤S1的具体步骤为:
S11、确定我方潜航器集群的潜航器个数n,敌方舰艇的个数m;
S12、确定潜航器集群的联合动作空间为A=[a1,a2,…an],第i个潜航器的动作ai=[vxi,vyi],vxi为第i个潜航器航速在水平面x轴上的投影,vyi为潜航器航速在水平面y轴上的投影;
S13、确定潜航器集群的联合状态空间为S=[s1,s2,…sn],si为第i个潜航器状态si=[xi,yi,vxi,vyi],xi为第i个潜航器在水平面x轴上的坐标,yi为第i个潜航器在水平面y轴上的坐标;
S14、确定潜航器集群的联合观测空间为O=[o1,o2,…on],第i个潜航器状态oi=[xi-bx1,xi-bx2,…xi-bxm,yi-by1,yi-by2,…yi-bym,vxi-bvx1,vxi-bvx2,…vxi-bvxm,vyi-bvy1,vyi-bvy2,…vyi-bvym],bxj为敌方第j个舰艇水平面x轴上的坐标,byj为敌方第j个舰艇水平面y轴上的坐标,bvxj为敌方第j个舰艇的航速在水平面x轴上的投影,bvyj为敌方第j个舰艇的航速在水平面y轴上的投影;
S15、确定潜航器集群的联合奖励函数为R=[r1,r2,…rn],ri为第i个潜航器的奖励函数,根据潜航器集群协同对抗过程中需要避开敌方舰艇的拦截,实现对敌方主艇的打击任务,计算第i个潜航器距离敌方第j个舰艇的距离distij为:distij=[(xi-bxj)2+(yi-byj)2]1/2,i=1,2…,n,j=1,2,…,m,将需要打击的敌方主艇标号定义为第m个;给定无人潜航器的有效打击的距离为shoot res,敌方舰艇有效打击的距离为warning_res,则ri的设计如下:如果distim<shoot_res即敌方主艇进入第i个潜航器的打击范围时,表明第i个潜航器突破了敌方舰艇的拦截,成功执行了攻击敌方主艇的任务,此时第i个潜航器的奖励函数ri=3/distim;如果distij<warning_res,i=1,2,…,n,j=1,2,…,m-1,即第i个潜航器进入敌方第j个舰艇的拦截范围时,认为该潜航器被拦截,执行攻击敌方主艇的任务失败,此时设计第i个潜航器的奖励函数ri=-2;否则第i个潜航器的奖励函数ri=1/distim,即当潜航器越接近敌方主艇,奖励函数ri越大,以此引导第i个潜航器接近敌方主艇。
进一步地,所述S2具体为:
每个无人潜航器的集中式评判模块输入为每一时刻所有潜航器的全局观测值O与所有潜航器的动作A,输出为该潜航器对整体态势的评判;
集中式评判模块包括评判神经网络和评判目标神经网络,这两个神经网络为3层全连接神经网络,隐含层神经元个数为64个,激活函数为线性整流函数;评判神经网络用来拟合当前时刻的第i个潜航器的状态-动作值函数Qi(O,A);评判目标神经网络拟合下一时刻的该潜航器的状态-动作值函数Qmi(O’,A’),O’为下一时刻的全局观测值,A’为下一时刻的所有潜航器的动作;
第i个潜航器的目标值表示为
yi=ri+γQmi(O',A')
其中,γ∈(0,1)为给定的折扣因子;使用随机梯度下降法最小化损失函数Lii)=(yi-Qi(O,A))2更新该潜航器的评判神经网络参数ωi,评判目标神经网络参数则更新为ωi'=τωi+(1-τ)ωi',τ∈(0,1)为给定的更新权重。
进一步地,所述步骤S3具体为:
潜航器在执行对抗任务时仅依赖于自身的观测信息进行分布式决策;
每个潜航器分布式模块包含策略神经网络和策略目标神经网络组成;策略神经网络用来拟合策略函数ai=ui(oi),即输入第i个潜航器局部观测信息oi,策略神经网络输出自身的动作ai;策略目标神经网络用来拟合下一时刻策略函数ai'=ui'(oi'),即输入下一时刻第i个潜航器局部观测信息oi',策略目标神经网络输出下一时刻自身的动作ai';这两个神经网络为3层全连接神经网络,隐含层神经元个数为64个,激活函数为线性整流函数;
基于策略梯度更新第i个潜航器的策略神经网参数ωui
Figure BDA0003904115930000041
J(ωui)为第i个潜航器累积总回报的策略优化目标函数,策略目标神经网络的参数ω'ui更新为ω'ui=τωui+(1-τ)ω'ui
进一步地,所述步骤S4具体步骤为:
S41、设定训练最大回合,并初始化每个潜航器的集中式评判模块和分布式执行模块中的各神经网络参数;
S42、第i个潜航器根据将自己的观测值oi代入到分布式执行模块中得到动作ai,i=1,2,…,n;
S43、第i个潜航器执行动作ai得到下一时刻的观测值oi'与奖励值ri,i=1,2,…,n;
S44、将<ai,oi,oi',ri>存储到缓存池中,并更新集中式评判模块和分布式执行模块中的各神经网络参数,i=1,2,…,n;
S45、重复步骤S42-S44直至收敛或训练次数到达设定的最大训练回合数。
本发明所述的一种基于深度强化学习的无人潜航器集群协同对抗方法的优点和积极效果是:
1、本发明设计了对应的观测空间、状态空间、动作空间与奖惩函数,用来引导无人潜航器集群进行策略学习,并利用集中式评判训练和分布式执行结构实现了无人潜航器的分布式决策。该方法保证无人潜航器集群能够根据战场态势变化进行自主决策,实现无人潜航器之间协同合作并与对方进行对抗,弥补了传统的无人潜航器集群构建方法灵活性不足,难以应对水下高强度的协同对抗任务的问题,提高了无人潜航器集群的智能化水平。
2、本发明通过无人潜航器集群的训练过程进行协同对抗策略的学习,并在与环境的不断交互过程中演化出每个潜航器最优的行为动作,避免了传统无人潜航器集群博弈对抗问题中存在的状态维数高,难以求得最优策略解析解的问题。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明一种基于深度强化学习的无人潜航器集群协同对抗方法实施例的流程图;
图2为本发明一种基于深度强化学习的无人潜航器集群协同对抗方法实施例的对抗过程中无人潜航器运动轨迹(实线)与敌方舰艇轨迹(虚线)示意图。
具体实施方式
以下通过附图和实施例对本发明的技术方案作进一步说明。
实施例
图1为本发明一种基于深度强化学习的无人潜航器集群协同对抗方法实施例的流程图。如图所示,一种基于深度强化学习的无人潜航器集群协同对抗方法,包括以下步骤:
S1、设计无人潜航器集群协同对抗策略的动作空间、状态空间、观测空间与奖励函数。
步骤S1的具体步骤为:
S11、确定我方潜航器集群的潜航器个数n,n=3,敌方舰艇的个数m,m=3。
S12、确定潜航器集群的联合动作空间为A=[a1,a2,…an],第i个潜航器的动作ai=[vxi,vyi],vxi为第i个潜航器航速在水平面x轴上的投影,vyi为潜航器航速在水平面y轴上的投影。
S13、确定潜航器集群的联合状态空间为S=[s1,s2,…sn],si为第i个潜航器状态si=[xi,yi,vxi,vyi],xi为第i个潜航器在水平面x轴上的坐标,yi为第i个潜航器在水平面y轴上的坐标。
S14、确定潜航器集群的联合观测空间为O=[o1,o2,…on],第i个潜航器状态oi=[xi-bx1,xi-bx2,…xi-bxm,yi-by1,yi-by2,…yi-bym,vxi-bvx1,vxi-bvx2,…vxi-bvxm,vyi-bvy1,vyi-bvy2,…vyi-bvym],bxj为敌方第j个舰艇水平面x轴上的坐标,byj为敌方第j个舰艇水平面y轴上的坐标,bvxj为敌方第j个舰艇的航速在水平面x轴上的投影,bvyj为敌方第j个舰艇的航速在水平面y轴上的投影。
S15、确定潜航器集群的联合奖励函数为R=[r1,r2,…rn],ri为第i个潜航器的奖励函数,根据潜航器集群协同对抗过程中需要避开敌方舰艇的拦截,实现对敌方主艇的打击任务,计算第i个潜航器距离敌方第j个舰艇的距离distij为:distij=[(xi-bxj)2+(yi-byj)2]1/2,i=1,2…,n,j=1,2,…,m,将需要打击的敌方主艇标号定义为第m=3个;给定无人潜航器的有效打击的距离为shoot res=4km,敌方舰艇有效打击的距离为warning_res=1km,则ri的设计如下:如果distim<shoot_res即敌方主艇进入第i个潜航器的打击范围时,表明第i个潜航器突破了敌方舰艇的拦截,成功执行了攻击敌方主艇的任务,此时第i个潜航器的奖励函数ri=3/distim;如果distij<warning_res,i=1,2,…,n,j=1,2,…,m-1,即第i个潜航器进入敌方第j个舰艇的拦截范围时,认为该潜航器被拦截,执行攻击敌方主艇的任务失败,此时设计第i个潜航器的奖励函数ri=-2;否则第i个潜航器的奖励函数ri=1/distim,即当潜航器越接近敌方主艇,奖励函数ri越大,以此引导第i个潜航器接近敌方主艇。
S2、设计每个无人潜航器的集中式评判模块。
S2具体为:
每个无人潜航器的集中式评判模块输入为每一时刻所有潜航器的全局观测值O与所有潜航器的动作A,输出为该潜航器对整体态势的评判。
集中式评判模块包括评判神经网络和评判目标神经网络,这两个神经网络为3层全连接神经网络,隐含层神经元个数为64个,激活函数为线性整流函数。评判神经网络用来拟合当前时刻的第i个潜航器的状态-动作值函数Qi(O,A);评判目标神经网络拟合下一时刻的该潜航器的状态-动作值函数Qmi(O’,A’),O’为下一时刻的全局观测值,A’为下一时刻的所有潜航器的动作。
第i个潜航器的目标值表示为
yi=ri+γQmi(O',A')
其中,γ=0.999∈(0,1)为给定的折扣因子。在设计过程中,使用随机梯度下降法最小化损失函数Lii)=(yi-Qi(O,A))2更新该潜航器的评判神经网络参数ωi,评判目标神经网络参数则更新为ωi'=τωi+(1-τ)ωi',τ=0.003∈(0,1)为给定的更新权重。
S3、设计每个无人潜航器的分布式执行模块。
步骤S3具体为:
潜航器在执行对抗任务时仅依赖于自身的观测信息进行分布式决策。
每个潜航器分布式模块包含策略神经网络和策略目标神经网络组成。策略神经网络用来拟合策略函数ai=ui(oi),即输入第i个潜航器局部观测信息oi,策略神经网络输出自身的动作ai;策略目标神经网络用来拟合下一时刻策略函数ai'=ui'(oi'),即输入下一时刻第i个潜航器局部观测信息oi',策略目标神经网络输出下一时刻自身的动作ai';这两个神经网络为3层全连接神经网络,隐含层神经元个数为64个,激活函数为线性整流函数。
基于策略梯度更新第i个潜航器的策略神经网参数ωui
Figure BDA0003904115930000081
J(ωui)为第i个潜航器累积总回报的策略优化目标函数。策略目标神经网络的参数ω'ui更新为ω'ui=τωui+(1-τ)ω'ui,τ=0.003。
S4、每个无人潜航器通过自主学习得到协同对抗的最优动作。
步骤S4具体步骤为:
S41、设定训练最大回合为50000回合,并初始化每个潜航器的集中式评判模块和分布式执行模块中的各神经网络参数;
S42、第i个潜航器根据将自己的观测值oi代入到分布式执行模块中得到动作ai,i=1,2,3;
S43、第i个潜航器执行动作ai得到下一时刻的观测值oi'与奖励值ri,i=1,2,3;
S44、将<ai,oi,oi',ri>存储到缓存池中,并更新集中式评判模块和分布式执行模块中的各神经网络参数,i=1,2,3;
S45、重复步骤S42-S44直至收敛或训练次数到达设定的最大训练回合数。
图2为本发明一种基于深度强化学习的无人潜航器集群协同对抗方法实施例的对抗过程中无人潜航器运动轨迹(实线)与敌方舰艇轨迹(虚线)示意图。如图所示,从仿真结果可以得出,在敌我双方攻防态势不断变化的过程,本发明可以有效实现无人潜航器集群的协同自主决策,并且在与敌方对抗过程中有效避开了敌方舰艇拦截,完成对敌方主艇的打击任务。
因此,本发明采用上述基于深度强化学习的无人潜航器集群协同对抗方法,能够解决无人航器集群决策方法无法应对多约束、高动态的水下攻防对抗任务问题。
最后应说明的是:以上实施例仅用以说明本发明的技术方案而非对其进行限制,尽管参照较佳实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对本发明的技术方案进行修改或者等同替换,而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

Claims (5)

1.一种基于深度强化学习的无人潜航器集群协同对抗方法,其特征在于,包括以下步骤:
S1、设计无人潜航器集群协同对抗策略的动作空间、状态空间、观测空间与奖励函数;
S2、设计每个无人潜航器的集中式评判模块;
S3、设计每个无人潜航器的分布式执行模块;
S4、每个无人潜航器通过自主学习得到协同对抗的最优动作。
2.根据权利要求1所述的一种基于深度强化学习的无人潜航器集群协同对抗方法,其特征在于,所述步骤S1的具体步骤为:
S11、确定我方潜航器集群的潜航器个数n,敌方舰艇的个数m;
S12、确定潜航器集群的联合动作空间为A=[a1,a2,…an],第i个潜航器的动作ai=[vxi,vyi],vxi为第i个潜航器航速在水平面x轴上的投影,vyi为潜航器航速在水平面y轴上的投影;
S13、确定潜航器集群的联合状态空间为S=[s1,s2,…sn],si为第i个潜航器状态si=[xi,yi,vxi,vyi],xi为第i个潜航器在水平面x轴上的坐标,yi为第i个潜航器在水平面y轴上的坐标;
S14、确定潜航器集群的联合观测空间为O=[o1,o2,…on],第i个潜航器状态oi=[xi-bx1,xi-bx2,…xi-bxm,yi-by1,yi-by2,…yi-bym,vxi-bvx1,vxi-bvx2,…vxi-bvxm,vyi-bvy1,vyi-bvy2,…vyi-bvym],bxj为敌方第j个舰艇水平面x轴上的坐标,byj为敌方第j个舰艇水平面y轴上的坐标,bvxj为敌方第j个舰艇的航速在水平面x轴上的投影,bvyj为敌方第j个舰艇的航速在水平面y轴上的投影;
S15、确定潜航器集群的联合奖励函数为R=[r1,r2,…rn],ri为第i个潜航器的奖励函数,根据潜航器集群协同对抗过程中需要避开敌方舰艇的拦截,实现对敌方主艇的打击任务,计算第i个潜航器距离敌方第j个舰艇的距离distij为:distij=[(xi-bxj)2+(yi-byj)2]1/2,i=1,2…,n,j=1,2,…,m,将需要打击的敌方主艇标号定义为第m个;给定无人潜航器的有效打击的距离为shoot res,敌方舰艇有效打击的距离为warning_res,则ri的设计如下:如果distim<shoot_res即敌方主艇进入第i个潜航器的打击范围时,表明第i个潜航器突破了敌方舰艇的拦截,成功执行了攻击敌方主艇的任务,此时第i个潜航器的奖励函数ri=3/distim;如果distij<warning_res,i=1,2,…,n,j=1,2,…,m-1,即第i个潜航器进入敌方第j个舰艇的拦截范围时,认为该潜航器被拦截,执行攻击敌方主艇的任务失败,此时设计第i个潜航器的奖励函数ri=-2;否则第i个潜航器的奖励函数ri=1/distim,即当潜航器越接近敌方主艇,奖励函数ri越大,以此引导第i个潜航器接近敌方主艇。
3.根据权利要求2所述的一种基于深度强化学习的无人潜航器集群协同对抗方法,其特征在于,所述S2具体为:
每个无人潜航器的集中式评判模块输入为每一时刻所有潜航器的全局观测值O与所有潜航器的动作A,输出为该潜航器对整体态势的评判;
集中式评判模块包括评判神经网络和评判目标神经网络,这两个神经网络为3层全连接神经网络,隐含层神经元个数为64个,激活函数为线性整流函数;评判神经网络用来拟合当前时刻的第i个潜航器的状态-动作值函数Qi(O,A);评判目标神经网络拟合下一时刻的该潜航器的状态-动作值函数Qmi(O’,A’),O’为下一时刻的全局观测值,A’为下一时刻的所有潜航器的动作;
第i个潜航器的目标值表示为
yi=ri+γQmi(O',A')
其中,γ∈(0,1)为给定的折扣因子;使用随机梯度下降法最小化损失函数Lii)=(yi-Qi(O,A))2更新该潜航器的评判神经网络参数ωi,评判目标神经网络参数则更新为ωi'=τωi+(1-τ)ωi',τ∈(0,1)为给定的更新权重。
4.根据权利要求3所述的一种基于深度强化学习的无人潜航器集群协同对抗方法,其特征在于,所述步骤S3具体为:
潜航器在执行对抗任务时仅依赖于自身的观测信息进行分布式决策;
每个潜航器分布式模块包含策略神经网络和策略目标神经网络组成;策略神经网络用来拟合策略函数ai=ui(oi),即输入第i个潜航器局部观测信息oi,策略神经网络输出自身的动作ai;策略目标神经网络用来拟合下一时刻策略函数ai'=ui'(oi'),即输入下一时刻第i个潜航器局部观测信息oi',策略目标神经网络输出下一时刻自身的动作ai';这两个神经网络为3层全连接神经网络,隐含层神经元个数为64个,激活函数为线性整流函数;
基于策略梯度更新第i个潜航器的策略神经网参数ωui
Figure FDA0003904115920000031
J(ωui)为第i个潜航器累积总回报的策略优化目标函数,策略目标神经网络的参数ω'ui更新为ω'ui=τωui+(1-τ)ω'ui
5.根据权利要求4所述的一种基于深度强化学习的无人潜航器集群协同对抗方法,其特征在于,所述步骤S4具体步骤为:
S41、设定训练最大回合,并初始化每个潜航器的集中式评判模块和分布式执行模块中的各神经网络参数;
S42、第i个潜航器根据将自己的观测值oi代入到分布式执行模块中得到动作ai,i=1,2,…,n;
S43、第i个潜航器执行动作ai得到下一时刻的观测值oi'与奖励值ri,i=1,2,…,n;
S44、将<ai,oi,oi',ri>存储到缓存池中,并更新集中式评判模块和分布式执行模块中的各神经网络参数,i=1,2,…,n;
S45、重复步骤S42-S44直至收敛或训练次数到达设定的最大训练回合数。
CN202211300640.5A 2022-10-24 2022-10-24 一种基于深度强化学习的无人潜航器集群协同对抗方法 Active CN115525058B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211300640.5A CN115525058B (zh) 2022-10-24 2022-10-24 一种基于深度强化学习的无人潜航器集群协同对抗方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211300640.5A CN115525058B (zh) 2022-10-24 2022-10-24 一种基于深度强化学习的无人潜航器集群协同对抗方法

Publications (2)

Publication Number Publication Date
CN115525058A true CN115525058A (zh) 2022-12-27
CN115525058B CN115525058B (zh) 2023-05-16

Family

ID=84704194

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211300640.5A Active CN115525058B (zh) 2022-10-24 2022-10-24 一种基于深度强化学习的无人潜航器集群协同对抗方法

Country Status (1)

Country Link
CN (1) CN115525058B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116166034A (zh) * 2023-04-25 2023-05-26 清华大学 跨域协同围捕方法、装置及系统
CN117313972A (zh) * 2023-09-28 2023-12-29 烟台大学 一种无人艇集群的攻击方法、系统、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110144836A1 (en) * 2009-12-11 2011-06-16 Lockheed Martin Corporation, Corporation of the State of Delaware Underwater investigation system providing unmanned underwater vehicle (uuv) guidance based upon updated position state estimates and related methods
CN113495578A (zh) * 2021-09-07 2021-10-12 南京航空航天大学 一种基于数字孪生式训练的集群航迹规划强化学习方法
CN113900445A (zh) * 2021-10-13 2022-01-07 厦门渊亭信息科技有限公司 基于多智能体强化学习的无人机协同控制训练方法及系统
CN114721424A (zh) * 2022-03-18 2022-07-08 中国人民解放军国防科技大学 一种多无人机协同对抗方法、系统以及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110144836A1 (en) * 2009-12-11 2011-06-16 Lockheed Martin Corporation, Corporation of the State of Delaware Underwater investigation system providing unmanned underwater vehicle (uuv) guidance based upon updated position state estimates and related methods
CN113495578A (zh) * 2021-09-07 2021-10-12 南京航空航天大学 一种基于数字孪生式训练的集群航迹规划强化学习方法
CN113900445A (zh) * 2021-10-13 2022-01-07 厦门渊亭信息科技有限公司 基于多智能体强化学习的无人机协同控制训练方法及系统
CN114721424A (zh) * 2022-03-18 2022-07-08 中国人民解放军国防科技大学 一种多无人机协同对抗方法、系统以及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116166034A (zh) * 2023-04-25 2023-05-26 清华大学 跨域协同围捕方法、装置及系统
CN117313972A (zh) * 2023-09-28 2023-12-29 烟台大学 一种无人艇集群的攻击方法、系统、装置及存储介质
CN117313972B (zh) * 2023-09-28 2024-04-12 烟台大学 一种无人艇集群的攻击方法、系统、装置及存储介质

Also Published As

Publication number Publication date
CN115525058B (zh) 2023-05-16

Similar Documents

Publication Publication Date Title
CN115525058A (zh) 一种基于深度强化学习的无人潜航器集群协同对抗方法
CN105302153B (zh) 异构多无人机协同察打任务的规划方法
CN113095481B (zh) 一种基于并行自我博弈的空战机动方法
CN110348708B (zh) 一种基于极限学习机的地面目标动态威胁评估方法
CN110083971B (zh) 一种基于作战推演的自爆式无人机集群作战兵力分配方法
CN110928329A (zh) 一种基于深度q学习算法的多飞行器航迹规划方法
CN113741525B (zh) 基于策略集合maddpg多无人机协同攻防对抗方法
CN110490422B (zh) 一种基于博弈云模型的目标作战效能态势评估方法
Bai et al. Adversarial examples construction towards white-box Q table variation in DQN pathfinding training
CN114460959A (zh) 一种基于多体博弈的无人机群协同自主决策方法及装置
CN112305913A (zh) 基于直觉模糊博弈的多uuv协同动态机动决策方法
CN116050795A (zh) 基于maddpg的无人艇集群任务调度与协同对抗方法
CN113139331A (zh) 一种基于贝叶斯网络的空空导弹态势感知与决策方法
CN110163519B (zh) 面向基地攻防任务的uuv红蓝方威胁评估方法
CN113159266B (zh) 基于麻雀搜索神经网络的空战机动决策方法
CN113741186B (zh) 一种基于近端策略优化的双机空战决策方法
CN111723931B (zh) 一种多智能体对抗动作预测方法及装置
CN113837348A (zh) 基于强化学习的变化环境多智能体控制方法与装置
CN117311392A (zh) 无人机群对抗控制方法及系统
CN113919425B (zh) 一种空中目标自主分配方法及系统
CN110782062A (zh) 一种用于防空系统的多对多分组拦截目标分配方法及系统
CN114911269B (zh) 一种基于无人机群的组网雷达干扰策略生成方法
CN116225065A (zh) 多智能体强化学习的多自由度模型的无人机协同追捕方法
CN113255234A (zh) 一种对导弹群进行在线目标分配的方法
Wang et al. Research on naval air defense intelligent operations on deep reinforcement learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant