CN115525058B - 一种基于深度强化学习的无人潜航器集群协同对抗方法 - Google Patents
一种基于深度强化学习的无人潜航器集群协同对抗方法 Download PDFInfo
- Publication number
- CN115525058B CN115525058B CN202211300640.5A CN202211300640A CN115525058B CN 115525058 B CN115525058 B CN 115525058B CN 202211300640 A CN202211300640 A CN 202211300640A CN 115525058 B CN115525058 B CN 115525058B
- Authority
- CN
- China
- Prior art keywords
- submarine
- ith
- neural network
- enemy
- unmanned
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000002787 reinforcement Effects 0.000 title claims abstract description 18
- 230000006870 function Effects 0.000 claims abstract description 53
- 230000009471 action Effects 0.000 claims abstract description 32
- 238000013528 artificial neural network Methods 0.000 claims description 65
- 238000012549 training Methods 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 6
- 210000002569 neuron Anatomy 0.000 claims description 6
- 230000008485 antagonism Effects 0.000 claims description 5
- 238000013461 design Methods 0.000 claims description 4
- 230000009916 joint effect Effects 0.000 claims description 3
- 230000007123 defense Effects 0.000 abstract description 10
- 230000008569 process Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000006880 cross-coupling reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/04—Control of altitude or depth
- G05D1/06—Rate of change of altitude or depth
- G05D1/0692—Rate of change of altitude or depth specially adapted for under-water vehicles
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明公开了一种基于深度强化学习的无人潜航器集群协同对抗方法,包括以下步骤:S1、设计无人潜航器集群协同对抗策略的动作空间、状态空间、观测空间与奖励函数;S2、设计每个无人潜航器的集中式评判模块;S3、设计每个无人潜航器的分布式执行模块;S4、每个无人潜航器通过自主学习得到协同对抗的最优动作。本发明采用上述基于深度强化学习的无人潜航器集群协同对抗方法,能够解决无人航器集群决策方法无法应对多约束、高动态的水下攻防对抗任务问题。
Description
技术领域
本发明涉及无人潜航器决策技术领域,尤其是涉及一种基于深度强化学习的无人潜航器集群协同对抗方法。
背景技术
无人潜航器集群通过将各个单体潜航器联合在一起,从而形成一个可以合作执行任务的系统,在情报收集、侦查监视、协同作战等方面具有独特的优势。然而,由于水下攻防对抗态势随着时空不断演化,每个潜航器必须依据不断变化的态势和一定的准则调整自己的策略,进行己方个体之间的协同合作,并与对方进行博弈。因此,无人潜航器集群的协同决策技术能够提高无人潜航器在高强度海战场上的自适应能力,对于改善复杂动态环境中无人潜航器集群的智能化作战水平有着重要的意义。
目前,水下攻防对抗过程中往往采用以几何关系作为尺度的无人潜航器集群构建逻辑。然而,由于无人潜航器集群博弈对抗过程具有个体与群体交叉耦合、敌我双方攻防策略多样等特点,这种较为固定的作战方法的在面向高强度的协同对抗任务时存在灵活性不足,智能化程度低的问题。另一方面,在传统的博弈对抗攻防问题中,往往通过求解哈密顿-雅克比方程得到微分博弈问题的最优策略解析解。然而在无人潜航器集群协同攻防问题中,由于敌我双方的数量较多,攻防态势复杂且状态空间维数高,传统方法难以求得最优解。目前,我国的无人潜航器集群对抗决策技术的研究结果比较鲜见,相关的研究仍然较少。
发明内容
本发明的目的是提供一种基于深度强化学习的无人潜航器集群协同对抗方法,利用集中式评判和分布式执行的算法结构,使得无人潜航器集群在训练过程具备较强的自主学习能力,并通过与环境的不断交互得到各潜航器的最优动作,保证协同对抗过程中无人潜航器的动态适应能力;解决无人航器集群决策方法无法应对多约束、高动态的水下攻防对抗任务问题。
为实现上述目的,本发明提供了一种基于深度强化学习的无人潜航器集群协同对抗方法,包括以下步骤:
S1、设计无人潜航器集群协同对抗策略的动作空间、状态空间、观测空间与奖励函数;
S2、设计每个无人潜航器的集中式评判模块;
S3、设计每个无人潜航器的分布式执行模块;
S4、每个无人潜航器通过自主学习得到协同对抗的最优动作。
进一步地,所述步骤S1的具体步骤为:
S11、确定我方潜航器集群的潜航器个数n,敌方舰艇的个数m;
S12、确定潜航器集群的联合动作空间为A=[a1,a2,…an],第i个潜航器的动作ai=[vxi,vyi],vxi为第i个潜航器航速在水平面x轴上的投影,vyi为潜航器航速在水平面y轴上的投影;
S13、确定潜航器集群的联合状态空间为S=[s1,s2,…sn],si为第i个潜航器状态si=[xi,yi,vxi,vyi],xi为第i个潜航器在水平面x轴上的坐标,yi为第i个潜航器在水平面y轴上的坐标;
S14、确定潜航器集群的联合观测空间为O=[o1,o2,…on],第i个潜航器状态oi=[xi-bx1,xi-bx2,…xi-bxm,yi-by1,yi-by2,…yi-bym,vxi-bvx1,vxi-bvx2,…vxi-bvxm,vyi-bvy1,vyi-bvy2,…vyi-bvym],bxj为敌方第j个舰艇水平面x轴上的坐标,byj为敌方第j个舰艇水平面y轴上的坐标,bvxj为敌方第j个舰艇的航速在水平面x轴上的投影,bvyj为敌方第j个舰艇的航速在水平面y轴上的投影;
S15、确定潜航器集群的联合奖励函数为R=[r1,r2,…rn],ri为第i个潜航器的奖励函数,根据潜航器集群协同对抗过程中需要避开敌方舰艇的拦截,实现对敌方主艇的打击任务,计算第i个潜航器距离敌方第j个舰艇的距离distij为:distij=[(xi-bxj)2+(yi-byj)2]1/2,i=1,2…,n,j=1,2,…,m,将需要打击的敌方主艇标号定义为第m个;给定无人潜航器的有效打击的距离为shoot res,敌方舰艇有效打击的距离为warning_res,则ri的设计如下:如果distim<shoot_res即敌方主艇进入第i个潜航器的打击范围时,表明第i个潜航器突破了敌方舰艇的拦截,成功执行了攻击敌方主艇的任务,此时第i个潜航器的奖励函数ri=3/distim;如果distij<warning_res,i=1,2,…,n,j=1,2,…,m-1,即第i个潜航器进入敌方第j个舰艇的拦截范围时,认为该潜航器被拦截,执行攻击敌方主艇的任务失败,此时设计第i个潜航器的奖励函数ri=-2;否则第i个潜航器的奖励函数ri=1/distim,即当潜航器越接近敌方主艇,奖励函数ri越大,以此引导第i个潜航器接近敌方主艇。
进一步地,所述S2具体为:
每个无人潜航器的集中式评判模块输入为每一时刻所有潜航器的全局观测值O与所有潜航器的动作A,输出为该潜航器对整体态势的评判;
集中式评判模块包括评判神经网络和评判目标神经网络,这两个神经网络为3层全连接神经网络,隐含层神经元个数为64个,激活函数为线性整流函数;评判神经网络用来拟合当前时刻的第i个潜航器的状态-动作值函数Qi(O,A);评判目标神经网络拟合下一时刻的该潜航器的状态-动作值函数Qmi(O’,A’),O’为下一时刻的全局观测值,A’为下一时刻的所有潜航器的动作;
第i个潜航器的目标值表示为
yi=ri+γQmi(O',A')
其中,γ∈(0,1)为给定的折扣因子;使用随机梯度下降法最小化损失函数Li(ωi)=(yi-Qi(O,A))2更新该潜航器的评判神经网络参数ωi,评判目标神经网络参数则更新为ωi'=τωi+(1-τ)ωi',τ∈(0,1)为给定的更新权重。
进一步地,所述步骤S3具体为:
潜航器在执行对抗任务时仅依赖于自身的观测信息进行分布式决策;
每个潜航器分布式模块包含策略神经网络和策略目标神经网络组成;策略神经网络用来拟合策略函数ai=ui(oi),即输入第i个潜航器局部观测信息oi,策略神经网络输出自身的动作ai;策略目标神经网络用来拟合下一时刻策略函数ai'=ui'(oi'),即输入下一时刻第i个潜航器局部观测信息oi',策略目标神经网络输出下一时刻自身的动作ai';这两个神经网络为3层全连接神经网络,隐含层神经元个数为64个,激活函数为线性整流函数;
基于策略梯度更新第i个潜航器的策略神经网参数ωui:
J(ωui)为第i个潜航器累积总回报的策略优化目标函数,策略目标神经网络的参数ω'ui更新为ω'ui=τωui+(1-τ)ω'ui。
进一步地,所述步骤S4具体步骤为:
S41、设定训练最大回合,并初始化每个潜航器的集中式评判模块和分布式执行模块中的各神经网络参数;
S42、第i个潜航器根据将自己的观测值oi代入到分布式执行模块中得到动作ai,i=1,2,…,n;
S43、第i个潜航器执行动作ai得到下一时刻的观测值oi'与奖励值ri,i=1,2,…,n;
S44、将<ai,oi,oi',ri>存储到缓存池中,并更新集中式评判模块和分布式执行模块中的各神经网络参数,i=1,2,…,n;
S45、重复步骤S42-S44直至收敛或训练次数到达设定的最大训练回合数。
本发明所述的一种基于深度强化学习的无人潜航器集群协同对抗方法的优点和积极效果是:
1、本发明设计了对应的观测空间、状态空间、动作空间与奖惩函数,用来引导无人潜航器集群进行策略学习,并利用集中式评判训练和分布式执行结构实现了无人潜航器的分布式决策。该方法保证无人潜航器集群能够根据战场态势变化进行自主决策,实现无人潜航器之间协同合作并与对方进行对抗,弥补了传统的无人潜航器集群构建方法灵活性不足,难以应对水下高强度的协同对抗任务的问题,提高了无人潜航器集群的智能化水平。
2、本发明通过无人潜航器集群的训练过程进行协同对抗策略的学习,并在与环境的不断交互过程中演化出每个潜航器最优的行为动作,避免了传统无人潜航器集群博弈对抗问题中存在的状态维数高,难以求得最优策略解析解的问题。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明一种基于深度强化学习的无人潜航器集群协同对抗方法实施例的流程图;
图2为本发明一种基于深度强化学习的无人潜航器集群协同对抗方法实施例的对抗过程中无人潜航器运动轨迹(实线)与敌方舰艇轨迹(虚线)示意图。
具体实施方式
以下通过附图和实施例对本发明的技术方案作进一步说明。
实施例
图1为本发明一种基于深度强化学习的无人潜航器集群协同对抗方法实施例的流程图。如图所示,一种基于深度强化学习的无人潜航器集群协同对抗方法,包括以下步骤:
S1、设计无人潜航器集群协同对抗策略的动作空间、状态空间、观测空间与奖励函数。
步骤S1的具体步骤为:
S11、确定我方潜航器集群的潜航器个数n,n=3,敌方舰艇的个数m,m=3。
S12、确定潜航器集群的联合动作空间为A=[a1,a2,…an],第i个潜航器的动作ai=[vxi,vyi],vxi为第i个潜航器航速在水平面x轴上的投影,vyi为潜航器航速在水平面y轴上的投影。
S13、确定潜航器集群的联合状态空间为S=[s1,s2,…sn],si为第i个潜航器状态si=[xi,yi,vxi,vyi],xi为第i个潜航器在水平面x轴上的坐标,yi为第i个潜航器在水平面y轴上的坐标。
S14、确定潜航器集群的联合观测空间为O=[o1,o2,…on],第i个潜航器状态oi=[xi-bx1,xi-bx2,…xi-bxm,yi-by1,yi-by2,…yi-bym,vxi-bvx1,vxi-bvx2,…vxi-bvxm,vyi-bvy1,vyi-bvy2,…vyi-bvym],bxj为敌方第j个舰艇水平面x轴上的坐标,byj为敌方第j个舰艇水平面y轴上的坐标,bvxj为敌方第j个舰艇的航速在水平面x轴上的投影,bvyj为敌方第j个舰艇的航速在水平面y轴上的投影。
S15、确定潜航器集群的联合奖励函数为R=[r1,r2,…rn],ri为第i个潜航器的奖励函数,根据潜航器集群协同对抗过程中需要避开敌方舰艇的拦截,实现对敌方主艇的打击任务,计算第i个潜航器距离敌方第j个舰艇的距离distij为:distij=[(xi-bxj)2+(yi-byj)2]1/2,i=1,2…,n,j=1,2,…,m,将需要打击的敌方主艇标号定义为第m=3个;给定无人潜航器的有效打击的距离为shoot res=4km,敌方舰艇有效打击的距离为warning_res=1km,则ri的设计如下:如果distim<shoot_res即敌方主艇进入第i个潜航器的打击范围时,表明第i个潜航器突破了敌方舰艇的拦截,成功执行了攻击敌方主艇的任务,此时第i个潜航器的奖励函数ri=3/distim;如果distij<warning_res,i=1,2,…,n,j=1,2,…,m-1,即第i个潜航器进入敌方第j个舰艇的拦截范围时,认为该潜航器被拦截,执行攻击敌方主艇的任务失败,此时设计第i个潜航器的奖励函数ri=-2;否则第i个潜航器的奖励函数ri=1/distim,即当潜航器越接近敌方主艇,奖励函数ri越大,以此引导第i个潜航器接近敌方主艇。
S2、设计每个无人潜航器的集中式评判模块。
S2具体为:
每个无人潜航器的集中式评判模块输入为每一时刻所有潜航器的全局观测值O与所有潜航器的动作A,输出为该潜航器对整体态势的评判。
集中式评判模块包括评判神经网络和评判目标神经网络,这两个神经网络为3层全连接神经网络,隐含层神经元个数为64个,激活函数为线性整流函数。评判神经网络用来拟合当前时刻的第i个潜航器的状态-动作值函数Qi(O,A);评判目标神经网络拟合下一时刻的该潜航器的状态-动作值函数Qmi(O’,A’),O’为下一时刻的全局观测值,A’为下一时刻的所有潜航器的动作。
第i个潜航器的目标值表示为
yi=ri+γQmi(O',A')
其中,γ=0.999∈(0,1)为给定的折扣因子。在设计过程中,使用随机梯度下降法最小化损失函数Li(ωi)=(yi-Qi(O,A))2更新该潜航器的评判神经网络参数ωi,评判目标神经网络参数则更新为ωi'=τωi+(1-τ)ωi',τ=0.003∈(0,1)为给定的更新权重。
S3、设计每个无人潜航器的分布式执行模块。
步骤S3具体为:
潜航器在执行对抗任务时仅依赖于自身的观测信息进行分布式决策。
每个潜航器分布式模块包含策略神经网络和策略目标神经网络组成。策略神经网络用来拟合策略函数ai=ui(oi),即输入第i个潜航器局部观测信息oi,策略神经网络输出自身的动作ai;策略目标神经网络用来拟合下一时刻策略函数ai'=ui'(oi'),即输入下一时刻第i个潜航器局部观测信息oi',策略目标神经网络输出下一时刻自身的动作ai';这两个神经网络为3层全连接神经网络,隐含层神经元个数为64个,激活函数为线性整流函数。
基于策略梯度更新第i个潜航器的策略神经网参数ωui:
J(ωui)为第i个潜航器累积总回报的策略优化目标函数。策略目标神经网络的参数ω'ui更新为ω'ui=τωui+(1-τ)ω'ui,τ=0.003。
S4、每个无人潜航器通过自主学习得到协同对抗的最优动作。
步骤S4具体步骤为:
S41、设定训练最大回合为50000回合,并初始化每个潜航器的集中式评判模块和分布式执行模块中的各神经网络参数;
S42、第i个潜航器根据将自己的观测值oi代入到分布式执行模块中得到动作ai,i=1,2,3;
S43、第i个潜航器执行动作ai得到下一时刻的观测值oi'与奖励值ri,i=1,2,3;
S44、将<ai,oi,oi',ri>存储到缓存池中,并更新集中式评判模块和分布式执行模块中的各神经网络参数,i=1,2,3;
S45、重复步骤S42-S44直至收敛或训练次数到达设定的最大训练回合数。
图2为本发明一种基于深度强化学习的无人潜航器集群协同对抗方法实施例的对抗过程中无人潜航器运动轨迹(实线)与敌方舰艇轨迹(虚线)示意图。如图所示,从仿真结果可以得出,在敌我双方攻防态势不断变化的过程,本发明可以有效实现无人潜航器集群的协同自主决策,并且在与敌方对抗过程中有效避开了敌方舰艇拦截,完成对敌方主艇的打击任务。
因此,本发明采用上述基于深度强化学习的无人潜航器集群协同对抗方法,能够解决无人航器集群决策方法无法应对多约束、高动态的水下攻防对抗任务问题。
最后应说明的是:以上实施例仅用以说明本发明的技术方案而非对其进行限制,尽管参照较佳实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对本发明的技术方案进行修改或者等同替换,而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。
Claims (4)
1.一种基于深度强化学习的无人潜航器集群协同对抗方法,其特征在于,包括以下步骤:
S1、设计无人潜航器集群协同对抗策略的动作空间、状态空间、观测空间与奖励函数,具体步骤为:
S11、确定我方潜航器集群的潜航器个数n,敌方舰艇的个数m;
S12、确定潜航器集群的联合动作空间为A=[a1,a2,…an],第i个潜航器的动作ai=[vxi,vyi],vxi为第i个潜航器航速在水平面x轴上的投影,vyi为潜航器航速在水平面y轴上的投影;
S13、确定潜航器集群的联合状态空间为S=[s1,s2,…sn],si为第i个潜航器状态si=[xi,yi,vxi,vyi],xi为第i个潜航器在水平面x轴上的坐标,yi为第i个潜航器在水平面y轴上的坐标;
S14、确定潜航器集群的联合观测空间为O=[o1,o2,…on],第i个潜航器状态oi=[xi-bx1,xi-bx2,…xi-bxm,yi-by1,yi-by2,…yi-bym,vxi-bvx1,vxi-bvx2,…vxi-bvxm,vyi-bvy1,vyi-bvy2,…vyi-bvym],bxj为敌方第j个舰艇水平面x轴上的坐标,byj为敌方第j个舰艇水平面y轴上的坐标,bvxj为敌方第j个舰艇的航速在水平面x轴上的投影,bvyj为敌方第j个舰艇的航速在水平面y轴上的投影;
S15、确定潜航器集群的联合奖励函数为R=[r1,r2,…rn],ri为第i个潜航器的奖励函数,根据潜航器集群协同对抗过程中需要避开敌方舰艇的拦截,实现对敌方主艇的打击任务,计算第i个潜航器距离敌方第j个舰艇的距离distij为:distij=[(xi-bxj)2+(yi-byj)2]1/2,i=1,2…,n,j=1,2,…,m,将需要打击的敌方主艇标号定义为第m个;给定无人潜航器的有效打击的距离为shootres,敌方舰艇有效打击的距离为warning_res,则ri的设计如下:如果distim<shoot_res即敌方主艇进入第i个潜航器的打击范围时,表明第i个潜航器突破了敌方舰艇的拦截,成功执行了攻击敌方主艇的任务,此时第i个潜航器的奖励函数ri=3/distim;如果distij<warning_res,i=1,2,…,n,j=1,2,…,m-1,即第i个潜航器进入敌方第j个舰艇的拦截范围时,认为该潜航器被拦截,执行攻击敌方主艇的任务失败,此时设计第i个潜航器的奖励函数ri=-2;否则第i个潜航器的奖励函数ri=1/distim,即当潜航器越接近敌方主艇,奖励函数ri越大,以此引导第i个潜航器接近敌方主艇;
S2、设计每个无人潜航器的集中式评判模块;
S3、设计每个无人潜航器的分布式执行模块;
S4、每个无人潜航器通过自主学习得到协同对抗的最优动作。
2.根据权利要求1所述的一种基于深度强化学习的无人潜航器集群协同对抗方法,其特征在于,所述S2具体为:
每个无人潜航器的集中式评判模块输入为每一时刻所有潜航器的全局观测值O与所有潜航器的动作A,输出为该潜航器对整体态势的评判;
集中式评判模块包括评判神经网络和评判目标神经网络,这两个神经网络为3层全连接神经网络,隐含层神经元个数为64个,激活函数为线性整流函数;评判神经网络用来拟合当前时刻的第i个潜航器的状态-动作值函数Qi(O,A);评判目标神经网络拟合下一时刻的该潜航器的状态-动作值函数Qmi(O’,A’),O’为下一时刻的全局观测值,A’为下一时刻的所有潜航器的动作;
第i个潜航器的目标值表示为
yi=ri+γQmi(O',A')
其中,γ∈(0,1)为给定的折扣因子;使用随机梯度下降法最小化损失函数Li(ωi)=(yi-Qi(O,A))2更新该潜航器的评判神经网络参数ωi,评判目标神经网络参数则更新为ωi'=τωi+(1-τ)ωi',τ∈(0,1)为给定的更新权重。
3.根据权利要求2所述的一种基于深度强化学习的无人潜航器集群协同对抗方法,其特征在于,所述步骤S3具体为:
潜航器在执行对抗任务时仅依赖于自身的观测信息进行分布式决策;
每个潜航器分布式模块包含策略神经网络和策略目标神经网络组成;策略神经网络用来拟合策略函数ai=ui(oi),即输入第i个潜航器局部观测信息oi,策略神经网络输出自身的动作ai;策略目标神经网络用来拟合下一时刻策略函数ai'=ui'(oi'),即输入下一时刻第i个潜航器局部观测信息oi',策略目标神经网络输出下一时刻自身的动作ai';这两个神经网络为3层全连接神经网络,隐含层神经元个数为64个,激活函数为线性整流函数;
基于策略梯度更新第i个潜航器的策略神经网参数ωui:
J(ωui)为第i个潜航器累积总回报的策略优化目标函数,策略目标神经网络的参数ω'ui更新为ωu'i=τωui+(1-τ)ωu'i。
4.根据权利要求3所述的一种基于深度强化学习的无人潜航器集群协同对抗方法,其特征在于,所述步骤S4具体步骤为:
S41、设定训练最大回合,并初始化每个潜航器的集中式评判模块和分布式执行模块中的各神经网络参数;
S42、第i个潜航器根据将自己的观测值oi代入到分布式执行模块中得到动作ai,i=1,2,…,n;
S43、第i个潜航器执行动作ai得到下一时刻的观测值oi'与奖励值ri,i=1,2,…,n;
S44、将<ai,oi,oi',ri>存储到缓存池中,并更新集中式评判模块和分布式执行模块中的各神经网络参数,i=1,2,…,n;
S45、重复步骤S42-S44直至收敛或训练次数到达设定的最大训练回合数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211300640.5A CN115525058B (zh) | 2022-10-24 | 2022-10-24 | 一种基于深度强化学习的无人潜航器集群协同对抗方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211300640.5A CN115525058B (zh) | 2022-10-24 | 2022-10-24 | 一种基于深度强化学习的无人潜航器集群协同对抗方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115525058A CN115525058A (zh) | 2022-12-27 |
CN115525058B true CN115525058B (zh) | 2023-05-16 |
Family
ID=84704194
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211300640.5A Active CN115525058B (zh) | 2022-10-24 | 2022-10-24 | 一种基于深度强化学习的无人潜航器集群协同对抗方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115525058B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116166034B (zh) * | 2023-04-25 | 2023-07-14 | 清华大学 | 跨域协同围捕方法、装置及系统 |
CN117313972B (zh) * | 2023-09-28 | 2024-04-12 | 烟台大学 | 一种无人艇集群的攻击方法、系统、装置及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8442709B2 (en) * | 2009-12-11 | 2013-05-14 | Lockheed Martin Corporation | Underwater investigation system providing unmanned underwater vehicle (UUV) guidance based upon updated position state estimates and related methods |
CN113495578B (zh) * | 2021-09-07 | 2021-12-10 | 南京航空航天大学 | 一种基于数字孪生式训练的集群航迹规划强化学习方法 |
CN113900445A (zh) * | 2021-10-13 | 2022-01-07 | 厦门渊亭信息科技有限公司 | 基于多智能体强化学习的无人机协同控制训练方法及系统 |
CN114721424A (zh) * | 2022-03-18 | 2022-07-08 | 中国人民解放军国防科技大学 | 一种多无人机协同对抗方法、系统以及存储介质 |
-
2022
- 2022-10-24 CN CN202211300640.5A patent/CN115525058B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN115525058A (zh) | 2022-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115525058B (zh) | 一种基于深度强化学习的无人潜航器集群协同对抗方法 | |
CN113093802B (zh) | 一种基于深度强化学习的无人机机动决策方法 | |
CN113741525B (zh) | 基于策略集合maddpg多无人机协同攻防对抗方法 | |
CN113900445A (zh) | 基于多智能体强化学习的无人机协同控制训练方法及系统 | |
CN110348708B (zh) | 一种基于极限学习机的地面目标动态威胁评估方法 | |
CN110928329A (zh) | 一种基于深度q学习算法的多飞行器航迹规划方法 | |
CN113159266B (zh) | 基于麻雀搜索神经网络的空战机动决策方法 | |
CN112305913A (zh) | 基于直觉模糊博弈的多uuv协同动态机动决策方法 | |
CN112306070A (zh) | 基于区间信息博弈的多auv动态机动决策方法 | |
CN116050795A (zh) | 基于maddpg的无人艇集群任务调度与协同对抗方法 | |
CN113139331A (zh) | 一种基于贝叶斯网络的空空导弹态势感知与决策方法 | |
CN116127848A (zh) | 一种基于深度强化学习的多无人机协同追踪方法 | |
CN116225049A (zh) | 一种多无人机狼群协同作战攻防决策算法 | |
CN110163519B (zh) | 面向基地攻防任务的uuv红蓝方威胁评估方法 | |
CN111773722B (zh) | 一种模拟环境中的战斗机规避机动策略集生成方法 | |
CN113128021A (zh) | 多无人平台协同对抗的实时重决策方法和系统 | |
CN116432030A (zh) | 一种基于深度强化学习的空战多意图策略自主生成方法 | |
CN117035435A (zh) | 一种动态环境下的多无人机任务分配与航迹规划优化方法 | |
CN116796843A (zh) | 一种基于pso-m3ddpg的无人机多对多追逃博弈方法 | |
CN116225065A (zh) | 多智能体强化学习的多自由度模型的无人机协同追捕方法 | |
CN113255234B (zh) | 一种对导弹群进行在线目标分配的方法 | |
CN116774712A (zh) | 一种欠驱动auv三维环境下的实时动态避障方法 | |
CN114911269B (zh) | 一种基于无人机群的组网雷达干扰策略生成方法 | |
CN113962013B (zh) | 飞行器对抗决策方法及装置 | |
CN115457809A (zh) | 对面支援场景下基于多智能体强化学习的航迹规划方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |