CN115525058B

CN115525058B - 一种基于深度强化学习的无人潜航器集群协同对抗方法

Info

Publication number: CN115525058B
Application number: CN202211300640.5A
Authority: CN
Inventors: 陈力恒; 王龙才; 吴昶懋; 张勇刚; 赵玉新; 谈用杰
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2022-10-24
Filing date: 2022-10-24
Publication date: 2023-05-16
Anticipated expiration: 2042-10-24
Also published as: CN115525058A

Abstract

本发明公开了一种基于深度强化学习的无人潜航器集群协同对抗方法，包括以下步骤：S1、设计无人潜航器集群协同对抗策略的动作空间、状态空间、观测空间与奖励函数；S2、设计每个无人潜航器的集中式评判模块；S3、设计每个无人潜航器的分布式执行模块；S4、每个无人潜航器通过自主学习得到协同对抗的最优动作。本发明采用上述基于深度强化学习的无人潜航器集群协同对抗方法，能够解决无人航器集群决策方法无法应对多约束、高动态的水下攻防对抗任务问题。

Description

一种基于深度强化学习的无人潜航器集群协同对抗方法

技术领域

本发明涉及无人潜航器决策技术领域，尤其是涉及一种基于深度强化学习的无人潜航器集群协同对抗方法。

背景技术

无人潜航器集群通过将各个单体潜航器联合在一起，从而形成一个可以合作执行任务的系统，在情报收集、侦查监视、协同作战等方面具有独特的优势。然而，由于水下攻防对抗态势随着时空不断演化，每个潜航器必须依据不断变化的态势和一定的准则调整自己的策略，进行己方个体之间的协同合作，并与对方进行博弈。因此，无人潜航器集群的协同决策技术能够提高无人潜航器在高强度海战场上的自适应能力，对于改善复杂动态环境中无人潜航器集群的智能化作战水平有着重要的意义。

目前，水下攻防对抗过程中往往采用以几何关系作为尺度的无人潜航器集群构建逻辑。然而，由于无人潜航器集群博弈对抗过程具有个体与群体交叉耦合、敌我双方攻防策略多样等特点，这种较为固定的作战方法的在面向高强度的协同对抗任务时存在灵活性不足，智能化程度低的问题。另一方面，在传统的博弈对抗攻防问题中，往往通过求解哈密顿－雅克比方程得到微分博弈问题的最优策略解析解。然而在无人潜航器集群协同攻防问题中，由于敌我双方的数量较多，攻防态势复杂且状态空间维数高，传统方法难以求得最优解。目前，我国的无人潜航器集群对抗决策技术的研究结果比较鲜见，相关的研究仍然较少。

发明内容

本发明的目的是提供一种基于深度强化学习的无人潜航器集群协同对抗方法，利用集中式评判和分布式执行的算法结构，使得无人潜航器集群在训练过程具备较强的自主学习能力，并通过与环境的不断交互得到各潜航器的最优动作，保证协同对抗过程中无人潜航器的动态适应能力；解决无人航器集群决策方法无法应对多约束、高动态的水下攻防对抗任务问题。

为实现上述目的，本发明提供了一种基于深度强化学习的无人潜航器集群协同对抗方法，包括以下步骤：

S1、设计无人潜航器集群协同对抗策略的动作空间、状态空间、观测空间与奖励函数；

S2、设计每个无人潜航器的集中式评判模块；

S3、设计每个无人潜航器的分布式执行模块；

S4、每个无人潜航器通过自主学习得到协同对抗的最优动作。

进一步地，所述步骤S1的具体步骤为：

S11、确定我方潜航器集群的潜航器个数n，敌方舰艇的个数m；

S12、确定潜航器集群的联合动作空间为A＝[a₁,a₂,…a_n]，第i个潜航器的动作a_i＝[vx_i,vy_i]，vx_i为第i个潜航器航速在水平面x轴上的投影，vy_i为潜航器航速在水平面y轴上的投影；

S13、确定潜航器集群的联合状态空间为S＝[s₁,s₂,…s_n]，s_i为第i个潜航器状态s_i＝[x_i,y_i,vx_i,vy_i]，x_i为第i个潜航器在水平面x轴上的坐标，y_i为第i个潜航器在水平面y轴上的坐标；

S14、确定潜航器集群的联合观测空间为O＝[o₁,o₂,…o_n]，第i个潜航器状态o_i＝[x_i-bx₁,x_i-bx₂,…x_i-bx_m,y_i-by₁,y_i-by₂,…y_i-by_m,vx_i-bvx₁,vx_i-bvx₂,…vx_i-bvx_m,vy_i-bvy₁,vy_i-bvy₂,…vy_i-bvy_m]，bx_j为敌方第j个舰艇水平面x轴上的坐标，by_j为敌方第j个舰艇水平面y轴上的坐标，bvx_j为敌方第j个舰艇的航速在水平面x轴上的投影，bvy_j为敌方第j个舰艇的航速在水平面y轴上的投影；

S15、确定潜航器集群的联合奖励函数为R＝[r₁,r₂,…r_n]，r_i为第i个潜航器的奖励函数，根据潜航器集群协同对抗过程中需要避开敌方舰艇的拦截，实现对敌方主艇的打击任务，计算第i个潜航器距离敌方第j个舰艇的距离dist_ij为：dist_ij＝[(x_i-bx_j)²+(y_i-by_j)²]^1/2，i＝1,2…,n,j＝1,2,…,m，将需要打击的敌方主艇标号定义为第m个；给定无人潜航器的有效打击的距离为shoot res，敌方舰艇有效打击的距离为warning_res，则r_i的设计如下：如果dist_im<shoot_res即敌方主艇进入第i个潜航器的打击范围时，表明第i个潜航器突破了敌方舰艇的拦截，成功执行了攻击敌方主艇的任务，此时第i个潜航器的奖励函数r_i＝3/dist_im；如果dist_ij<warning_res,i＝1,2,…,n,j＝1,2,…,m-1，即第i个潜航器进入敌方第j个舰艇的拦截范围时，认为该潜航器被拦截，执行攻击敌方主艇的任务失败，此时设计第i个潜航器的奖励函数r_i＝-2；否则第i个潜航器的奖励函数r_i＝1/dist_im，即当潜航器越接近敌方主艇，奖励函数r_i越大，以此引导第i个潜航器接近敌方主艇。

进一步地，所述S2具体为：

每个无人潜航器的集中式评判模块输入为每一时刻所有潜航器的全局观测值O与所有潜航器的动作A，输出为该潜航器对整体态势的评判；

集中式评判模块包括评判神经网络和评判目标神经网络，这两个神经网络为3层全连接神经网络，隐含层神经元个数为64个，激活函数为线性整流函数；评判神经网络用来拟合当前时刻的第i个潜航器的状态-动作值函数Q_i(O,A)；评判目标神经网络拟合下一时刻的该潜航器的状态-动作值函数Qm_i(O’,A’)，O’为下一时刻的全局观测值，A’为下一时刻的所有潜航器的动作；

第i个潜航器的目标值表示为

y_i＝r_i+γQm_i(O',A')

其中，γ∈(0,1)为给定的折扣因子；使用随机梯度下降法最小化损失函数L_i(ω_i)＝(y_i-Q_i(O,A))²更新该潜航器的评判神经网络参数ω_i，评判目标神经网络参数则更新为ω_i'＝τω_i+(1-τ)ω_i'，τ∈(0,1)为给定的更新权重。

进一步地，所述步骤S3具体为：

潜航器在执行对抗任务时仅依赖于自身的观测信息进行分布式决策；

每个潜航器分布式模块包含策略神经网络和策略目标神经网络组成；策略神经网络用来拟合策略函数a_i＝u_i(o_i)，即输入第i个潜航器局部观测信息o_i，策略神经网络输出自身的动作a_i；策略目标神经网络用来拟合下一时刻策略函数a_i'＝u_i'(o_i')，即输入下一时刻第i个潜航器局部观测信息o_i'，策略目标神经网络输出下一时刻自身的动作a_i'；这两个神经网络为3层全连接神经网络，隐含层神经元个数为64个，激活函数为线性整流函数；

基于策略梯度更新第i个潜航器的策略神经网参数ω_ui：

J(ω_ui)为第i个潜航器累积总回报的策略优化目标函数，策略目标神经网络的参数ω'_ui更新为ω'_ui＝τω_ui+(1-τ)ω'_ui。

进一步地，所述步骤S4具体步骤为：

S41、设定训练最大回合，并初始化每个潜航器的集中式评判模块和分布式执行模块中的各神经网络参数；

S42、第i个潜航器根据将自己的观测值o_i代入到分布式执行模块中得到动作a_i,i＝1,2,…,n；

S43、第i个潜航器执行动作a_i得到下一时刻的观测值o_i'与奖励值r_i，i＝1,2,…,n；

S44、将<a_i,o_i,o_i',ri>存储到缓存池中，并更新集中式评判模块和分布式执行模块中的各神经网络参数，i＝1,2,…,n；

S45、重复步骤S42-S44直至收敛或训练次数到达设定的最大训练回合数。

本发明所述的一种基于深度强化学习的无人潜航器集群协同对抗方法的优点和积极效果是：

1、本发明设计了对应的观测空间、状态空间、动作空间与奖惩函数，用来引导无人潜航器集群进行策略学习，并利用集中式评判训练和分布式执行结构实现了无人潜航器的分布式决策。该方法保证无人潜航器集群能够根据战场态势变化进行自主决策，实现无人潜航器之间协同合作并与对方进行对抗，弥补了传统的无人潜航器集群构建方法灵活性不足，难以应对水下高强度的协同对抗任务的问题，提高了无人潜航器集群的智能化水平。

2、本发明通过无人潜航器集群的训练过程进行协同对抗策略的学习，并在与环境的不断交互过程中演化出每个潜航器最优的行为动作，避免了传统无人潜航器集群博弈对抗问题中存在的状态维数高，难以求得最优策略解析解的问题。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明一种基于深度强化学习的无人潜航器集群协同对抗方法实施例的流程图；

图2为本发明一种基于深度强化学习的无人潜航器集群协同对抗方法实施例的对抗过程中无人潜航器运动轨迹(实线)与敌方舰艇轨迹(虚线)示意图。

具体实施方式

以下通过附图和实施例对本发明的技术方案作进一步说明。

实施例

图1为本发明一种基于深度强化学习的无人潜航器集群协同对抗方法实施例的流程图。如图所示，一种基于深度强化学习的无人潜航器集群协同对抗方法，包括以下步骤：

S1、设计无人潜航器集群协同对抗策略的动作空间、状态空间、观测空间与奖励函数。

步骤S1的具体步骤为：

S11、确定我方潜航器集群的潜航器个数n，n＝3，敌方舰艇的个数m，m＝3。

S12、确定潜航器集群的联合动作空间为A＝[a₁,a₂,…a_n]，第i个潜航器的动作a_i＝[vx_i,vy_i]，vx_i为第i个潜航器航速在水平面x轴上的投影，vy_i为潜航器航速在水平面y轴上的投影。

S13、确定潜航器集群的联合状态空间为S＝[s₁,s₂,…s_n]，s_i为第i个潜航器状态s_i＝[x_i,y_i,vx_i,vy_i]，x_i为第i个潜航器在水平面x轴上的坐标，y_i为第i个潜航器在水平面y轴上的坐标。

S14、确定潜航器集群的联合观测空间为O＝[o₁,o₂,…o_n]，第i个潜航器状态o_i＝[x_i-bx₁,x_i-bx₂,…x_i-bx_m,y_i-by₁,y_i-by₂,…y_i-by_m,vx_i-bvx₁,vx_i-bvx₂,…vx_i-bvx_m,vy_i-bvy₁,vy_i-bvy₂,…vy_i-bvy_m]，bx_j为敌方第j个舰艇水平面x轴上的坐标，by_j为敌方第j个舰艇水平面y轴上的坐标，bvx_j为敌方第j个舰艇的航速在水平面x轴上的投影，bvy_j为敌方第j个舰艇的航速在水平面y轴上的投影。

S15、确定潜航器集群的联合奖励函数为R＝[r₁,r₂,…r_n]，r_i为第i个潜航器的奖励函数，根据潜航器集群协同对抗过程中需要避开敌方舰艇的拦截，实现对敌方主艇的打击任务，计算第i个潜航器距离敌方第j个舰艇的距离dist_ij为：dist_ij＝[(x_i-bx_j)²+(y_i-by_j)²]^1/2，i＝1,2…,n,j＝1,2,…,m，将需要打击的敌方主艇标号定义为第m＝3个；给定无人潜航器的有效打击的距离为shoot res＝4km，敌方舰艇有效打击的距离为warning_res＝1km，则r_i的设计如下：如果dist_im<shoot_res即敌方主艇进入第i个潜航器的打击范围时，表明第i个潜航器突破了敌方舰艇的拦截，成功执行了攻击敌方主艇的任务，此时第i个潜航器的奖励函数r_i＝3/dist_im；如果dist_ij<warning_res,i＝1,2,…,n,j＝1,2,…,m-1，即第i个潜航器进入敌方第j个舰艇的拦截范围时，认为该潜航器被拦截，执行攻击敌方主艇的任务失败，此时设计第i个潜航器的奖励函数r_i＝-2；否则第i个潜航器的奖励函数r_i＝1/dist_im，即当潜航器越接近敌方主艇，奖励函数r_i越大，以此引导第i个潜航器接近敌方主艇。

S2、设计每个无人潜航器的集中式评判模块。

S2具体为：

每个无人潜航器的集中式评判模块输入为每一时刻所有潜航器的全局观测值O与所有潜航器的动作A，输出为该潜航器对整体态势的评判。

集中式评判模块包括评判神经网络和评判目标神经网络，这两个神经网络为3层全连接神经网络，隐含层神经元个数为64个，激活函数为线性整流函数。评判神经网络用来拟合当前时刻的第i个潜航器的状态-动作值函数Q_i(O,A)；评判目标神经网络拟合下一时刻的该潜航器的状态-动作值函数Qm_i(O’,A’)，O’为下一时刻的全局观测值，A’为下一时刻的所有潜航器的动作。

第i个潜航器的目标值表示为

y_i＝r_i+γQm_i(O',A')

其中，γ＝0.999∈(0,1)为给定的折扣因子。在设计过程中，使用随机梯度下降法最小化损失函数L_i(ω_i)＝(y_i-Q_i(O,A))²更新该潜航器的评判神经网络参数ω_i，评判目标神经网络参数则更新为ω_i'＝τω_i+(1-τ)ω_i'，τ＝0.003∈(0,1)为给定的更新权重。

S3、设计每个无人潜航器的分布式执行模块。

步骤S3具体为：

潜航器在执行对抗任务时仅依赖于自身的观测信息进行分布式决策。

每个潜航器分布式模块包含策略神经网络和策略目标神经网络组成。策略神经网络用来拟合策略函数a_i＝u_i(o_i)，即输入第i个潜航器局部观测信息o_i，策略神经网络输出自身的动作a_i；策略目标神经网络用来拟合下一时刻策略函数a_i'＝u_i'(o_i')，即输入下一时刻第i个潜航器局部观测信息o_i'，策略目标神经网络输出下一时刻自身的动作a_i'；这两个神经网络为3层全连接神经网络，隐含层神经元个数为64个，激活函数为线性整流函数。

基于策略梯度更新第i个潜航器的策略神经网参数ω_ui：

J(ω_ui)为第i个潜航器累积总回报的策略优化目标函数。策略目标神经网络的参数ω'_ui更新为ω'_ui＝τω_ui+(1-τ)ω'_ui，τ＝0.003。

步骤S4具体步骤为：

S41、设定训练最大回合为50000回合，并初始化每个潜航器的集中式评判模块和分布式执行模块中的各神经网络参数；

S42、第i个潜航器根据将自己的观测值o_i代入到分布式执行模块中得到动作a_i,i＝1,2,3；

S43、第i个潜航器执行动作a_i得到下一时刻的观测值o_i'与奖励值r_i，i＝1,2,3；

S44、将<a_i,o_i,o_i',ri>存储到缓存池中，并更新集中式评判模块和分布式执行模块中的各神经网络参数，i＝1,2,3；

图2为本发明一种基于深度强化学习的无人潜航器集群协同对抗方法实施例的对抗过程中无人潜航器运动轨迹(实线)与敌方舰艇轨迹(虚线)示意图。如图所示，从仿真结果可以得出，在敌我双方攻防态势不断变化的过程，本发明可以有效实现无人潜航器集群的协同自主决策，并且在与敌方对抗过程中有效避开了敌方舰艇拦截，完成对敌方主艇的打击任务。

因此，本发明采用上述基于深度强化学习的无人潜航器集群协同对抗方法，能够解决无人航器集群决策方法无法应对多约束、高动态的水下攻防对抗任务问题。

最后应说明的是：以上实施例仅用以说明本发明的技术方案而非对其进行限制，尽管参照较佳实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对本发明的技术方案进行修改或者等同替换，而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

Claims

1.一种基于深度强化学习的无人潜航器集群协同对抗方法，其特征在于，包括以下步骤：

S1、设计无人潜航器集群协同对抗策略的动作空间、状态空间、观测空间与奖励函数，具体步骤为：

S15、确定潜航器集群的联合奖励函数为R＝[r₁,r₂,…r_n]，r_i为第i个潜航器的奖励函数，根据潜航器集群协同对抗过程中需要避开敌方舰艇的拦截，实现对敌方主艇的打击任务，计算第i个潜航器距离敌方第j个舰艇的距离dist_ij为：dist_ij＝[(x_i-bx_j)²+(y_i-by_j)²]^1/2，i＝1,2…,n,j＝1,2,…,m，将需要打击的敌方主艇标号定义为第m个；给定无人潜航器的有效打击的距离为shootres，敌方舰艇有效打击的距离为warning_res，则r_i的设计如下：如果dist_im<shoot_res即敌方主艇进入第i个潜航器的打击范围时，表明第i个潜航器突破了敌方舰艇的拦截，成功执行了攻击敌方主艇的任务，此时第i个潜航器的奖励函数r_i＝3/dist_im；如果dist_ij<warning_res,i＝1,2,…,n,j＝1,2,…,m-1，即第i个潜航器进入敌方第j个舰艇的拦截范围时，认为该潜航器被拦截，执行攻击敌方主艇的任务失败，此时设计第i个潜航器的奖励函数r_i＝-2；否则第i个潜航器的奖励函数r_i＝1/dist_im，即当潜航器越接近敌方主艇，奖励函数r_i越大，以此引导第i个潜航器接近敌方主艇；

S2、设计每个无人潜航器的集中式评判模块；

S3、设计每个无人潜航器的分布式执行模块；

2.根据权利要求1所述的一种基于深度强化学习的无人潜航器集群协同对抗方法，其特征在于，所述S2具体为：

第i个潜航器的目标值表示为

y_i＝r_i+γQm_i(O',A')

3.根据权利要求2所述的一种基于深度强化学习的无人潜航器集群协同对抗方法，其特征在于，所述步骤S3具体为：

基于策略梯度更新第i个潜航器的策略神经网参数ω_ui：

J(ω_ui)为第i个潜航器累积总回报的策略优化目标函数，策略目标神经网络的参数ω'_ui更新为ω_u'_i＝τω_ui+(1-τ)ω_u'_i。

4.根据权利要求3所述的一种基于深度强化学习的无人潜航器集群协同对抗方法，其特征在于，所述步骤S4具体步骤为：