CN112799429B - 基于强化学习的多弹协同攻击制导律设计方法 - Google Patents

基于强化学习的多弹协同攻击制导律设计方法 Download PDF

Info

Publication number
CN112799429B
CN112799429B CN202110007293.6A CN202110007293A CN112799429B CN 112799429 B CN112799429 B CN 112799429B CN 202110007293 A CN202110007293 A CN 202110007293A CN 112799429 B CN112799429 B CN 112799429B
Authority
CN
China
Prior art keywords
missile
target
network
actor
guidance law
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110007293.6A
Other languages
English (en)
Other versions
CN112799429A (zh
Inventor
陈万春
陈中原
岳新成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202110007293.6A priority Critical patent/CN112799429B/zh
Publication of CN112799429A publication Critical patent/CN112799429A/zh
Application granted granted Critical
Publication of CN112799429B publication Critical patent/CN112799429B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/107Simultaneous control of position or course in three dimensions specially adapted for missiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Automation & Control Theory (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于强化学习的多弹协同攻击制导律设计方法,该方法包括:步骤1,构造状态空间S=[r1…ri…rnξ1…ξi…ξn]T;步骤2,设计协同制导律并构造动作空间;步骤3,构造奖励函数
Figure DDA0002883569020000011
步骤4,网络初始化;步骤5,对于训练中的每个步长,采用强化学习算法更新Critic网络Q(S,A)、Actor网络μ(S)、目标Critic网络Q′(S,A)和目标Actor网络μ(S′),直到满足终止条件。应用本发明的技术方案,以解决现有技术中难以对多枚处于不同初始条件的导弹实现对某一目标的同时打击,多弹协同攻击通讯负担较重的问题。

Description

基于强化学习的多弹协同攻击制导律设计方法
技术领域
本发明涉及飞行器控制领域,具体而言,涉及基于强化学习的多弹协同攻击制导律设计方法。
背景技术
近年来,为提升打击效能,协同制导技术得到越来越多的关注。执行协同制导的多枚导弹可以看作是仅基于简单控制律即可相互协作以实现任务目标的多智能体系统。多枚导弹的协同作战在效能上要远远优于单个的高技术和高成本的飞行器。此外,多枚导弹构成的多智能体协同系统也会比单个飞行器具有更丰富的作战能力。其中,多枚处于不同初始条件的导弹实现对某一目标的同时打击是一个极具挑战的问题。
目前,多弹同时攻击的协同制导律可以分为两类。第一类是为协同制导系统指定期望的攻击时间。然而,为处于不同初始条件下的多枚导弹指定同一个攻击时间显然是有困难的。此外,各枚导弹间没有交互,一定程度上降低了多弹协同制导系统对环境的敏感性,甚至使任务失败。另一种方法是不为多弹协同制导系统中的每个导弹指定期望攻击时刻,而是由系统中的各枚导弹相互协调,进而对齐攻击时间,然而,该制导律要求每枚导弹都要有整个系统的全局信息,因而该方案是集中式控制,通讯负担较重。
发明内容
本发明的主要目的在于提供一种基于强化学习的多弹协同攻击制导律设计方法,以至少解决上述问题。
根据本发明的一方面,提供了一种基于强化学习的多弹协同攻击制导律设计方法,包括:
步骤1,构造状态空间S=[r1…ri…rnξ1…ξi…ξn]T
其中,n为导弹数量,ri为第i枚导弹和目标的相对距离,第i枚导弹估计剩余飞行时间的误差
Figure GDA0003328317380000021
j≠i,第i枚导弹可以获取第j枚导弹的信息时aij=1,第i枚导弹无法获取第j枚导弹的信息时aij=0,
Figure GDA0003328317380000022
为第i枚导弹的剩余飞行时间,
Figure GDA0003328317380000023
为第j枚导弹的剩余飞行时间,
Figure GDA0003328317380000024
为非线性函数;
步骤2,设计协同制导律并构造动作空间;
所述协同制导律结构为
Figure GDA0003328317380000025
其中,aMi为第i枚导弹的加速度,
Figure GDA0003328317380000026
为第i枚导弹的传统的比例导引律,
Figure GDA0003328317380000027
为第i枚导弹的协同控制项;所述动作空间为制导律中的动作
Figure GDA0003328317380000028
步骤3,构造奖励函数
Figure GDA0003328317380000029
其中,ri(0)为第i枚导弹和目标的初始相对距离,X1取值范围为0.1至0.5, X2取值范围为8至12,X3取值范围为0.8至1.2,X4取值范围为8至12,X5取值范围为8至12,X6取值范围为0.01至0.03;
步骤4,用随机参数θQ初始化Critic网络Q(S,A),用随机参数θQ′初始化目标Critic网络Q′(S,A),用随机参数θμ初始化Actor网络μ(S),用随机参数θμ,初始化目标Actor网络μ′(S′)。本步骤的θQ,θμ,θQ′,θμ′均为随机参数,无具体含义。
步骤5,对于训练中的每个步长,采用强化学习算法更新Critic网络Q(S,A)、Actor网络μ(S)、目标Critic网络Q′(S,A)和目标Actor网络μ′(S′),直到满足终止条件。采用强化学习算法更新Critic网络Q(S,A)、Actor网络μ(S)、目标Critic 网络Q′(S,A)和目标Actor网络μ′(S′)具体包括步骤501至步骤505;
步骤501,根据非线性交战动力学方程更新当前步长下的状态s,对于当前的状态S,选择动作A=μ(S)+N,执行动作A,观测所述奖励函数R及执行动作 A后的后续状态S′,在经验池中存储经验(S,A,R,S′),N为噪声模型中的随机噪声;
步骤502,从经验池中随机取出M个经验(Sk,Ak,Rk,S′k),k≤M,Sk为第k个经验的观测,Ak为第k个经验的协同控制项,Rk为第k个经验的奖励函数值,S′k第k个经验的后续状态;判断S′k是否是最终状态,如果S′k是最终状态,则设置值函数目标y=R,否则值函数目标为奖励函数R和期望的折扣奖励之和,即 y=R+γQ′(Sk,μ′(Skμ)|θQ′),μ′(Skμ)为输入为Sk用θμ初始化的目标Actor网络,μ′(Skμ)|θQ′为输入为μ′(Skμ)用θQ′初始化的Actor网络,Q′(Sk,μ′(Skμ)|θQ′)为输入为Sk和μ′(Skμ)|θQ′的目标Critic网络,γ为折扣因子;
步骤503,通过使经验值损失
Figure GDA0003328317380000031
最小化,更新所述Critic网络参数,其中Q(Sk,AkQ)表示以Sk和用θQ初始化的Ak作为输入的Critic 网络,yk为第k个经验的值函数目标。本步骤中M为步骤502中从经验池中随机取出经验的个数,Q为Critic网络、μ为Actor网络、Q′为目标Critic网络,μ′为目标Actor网络。
步骤504,利用采样策略梯度
Figure GDA0003328317380000032
使期望的折扣奖励最大化,更新Actor网络参数,其中,Gai为Critic网络相对于Actor网络输出动作的梯度,
Figure GDA0003328317380000033
Gμi为Actor网络输出动作相对于Actor网络参数的梯度,
Figure GDA0003328317380000034
μ(Skμ)为输入为Sk用θμ初始化的Actor网络;
步骤505,更新目标Actor和目标Critic网络参数。
进一步地,第i枚导弹的剩余飞行时间
Figure GDA0003328317380000035
ri为第i枚导弹和目标的相对距离;
Figure GDA0003328317380000036
为第i枚导弹的速度,θi为第i枚导弹的弹道倾角,λi为第i枚导弹的弹目视线角,Ni为有效导航比。ri为第i枚导弹和目标的相对距离;
进一步地,奖励函数
Figure GDA0003328317380000041
进一步地,第i枚导弹的传统的比例导引律
Figure GDA0003328317380000042
进一步地,非线性交战动力学方程为
Figure GDA0003328317380000043
其中
Figure GDA0003328317380000044
为第i枚导弹与目标间的相对速度,σi为航向角误差,
Figure GDA0003328317380000045
为视线角速率,
Figure GDA0003328317380000046
为第i枚导弹的弹道倾角变化率。
进一步地,步骤505中更新目标Actor和目标Critic网络参数的方法包括平滑更新,利用平滑因子τ来更新目标网络参数,采用θQ′=τθQ+(1-τ)θQ′更新目标 Critic网络参数,采用θμ′=τθμ+(1-τ)θμ′更新目标Actor网络参数。
进一步地,步骤505中更新目标Actor和目标Critic网络参数的方法包括周期性更新。
进一步地,步骤505中更新目标Actor和目标Critic网络参数的方法包括周期性平滑更新。
进一步地,终止条件包括导弹和目标的相对距离小于零。
应用本发明的技术方案,利用多智能体思想,使协同制导系统中的每枚导弹只需和自己的邻居进行通讯,能够降低协同制导系统的通讯负担,通过设计分布式制导律,利用基于策略梯度下降的深度神经网络(Deep Deterministic Policy Gradient,DDPG)算法,引入Actor和Critic神经网络用于动作的选取和奖励值的逼近,解决复杂连续的控制问题,本方法不再假设初始航向角误差为小角度,具有更广的实际应用范围。
附图说明
图1为根据本发明的具体实施例提供的多弹协同制导平面交战几何。
图2为根据本发明的具体实施例提供的基于DDPG算法更新网络的示意图。
图3为根据本发明的具体实施例提供的强化学习制导律RL-CPN的统计直方图。
图4为根据本发明的具体实施例提供的传统协同制导律CPN的统计直方图。
图5为根据本发明的具体实施例提供的比例导引制导律PN的统计直方图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
步骤1,构造状态空间S=[r1…ri…rn ξ1…ξi…ξn]T,其中,n为导弹数量,n≥2,ri为第i枚导弹和目标的相对距离,第i枚导弹估计剩余飞行时间的误差
Figure GDA0003328317380000051
j≠i,第i枚导弹可以获取第j枚导弹的信息时aij=1,第i枚导弹无法获取第j枚导弹的信息时aij=0,
Figure GDA0003328317380000052
为第i枚导弹的剩余飞行时间,
Figure GDA0003328317380000053
为第j枚导弹的剩余飞行时间,
Figure GDA0003328317380000054
Figure GDA0003328317380000055
为非线性函数,在导弹初始航向角误差较大时,
Figure GDA0003328317380000056
Figure GDA0003328317380000057
为第i枚导弹的速度,θi为第i枚导弹的弹道倾角,λi为第i枚导弹的弹目视线角,Ni为有效导航比。导弹的攻击时间为导弹当前飞行时间和剩余飞行时间的和。
应用此种配置方式,协同制导律满足下面三个要求:(1)所有导弹都要击中目标;(2)所有导弹的剩余飞行时间要达到一致,即剩余飞行时间估计的一致性误差要变为零;(3)当剩余飞行时间估计的一致性误差为零时,各枚导弹可利用简单的制导律继续飞行,当有剩余飞行时间误差时,进行继续调整。若各枚导弹的剩余飞行时间达到一致,那么多枚导弹即可实现对目标的协同打击。本发明针对多导弹协同制导系统设计分布式协同制导方案,使多枚导弹在不同初始条件下实现在同一时刻攻击目标。由于利用强化学习技术来设计制导律,无需推导制导律的具体表达式即可实现多枚导弹的协同打击,保证各枚导弹的脱靶量尽量小,且每个导弹的攻击时间一致,实现导弹协同制导的智能决策。
在完成步骤1构造状态空间后,为了实现导弹的协同控制,进入步骤2设计协同制导律并构造动作空间,协同制导律结构为
Figure GDA0003328317380000061
其中,
Figure GDA0003328317380000062
为第i枚导弹的加速度,
Figure GDA0003328317380000063
为第i枚导弹的传统的比例导引律,
Figure GDA0003328317380000064
Figure GDA0003328317380000065
为第i枚导弹的协同控制项,所述动作空间为制导律中的协同控制项
Figure GDA0003328317380000066
根据本发明的一个具体实施例,导弹是气动控制的导弹,只有速度方向可被气动力控制,而导弹的轴向速度是不可控的。本发明中各枚导弹的速度大小假设为常值,导弹加速度的方向垂直于导弹的速度,制导指令垂直于速度方向。对于导弹末制导阶段,飞行距离和制导时间较短,目标为静止目标,可忽略导弹的速度大小变化。
在完成步骤2设计协同制导律并构造动作空间后,为了衡量神经网络的训练效果,进入步骤3构造奖励函数,奖励函数
Figure GDA0003328317380000067
ri(0)为第i枚导弹和目标的初始相对距离,X1取值范围为0.1至0.5,X2取值范围为8至12,X3取值范围为0.8至1.2,X4取值范围为8至12,X5取值范围为8至12,X6取值范围为 0.01至0.03。
在完成步骤1构造状态空间、步骤2构造动作空间和步骤3构造奖励函数后,为了对神经网络进行训练,得到协同控制项,进入步骤4对网络进行初始化,用随机参数θQ初始化Critic网络Q(S,A),用θQ′初始化目标Critic网络 Q′(S,A),用随机参数θμ初始化Actor网络μ(S),用θμ′初始化目标Actor网络μ(S′)。
在完成步骤4神经网络初始化后,为了具体实现对神经网络的训练更新,进入步骤5,如图2所示,对于训练中的每个步长,采用强化学习算法更新Critic 网络Q(S,A)、Actor网络μ(S)、目标Critic网络Q′(S,A)和目标Actor网络μ(S′),直到满足终止条件每个导弹和目标的相对距离均小于零。
采用强化学习算法更新Critic网络Q(S,A)、Actor网络μ(S)、目标Critic网络Q′(S,A)和目标Actor网络μ(S′)具体包括步骤501至步骤505。
步骤501,根据非线性交战动力学方程
Figure GDA0003328317380000071
更新当前步长下的状态S,多弹协同制导平面交战几何如图1所示,对于当前的状态S,选择动作 A=μ(S)+N,执行动作A,观测所述奖励R及执行动作A后的后续状态S′,在经验池中存储经验(S,A,R,S′),N为噪声模型中的随机噪声。
步骤502,从经验池中随机取出M个经验(Sk,Ak,Rk,S′k),k≤M,Sk为第k个经验的观测,Ak为第k个经验的协同控制项,Rk为第k个经验的奖励函数值,S′k第k个经验的后续状态,判断S′k是否是最终状态,如果S′k是最终状态,则设置值函数目标y=R,否则值函数目标为奖励函数R和期望的折扣奖励之和,即 y=R+γQ′(Sk,μ′(Skμ)|θQ′),μ′(Skμ)为输入为Sk用θμ初始化的目标Actor网络,μ′(Skμ)|θQ′为输入为μ′(Skμ)用θQ′初始化的Actor网络,Q′(Sk,μ′(Skμ)|θQ′)为输入为Sk和μ′(Skμ)|θQ′的目标Critic网络,γ为折扣因子。
步骤503,通过使经验值损失
Figure GDA0003328317380000081
最小化更新所述Critic网络参数,其中Q(Sk,AkQ)表示以Sk和用θQ初始化的Ak作为输入的Critic 网络,yk为第k个经验的值函数目标。
步骤504,利用采样策略梯度
Figure GDA0003328317380000082
使期望的折扣奖励最大化更新Actor网络参数,其中,Gai为Critic网络相对于Actor网络输出动作的梯度,
Figure GDA0003328317380000083
Gμi为Actor网络输出动作相对于Actor网络参数的梯度,
Figure GDA0003328317380000084
μ(Skμ)为输入为Sk用θμ初始化的Actor网络。
步骤505,更新目标Actor和目标Critic网络参数,更新方法可采用平滑更新、周期性更新或周期性平滑更新,其中平滑更新为利用平滑因子τ来更新目标网络参数,采用θQ′=τθQ+(1-τ)θQ′更新目标Critic网络参数,采用θμ′=τθμ+(1-τ)θμ′更新目标Actor网络参数。
本发明采用的是基于策略梯度下降的深度神经网络(Deep DeterministicPolicy Gradient,DDPG)强化学习算法,该算法是一个不基于模型的、在线、异步策略的强化学习方法。DDPG算法利用Actor-Critic神经网络来生成一个使长期回报最大化的最优动作。Actor网络基于当前的观测给出一个它认为的最佳动作,Critic网络基于当前的观测和动作给出一个奖励值得估计。DDPG的观测量可以为连续或离散的,而动作空间是连续的。因为Critic网络只关注当前Actor 网络生成的动作,并不需要评价所有动作来选出最佳的那一个。在训练过程中, DDPG算法在每个步长都会更新Actor网络和Critic网络,并将过去的经验存在一个经验池中,每次更新会在经验池中取出一小部分。在每个训练步骤使用随机噪声模型扰动策略所选择的动作。DDPG算法中包含了四个函数估计器,(1) Actor网络μ(S):输入为观测S,输出为使长期回报最大化的动作;(2)目标Actor网络μ(S′):为了提高优化的稳定性,算法基于最新的Actor网络参数值周期性地更新目标Actor网络;(3)Critic网络Q(S,A):输入为观测S和动作A,输出相应的长期回报的期望。(4)目标Critic网络Q′(S,A):为了提高优化的稳定性,算法基于最新的Critic网络参数值周期性地更新目标Critic网络。其中, Actor网络μ(S)和Critic网络Q(S,A)属于主网络,目标Actor网络μ(S′)和目标Critic网络Q′(S,A)属于目标网络,μ(S)和μ(S′)有相同的结构和参数,Q(S,A)和 Q′(S,A)有相同的结构和参数。当训练结束时,训练好的最优策略存储于Actor 网络μ(S)中。DDPG收敛快且学习效率高。
为了对本发明有进一步地了解,下面结合图1至图5对本发明的基于强化学习的多弹协同攻击制导律设计方法进行详细说明。
步骤1,构造状态空间S=[r1…ri…rn ξ1…ξi…ξn]T,其中,n为导弹数量,ri为第i枚导弹和目标的相对距离,第i枚导弹和其邻居j间的估计剩余飞行时间的误差
Figure GDA0003328317380000091
j≠i。一个有n枚导弹的协同制导系统,系统拓扑数学表达为 G=(V,E,Ad),其中V={1,2,…,n}为拓扑图形中顶点的集合,代表每个导弹的位置。拓扑图形中边的集合
Figure GDA0003328317380000096
顶点i和顶点j的边由(j,i)∈E来表达,代表第i枚导弹可以获取第j枚导弹的信息。拓扑图形G的邻接矩阵Ad=[aij],当且仅当 (j,i)∈E时,aij=1,即第i枚导弹和第j枚导弹为邻居,如果
Figure GDA0003328317380000097
则aij=0。第i枚导弹的剩余飞行时间
Figure GDA0003328317380000092
Ni为第i枚导弹的有效导航比,
Figure GDA0003328317380000094
为第i枚导弹的速度,θi为第i枚导弹的弹道倾角,λi为第i枚导弹的弹目视线角,第j枚导弹的剩余飞行时间
Figure GDA0003328317380000093
rj为第j枚导弹和目标的相对距离,
Figure GDA0003328317380000095
为第j枚导弹的速度,Nj为第j枚导弹有效导航比,θj为第j 枚导弹的弹道倾角,λj为第j枚导弹的弹目视线角。
步骤2,设计协同制导律并构造动作空间,协同制导律结构为
Figure GDA0003328317380000101
构造动作空间为制导律中的协同控制项
Figure GDA0003328317380000102
其中,aMi为第i枚导弹的加速度,
Figure GDA0003328317380000103
为第i枚导弹的传统的比例导引律,
Figure GDA0003328317380000104
VMi为第i枚导弹的速度,λi为第i枚导弹的弹目视线角,
Figure GDA0003328317380000105
为第i枚导弹的协同控制项,取值范围为-200-200m/s2,m为米,s为秒。
步骤3,构造奖励函数
Figure GDA0003328317380000106
t为时间,X1取值范围为0.1至0.5,X2取值范围为8至12,X3取值范围为0.8至 1.2,X4取值范围为8至12,X5取值范围为8至12,X6取值范围为0.01至0.03,优选的,
Figure GDA0003328317380000107
当脱靶量小于1m时,奖励值加10,且当剩余飞行时间误差小于0.02s时,奖励值加10,以便脱靶量和剩余飞行时间的误差尽量小。
步骤4,用随机参数θQ初始化Critic网络Q(S,A),用θQ′初始化目标Critic 网络Q′(S,A),优选的,θQ=θQ′,用随机参数θμ初始化Actor网络μ(S),用θμ′初始化目标Actor网络μ′(S′),优选的,θμ=θμ′
步骤5,对于训练中的每个步长,采用强化学习算法更新Critic网络Q(S,A)、Actor网络μ(S)、目标Critic网络Q′(S,A)和目标Actor网络μ′(S′),直到所有导弹和目标的相对距离均小于零。采用强化学习算法更新Critic网络Q(S,A)、Actor 网络μ(S)、目标Critic网络Q′(S,A)和目标Actor网络μ′(S′)具体包括步骤501至步骤505。
步骤501,对于当前的观测S,选择动作A=μ(S)+N,其中N为噪声模型中的随机噪声,执行动作A,观测奖励R及后续的观测S′;在经验池中存储经验 (S,A,R,S′)。
步骤502,从经验池中随机取出M个经验(Sk,Ak,Rk,S′k),M可根据经验池中经验数量选取,也可以人为指定,Sk为第k个经验的状态,k≤M,Ak为第k个经验的协同控制项,Rk为第k个经验的奖励函数值,S′k第k个经验的后续状态,判断S′k是否是最终状态,如果S′k是最终状态,则设置值函数目标yi=Ri,否则值函数目标yi是奖励函数Rk和折扣未来回报的和,即yi=Ri+γQ′(Sk,μ′(Skμ)|θQ),μ′(Skμ)为输入为Sk用θμ初始化的目标Actor网络,μ′(Skμ)|θQ′为输入为μ′(Skμ)用θQ′初始化的Actor网络,Q′(Sk,μ′(Skμ)|θ′Q)为输入为Sk和μ′(Skμ)|θQ′的目标Critic网络,γ为折扣因子。
值函数目标是奖励函数Rk和折扣未来回报的和。为了计算累计奖励,采用基于策略梯度下降的深度神经网络(Deep Deterministic Policy Gradient,DDPG) 强化学习算法首先将后续的观测S′k从经验池中传到目标Actor网络来生成下一步的动作。然后算法将下一步的动作传到目标Critic网络得出累计奖励。
步骤503:通过使经验值损失
Figure GDA0003328317380000111
最小化更新Critic网络参数,其中Q(Sk,AkQ)表示以Sk和用θQ初始化的Ak作为输入的Critic网络。
步骤504:利用采样策略梯度
Figure GDA0003328317380000112
使期望的折扣奖励最大化更新Actor网络参数,其中,Gai为Critic网络相对于Actor网络输出动作的梯度,
Figure GDA0003328317380000113
Gμi为Actor网络输出动作相对于Actor网络参数的梯度,
Figure GDA0003328317380000114
μ(Skμ)为输入为Sk用θμ初始化的Actor网络。
步骤505:更新目标Actor和目标Critic网络参数。更新方法可采用平滑更新、周期性更新或周期性平滑更新。平滑更新即利用平滑因子τ来更新目标网络参数,通过θQ′=τθQ+(1-τ)θQ′更新目标Critic网络参数,通过θμ′=τθμ+(1-τ)θμ′更新目标Actor网络参数。周期性更新即不进行平滑处理时周期性地更新目标参数,即平滑因子τ=1。周期性平滑即周期性地更新目标参数,并进行平滑处理。
根据本发明的一个具体实施例,对于初始条件为表1的两枚具有不同初始条件的导弹和一个静止目标。分别采用本发明的强化学习制导律(RL-CPN)、传统制导律(CPN)和比例导引制导律(PN),在测试场景下的仿真结果如表 2所示,可以看到,强化学习制导律的攻击时间误差平均值为0.001s,而比例导引的攻击时间误差为0.1012198s,两者相差了两个数量级。攻击时间上的0.001s 误差足以实现多枚导弹对目标的同时打击。和传统CPN相比,RL-CPN的脱靶量和攻击时间误差也相对较小。也就是说,RL-CPN的制导精度更高,展现出了它的优越性。为了进一步验证强化学习协同制导律(RL-CPN)的有效性,本实施例将用一些未在训练中使用的数据进行仿真。拓展交战场景进行制导律性能的对比如表3所示,可见强化学习协同制导律RL-CPN的脱靶量依然小于比例导引制导律PN和传统协同制导律CPN的脱靶量。此外,RL-CPN的脱靶量方差误差的方差也比比例导引制导律PN和传统协同制导律RL-CPN的小,说明 RL-CPN的性能更加稳定。RL-CPN的攻击时间误差为0.006239s,依然较比例导引制导律的小一个量级。尽管RL-CPN的攻击时间误差在本小节仿真场景中略大于CPN,但是其脱靶量仅为CPN的约1/3,对于同时打击而言更具有实战意义。图3至图5对强化学习制导律RL-CPN、传统协同制导律CPN和比例导引制导律PN的脱靶量进行了直方图统计。可以看到,增强学习制导律脱靶量集中在0-1m,而比例导引的分布则比较均匀,出现较大脱靶量的次数更多。CPN 制导律的脱靶量在3.5m-4m区间出现的频次则更多,这也说明了强化学习制导律的制导精度更高。这是因为本发明所考虑的是非线性交战动力学模型,剩余飞行时间的估计和制导律的设计不再基于传统方法所考虑的小角度假设下的线性动力学模型。强化学习算法中的神经网络理论上可以拟合任何非线性函数,因此本发明的制导律可获得较高的制导精度。
表1决策优化的初始条件
Figure GDA0003328317380000131
表2测试场景下的制导律性能的对比
Figure GDA0003328317380000132
表3拓展交战场景进行制导律性能的对比
Figure GDA0003328317380000133
Figure GDA0003328317380000141
综上所述,本发明的基于强化学习的多弹协同攻击制导律设计方法提出了一种基于深度确定性策略梯度下降神经网络的强化学习协同制导律。修正了根据线性交战动力学推导得出的剩余飞行时间估计方程,使其不再受小角度假设条件的约束。以各弹的剩余飞行时间误差为协调变量,与各弹的剩余飞行距离一同作为强化学习算法的观测量。利用脱靶量和剩余飞行时间误差构造奖励函数,然后离线训练生成强化学习智能体。闭环制导过程中,强化学习智能体将实时生成可实现同时打击的制导指令。本发明实现了分布式协同,可以实现多枚导弹对目标的同时打击,不再需要提前指定某一攻击时间,而是各枚导弹根据剩余飞行时间误差这一协调变量生成制导指令,进而实现剩余飞行时间的一致性,达到同时打击的目的。利用图论理论,各枚导弹不需要“弹群”的全局信息,只需与其邻居进行通讯,与集中式协同相比,降低了通讯负担。本发明的强化学习制导律脱靶量较小,各枚导弹之间的剩余飞行时间误差较小,制导精度高,能够适应线下学习未训练的交战场景。基于强化学习算法设计制导律极大简化了制导律设计过程,无需考虑控制器的复杂结构,也免去了控制器的调参过程,缩短了制导律的设计周期。实现多枚导弹对目标的协同攻击,提高打击效能。仿真结果验证了本发明所提出的强化学习协同攻击智能制导律能够实现多枚导弹对目标的同时攻击。与传统协同制导律相比,强化学习协同制导律的脱靶量较小,攻击时间误差也较小。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于强化学习的多弹协同攻击制导律设计方法,其特征在于,包括如下步骤:
步骤1,构造状态空间S=[r1…ri…rnξ1…ξi…ξn]T
其中,n为导弹数量,ri为第i枚导弹和目标的相对距离,第i枚导弹估计剩余飞行时间的误差
Figure FDA0003328317370000011
第i枚导弹获取第j枚导弹的信息时aij=1,第i枚导弹无法获取第j枚导弹的信息时aij=0,
Figure FDA0003328317370000012
为第i枚导弹的剩余飞行时间,
Figure FDA0003328317370000013
为第j枚导弹的剩余飞行时间,
Figure FDA0003328317370000014
为非线性函数;
步骤2,设计协同制导律并构造动作空间;
协同制导律结构为
Figure FDA0003328317370000015
其中,aMi为第i枚导弹的加速度,
Figure FDA0003328317370000016
为第i枚导弹的传统的比例导引律,
Figure FDA0003328317370000017
为第i枚导弹的协同控制项;动作空间为制导律中的动作
Figure FDA0003328317370000018
步骤3,构造奖励函数
Figure FDA0003328317370000019
其中,ri(0)为第i枚导弹和目标的初始相对距离,X1取值范围为0.1至0.5,X2取值范围为8至12,X3取值范围为0.8至1.2,X4取值范围为8至12,X5取值范围为8至12,X6取值范围为0.01至0.03;
步骤4,用随机参数θQ初始化Critic网络Q(S,A),用随机参数θQ′初始化目标Critic网络Q′(S,A),用随机参数θμ初始化Actor网络μ(S),用随机参数θμ′初始化目标Actor网络μ′(S′);本步骤的θQ,θμ,θQ′,θμ′均为随机参数,无具体含义;
步骤5,对于训练中的每个步长,采用强化学习算法更新Critic网络Q(S,A)、Actor网络μ(S)、目标Critic网络Q′(S,A)和目标Actor网络μ′(S′),直到满足终止条件。
2.根据权利要求1所述的基于强化学习的多弹协同攻击制导律设计方法,其特征在于:步骤5中具体包括如下步骤:
步骤501,根据非线性交战动力学方程更新当前步长下的状态S,对于当前的状态S,选择动作A=μ(S)+N,执行动作A,观测所述奖励函数R及执行动作A后的后续状态S′,在经验池中存储经验(S,A,R,S′),N为噪声模型中的随机噪声;
步骤502,从经验池中随机取出M个经验(Sk,Ak,Rk,S′k),k≤M,Sk为第k个经验的观测,Ak为第k个经验的协同控制项,Rk为第k个经验的奖励函数值,S′k第k个经验的后续状态;判断S′k是否是最终状态,如果S′k是最终状态,则设置值函数目标y=R,否则值函数目标为奖励函数R和期望的折扣奖励之和,即y=R+γQ′(Sk,μ′(Skμ)|θQ′),μ′(Skμ)为输入为Sk用θμ初始化的目标Actor网络,μ′(Skμ)|θQ′为输入为μ′(Skμ)用θQ′初始化的Actor网络,Q′(Sk,μ′(Skμ)|θQ′)为输入为Sk和μ′(Skμ)|θQ′的目标Critic网络,γ为折扣因子;
步骤503,通过使经验值损失
Figure FDA0003328317370000021
最小化,更新所述Critic网络参数,其中Q(Sk,AkQ)表示以Sk和用θQ初始化的Ak作为输入的Critic网络,yk为第k个经验的值函数目标;本步骤中M为步骤502中从经验池中随机取出经验的个数,Q为Critic网络、μ为Actor网络、Q′为目标Critic网络,μ′为目标Actor网络;
步骤504,利用采样策略梯度
Figure FDA0003328317370000022
使期望的折扣奖励最大化,更新Actor网络参数,其中,Gai为Critic网络相对于Actor网络输出动作的梯度,
Figure FDA0003328317370000023
Gμi为Actor网络输出动作相对于Actor网络参数的梯度,
Figure FDA0003328317370000024
μ(Skμ)为输入为Sk用θμ初始化的Actor网络;
步骤505,更新目标Actor和目标Critic网络参数。
3.根据权利要求1所述的基于强化学习的多弹协同攻击制导律设计方法,其特征在于:第i枚导弹的剩余飞行时间
Figure FDA0003328317370000031
ri为第i枚导弹和目标的相对距离;
Figure FDA0003328317370000032
为第i枚导弹的速度,θi为第i枚导弹的弹道倾角,λi为第i枚导弹的弹目视线角,Ni为有效导航比;ri为第i枚导弹和目标的相对距离。
4.根据权利要求1所述的基于强化学习的多弹协同攻击制导律设计方法,其特征在于:奖励函数变换为:
Figure FDA0003328317370000033
5.根据权利要求3所述的基于强化学习的多弹协同攻击制导律设计方法,其特征在于:第i枚导弹的传统的比例导引律
Figure FDA0003328317370000034
6.根据权利要求1所述的基于强化学习的多弹协同攻击制导律设计方法,其特征在于:终止条件包括导弹和目标的相对距离小于零。
7.根据权利要求3所述的基于强化学习的多弹协同攻击制导律设计方法,其特征在于:非线性交战动力学方程为
Figure FDA0003328317370000035
其中
Figure FDA0003328317370000036
为第i枚导弹与目标间的相对速度,σi为航向角误差,
Figure FDA0003328317370000037
为视线角速率,
Figure FDA0003328317370000038
为第i枚导弹的弹道倾角变化率。
8.根据权利要求2所述的基于强化学习的多弹协同攻击制导律设计方法,其特征在于:步骤505中更新目标Actor和目标Critic网络参数的方法包括平滑更新,利用平滑因子τ来更新目标网络参数,采用θQ′=τθQ+(1-τ)θQ′更新目标Critic网络参数,采用θμ′=τθμ+(1-τ)θμ′更新目标Actor网络参数。
9.根据权利要求2所述的基于强化学习的多弹协同攻击制导律设计方法,其特征在于:步骤505中更新目标Actor和目标Critic网络参数的方法包括周期性更新。
10.根据权利要求2所述的基于强化学习的多弹协同攻击制导律设计方法,其特征在于:步骤505中更新目标Actor和目标Critic网络参数的方法包括周期性平滑更新。
CN202110007293.6A 2021-01-05 2021-01-05 基于强化学习的多弹协同攻击制导律设计方法 Active CN112799429B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110007293.6A CN112799429B (zh) 2021-01-05 2021-01-05 基于强化学习的多弹协同攻击制导律设计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110007293.6A CN112799429B (zh) 2021-01-05 2021-01-05 基于强化学习的多弹协同攻击制导律设计方法

Publications (2)

Publication Number Publication Date
CN112799429A CN112799429A (zh) 2021-05-14
CN112799429B true CN112799429B (zh) 2022-03-29

Family

ID=75808195

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110007293.6A Active CN112799429B (zh) 2021-01-05 2021-01-05 基于强化学习的多弹协同攻击制导律设计方法

Country Status (1)

Country Link
CN (1) CN112799429B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113255234B (zh) * 2021-06-28 2021-09-28 北京航空航天大学 一种对导弹群进行在线目标分配的方法
CN114519292B (zh) * 2021-12-17 2024-07-19 北京航空航天大学 基于深度强化学习的空空导弹越肩发射制导律设计方法
CN114384808B (zh) * 2022-03-24 2022-07-15 西北工业大学 一种基于自适应神经网络的到达时间控制三维制导方法
CN116224801A (zh) * 2023-03-29 2023-06-06 北京理工大学 基于人工智能的飞行器协同制导律快速回归辨识方法
CN117989923B (zh) * 2024-03-22 2024-08-02 哈尔滨工业大学 一种基于强化学习的变比例系数多弹协同制导方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103245256A (zh) * 2013-04-25 2013-08-14 北京理工大学 一种多导弹协同作战制导律设计方法
CN103884237A (zh) * 2014-04-08 2014-06-25 哈尔滨工业大学 基于目标概率分布信息的多对一协同制导方法
CN108168381A (zh) * 2018-01-04 2018-06-15 北京理工大学 一种多枚导弹协同作战的控制方法
CN109625333A (zh) * 2019-01-03 2019-04-16 西安微电子技术研究所 一种基于深度增强学习的空间非合作目标捕获方法
CN111667513A (zh) * 2020-06-01 2020-09-15 西北工业大学 一种基于ddpg迁移学习的无人机机动目标跟踪方法
CN112033234A (zh) * 2020-08-17 2020-12-04 北京电子工程总体研究所 一种多导弹协同制导律设计方法
CN112069605A (zh) * 2020-11-10 2020-12-11 中国人民解放军国防科技大学 一种带有攻击时间约束的比例导引律设计方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070288132A1 (en) * 2006-06-07 2007-12-13 Raytheon Company Cooperative swarm of unmanned vehicles
US8436283B1 (en) * 2008-07-11 2013-05-07 Davidson Technologies Inc. System and method for guiding and controlling a missile using high order sliding mode control
CN102980449B (zh) * 2012-12-25 2014-10-15 北京理工大学 一种多枚导弹协同作战的控制方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103245256A (zh) * 2013-04-25 2013-08-14 北京理工大学 一种多导弹协同作战制导律设计方法
CN103884237A (zh) * 2014-04-08 2014-06-25 哈尔滨工业大学 基于目标概率分布信息的多对一协同制导方法
CN108168381A (zh) * 2018-01-04 2018-06-15 北京理工大学 一种多枚导弹协同作战的控制方法
CN109625333A (zh) * 2019-01-03 2019-04-16 西安微电子技术研究所 一种基于深度增强学习的空间非合作目标捕获方法
CN111667513A (zh) * 2020-06-01 2020-09-15 西北工业大学 一种基于ddpg迁移学习的无人机机动目标跟踪方法
CN112033234A (zh) * 2020-08-17 2020-12-04 北京电子工程总体研究所 一种多导弹协同制导律设计方法
CN112069605A (zh) * 2020-11-10 2020-12-11 中国人民解放军国防科技大学 一种带有攻击时间约束的比例导引律设计方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Distributed Guidance Law Design for Cooperative Simultaneous Attack with Multiple Missles;Zhou J,et al;《Journal of Guidance Control & Dynamics》;20160630;第39卷(第10期);第1-9页 *
TV Guidance Simulation Platform Based on Deep Learning;Zhaowei Yu,et al.;《2019 IEEE International Conference on Cybemetics and Intelligent System(CIS) and IEEE Conference on Robotics,Automation and Mechatronics(RAM)》;20191120;第89-94页 *
基于强化学习的多发导弹协同攻击智能制导律;陈中原 等;《兵工学报》;20210831;第42卷(第8期);第1638-1647页 *
导弹攻击时间控制制导律研究;陈升富;《中国优秀硕士学位论文全文数据库 工程科技II辑》;20200615(第6期);全文 *
强化学习在多智能体对抗中的应用研究;谭浪;《中国优秀硕士学位论文全文数据库 工程科技II辑》;20200315(第3期);全文 *

Also Published As

Publication number Publication date
CN112799429A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
CN112799429B (zh) 基于强化学习的多弹协同攻击制导律设计方法
CN112902767B (zh) 一种多弹时间协同的导弹制导方法及系统
CN113050686B (zh) 一种基于深度强化学习的作战策略优化方法及系统
Wang et al. Improving maneuver strategy in air combat by alternate freeze games with a deep reinforcement learning algorithm
CN110442129B (zh) 一种多智能体编队的控制方法和系统
CN111091273A (zh) 一种基于能力预测的多弹协同任务规划方法
CN101122974A (zh) 基于Voronoi图和蚁群优化算法的无人机航路规划方法
CN113962012B (zh) 无人机对抗策略优化方法及装置
CN113885334B (zh) 一种基于飞行目标拦截的鲁棒末制导律计算方法和装置
CN113221444A (zh) 一种面向空中智能博弈的行为模仿训练方法
CN114519292A (zh) 基于深度强化学习的空空导弹越肩发射制导律设计方法
Duan et al. Autonomous maneuver decision for unmanned aerial vehicle via improved pigeon-inspired optimization
CN116225065A (zh) 多智能体强化学习的多自由度模型的无人机协同追捕方法
CN115470706A (zh) 用于多目标决策的分层强化学习框架训练方法
CN113741186A (zh) 一种基于近端策略优化的双机空战决策方法
Du et al. Deep reinforcement learning based missile guidance law design for maneuvering target interception
CN116432539A (zh) 一种时间一致性协同制导方法、系统、设备及介质
CN110917622B (zh) 基于近似动态规划算法的博弈决策方法及系统
Kong et al. Multi-ucav air combat in short-range maneuver strategy generation using reinforcement learning and curriculum learning
CN115046433B (zh) 基于深度强化学习的飞行器时间协同制导方法
CN115357051A (zh) 变形与机动一体化的规避与突防方法
Wang et al. Research on naval air defense intelligent operations on deep reinforcement learning
Chen et al. A Cooperative Guidance Law for Multiple Missiles based on Reinforcement Learning
Shi et al. Battlefield Situation Deduction and Maneuver Decision Using Deep Q-Learning
Tan et al. SAC-Based Impact Time Cooperative Guidance Law for Multiple Flight Vehicles

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant