CN113325866B - 一种基于事件触发的微分对策协同制导方法 - Google Patents

一种基于事件触发的微分对策协同制导方法 Download PDF

Info

Publication number
CN113325866B
CN113325866B CN202110552819.9A CN202110552819A CN113325866B CN 113325866 B CN113325866 B CN 113325866B CN 202110552819 A CN202110552819 A CN 202110552819A CN 113325866 B CN113325866 B CN 113325866B
Authority
CN
China
Prior art keywords
missile
time
projectile
event
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110552819.9A
Other languages
English (en)
Other versions
CN113325866A (zh
Inventor
段丹丹
刘春生
高煜欣
刘泽浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202110552819.9A priority Critical patent/CN113325866B/zh
Publication of CN113325866A publication Critical patent/CN113325866A/zh
Application granted granted Critical
Publication of CN113325866B publication Critical patent/CN113325866B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/107Simultaneous control of position or course in three dimensions specially adapted for missiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Aiming, Guidance, Guns With A Light Source, Armor, Camouflage, And Targets (AREA)

Abstract

本发明公开了一种基于事件触发的微分对策协同制导方法,属于飞行器制导技术领域。该方法基于微分对策理论和拓扑结构,将多导弹协同制导系统建模为非线性零和微分对策系统;引入事件触发机制,避免各枚导弹之间冗余信号的通信传输;并利用自适应动态规划技术,得到非线性耦合HJI方程组的近似解。本发明设计的事件触发的最优控制器在线实时更新,能够实现多枚导弹在要求的时间内以相同碰撞角击中同一目标,同时能有效降低导弹之间的通信资源和计算成本。

Description

一种基于事件触发的微分对策协同制导方法
技术领域
本发明涉及一种基于事件触发的微分对策协同制导方法,属于飞行器制导技术领域。
背景技术
在各国日益激烈的军备竞赛中,导弹凭借其射程远、精度高、威力大和突防能力强等优势成为军事武器的研究热点。然而,随着作战环境的日益复杂、拦截目标日益的智能化,已被广泛应用的传统制导律的拦截精度和拦截成功率大大下降。作为解决冲突对抗或竞争问题的有效工具,微分对策能够根据具体的对抗或冲突问题进行建模分析。与最优控制相比,微分对策是一种研究双方或多方最优策略的理论,它能够在充分考虑对策参与者之间博弈关系的条件下,对系统所能实现的最优或最差结果进行研究。考虑到导弹拦截机动目标模型是非线性的且存在不确定性等因素,使得非线性微分对策系统求解出现困难,即耦合的Hamilton-Jacobi-Isaacs(HJI)或Hamilton-Jacobi(HJ)方程的求解问题在一定程度上制约了其在拦截制导系统中的应用。近年来,自适应动态规划(Adaptive dynamicprogramming,ADP)作为一种有效的智能控制方法吸引了广大学者的注意。ADP方法的基本原理是利用函数近似结构(如神经网络等)来近似性能指标函数,然后根据贝尔曼最优性原理更新函数近似结构的参数,从而获得最优性能指标函数和最优控制策略。但是基于ADP技术的多人合作微分对策理论还有很多的不足与缺陷,因而研究基于ADP技术的多人合作微分对策理论具有很大的潜力。
随着现代和未来战争的战场环境越来越复杂,海量的数据传输和有限的网络带宽之间的矛盾日益激烈。而传统的时间触发控制方案需要卫星根据周期采样的信息调节自身状态,以实现有效拦截。通信压力较大,控制输入更新较为频繁,造成资源浪费。为克服时间触发控制的局限性,避免通信资源和计算资源的不必要浪费,学者们提出了一种可以替代周期控制的策略,即事件触发控制(Event-triggered Control,ETC)。这是一种有效的降低计算成本的控制方法,信号传输是根据系统的需求来进行的,在网络系统控制、复杂系统跟踪、编队控制、多智能体等领域有着广泛的应用。与时间触发相比,事件触发系统的主要特点是某个事件的发生决定了采样信号,而不是随着时间的流逝而周期性采样。也就是说,事件触发是一种仅在“需要”时进行采样的控制策略,利用该机制能够在保证系统控制性能的同时,有效的减少控制器的计算成本和系统的通信成本。因此,基于事件触发控制的制导律,不仅能够保证拦截效果,而且能够提高通信资源的利用率,节约计算成本,减轻网络带宽的压力,因而更加的符合现代信息化战争思想的作战方式。
发明内容
为了解决网络带宽限制和时变的非线性HJI方程求解困难等问题,本发明提出了一种基于事件触发的微分对策协同制导方法。该方法通过引入事件触发通信方案,避免大量不必要的数据传输;利用自适应动态规划技术近似求解耦合的HJI方程,得到最优的微分对策协同制导律。
本发明为解决上述问题采用以下技术方案:
一种基于事件触发的微分对策协同制导方法,包括以下步骤:
步骤1、设导弹与目标的运动为质点运动,且其速度大小及视线角大小恒定,定义M1,M2…MN分别表示N枚导弹,T表示机动的目标;建立二维平面多导弹-目标的相对运动方程:
Figure GDA0003601885830000021
其中,θi,Vii,ui,ri分别表示第i枚导弹的视线角、飞行速度、航迹角、垂直于速度方向的控制输入以及和目标T之间的距离;VT,β,v表示机动目标的飞行速度、航迹角以及垂直于速度方向的控制输入;
Figure GDA0003601885830000022
分别表示riiii对时间t的导数;步骤2、考虑导弹与目标均表现为一阶自动驾驶仪,则第i枚导弹Mi和机动目标T的自动驾驶仪分别为:
Figure GDA0003601885830000023
Figure GDA0003601885830000024
其中:xMi、yMi、ai和τMi分别为第i枚导弹的横坐标位置信息、纵坐标位置信息、侧向加速度和自动驾驶仪时间常数;xT、yT、aT和τT分别为机动目标的横坐标位置信息、纵坐标位置信息、侧向加速度和自动驾驶仪时间常数;
Figure GDA0003601885830000031
分别表示xMi,yMi,ai,xT,yT,aT对时间t的导数;
步骤3、根据导弹能够成功拦截机动目标的条件:
Figure GDA0003601885830000032
及视线角速保持不变时,碰撞角的表达式:
ηi=αi-β=θi-arcsin(Vi -1VT sin(θi-β))-β, (5)
并考虑到有限时域约束,定义新的时间变量
Figure GDA0003601885830000033
其中ri(0)表示第i枚导弹与机动目标之间的初始距离,ri(t)表示第i枚导弹在t时刻与机动目标之间的距离;基于时间变量
Figure GDA0003601885830000034
定义第i枚导弹的剩余时间
Figure GDA0003601885830000035
定义状态变量
Figure GDA0003601885830000036
得到有限时域隐式协同制导模型:
Figure GDA0003601885830000037
x′0=f(x0), (6)
其中,
Figure GDA0003601885830000038
为状态变量xi
Figure GDA0003601885830000039
的导数,x0为领弹的状态变量,f(x0)为领弹的非线性动态,
Figure GDA00036018858300000310
Figure GDA00036018858300000311
为从弹i的非线性动态,
Figure GDA00036018858300000312
Figure GDA00036018858300000313
表示第i枚导弹的视线角速率,tgoi表示第i枚导弹的剩余时间,
Figure GDA00036018858300000314
为从弹i的控制策略,
Figure GDA00036018858300000315
为机动目标针对从弹i的逃逸策略;
步骤4、对第i个跟随者,定义如下局部邻域一致误差
Figure GDA00036018858300000316
其中:xj为从弹j的状态变量,x0为领弹的状态变量,aij表示邻接矩阵
Figure GDA00036018858300000317
的元素,ai0为智能体i与领导者之间连接矩阵的对角元素,
Figure GDA00036018858300000318
是δi的一阶导数,则通过数学求导、变换获得下列局部邻域一致误差的动态方程
Figure GDA00036018858300000319
其中,lij
Figure GDA0003601885830000041
分别是矩阵
Figure GDA0003601885830000042
Figure GDA00036018858300000436
的元素,f(xj)、gj(xj)及kj(xj)为从弹j的非线性动态,
Figure GDA0003601885830000043
为从弹j的控制策略,
Figure GDA0003601885830000044
为机动目标针对从弹j的逃逸策略;
步骤5、根据微分对策理论,导弹和目标的微分对策协同制导律以及时变的HJI方程如下:
Figure GDA0003601885830000045
Figure GDA0003601885830000046
其中,
Figure GDA0003601885830000047
为从弹i的最优控制策略,
Figure GDA0003601885830000048
Figure GDA0003601885830000049
的转置,
Figure GDA00036018858300000410
为从弹j的最优控制策略,
Figure GDA00036018858300000411
为从弹i的最优逃逸策略,
Figure GDA00036018858300000412
从弹j的最优逃逸策略,
Figure GDA00036018858300000413
Figure GDA00036018858300000414
的转置,
Figure GDA00036018858300000415
为智能体i与领导者之间连接矩阵的元素,Rii和Tii都是正定的常数矩阵,
Figure GDA00036018858300000416
为Rii的逆矩阵,
Figure GDA00036018858300000417
为Tii的逆矩阵,γi为常数参数,
Figure GDA00036018858300000418
表示成本函数
Figure GDA00036018858300000419
对δi的偏导数,
Figure GDA00036018858300000420
表示成本函数
Figure GDA00036018858300000421
对t的偏导数;
步骤6、设计事件触发机制,具体如下:每间隔h秒对一致误差系统的状态δi进行采样,得到周期采样后的状态
Figure GDA00036018858300000422
定义一个事件触发条件,当系统当前的周期采样状态δi(lh)与上次触发状态
Figure GDA00036018858300000423
的差值违反我们定义的触发条件时,产生新的触发时刻
Figure GDA00036018858300000424
反馈制导律随之更新;
Figure GDA00036018858300000425
时刻的制导律表示为
Figure GDA00036018858300000426
Figure GDA00036018858300000427
其具体表达式如下:
Figure GDA00036018858300000428
其中,
Figure GDA00036018858300000429
为成本函数
Figure GDA00036018858300000430
对t的偏导数在
Figure GDA00036018858300000431
时刻的值;
引入事件触发机制后,得到基于事件触发的局部邻域一致误差的动态方程:
Figure GDA00036018858300000432
其中:
Figure GDA00036018858300000433
为从弹i事件触发的最优控制策略,
Figure GDA00036018858300000434
为从弹i事件触发的最优逃逸策略;
步骤7、执行微分对策制导律,具体如下:
利用神经网络的万能逼近特性,设计一个评价网络近似最优的成本函数
Figure GDA00036018858300000435
及其终端约束
Figure GDA0003601885830000051
其具体表达式如下:
Figure GDA0003601885830000052
其中,
Figure GDA0003601885830000053
Figure GDA0003601885830000054
分别是和
Figure GDA0003601885830000055
Figure GDA0003601885830000056
的估计,
Figure GDA0003601885830000057
和σii,tf-t)分别表示第i个智能体的评价网络近似权值以及激活函数,
Figure GDA0003601885830000058
是在稳定域中选取的状态δi(t)的估计值,tf为终端时间;
利用(13)式,得到近似的事件触发微分对策协同制导律,定义导弹和目标基于事件的近似反馈控制器分别为
Figure GDA0003601885830000059
其具体表达式为:
Figure GDA00036018858300000510
其中,
Figure GDA00036018858300000511
是激活函数σii,tf-t)对δi的偏导数。
Figure GDA00036018858300000512
则可根据梯度下降法,得到
Figure GDA00036018858300000513
的更新律:
Figure GDA00036018858300000514
式(15)中,
Figure GDA00036018858300000515
表示
Figure GDA00036018858300000516
对时间的一阶导数;
Figure GDA00036018858300000517
Figure GDA00036018858300000518
均大于零,为设计的学习速率;
Figure GDA00036018858300000519
是在稳定域内随机选择的δi(tf)的估计值;∈ii(tf),0)为神经网络的近似误差,
Figure GDA00036018858300000520
为误差∈ii(tf),0)对δi的偏导数,
Figure GDA00036018858300000521
Figure GDA00036018858300000522
的转置;
Figure GDA00036018858300000523
Figure GDA00036018858300000524
表示驻留误差;
Figure GDA00036018858300000525
xi,r是从弹i基于事件触发机制的状态变量,
Figure GDA00036018858300000526
Figure GDA00036018858300000527
Figure GDA0003601885830000061
Figure GDA0003601885830000062
为φi的转置,
Figure GDA0003601885830000063
Figure GDA0003601885830000064
的转置,
Figure GDA0003601885830000065
Figure GDA0003601885830000066
的转置,
Figure GDA0003601885830000067
为从弹i事件触发的近似最优控制策略,
Figure GDA0003601885830000068
为从弹i事件触发的近似最优逃逸策略,
Figure GDA0003601885830000069
为从弹i的近似最优控制策略,
Figure GDA00036018858300000610
为从弹i的近似最优逃逸策略。
所述步骤5中构造HJI方程,微分对策协同制导律的具体过程如下:
定义第i个智能体的有限时域的成本函数为:
Figure GDA00036018858300000611
式(16)中,Qii,τ)是关于一致误差δi和时间t的正定矩阵,
Figure GDA00036018858300000612
为从弹i所有邻域导弹的控制策略组成的集合,
Figure GDA00036018858300000613
为机动目标针对从弹i所有邻域从弹的控制策略组成的集合,ψii(tf),tf)表示第i个智能体的终端时刻的成本函数;在式(16)中所有的矩阵均为常数矩阵,并且qi,Rii,Tii为正定矩阵,Rij,Tij为半正定矩阵;对第i个智能体,定义时变的Hamilton函数为:
Figure GDA00036018858300000614
其中,
Figure GDA00036018858300000615
为成本函数Vii,t)对δi的偏导数,
Figure GDA00036018858300000616
为成本函数对时间t的偏导数;
根据微分对策理论,由静态条件得到如下反馈制导律:
Figure GDA00036018858300000617
进而得到耦合的时变HJI方程如下:
Figure GDA00036018858300000618
本发明的有益效果如下:
(1)本发明将多弹协同制导系统描述为二人零和微分对策系统,在该系统下,追逃双方策略选择是一个动态博弈过程,与传统制导方案中将目标飞行器制导策略看成已知函数相比,本发明的制导方案更适用于复杂的实际作战过程。
(2)本发明引入事件触发机制,大大减少不必要数据的传输,提高了通信资源的利用率,缓解了网络带宽的限制。
(3)本发明利用自适应动态规划技术,用神经网络逼近耦合的HJI方程的最优解,从而解决了非线性微分对策系统最优解的求解问题,并近似得到最优反馈控制策略,使得最优协同制导律的设计成为可能。
附图说明
图1是本发明的多导弹协同制导二维平面示意图。
图2是本发明方法的协同制导控制流程图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
本发明所公布的一种基于事件触发的微分对策协同制导方法包括由节点集合
Figure GDA0003601885830000071
组成的多智能体系统之间的强联通有向通信拓扑结构图
Figure GDA0003601885830000072
其中,边集
Figure GDA0003601885830000073
表示智能体之间的信息传输通道,若(i,j)∈ε则说明智能体i能够接收到智能体j的信息,反之则不然。对于智能体i而言,所有能被它接收到信息的智能体的集合用
Figure GDA0003601885830000074
表示。
Figure GDA0003601885830000075
表示图
Figure GDA0003601885830000076
的邻接矩阵,如智能体i和智能体j之间存在通信链路,也就是(i,j)∈ε时,矩阵元素aij=1,反之aij=0。在这里我们假设图
Figure GDA0003601885830000077
中任意两个节点之间总存在一条有向路径且图
Figure GDA0003601885830000078
且没有自环,即aii=0。图
Figure GDA0003601885830000079
的入度矩阵被定义为
Figure GDA00036018858300000710
其中
Figure GDA00036018858300000711
智能体i与领导者之间的连接矩阵由
Figure GDA00036018858300000712
表示,如果智能体i能接收到领导者的信息,则
Figure GDA00036018858300000713
反之
Figure GDA00036018858300000714
定义图
Figure GDA00036018858300000715
的拉普拉斯矩阵为
Figure GDA00036018858300000716
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
如图1所示,本发明建立多导弹协同拦截同一目标的数学模型。N枚导弹M1,M2…MN协同拦截机动目标T,假设导弹和目标的速度大小不变,只有速度方向发生改变。图中,θi,Vii,ui,ri分别表示第i枚导弹的视线角、飞行速度、航迹角、垂直于速度方向的控制输入以及和目标T之间的距离;VT,β,v表示机动目标的飞行速度、航迹角以及垂直于速度方向的控制输入。
如图2所示,根据所建立的多导弹协同拦截同一目标的数学模型,构造多导弹协同制导系统;多导弹协同制导系统将连续的状态变量传输到事件产生器,在事件产生器中生成事件触发的状态变量,并将其分别传输到事件触发的微分对策协同制导律以及评价网络;微分对策协同制导律通过零阶保持器,连续的作用于本发明建立的多导弹协同拦截同一目标的数学模型;评价网络用于更新评价网络的权值,该权值能够优化事件触发的多弹协同制导律。
具体步骤如下:
步骤1,建立二维平面多导弹-目标的相对运动方程。
假设N枚导弹M1,M2…MN协同拦截机动目标T,导弹和目标的速度大小不变,只有速度方向发生改变。多导弹-目标的相对运动方程可表示为如下数学模型:
Figure GDA0003601885830000081
其中,θi,Vii,ui,ri分别表示第i枚导弹的视线角、飞行速度、航迹角、垂直于速度方向的控制输入以及和目标T之间的距离;VT,β,v表示机动目标的飞行速度、航迹角以及垂直于速度方向的控制输入;
Figure GDA0003601885830000082
分别表示riiii对时间t的导数。
本发明考虑导弹与目标均表现为一阶自动驾驶仪。定义xMi、yMi、ai和τMi分别为第i枚导弹的横坐标位置信息、纵坐标位置信息、侧向加速度和自动驾驶仪时间常数;定义xT、yT、aT和τT分别为机动目标的横坐标位置信息、纵坐标位置信息、侧向加速度和自动驾驶仪时间常数;
Figure GDA0003601885830000083
分别表示xMi,yMi,ai,xT,yT,aT对时间t的导数;在本发明中设定τMi=0.1s,τT=0.1s,
Figure GDA0003601885830000091
则第i枚导弹Mi和机动目标T的自动驾驶仪分别为:
Figure GDA0003601885830000092
Figure GDA0003601885830000093
步骤2,根据导弹能够成功拦截机动目标的条件:
Figure GDA0003601885830000094
及视线角速保持不变时,碰撞角的表达式:
ηi=αi-β=θi-arcsin(Vi -1VT sin(θi-β))-β, (5)
并考虑到有限时域约束,定义新的时间变量
Figure GDA0003601885830000095
其中ri(0)表示第i枚导弹与机动目标之间的初始距离,ri(t)表示第i枚导弹在t时刻与机动目标之间的距离。基于时间变量
Figure GDA00036018858300000917
定义第i枚导弹的剩余时间
Figure GDA0003601885830000096
状态变量
Figure GDA0003601885830000097
得到有限时域隐式协同制导模型:
Figure GDA0003601885830000098
Figure GDA0003601885830000099
式(6)中,xi1表示第i枚导弹的视线角,
Figure GDA00036018858300000910
Figure GDA00036018858300000911
表示第i枚导弹的视线角速率,tgoi表示第i枚导弹的剩余时间,导弹M1,M2…MN的新的控制量分别为
Figure GDA00036018858300000912
ui表示第i枚导弹垂直于速度方向的控制输入,目标T的新的控制量为
Figure GDA00036018858300000913
v表示目标垂直于速度方向的控制输入。
将导弹和目标新的控制量带入到式(6)中,得到有限时域隐式协同制导模型:
Figure GDA00036018858300000914
x′0=f(x0),
其中,
Figure GDA00036018858300000915
为状态变量xi
Figure GDA00036018858300000916
的导数,xi为从弹i的二维状态变量,f(x0)为领弹的非线性动态,f(xi)、ki(xi)及gi(xi)为从弹i的非线性动态,
Figure GDA0003601885830000101
为从弹i的控制策略,
Figure GDA0003601885830000102
为机动目标针对从弹i的逃逸策略。
步骤4、为了保证所有导弹都能以相同的碰撞角攻击机动目标,对第i个跟随者,定义如下局部邻域一致误差
Figure GDA0003601885830000103
其中:δi为智能体i的局部邻域一致误差,xi为从弹i的二维状态变量,xj为从弹j的二维状态变量,x0为领弹的状态变量,ai0为智能体i与领导者之间连接矩阵的对角元素;aij表示邻接矩阵
Figure GDA0003601885830000104
的元素。
定义
Figure GDA0003601885830000105
是δi的一阶导数,则通过数学求导、变换获得下列局部邻域一致误差的动态方程:
Figure GDA0003601885830000106
其中,lij
Figure GDA0003601885830000107
分别是矩阵
Figure GDA0003601885830000108
Figure GDA00036018858300001016
的元素,f(xi)、ki(xi)及gi(xi)为从弹i的非线性动力学,
Figure GDA0003601885830000109
为从弹i的控制策略,
Figure GDA00036018858300001010
为机动目标针对从弹i的逃逸策略,f(xj)、kj(xj)及gj(xj)为从弹j的非线性动力学,
Figure GDA00036018858300001011
为从弹j的控制策略,
Figure GDA00036018858300001012
为机动目标针对从弹j的逃逸策略。
步骤5、根据微分对策理论,推导有限时域微分对策闭环解形式
Figure GDA00036018858300001013
式(10)中,
Figure GDA00036018858300001014
为从弹i所有邻域导弹的控制策略组成的集合,
Figure GDA00036018858300001015
为机动目标针对从弹i所有邻域从弹的控制策略组成的集合,Qii,t)是关于一致误差δi和时间t的正定矩阵,uNi={uj:j∈Ni}为所有控制器uj,j∈Ni组成的集合,δi为智能体i的局部邻域一致误差,qi,Rii,Tii为给定的正定矩阵,Rij,Tij为给定的半正定矩阵,γi为常数参数,tf为终端时间,且ψii(tf),tf)表示第i个智能体的终端时刻的成本函数
对第i个智能体,定义时变的Hamilton函数为:
Figure GDA0003601885830000111
其中,xi为从弹i的状态变量,xj从弹j的状态变量,
Figure GDA0003601885830000112
为从弹i的控制策略,
Figure GDA0003601885830000113
为机动目标针对从弹i的逃逸策略,
Figure GDA0003601885830000114
为从弹j的控制策略,
Figure GDA0003601885830000115
为机动目标针对从弹j的逃逸策略,
Figure GDA0003601885830000116
为Vii,t)对δi的偏导数,
Figure GDA0003601885830000117
为Vii,t)对t的偏导数,qi,Rii,Tii为给定的正定矩阵,Rij,Tij为给定的半正定矩阵,γi为常数参数,lij是拉普拉斯矩阵的元素,
Figure GDA0003601885830000118
智能体i与领导者之间连接矩阵的元素,f(xj)、kj(xj)及gj(xj)为从弹j的非线性动态,
Figure GDA0003601885830000119
为从弹j的控制策略,
Figure GDA00036018858300001110
为机动目标针对从弹j的逃逸策略
Figure GDA00036018858300001111
为第j枚导弹的控制策略,
Figure GDA00036018858300001112
为机动目标针对第j枚导弹的逃逸策略。
根据微分对策理论,由静态条件得到如下微分对策协同制导律:
Figure GDA00036018858300001113
其中,
Figure GDA00036018858300001114
为导弹i最优的控制策略,
Figure GDA00036018858300001115
为目标针对导弹i最优的逃逸策略,lii是拉普拉斯矩阵的元素,
Figure GDA00036018858300001116
智能体i与领导者之间连接矩阵的元素,
Figure GDA00036018858300001117
是最优的成本函数,
Figure GDA00036018858300001118
Figure GDA00036018858300001119
关于δi的偏导数。
进而得到耦合的时变HJI方程如下:
Figure GDA00036018858300001120
其中,
Figure GDA00036018858300001121
为导弹j最优的控制策略,
Figure GDA00036018858300001122
为目标针对导弹j最优的逃逸策略。因此,只要能够求解非线性的HJI方程(13),有限时域的微分对策协同制导律即可获得。但HJI方程本质上属于非线性偏微分方程,很难通过数学推导求得其解析解。因此,本发明采用自适应动态规划技术,利用神经网络的万能逼近特性,得到HJI方程的近似最优解。
利用神经网络的万能逼近特性,本发明构造评价网络近似最优的成本函数
Figure GDA00036018858300001217
及其终端约束
Figure GDA00036018858300001218
其具体表达式如下:
Figure GDA0003601885830000121
式(14)中,
Figure GDA0003601885830000122
是理想的权值向量,
Figure GDA0003601885830000123
是激活函数,
Figure GDA0003601885830000124
是神经网络的近似误差,δi智能体i的局部邻域一致误差,tf是终端时间。
在神经网络的逼近过程中,理想的权值向量是未知的,因此不能直接用于执行微分对策协同制导律。为解决这一难题,本发明用实际近似方式表示。
实际近似可表示为
Figure GDA0003601885830000125
其中,
Figure GDA0003601885830000126
为最优成本函数
Figure GDA00036018858300001219
的估计,
Figure GDA0003601885830000127
是对最优终端成本
Figure GDA00036018858300001220
的估计,
Figure GDA0003601885830000128
和σii,tf-t)分别表示第i个智能体的评价网络近似权值以及激活函数,δi(t)为智能体i的局部邻域一致误差,
Figure GDA0003601885830000129
是在稳定域中选取的状态δi(t)的估计值。
利用(15)式,得到近似的事件触发微分对策制导律,定义导弹和目标的近似反馈控制器分别为:
Figure GDA00036018858300001210
其中,
Figure GDA00036018858300001211
Figure GDA00036018858300001212
分别是最优控制器
Figure GDA00036018858300001213
Figure GDA00036018858300001214
的估计,lii是拉普拉斯矩阵的元素,
Figure GDA00036018858300001215
智能体i与领导者之间连接矩阵的元素,
Figure GDA00036018858300001216
是激活函数σii,tf-t)关于δi的偏导数。
设计事件触发机制,具体如下:
每间隔h秒对一致误差系统的状态δi进行采样,得到周期采样后的状态
Figure GDA0003601885830000131
定义一个事件触发条件,当系统当前的周期采样状态δi(lh)与上次触发状态
Figure GDA0003601885830000132
的差值违反我们定义的触发条件时,产生新的触发时刻
Figure GDA0003601885830000133
反馈制导律随之更新。
Figure GDA0003601885830000134
时刻的制导律表示为
Figure GDA0003601885830000135
Figure GDA0003601885830000136
其具体表达式如下:
Figure GDA0003601885830000137
其中,
Figure GDA0003601885830000138
是导弹i在
Figure GDA0003601885830000139
时刻的最优控制策略,
Figure GDA00036018858300001310
是目标针对导弹i在
Figure GDA00036018858300001311
时刻的最优逃逸策略,
Figure GDA00036018858300001312
是在
Figure GDA00036018858300001313
时刻最优成本函数
Figure GDA00036018858300001325
对δi的偏导数。
引入事件触发机制后,得到基于事件触发的局部邻域一致误差的动态方程:
Figure GDA00036018858300001314
其中,
Figure GDA00036018858300001315
是一致误差δi的导数,
Figure GDA00036018858300001316
是导弹i在
Figure GDA00036018858300001326
时刻的最优控制策略,
Figure GDA00036018858300001327
是目标针对导弹i的最优逃逸策略。
利用(18)式,得到近似的事件触发微分对策制导律,定义导弹和目标基于事件的近似反馈控制器分别为
Figure GDA00036018858300001318
其具体表达式为:
Figure GDA00036018858300001319
其中,xi,r是智能体i事件触发机制下状态,的
Figure GDA00036018858300001320
是导弹i事件触发的近似最优控制策略,
Figure GDA00036018858300001321
是机动目标针对导弹i的事件触发的近似最优逃逸策略,
Figure GDA00036018858300001322
是激活函数σii,tf-t)对δi的偏导数。
Figure GDA00036018858300001323
则可根据梯度下降法,得到
Figure GDA00036018858300001324
的更新律:
Figure GDA0003601885830000141
式(20)中,
Figure GDA0003601885830000142
表示
Figure GDA0003601885830000143
对时间的一阶导数;
Figure GDA0003601885830000144
Figure GDA0003601885830000145
均大于零,为设计的学习速率;
Figure GDA0003601885830000146
是在稳定域内随机选择的δi(tf)的估计值;∈ii(tf),0)为神经网络的近似误差,
Figure GDA0003601885830000147
为误差∈ii(tf),0)对δi的偏导数,
Figure GDA0003601885830000148
Figure GDA0003601885830000149
的转置;
Figure GDA00036018858300001410
Figure GDA00036018858300001411
表示驻留误差;并且
Figure GDA00036018858300001412
Figure GDA00036018858300001413
Figure GDA00036018858300001414
Figure GDA00036018858300001415
Figure GDA00036018858300001416
为φi的转置,
Figure GDA00036018858300001417
Figure GDA00036018858300001418
的转置,
Figure GDA00036018858300001419
Figure GDA00036018858300001420
的转置,
Figure GDA00036018858300001421
为导弹j的近似最优控制策略,
Figure GDA00036018858300001422
为机动目标针对导弹j的近似最优逃逸策略。
根据上述设计的评价网络更新律,基于事件的微分对策制导律(20)可以实现在线更新,直到所有导弹以相同的攻击角成功击中同一机动目标。
以上所述,仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进,这些改进应视为本发明的保护范围。

Claims (2)

1.一种基于事件触发的微分对策协同制导方法,其特征在于,包括以下步骤:
步骤1、设导弹与目标的运动为质点运动,且其速度大小及视线角大小恒定,定义M1,M2…MN分别表示N枚导弹,T表示机动的目标;建立二维平面多导弹-目标的相对运动方程:
Figure FDA0003609468590000011
其中,θi,Vii,ui,ri分别表示第i枚导弹的视线角、飞行速度、航迹角、垂直于速度方向的控制输入以及和目标T之间的距离;VT,β,v表示机动目标的飞行速度、航迹角以及垂直于速度方向的控制输入;
Figure FDA0003609468590000012
分别表示riiii对时间t的导数;
步骤2、考虑导弹与目标均表现为一阶自动驾驶仪,则第i枚导弹Mi和机动目标T的自动驾驶仪分别为:
Figure FDA0003609468590000013
Figure FDA0003609468590000014
其中:xMi、yMi、ai和τMi分别为第i枚导弹的横坐标位置信息、纵坐标位置信息、侧向加速度和自动驾驶仪时间常数;xT、yT、aT和τT分别为机动目标的横坐标位置信息、纵坐标位置信息、侧向加速度和自动驾驶仪时间常数;
Figure FDA0003609468590000015
分别表示xMi,yMi,ai,xT,yT,aT对时间t的导数;
步骤3、根据导弹能够成功拦截机动目标的条件:
Figure FDA0003609468590000016
及视线角速保持不变时,碰撞角的表达式:
ηi=αi-β=θi-arcsin(Vi -1VTsin(θi-β))-β, (5)
并考虑到有限时域约束,定义新的时间变量
Figure FDA0003609468590000017
其中ri(0)表示第i枚导弹与机动目标之间的初始距离,ri(t)表示第i枚导弹在t时刻与机动目标之间的距离;基于时间变量
Figure FDA0003609468590000018
定义第i枚导弹的剩余时间
Figure FDA0003609468590000019
定义状态变量
Figure FDA0003609468590000021
得到有限时域隐式协同制导模型:
Figure FDA0003609468590000022
其中,
Figure FDA0003609468590000023
为状态变量xi
Figure FDA0003609468590000024
的导数,x0为领弹的状态变量,f(x0)为领弹的非线性动态,
Figure FDA0003609468590000025
Figure FDA0003609468590000026
为从弹i的非线性动态,
Figure FDA0003609468590000027
Figure FDA0003609468590000028
表示第i枚导弹的视线角速率,tgoi表示第i枚导弹的剩余时间,
Figure FDA0003609468590000029
为从弹i的控制策略,
Figure FDA00036094685900000210
为机动目标针对从弹i的逃逸策略;
步骤4、对第i个跟随者,定义如下局部邻域一致误差
Figure FDA00036094685900000211
其中:xj为从弹j的状态变量,x0为领弹的状态变量,aij表示邻接矩阵
Figure FDA00036094685900000212
的元素,ai0为智能体i与领导者之间连接矩阵的对角元素,
Figure FDA00036094685900000213
是δi的一阶导数,则通过数学求导、变换获得下列局部邻域一致误差的动态方程
Figure FDA00036094685900000214
其中,lij
Figure FDA00036094685900000215
分别是矩阵
Figure FDA00036094685900000216
Figure FDA00036094685900000217
的元素,f(xj)、gj(xj)及kj(xj)为从弹j的非线性动态,
Figure FDA00036094685900000218
为从弹j的控制策略,
Figure FDA00036094685900000219
为机动目标针对从弹j的逃逸策略;
步骤5、根据微分对策理论,导弹和目标的微分对策协同制导律以及时变的HJI方程如下:
Figure FDA00036094685900000220
Figure FDA00036094685900000221
其中,
Figure FDA0003609468590000031
为从弹i的最优控制策略,
Figure FDA0003609468590000032
Figure FDA0003609468590000033
的转置,
Figure FDA0003609468590000034
为从弹j的最优控制策略,
Figure FDA0003609468590000035
为从弹i的最优逃逸策略,
Figure FDA0003609468590000036
从弹j的最优逃逸策略,
Figure FDA0003609468590000037
Figure FDA0003609468590000038
的转置,
Figure FDA0003609468590000039
为智能体i与领导者之间连接矩阵的元素,Rii和Tii都是正定的常数矩阵,
Figure FDA00036094685900000310
为Rii的逆矩阵,
Figure FDA00036094685900000311
为Tii的逆矩阵,γi为常数参数,
Figure FDA00036094685900000312
表示成本函数
Figure FDA00036094685900000313
对δi的偏导数,
Figure FDA00036094685900000314
表示成本函数
Figure FDA00036094685900000315
对t的偏导数;
步骤6、设计事件触发机制,具体如下:每间隔h秒对一致误差系统的状态δi进行采样,得到周期采样后的状态
Figure FDA00036094685900000316
定义一个事件触发条件,当系统当前的周期采样状态δi(lh)与上次触发状态
Figure FDA00036094685900000317
的差值违反我们定义的触发条件时,产生新的触发时刻
Figure FDA00036094685900000318
反馈制导律随之更新;
Figure FDA00036094685900000319
时刻的制导律表示为
Figure FDA00036094685900000320
Figure FDA00036094685900000321
其具体表达式如下:
Figure FDA00036094685900000322
其中,
Figure FDA00036094685900000323
为成本函数
Figure FDA00036094685900000324
对t的偏导数在
Figure FDA00036094685900000325
时刻的值;
引入事件触发机制后,得到基于事件触发的局部邻域一致误差的动态方程:
Figure FDA00036094685900000326
其中:
Figure FDA00036094685900000327
为从弹i事件触发的最优控制策略,
Figure FDA00036094685900000328
为从弹i事件触发的最优逃逸策略;
步骤7、执行微分对策制导律,具体如下:
利用神经网络的万能逼近特性,设计一个评价网络近似最优的成本函数
Figure FDA00036094685900000329
及其终端约束
Figure FDA00036094685900000330
其具体表达式如下:
Figure FDA00036094685900000331
其中,
Figure FDA00036094685900000332
Figure FDA00036094685900000333
分别是
Figure FDA00036094685900000334
Figure FDA00036094685900000335
的估计,
Figure FDA00036094685900000336
和σii(t),tf-t)分别表示第i个智能体的评价网络近似权值以及激活函数,
Figure FDA00036094685900000337
是在稳定域中选取的状态δi(t)的估计值,tf为终端时间;
利用(13)式,得到近似的事件触发微分对策协同制导律,定义导弹和目标基于事件的近似反馈控制器分别为
Figure FDA0003609468590000041
其具体表达式为:
Figure FDA0003609468590000042
其中,
Figure FDA0003609468590000043
是激活函数σii,tf-t)对δi的偏导数;
Figure FDA0003609468590000044
则可根据梯度下降法,得到
Figure FDA0003609468590000045
的更新律:
Figure FDA0003609468590000046
式(15)中,
Figure FDA0003609468590000047
表示
Figure FDA0003609468590000048
对时间的一阶导数;
Figure FDA0003609468590000049
Figure FDA00036094685900000410
均大于零,为设计的学习速率;
Figure FDA00036094685900000411
是在稳定域内随机选择的δi(tf)的估计值;∈ii(tf),0)为神经网络的近似误差,
Figure FDA00036094685900000412
为误差∈ii(tf),0)对δi的偏导数,
Figure FDA00036094685900000413
Figure FDA00036094685900000414
的转置;
Figure FDA00036094685900000415
Figure FDA00036094685900000416
表示驻留误差;
Figure FDA00036094685900000417
xi,r是从弹i基于事件触发机制的状态变量,
Figure FDA00036094685900000418
Figure FDA00036094685900000419
Figure FDA00036094685900000420
Figure FDA00036094685900000421
为φi的转置,
Figure FDA00036094685900000422
Figure FDA00036094685900000423
的转置,
Figure FDA00036094685900000424
Figure FDA00036094685900000425
的转置,
Figure FDA00036094685900000426
为从弹i事件触发的近似最优控制策略,
Figure FDA00036094685900000427
为从弹i事件触发的近似最优逃逸策略,
Figure FDA00036094685900000428
为从弹i的近似最优控制策略,
Figure FDA00036094685900000429
为从弹i的近似最优逃逸策略。
2.根据权利要求1所述的一种基于事件触发的微分对策协同制导方法,其特征在于,所述步骤5中构造HJI方程,微分对策协同制导律的具体过程如下:定义第i个智能体的有限时域的成本函数为:
Figure FDA0003609468590000051
式(16)中,Qii,τ)是关于一致误差δi和时间t的正定矩阵,
Figure FDA0003609468590000052
为从弹i所有邻域导弹的控制策略组成的集合,
Figure FDA0003609468590000053
为机动目标针对从弹i所有邻域从弹的控制策略组成的集合,ψii(tf),tf)表示第i个智能体的终端时刻的成本函数;在式(16)中所有的矩阵均为常数矩阵,并且qi,Rii,Tii为正定矩阵,Rij,Tij为半正定矩阵;
对第i个智能体,定义时变的Hamilton函数为:
Figure FDA0003609468590000054
其中,
Figure FDA0003609468590000055
为成本函数Vii,t)对δi的偏导数,
Figure FDA0003609468590000056
为成本函数对时间t的偏导数;
根据微分对策理论,由静态条件得到如下反馈制导律:
Figure FDA0003609468590000057
进而得到耦合的时变HJI方程如下:
Figure FDA0003609468590000058
CN202110552819.9A 2021-05-20 2021-05-20 一种基于事件触发的微分对策协同制导方法 Active CN113325866B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110552819.9A CN113325866B (zh) 2021-05-20 2021-05-20 一种基于事件触发的微分对策协同制导方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110552819.9A CN113325866B (zh) 2021-05-20 2021-05-20 一种基于事件触发的微分对策协同制导方法

Publications (2)

Publication Number Publication Date
CN113325866A CN113325866A (zh) 2021-08-31
CN113325866B true CN113325866B (zh) 2022-06-17

Family

ID=77416107

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110552819.9A Active CN113325866B (zh) 2021-05-20 2021-05-20 一种基于事件触发的微分对策协同制导方法

Country Status (1)

Country Link
CN (1) CN113325866B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114003050B (zh) * 2021-09-30 2023-10-31 南京航空航天大学 一种基于微分博弈的三体对抗策略的主动防御制导方法
CN114020018B (zh) * 2021-11-03 2024-02-27 北京航空航天大学 导弹控制策略的确定方法、装置、存储介质及电子设备
CN114415723B (zh) * 2022-01-11 2023-09-12 北京科技大学 一种多飞行器协同捕获空间划分方法和装置、电子设备
CN114993108B (zh) * 2022-05-17 2023-04-28 南京航空航天大学 一种基于全状态动态约束的分布式周期事件触发饱和协同制导方法
CN117950322B (zh) * 2024-03-26 2024-06-21 北京航空航天大学 一种分布式协同作战场景下博弈制导策略的确定方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902274A (zh) * 2012-08-08 2013-01-30 空军工程大学航空航天工程学院 一种自适应加权微分对策制导方法
CN105716470A (zh) * 2016-03-22 2016-06-29 北京航空航天大学 一种微分对策反拦截机动突防/精确打击导引方法
CN105759612A (zh) * 2016-03-22 2016-07-13 北京航空航天大学 带落角约束的微分对策反拦截机动突防/精确打击导引方法
CN112346474A (zh) * 2020-10-20 2021-02-09 南京航空航天大学 一种有限时间收敛的微分对策制导律的设计方法
CN112782984A (zh) * 2021-01-22 2021-05-11 北京航空航天大学 多飞行器反拦截协同打击的制导方法、装置和飞行器

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902274A (zh) * 2012-08-08 2013-01-30 空军工程大学航空航天工程学院 一种自适应加权微分对策制导方法
CN105716470A (zh) * 2016-03-22 2016-06-29 北京航空航天大学 一种微分对策反拦截机动突防/精确打击导引方法
CN105759612A (zh) * 2016-03-22 2016-07-13 北京航空航天大学 带落角约束的微分对策反拦截机动突防/精确打击导引方法
CN112346474A (zh) * 2020-10-20 2021-02-09 南京航空航天大学 一种有限时间收敛的微分对策制导律的设计方法
CN112782984A (zh) * 2021-01-22 2021-05-11 北京航空航天大学 多飞行器反拦截协同打击的制导方法、装置和飞行器

Also Published As

Publication number Publication date
CN113325866A (zh) 2021-08-31

Similar Documents

Publication Publication Date Title
CN113325866B (zh) 一种基于事件触发的微分对策协同制导方法
Zhang et al. Finite-time cooperative guidance strategy for impact angle and time control
Shaferman et al. Cooperative multiple-model adaptive guidance for an aircraft defending missile
CN110412874B (zh) 针对机动目标和时延通信的多导弹协同制导律设计方法
Sinha et al. Three-dimensional nonlinear cooperative salvo using event-triggered strategy
CN113341727B (zh) 一种事件触发分布式自学习协同博弈拦截制导方法
CN110187640B (zh) 针对机动目标和允许通信时滞的多导弹协同作战制导律设计方法
CN111898201B (zh) 一种空战模拟环境中的战斗机高精度自主攻击引导方法
CN112577373B (zh) 一种基于比例导引律的多导弹同时攻击静目标的制导律
Fonod et al. Estimation enhancement by cooperatively imposing relative intercept angles
CN114330115B (zh) 一种基于粒子群搜索的神经网络空战机动决策方法
CN112305919A (zh) 一种带碰撞角约束的固定时间滑模制导律设计方法
CN114003050A (zh) 一种基于微分博弈的三体对抗策略的主动防御制导方法
Huang et al. Intelligent guidance and control methods for missile swarm
CN117171877A (zh) 基于时机博弈的高超声速飞行器机动突防策略设计方法
CN112815787B (zh) 一种用于多导弹同时攻击机动目标的导弹制导律
CN114995129A (zh) 一种分布式最优事件触发协同制导方法
Jiang et al. Integrated Guidance and Control Design of Rolling‐Guided Projectile Based on Adaptive Fuzzy Control with Multiple Constraints
CN116401752A (zh) 基于超扭曲观测器的自适应滑模多飞行器协同末制导律设计方法
Wang et al. Distributed formation flight control with translational and rotational maneuvering
CN116227343A (zh) 拦截机动目标满足视场角约束的末角攻击制导律设计方法
CN113867154B (zh) 一种导弹抗网络攻击制导律设计方法
Li et al. Generation method of autonomous evasive maneuver strategy in air combat
Liu et al. Integrated guidance and control of multiple interceptor missiles based on improved distributed cooperative control strategy
Zhang et al. The time-to-go consensus of multi-missiles with communication delay

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant