CN113325866A - 一种基于事件触发的微分对策协同制导方法 - Google Patents

一种基于事件触发的微分对策协同制导方法 Download PDF

Info

Publication number
CN113325866A
CN113325866A CN202110552819.9A CN202110552819A CN113325866A CN 113325866 A CN113325866 A CN 113325866A CN 202110552819 A CN202110552819 A CN 202110552819A CN 113325866 A CN113325866 A CN 113325866A
Authority
CN
China
Prior art keywords
missile
time
target
projectile
strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110552819.9A
Other languages
English (en)
Other versions
CN113325866B (zh
Inventor
段丹丹
刘春生
高煜欣
刘泽浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202110552819.9A priority Critical patent/CN113325866B/zh
Publication of CN113325866A publication Critical patent/CN113325866A/zh
Application granted granted Critical
Publication of CN113325866B publication Critical patent/CN113325866B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/107Simultaneous control of position or course in three dimensions specially adapted for missiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Aiming, Guidance, Guns With A Light Source, Armor, Camouflage, And Targets (AREA)

Abstract

本发明公开了一种基于事件触发的微分对策协同制导方法,属于飞行器制导技术领域。该方法基于微分对策理论和拓扑结构,将多导弹协同制导系统建模为非线性零和微分对策系统;引入事件触发机制,避免各枚导弹之间冗余信号的通信传输;并利用自适应动态规划技术,得到非线性耦合HJI方程组的近似解。本发明设计的事件触发的最优控制器在线实时更新,能够实现多枚导弹在要求的时间内以相同碰撞角击中同一目标,同时能有效降低导弹之间的通信资源和计算成本。

Description

一种基于事件触发的微分对策协同制导方法
技术领域
本发明涉及一种基于事件触发的微分对策协同制导方法,属于飞行器制导技术领域。
背景技术
在各国日益激烈的军备竞赛中,导弹凭借其射程远、精度高、威力大和突防能力强等优势成为军事武器的研究热点。然而,随着作战环境的日益复杂、拦截目标日益的智能化,已被广泛应用的传统制导律的拦截精度和拦截成功率大大下降。作为解决冲突对抗或竞争问题的有效工具,微分对策能够根据具体的对抗或冲突问题进行建模分析。与最优控制相比,微分对策是一种研究双方或多方最优策略的理论,它能够在充分考虑对策参与者之间博弈关系的条件下,对系统所能实现的最优或最差结果进行研究。考虑到导弹拦截机动目标模型是非线性的且存在不确定性等因素,使得非线性微分对策系统求解出现困难,即耦合的Hamilton-Jacobi-Isaacs(HJI)或Hamilton-Jacobi(HJ)方程的求解问题在一定程度上制约了其在拦截制导系统中的应用。近年来,自适应动态规划(Adaptive dynamicprogramming,ADP)作为一种有效的智能控制方法吸引了广大学者的注意。ADP方法的基本原理是利用函数近似结构(如神经网络等)来近似性能指标函数,然后根据贝尔曼最优性原理更新函数近似结构的参数,从而获得最优性能指标函数和最优控制策略。但是基于ADP技术的多人合作微分对策理论还有很多的不足与缺陷,因而研究基于ADP技术的多人合作微分对策理论具有很大的潜力。
随着现代和未来战争的战场环境越来越复杂,海量的数据传输和有限的网络带宽之间的矛盾日益激烈。而传统的时间触发控制方案需要卫星根据周期采样的信息调节自身状态,以实现有效拦截。通信压力较大,控制输入更新较为频繁,造成资源浪费。为克服时间触发控制的局限性,避免通信资源和计算资源的不必要浪费,学者们提出了一种可以替代周期控制的策略,即事件触发控制(Event-triggered Control,ETC)。这是一种有效的降低计算成本的控制方法,信号传输是根据系统的需求来进行的,在网络系统控制、复杂系统跟踪、编队控制、多智能体等领域有着广泛的应用。与时间触发相比,事件触发系统的主要特点是某个事件的发生决定了采样信号,而不是随着时间的流逝而周期性采样。也就是说,事件触发是一种仅在“需要”时进行采样的控制策略,利用该机制能够在保证系统控制性能的同时,有效的减少控制器的计算成本和系统的通信成本。因此,基于事件触发控制的制导律,不仅能够保证拦截效果,而且能够提高通信资源的利用率,节约计算成本,减轻网络带宽的压力,因而更加的符合现代信息化战争思想的作战方式。
发明内容
为了解决网络带宽限制和时变的非线性HJI方程求解困难等问题,本发明提出了一种基于事件触发的微分对策协同制导方法。该方法通过引入事件触发通信方案,避免大量不必要的数据传输;利用自适应动态规划技术近似求解耦合的HJI方程,得到最优的微分对策协同制导律。
本发明为解决上述问题采用以下技术方案:
一种基于事件触发的微分对策协同制导方法,包括以下步骤:
步骤1、设导弹与目标的运动为质点运动,且其速度大小及视线角大小恒定,定义M1,M2…MN分别表示N枚导弹,T表示机动的目标;建立二维平面多导弹-目标的相对运动方程:
Figure BDA0003075876810000021
其中,θi,Vii,ui,ri分别表示第i枚导弹的视线角、飞行速度、航迹角、垂直于速度方向的控制输入以及和目标T之间的距离;VT,β,v表示机动目标的飞行速度、航迹角以及垂直于速度方向的控制输入;
Figure BDA0003075876810000022
分别表示riiii对时间t的导数;步骤2、考虑导弹与目标均表现为一阶自动驾驶仪,则第i枚导弹Mi和机动目标T的自动驾驶仪分别为:
Figure BDA0003075876810000023
Figure BDA0003075876810000024
其中:xMi、yMi、ai和τMi分别为第i枚导弹的横坐标位置信息、纵坐标位置信息、侧向加速度和自动驾驶仪时间常数;xT、yT、aT和τT分别为机动目标的横坐标位置信息、纵坐标位置信息、侧向加速度和自动驾驶仪时间常数;
Figure BDA0003075876810000031
分别表示xMi,yMi,ai,xT,yT,aT对时间t的导数;
步骤3、根据导弹能够成功拦截机动目标的条件:
Figure BDA0003075876810000032
及视线角速保持不变时,碰撞角的表达式:
Figure BDA0003075876810000033
并考虑到有限时域约束,定义新的时间变量
Figure BDA0003075876810000034
其中ri(0)表示第i枚导弹与机动目标之间的初始距离,ri(t)表示第i枚导弹在t时刻与机动目标之间的距离;基于时间变量
Figure BDA0003075876810000035
定义第i枚导弹的剩余时间
Figure BDA0003075876810000036
定义状态变量
Figure BDA0003075876810000037
得到有限时域隐式协同制导模型:
Figure BDA0003075876810000038
其中,
Figure BDA0003075876810000039
为状态变量xi
Figure BDA00030758768100000310
的导数,x0为领弹的状态变量,f(x0)为领弹的非线性动态,
Figure BDA00030758768100000311
Figure BDA00030758768100000312
为从弹i的非线性动态,
Figure BDA00030758768100000313
Figure BDA00030758768100000314
表示第i枚导弹的视线角速率,tgoi表示第i枚导弹的剩余时间,
Figure BDA00030758768100000315
为从弹i的控制策略,
Figure BDA00030758768100000316
为机动目标针对从弹i的逃逸策略;
步骤4、对第i个跟随者,定义如下局部邻域一致误差
Figure BDA00030758768100000317
其中:xj为从弹j的状态变量,x0为领弹的状态变量,aij表示邻接矩阵
Figure BDA00030758768100000318
的元素,ai0为智能体i与领导者之间连接矩阵的对角元素,
Figure BDA00030758768100000319
是δi的一阶导数,则通过数学求导、变换获得下列局部邻域一致误差的动态方程
Figure BDA00030758768100000320
其中,lij
Figure BDA0003075876810000041
分别是矩阵
Figure BDA0003075876810000042
Figure BDA0003075876810000043
的元素,f(xj)、gj(xj)及kj(xj)为从弹j的非线性动态,
Figure BDA0003075876810000044
为从弹j的控制策略,
Figure BDA0003075876810000045
为机动目标针对从弹j的逃逸策略;
步骤5、根据微分对策理论,导弹和目标的微分对策协同制导律以及时变的HJI方程如下:
Figure BDA0003075876810000046
Figure BDA0003075876810000047
其中,
Figure BDA0003075876810000048
为从弹i的最优控制策略,
Figure BDA0003075876810000049
Figure BDA00030758768100000410
的转置,
Figure BDA00030758768100000411
为从弹j的最优控制策略,
Figure BDA00030758768100000412
为从弹i的最优逃逸策略,
Figure BDA00030758768100000413
从弹j的最优逃逸策略,
Figure BDA00030758768100000414
Figure BDA00030758768100000415
的转置,
Figure BDA00030758768100000416
为智能体i与领导者之间连接矩阵的元素,Rii和Tii都是正定的常数矩阵,
Figure BDA00030758768100000417
为Rii的逆矩阵,
Figure BDA00030758768100000418
为Tii的逆矩阵,γi为常数参数,
Figure BDA00030758768100000419
表示成本函数
Figure BDA00030758768100000420
对δi的偏导数,
Figure BDA00030758768100000421
表示成本函数
Figure BDA00030758768100000422
对t的偏导数;
步骤6、设计事件触发机制,具体如下:每间隔h秒对一致误差系统的状态δi进行采样,得到周期采样后的状态
Figure BDA00030758768100000423
定义一个事件触发条件,当系统当前的周期采样状态δi(lh)与上次触发状态
Figure BDA00030758768100000424
的差值违反我们定义的触发条件时,产生新的触发时刻
Figure BDA00030758768100000425
反馈制导律随之更新;
Figure BDA00030758768100000426
时刻的制导律表示为
Figure BDA00030758768100000427
Figure BDA00030758768100000428
其具体表达式如下:
Figure BDA00030758768100000429
其中,
Figure BDA00030758768100000430
为成本函数
Figure BDA00030758768100000431
对t的偏导数在
Figure BDA00030758768100000432
时刻的值;
引入事件触发机制后,得到基于事件触发的局部邻域一致误差的动态方程:
Figure BDA00030758768100000433
其中:
Figure BDA00030758768100000434
为从弹i事件触发的最优控制策略,
Figure BDA00030758768100000435
为从弹i事件触发的最优逃逸策略;
步骤7、执行微分对策制导律,具体如下:
利用神经网络的万能逼近特性,设计一个评价网络近似最优的成本函数
Figure BDA00030758768100000436
及其终端约束
Figure BDA0003075876810000051
其具体表达式如下:
Figure BDA0003075876810000052
其中,
Figure BDA0003075876810000053
Figure BDA0003075876810000054
分别是和
Figure BDA0003075876810000055
Figure BDA0003075876810000056
的估计,
Figure BDA0003075876810000057
和σii,tf-t)分别表示第i个智能体的评价网络近似权值以及激活函数,
Figure BDA0003075876810000058
是在稳定域中选取的状态δi(t)的估计值,tf为终端时间;
利用(13)式,得到近似的事件触发微分对策协同制导律,定义导弹和目标基于事件的近似反馈控制器分别为
Figure BDA0003075876810000059
其具体表达式为:
Figure BDA00030758768100000510
其中,
Figure BDA00030758768100000511
是激活函数σii,tf-t)对δi的偏导数。
Figure BDA00030758768100000512
则可根据梯度下降法,得到
Figure BDA00030758768100000513
的更新律:
Figure BDA00030758768100000514
式(15)中,
Figure BDA00030758768100000515
表示
Figure BDA00030758768100000516
对时间的一阶导数;
Figure BDA00030758768100000517
Figure BDA00030758768100000518
均大于零,为设计的学习速率;
Figure BDA00030758768100000519
是在稳定域内随机选择的δi(tf)的估计值;∈ii(tf),0)为神经网络的近似误差,
Figure BDA00030758768100000520
为误差∈ii(tf),0)对δi的偏导数,
Figure BDA00030758768100000521
Figure BDA00030758768100000522
的转置;
Figure BDA00030758768100000523
Figure BDA00030758768100000524
表示驻留误差;
Figure BDA00030758768100000525
xi,r是从弹i基于事件触发机制的状态变量,
Figure BDA00030758768100000526
Figure BDA00030758768100000527
Figure BDA0003075876810000061
Figure BDA0003075876810000062
为φi的转置,
Figure BDA0003075876810000063
Figure BDA0003075876810000064
的转置,
Figure BDA0003075876810000065
Figure BDA0003075876810000066
的转置,
Figure BDA0003075876810000067
为从弹i事件触发的近似最优控制策略,
Figure BDA0003075876810000068
为从弹i事件触发的近似最优逃逸策略,
Figure BDA0003075876810000069
为从弹i的近似最优控制策略,
Figure BDA00030758768100000610
为从弹i的近似最优逃逸策略。
所述步骤5中构造HJI方程,微分对策协同制导律的具体过程如下:
定义第i个智能体的有限时域的成本函数为:
Figure BDA00030758768100000611
式(16)中,Qii,τ)是关于一致误差δi和时间t的正定矩阵,
Figure BDA00030758768100000612
为从弹i所有邻域导弹的控制策略组成的集合,
Figure BDA00030758768100000613
为机动目标针对从弹i所有邻域从弹的控制策略组成的集合,ψii(tf),tf)表示第i个智能体的终端时刻的成本函数;在式(16)中所有的矩阵均为常数矩阵,并且qi,Rii,Tii为正定矩阵,Rij,Tij为半正定矩阵;对第i个智能体,定义时变的Hamilton函数为:
Figure BDA00030758768100000614
其中,
Figure BDA00030758768100000615
为成本函数Vii,t)对δi的偏导数,
Figure BDA00030758768100000616
为成本函数对时间t的偏导数;
根据微分对策理论,由静态条件得到如下反馈制导律:
Figure BDA00030758768100000617
进而得到耦合的时变HJI方程如下:
Figure BDA00030758768100000618
本发明的有益效果如下:
(1)本发明将多弹协同制导系统描述为二人零和微分对策系统,在该系统下,追逃双方策略选择是一个动态博弈过程,与传统制导方案中将目标飞行器制导策略看成已知函数相比,本发明的制导方案更适用于复杂的实际作战过程。
(2)本发明引入事件触发机制,大大减少不必要数据的传输,提高了通信资源的利用率,缓解了网络带宽的限制。
(3)本发明利用自适应动态规划技术,用神经网络逼近耦合的HJI方程的最优解,从而解决了非线性微分对策系统最优解的求解问题,并近似得到最优反馈控制策略,使得最优协同制导律的设计成为可能。
附图说明
图1是本发明的多导弹协同制导二维平面示意图。
图2是本发明方法的协同制导控制流程图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
本发明所公布的一种基于事件触发的微分对策协同制导方法包括由节点集合
Figure BDA0003075876810000071
组成的多智能体系统之间的强联通有向通信拓扑结构图
Figure BDA0003075876810000072
其中,边集
Figure BDA0003075876810000073
表示智能体之间的信息传输通道,若(i,j)∈ε则说明智能体i能够接收到智能体j的信息,反之则不然。对于智能体i而言,所有能被它接收到信息的智能体的集合用
Figure BDA0003075876810000074
表示。
Figure BDA0003075876810000075
表示图
Figure BDA0003075876810000076
的邻接矩阵,如智能体i和智能体j之间存在通信链路,也就是(i,j)∈ε时,矩阵元素aij=1,反之aij=0。在这里我们假设图
Figure BDA0003075876810000077
中任意两个节点之间总存在一条有向路径且图
Figure BDA0003075876810000078
且没有自环,即aii=0。图
Figure BDA0003075876810000079
的入度矩阵被定义为
Figure BDA00030758768100000710
其中
Figure BDA00030758768100000711
智能体i与领导者之间的连接矩阵由
Figure BDA00030758768100000712
表示,如果智能体i能接收到领导者的信息,则
Figure BDA00030758768100000713
反之
Figure BDA0003075876810000081
定义图
Figure BDA0003075876810000082
的拉普拉斯矩阵为
Figure BDA0003075876810000083
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
如图1所示,本发明建立多导弹协同拦截同一目标的数学模型。N枚导弹M1,M2…MN协同拦截机动目标T,假设导弹和目标的速度大小不变,只有速度方向发生改变。图中,θi,Vii,ui,ri分别表示第i枚导弹的视线角、飞行速度、航迹角、垂直于速度方向的控制输入以及和目标T之间的距离;VT,β,v表示机动目标的飞行速度、航迹角以及垂直于速度方向的控制输入。
如图2所示,根据所建立的多导弹协同拦截同一目标的数学模型,构造多导弹协同制导系统;多导弹协同制导系统将连续的状态变量传输到事件产生器,在事件产生器中生成事件触发的状态变量,并将其分别传输到事件触发的微分对策协同制导律以及评价网络;微分对策协同制导律通过零阶保持器,连续的作用于本发明建立的多导弹协同拦截同一目标的数学模型;评价网络用于更新评价网络的权值,该权值能够优化事件触发的多弹协同制导律。
具体步骤如下:
步骤1,建立二维平面多导弹-目标的相对运动方程。
假设N枚导弹M1,M2…MN协同拦截机动目标T,导弹和目标的速度大小不变,只有速度方向发生改变。多导弹-目标的相对运动方程可表示为如下数学模型:
Figure BDA0003075876810000084
其中,θi,Vii,ui,ri分别表示第i枚导弹的视线角、飞行速度、航迹角、垂直于速度方向的控制输入以及和目标T之间的距离;VT,β,v表示机动目标的飞行速度、航迹角以及垂直于速度方向的控制输入;
Figure BDA0003075876810000085
分别表示riiii对时间t的导数。
本发明考虑导弹与目标均表现为一阶自动驾驶仪。定义xMi、yMi、ai和τMi分别为第i枚导弹的横坐标位置信息、纵坐标位置信息、侧向加速度和自动驾驶仪时间常数;定义xT、yT、aT和τT分别为机动目标的横坐标位置信息、纵坐标位置信息、侧向加速度和自动驾驶仪时间常数;
Figure BDA0003075876810000091
分别表示xMi,yMi,ai,xT,yT,aT对时间t的导数;在本发明中设定
Figure BDA0003075876810000092
则第i枚导弹Mi和机动目标T的自动驾驶仪分别为:
Figure BDA0003075876810000093
Figure BDA0003075876810000094
步骤2,根据导弹能够成功拦截机动目标的条件:
Figure BDA0003075876810000095
及视线角速保持不变时,碰撞角的表达式:
Figure BDA0003075876810000096
并考虑到有限时域约束,定义新的时间变量
Figure BDA0003075876810000097
其中ri(0)表示第i枚导弹与机动目标之间的初始距离,ri(t)表示第i枚导弹在t时刻与机动目标之间的距离。基于时间变量
Figure BDA0003075876810000098
定义第i枚导弹的剩余时间
Figure BDA0003075876810000099
状态变量
Figure BDA00030758768100000910
得到有限时域隐式协同制导模型:
Figure BDA00030758768100000911
Figure BDA00030758768100000912
式(6)中,xi1表示第i枚导弹的视线角,
Figure BDA00030758768100000913
Figure BDA00030758768100000914
表示第i枚导弹的视线角速率,tgoi表示第i枚导弹的剩余时间,导弹M1,M2…MN的新的控制量分别为
Figure BDA00030758768100000915
ui表示第i枚导弹垂直于速度方向的控制输入,目标T的新的控制量为
Figure BDA00030758768100000916
v表示目标垂直于速度方向的控制输入。
将导弹和目标新的控制量带入到式(6)中,得到有限时域隐式协同制导模型:
Figure BDA0003075876810000101
x0′=f(x0),
其中,
Figure BDA0003075876810000102
为状态变量xi
Figure BDA0003075876810000103
的导数,xi为从弹i的二维状态变量,f(x0)为领弹的非线性动态,f(xi)、ki(xi)及gi(xi)为从弹i的非线性动态,
Figure BDA0003075876810000104
为从弹i的控制策略,
Figure BDA0003075876810000105
为机动目标针对从弹i的逃逸策略。
步骤4、为了保证所有导弹都能以相同的碰撞角攻击机动目标,对第i个跟随者,定义如下局部邻域一致误差
Figure BDA0003075876810000106
其中:δi为智能体i的局部邻域一致误差,xi为从弹i的二维状态变量,xj为从弹j的二维状态变量,x0为领弹的状态变量,ai0为智能体i与领导者之间连接矩阵的对角元素;aij表示邻接矩阵
Figure BDA0003075876810000107
的元素。
定义
Figure BDA0003075876810000108
是δi的一阶导数,则通过数学求导、变换获得下列局部邻域一致误差的动态方程:
Figure BDA0003075876810000109
其中,lij
Figure BDA00030758768100001010
分别是矩阵
Figure BDA00030758768100001011
Figure BDA00030758768100001012
的元素,f(xi)、ki(xi)及gi(xi)为从弹i的非线性动力学,
Figure BDA00030758768100001013
为从弹i的控制策略,
Figure BDA00030758768100001014
为机动目标针对从弹i的逃逸策略,f(xj)、kj(xj)及gj(xj)为从弹j的非线性动力学,
Figure BDA00030758768100001015
为从弹j的控制策略,
Figure BDA00030758768100001016
为机动目标针对从弹j的逃逸策略。
步骤5、根据微分对策理论,推导有限时域微分对策闭环解形式
Figure BDA00030758768100001017
式(10)中,
Figure BDA00030758768100001018
为从弹i所有邻域导弹的控制策略组成的集合,
Figure BDA00030758768100001019
为机动目标针对从弹i所有邻域从弹的控制策略组成的集合,Qii,t)是关于一致误差δi和时间t的正定矩阵,uNi={uj:j∈Ni}为所有控制器uj,j∈Ni组成的集合,δi为智能体i的局部邻域一致误差,qi,Rii,Tii为给定的正定矩阵,Rij,Tij为给定的半正定矩阵,γi为常数参数,tf为终端时间,且ψii(tf),tf)表示第i个智能体的终端时刻的成本函数
对第i个智能体,定义时变的Hamilton函数为:
Figure BDA0003075876810000111
其中,xi为从弹i的状态变量,xj从弹j的状态变量,
Figure BDA0003075876810000112
为从弹i的控制策略,
Figure BDA0003075876810000113
为机动目标针对从弹i的逃逸策略,
Figure BDA0003075876810000114
为从弹j的控制策略,
Figure BDA0003075876810000115
为机动目标针对从弹j的逃逸策略,
Figure BDA0003075876810000116
对δi的偏导数,
Figure BDA0003075876810000117
为Vii,t)对t的偏导数,qi,Rii,Tii为给定的正定矩阵,Rij,Tij为给定的半正定矩阵,γi为常数参数,lij是拉普拉斯矩阵的元素,
Figure BDA0003075876810000118
智能体i与领导者之间连接矩阵的元素,f(xj)、kj(xj)及gj(xj)为从弹j的非线性动态,
Figure BDA0003075876810000119
为从弹j的控制策略,
Figure BDA00030758768100001110
为机动目标针对从弹j的逃逸策略
Figure BDA00030758768100001111
为第j枚导弹的控制策略,
Figure BDA00030758768100001112
为机动目标针对第j枚导弹的逃逸策略。
根据微分对策理论,由静态条件得到如下微分对策协同制导律:
Figure BDA00030758768100001113
其中,
Figure BDA00030758768100001114
为导弹i最优的控制策略,
Figure BDA00030758768100001115
为目标针对导弹i最优的逃逸策略,lii是拉普拉斯矩阵的元素,
Figure BDA00030758768100001116
智能体i与领导者之间连接矩阵的元素,
Figure BDA00030758768100001117
是最优的成本函数,
Figure BDA00030758768100001118
Figure BDA00030758768100001119
关于δi的偏导数。
进而得到耦合的时变HJI方程如下:
Figure BDA00030758768100001120
其中,
Figure BDA00030758768100001121
为导弹j最优的控制策略,
Figure BDA00030758768100001122
为目标针对导弹j最优的逃逸策略。因此,只要能够求解非线性的HJI方程(13),有限时域的微分对策协同制导律即可获得。但HJI方程本质上属于非线性偏微分方程,很难通过数学推导求得其解析解。因此,本发明采用自适应动态规划技术,利用神经网络的万能逼近特性,得到HJI方程的近似最优解。
利用神经网络的万能逼近特性,本发明构造评价网络近似最优的成本函数
Figure BDA0003075876810000121
及其终端约束
Figure BDA0003075876810000122
其具体表达式如下:
Figure BDA0003075876810000123
式(14)中,
Figure BDA0003075876810000124
是理想的权值向量,
Figure BDA0003075876810000125
是激活函数,
Figure BDA0003075876810000126
是神经网络的近似误差,δi智能体i的局部邻域一致误差,tf是终端时间。
在神经网络的逼近过程中,理想的权值向量是未知的,因此不能直接用于执行微分对策协同制导律。为解决这一难题,本发明用实际近似方式表示。
实际近似可表示为
Figure BDA0003075876810000127
其中,
Figure BDA0003075876810000128
为最优成本函数
Figure BDA0003075876810000129
的估计,
Figure BDA00030758768100001210
是对最优终端成本
Figure BDA00030758768100001211
的估计,
Figure BDA00030758768100001212
和σii,tf-t)分别表示第i个智能体的评价网络近似权值以及激活函数,δi(t)为智能体i的局部邻域一致误差,
Figure BDA00030758768100001213
是在稳定域中选取的状态δi(t)的估计值。
利用(15)式,得到近似的事件触发微分对策制导律,定义导弹和目标的近似反馈控制器分别为:
Figure BDA00030758768100001214
其中,
Figure BDA00030758768100001215
Figure BDA00030758768100001216
分别是最优控制器
Figure BDA00030758768100001217
Figure BDA00030758768100001218
的估计,lii是拉普拉斯矩阵的元素,
Figure BDA00030758768100001219
智能体i与领导者之间连接矩阵的元素,
Figure BDA0003075876810000131
是激活函数σii,tf-t)关于δi的偏导数。
设计事件触发机制,具体如下:
每间隔h秒对一致误差系统的状态δi进行采样,得到周期采样后的状态
Figure BDA0003075876810000132
定义一个事件触发条件,当系统当前的周期采样状态δi(lh)与上次触发状态
Figure BDA0003075876810000133
的差值违反我们定义的触发条件时,产生新的触发时刻
Figure BDA0003075876810000134
反馈制导律随之更新。
Figure BDA0003075876810000135
时刻的制导律表示为
Figure BDA0003075876810000136
Figure BDA0003075876810000137
其具体表达式如下:
Figure BDA0003075876810000138
其中,
Figure BDA0003075876810000139
是导弹i在
Figure BDA00030758768100001310
时刻的最优控制策略,
Figure BDA00030758768100001311
是目标针对导弹i在
Figure BDA00030758768100001312
时刻的最优逃逸策略,
Figure BDA00030758768100001313
是在
Figure BDA00030758768100001314
时刻最优成本函数
Figure BDA00030758768100001315
对δi的偏导数。
引入事件触发机制后,得到基于事件触发的局部邻域一致误差的动态方程:
Figure BDA00030758768100001316
其中,
Figure BDA00030758768100001317
是一致误差δi的导数,
Figure BDA00030758768100001318
是导弹i在
Figure BDA00030758768100001319
时刻的最优控制策略,
Figure BDA00030758768100001320
是目标针对导弹i的最优逃逸策略。
利用(18)式,得到近似的事件触发微分对策制导律,定义导弹和目标基于事件的近似反馈控制器分别为
Figure BDA00030758768100001321
其具体表达式为:
Figure BDA00030758768100001322
其中,xi,r是智能体i事件触发机制下状态,的
Figure BDA00030758768100001323
是导弹i事件触发的近似最优控制策略,
Figure BDA00030758768100001324
是机动目标针对导弹i的事件触发的近似最优逃逸策略,
Figure BDA00030758768100001325
是激活函数σii,tf-t)对δi的偏导数。
Figure BDA00030758768100001326
则可根据梯度下降法,得到
Figure BDA00030758768100001327
的更新律:
Figure BDA0003075876810000141
式(20)中,
Figure BDA0003075876810000142
表示
Figure BDA0003075876810000143
对时间的一阶导数;
Figure BDA0003075876810000144
Figure BDA0003075876810000145
均大于零,为设计的学习速率;
Figure BDA0003075876810000146
是在稳定域内随机选择的δi(tf)的估计值;∈ii(tf),0)为神经网络的近似误差,
Figure BDA0003075876810000147
为误差∈ii(tf),0)对δi的偏导数,
Figure BDA0003075876810000148
Figure BDA0003075876810000149
的转置;
Figure BDA00030758768100001410
Figure BDA00030758768100001411
表示驻留误差;并且
Figure BDA00030758768100001412
Figure BDA00030758768100001413
Figure BDA00030758768100001414
Figure BDA00030758768100001415
Figure BDA00030758768100001416
Figure BDA00030758768100001417
为φi的转置,
Figure BDA00030758768100001418
Figure BDA00030758768100001426
的转置,
Figure BDA00030758768100001424
Figure BDA00030758768100001425
的转置,
Figure BDA00030758768100001422
为导弹j的近似最优控制策略,
Figure BDA00030758768100001423
为机动目标针对导弹j的近似最优逃逸策略。
根据上述设计的评价网络更新律,基于事件的微分对策制导律(20)可以实现在线更新,直到所有导弹以相同的攻击角成功击中同一机动目标。
以上所述,仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进,这些改进应视为本发明的保护范围。

Claims (2)

1.一种基于事件触发的微分对策协同制导方法,其特征在于,包括以下步骤:
步骤1、设导弹与目标的运动为质点运动,且其速度大小及视线角大小恒定,定义M1,M2…MN分别表示N枚导弹,T表示机动的目标;建立二维平面多导弹-目标的相对运动方程:
Figure FDA0003075876800000011
其中,θi,Vii,ui,ri分别表示第i枚导弹的视线角、飞行速度、航迹角、垂直于速度方向的控制输入以及和目标T之间的距离;VT,β,v表示机动目标的飞行速度、航迹角以及垂直于速度方向的控制输入;
Figure FDA0003075876800000012
分别表示riiii对时间t的导数;
步骤2、考虑导弹与目标均表现为一阶自动驾驶仪,则第i枚导弹Mi和机动目标T的自动驾驶仪分别为:
Figure FDA0003075876800000013
Figure FDA0003075876800000014
其中:xMi、yMi、ai和τMi分别为第i枚导弹的横坐标位置信息、纵坐标位置信息、侧向加速度和自动驾驶仪时间常数;xT、yT、aT和τT分别为机动目标的横坐标位置信息、纵坐标位置信息、侧向加速度和自动驾驶仪时间常数;
Figure FDA0003075876800000015
分别表示xMi,yMi,ai,xT,yT,aT对时间t的导数;
步骤3、根据导弹能够成功拦截机动目标的条件:
Figure FDA0003075876800000016
及视线角速保持不变时,碰撞角的表达式:
ηi=αi-β=θi-arcsin(Vi -1VTsin(θi-β)-β, (5)
并考虑到有限时域约束,定义新的时间变量
Figure FDA0003075876800000017
其中ri(0)表示第i枚导弹与机动目标之间的初始距离,ri(t)表示第i枚导弹在t时刻与机动目标之间的距离;基于时间变量
Figure FDA0003075876800000018
定义第i枚导弹的剩余时间
Figure FDA0003075876800000019
定义状态变量
Figure FDA0003075876800000021
得到有限时域隐式协同制导模型:
Figure FDA0003075876800000022
其中,
Figure FDA0003075876800000023
为状态变量xi
Figure FDA0003075876800000024
的导数,x0为领弹的状态变量,f(x0)为领弹的非线性动态,
Figure FDA0003075876800000025
Figure FDA0003075876800000026
为从弹i的非线性动态,
Figure FDA0003075876800000027
表示第i枚导弹的视线角速率,tgoi表示第i枚导弹的剩余时间,
Figure FDA0003075876800000028
为从弹i的控制策略,
Figure FDA0003075876800000029
为机动目标针对从弹i的逃逸策略;
步骤4、对第i个跟随者,定义如下局部邻域一致误差
Figure FDA00030758768000000210
其中:xj为从弹j的状态变量,x0为领弹的状态变量,aij表示邻接矩阵
Figure FDA00030758768000000211
的元素,ai0为智能体i与领导者之间连接矩阵的对角元素,
Figure FDA00030758768000000212
是δi的一阶导数,则通过数学求导、变换获得下列局部邻域一致误差的动态方程
Figure FDA00030758768000000213
其中,lij
Figure FDA00030758768000000214
分别是矩阵
Figure FDA00030758768000000215
Figure FDA00030758768000000216
的元素,f(xj)、gj(xj)及kj(xj)为从弹j的非线性动态,
Figure FDA00030758768000000217
为从弹j的控制策略,
Figure FDA00030758768000000218
为机动目标针对从弹j的逃逸策略;
步骤5、根据微分对策理论,导弹和目标的微分对策协同制导律以及时变的HJI方程如下:
Figure FDA00030758768000000219
Figure FDA00030758768000000220
其中,
Figure FDA0003075876800000031
为从弹i的最优控制策略,
Figure FDA0003075876800000032
Figure FDA0003075876800000033
的转置,
Figure FDA0003075876800000034
为从弹j的最优控制策略,
Figure FDA0003075876800000035
为从弹i的最优逃逸策略,
Figure FDA0003075876800000036
从弹j的最优逃逸策略,
Figure FDA0003075876800000037
Figure FDA0003075876800000038
的转置,
Figure FDA0003075876800000039
为智能体i与领导者之间连接矩阵的元素,Rii和Tii都是正定的常数矩阵,
Figure FDA00030758768000000310
为Rii的逆矩阵,
Figure FDA00030758768000000311
为Tii的逆矩阵,γi为常数参数,
Figure FDA00030758768000000312
表示成本函数
Figure FDA00030758768000000313
对δi的偏导数,
Figure FDA00030758768000000314
表示成本函数
Figure FDA00030758768000000315
对t的偏导数;
步骤6、设计事件触发机制,具体如下:每间隔h秒对一致误差系统的状态δi进行采样,得到周期采样后的状态
Figure FDA00030758768000000316
定义一个事件触发条件,当系统当前的周期采样状态δi(lh)与上次触发状态
Figure FDA00030758768000000317
的差值违反我们定义的触发条件时,产生新的触发时刻
Figure FDA00030758768000000318
反馈制导律随之更新;
Figure FDA00030758768000000319
时刻的制导律表示为
Figure FDA00030758768000000320
其具体表达式如下:
Figure FDA00030758768000000321
其中,
Figure FDA00030758768000000322
为成本函数
Figure FDA00030758768000000323
对t的偏导数在
Figure FDA00030758768000000324
时刻的值;
引入事件触发机制后,得到基于事件触发的局部邻域一致误差的动态方程:
Figure FDA00030758768000000325
其中:
Figure FDA00030758768000000326
为从弹i事件触发的最优控制策略,
Figure FDA00030758768000000327
为从弹i事件触发的最优逃逸策略;
步骤7、执行微分对策制导律,具体如下:
利用神经网络的万能逼近特性,设计一个评价网络近似最优的成本函数
Figure FDA00030758768000000328
及其终端约束
Figure FDA00030758768000000329
其具体表达式如下:
Figure FDA00030758768000000330
其中,
Figure FDA00030758768000000331
Figure FDA00030758768000000332
分别是和
Figure FDA00030758768000000333
Figure FDA00030758768000000334
的估计,
Figure FDA00030758768000000335
和σii,tf-t)分别表示第i个智能体的评价网络近似权值以及激活函数,
Figure FDA00030758768000000336
是在稳定域中选取的状态δi(t)的估计值,tf为终端时间;
利用(13)式,得到近似的事件触发微分对策协同制导律,定义导弹和目标基于事件的近似反馈控制器分别为
Figure FDA0003075876800000041
其具体表达式为:
Figure FDA0003075876800000042
其中,
Figure FDA00030758768000000425
是激活函数σii,tf-t)对δi的偏导数;
Figure FDA0003075876800000043
则可根据梯度下降法,得到
Figure FDA0003075876800000044
的更新律:
Figure FDA0003075876800000045
式(15)中,
Figure FDA0003075876800000046
表示
Figure FDA0003075876800000047
对时间的一阶导数;
Figure FDA0003075876800000048
Figure FDA0003075876800000049
均大于零,为设计的学习速率;
Figure FDA00030758768000000410
是在稳定域内随机选择的δi(tf)的估计值;εii(tf),0)为神经网络的近似误差,
Figure FDA00030758768000000426
为误差εii(tf),0)对δi的偏导数,
Figure FDA00030758768000000427
Figure FDA00030758768000000428
的转置;
Figure FDA00030758768000000411
Figure FDA00030758768000000412
表示驻留误差;
Figure FDA00030758768000000413
xi,r是从弹i基于事件触发机制的状态变量,
Figure FDA00030758768000000414
Figure FDA00030758768000000415
Figure FDA00030758768000000416
为φi的转置,
Figure FDA00030758768000000417
Figure FDA00030758768000000418
的转置,
Figure FDA00030758768000000419
Figure FDA00030758768000000420
的转置,
Figure FDA00030758768000000421
为从弹i事件触发的近似最优控制策略,
Figure FDA00030758768000000422
为从弹i事件触发的近似最优逃逸策略,
Figure FDA00030758768000000423
为从弹i的近似最优控制策略,
Figure FDA00030758768000000424
为从弹i的近似最优逃逸策略。
2.根据权利要求1所述的一种基于事件触发的微分对策协同制导方法,其特征在于,所述步骤5中构造HJI方程,微分对策协同制导律的具体过程如下:
定义第i个智能体的有限时域的成本函数为:
Figure FDA0003075876800000051
式(16)中,Qii,τ)是关于一致误差δi和时间t的正定矩阵,
Figure FDA0003075876800000052
为从弹i所有邻域导弹的控制策略组成的集合,
Figure FDA0003075876800000053
为机动目标针对从弹i所有邻域从弹的控制策略组成的集合,ψi(δi(tf),tf)表示第i个智能体的终端时刻的成本函数;在式(16)中所有的矩阵均为常数矩阵,并且qi,Rii,Tii为正定矩阵,Rij,Tij为半正定矩阵;
对第i个智能体,定义时变的Hamilton函数为:
Figure FDA0003075876800000054
其中,
Figure FDA0003075876800000055
为成本函数Vii,t)对δi的偏导数,
Figure FDA0003075876800000058
为成本函数对时间t的偏导数;
根据微分对策理论,由静态条件得到如下反馈制导律:
Figure FDA0003075876800000056
进而得到耦合的时变HJI方程如下:
Figure FDA0003075876800000057
CN202110552819.9A 2021-05-20 2021-05-20 一种基于事件触发的微分对策协同制导方法 Active CN113325866B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110552819.9A CN113325866B (zh) 2021-05-20 2021-05-20 一种基于事件触发的微分对策协同制导方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110552819.9A CN113325866B (zh) 2021-05-20 2021-05-20 一种基于事件触发的微分对策协同制导方法

Publications (2)

Publication Number Publication Date
CN113325866A true CN113325866A (zh) 2021-08-31
CN113325866B CN113325866B (zh) 2022-06-17

Family

ID=77416107

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110552819.9A Active CN113325866B (zh) 2021-05-20 2021-05-20 一种基于事件触发的微分对策协同制导方法

Country Status (1)

Country Link
CN (1) CN113325866B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114003050A (zh) * 2021-09-30 2022-02-01 南京航空航天大学 一种基于微分博弈的三体对抗策略的主动防御制导方法
CN114020018A (zh) * 2021-11-03 2022-02-08 北京航空航天大学 导弹控制策略的确定方法、装置、存储介质及电子设备
CN114415723A (zh) * 2022-01-11 2022-04-29 北京科技大学 一种多飞行器协同捕获空间划分方法和装置、电子设备
CN114993108A (zh) * 2022-05-17 2022-09-02 南京航空航天大学 一种基于全状态动态约束的分布式周期事件触发饱和协同制导方法
CN117950322A (zh) * 2024-03-26 2024-04-30 北京航空航天大学 一种分布式协同作战场景下博弈制导策略的确定方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902274A (zh) * 2012-08-08 2013-01-30 空军工程大学航空航天工程学院 一种自适应加权微分对策制导方法
CN105716470A (zh) * 2016-03-22 2016-06-29 北京航空航天大学 一种微分对策反拦截机动突防/精确打击导引方法
CN105759612A (zh) * 2016-03-22 2016-07-13 北京航空航天大学 带落角约束的微分对策反拦截机动突防/精确打击导引方法
CN112346474A (zh) * 2020-10-20 2021-02-09 南京航空航天大学 一种有限时间收敛的微分对策制导律的设计方法
CN112782984A (zh) * 2021-01-22 2021-05-11 北京航空航天大学 多飞行器反拦截协同打击的制导方法、装置和飞行器

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902274A (zh) * 2012-08-08 2013-01-30 空军工程大学航空航天工程学院 一种自适应加权微分对策制导方法
CN105716470A (zh) * 2016-03-22 2016-06-29 北京航空航天大学 一种微分对策反拦截机动突防/精确打击导引方法
CN105759612A (zh) * 2016-03-22 2016-07-13 北京航空航天大学 带落角约束的微分对策反拦截机动突防/精确打击导引方法
CN112346474A (zh) * 2020-10-20 2021-02-09 南京航空航天大学 一种有限时间收敛的微分对策制导律的设计方法
CN112782984A (zh) * 2021-01-22 2021-05-11 北京航空航天大学 多飞行器反拦截协同打击的制导方法、装置和飞行器

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114003050A (zh) * 2021-09-30 2022-02-01 南京航空航天大学 一种基于微分博弈的三体对抗策略的主动防御制导方法
CN114003050B (zh) * 2021-09-30 2023-10-31 南京航空航天大学 一种基于微分博弈的三体对抗策略的主动防御制导方法
CN114020018A (zh) * 2021-11-03 2022-02-08 北京航空航天大学 导弹控制策略的确定方法、装置、存储介质及电子设备
CN114020018B (zh) * 2021-11-03 2024-02-27 北京航空航天大学 导弹控制策略的确定方法、装置、存储介质及电子设备
CN114415723A (zh) * 2022-01-11 2022-04-29 北京科技大学 一种多飞行器协同捕获空间划分方法和装置、电子设备
CN114415723B (zh) * 2022-01-11 2023-09-12 北京科技大学 一种多飞行器协同捕获空间划分方法和装置、电子设备
CN114993108A (zh) * 2022-05-17 2022-09-02 南京航空航天大学 一种基于全状态动态约束的分布式周期事件触发饱和协同制导方法
CN114993108B (zh) * 2022-05-17 2023-04-28 南京航空航天大学 一种基于全状态动态约束的分布式周期事件触发饱和协同制导方法
CN117950322A (zh) * 2024-03-26 2024-04-30 北京航空航天大学 一种分布式协同作战场景下博弈制导策略的确定方法
CN117950322B (zh) * 2024-03-26 2024-06-21 北京航空航天大学 一种分布式协同作战场景下博弈制导策略的确定方法

Also Published As

Publication number Publication date
CN113325866B (zh) 2022-06-17

Similar Documents

Publication Publication Date Title
CN113325866B (zh) 一种基于事件触发的微分对策协同制导方法
Zhang et al. Finite-time cooperative guidance strategy for impact angle and time control
Shaferman et al. Cooperative multiple-model adaptive guidance for an aircraft defending missile
CN110412874B (zh) 针对机动目标和时延通信的多导弹协同制导律设计方法
Sinha et al. Three-dimensional nonlinear cooperative salvo using event-triggered strategy
CN113341727B (zh) 一种事件触发分布式自学习协同博弈拦截制导方法
CN110187640B (zh) 针对机动目标和允许通信时滞的多导弹协同作战制导律设计方法
Li et al. A Multi-UCAV cooperative occupation method based on weapon engagement zones for beyond-visual-range air combat
CN112577373B (zh) 一种基于比例导引律的多导弹同时攻击静目标的制导律
Fonod et al. Estimation enhancement by cooperatively imposing relative intercept angles
CN111898201B (zh) 一种空战模拟环境中的战斗机高精度自主攻击引导方法
CN114330115B (zh) 一种基于粒子群搜索的神经网络空战机动决策方法
CN114003050B (zh) 一种基于微分博弈的三体对抗策略的主动防御制导方法
Huang et al. Intelligent guidance and control methods for missile swarm
CN117171877A (zh) 基于时机博弈的高超声速飞行器机动突防策略设计方法
CN112815787B (zh) 一种用于多导弹同时攻击机动目标的导弹制导律
Yan et al. Evasion guidance for air-breathing hypersonic vehicles against unknown pursuer dynamics
CN114995129A (zh) 一种分布式最优事件触发协同制导方法
Jiang et al. Integrated Guidance and Control Design of Rolling‐Guided Projectile Based on Adaptive Fuzzy Control with Multiple Constraints
CN116401752A (zh) 基于超扭曲观测器的自适应滑模多飞行器协同末制导律设计方法
CN116227343A (zh) 拦截机动目标满足视场角约束的末角攻击制导律设计方法
CN116339369A (zh) 面向成员损毁的集群系统有限时间自适应协同制导方法
Li et al. Generation method of autonomous evasive maneuver strategy in air combat
Liu et al. Integrated guidance and control of multiple interceptor missiles based on improved distributed cooperative control strategy
Zhang et al. The time-to-go consensus of multi-missiles with communication delay

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant