CN113325866A

CN113325866A - 一种基于事件触发的微分对策协同制导方法

Info

Publication number: CN113325866A
Application number: CN202110552819.9A
Authority: CN
Inventors: 段丹丹; 刘春生; 高煜欣; 刘泽浩
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2021-05-20
Filing date: 2021-05-20
Publication date: 2021-08-31
Anticipated expiration: 2041-05-20
Also published as: CN113325866B

Abstract

本发明公开了一种基于事件触发的微分对策协同制导方法，属于飞行器制导技术领域。该方法基于微分对策理论和拓扑结构，将多导弹协同制导系统建模为非线性零和微分对策系统；引入事件触发机制，避免各枚导弹之间冗余信号的通信传输；并利用自适应动态规划技术，得到非线性耦合HJI方程组的近似解。本发明设计的事件触发的最优控制器在线实时更新，能够实现多枚导弹在要求的时间内以相同碰撞角击中同一目标，同时能有效降低导弹之间的通信资源和计算成本。

Description

一种基于事件触发的微分对策协同制导方法

技术领域

本发明涉及一种基于事件触发的微分对策协同制导方法，属于飞行器制导技术领域。

背景技术

在各国日益激烈的军备竞赛中，导弹凭借其射程远、精度高、威力大和突防能力强等优势成为军事武器的研究热点。然而，随着作战环境的日益复杂、拦截目标日益的智能化，已被广泛应用的传统制导律的拦截精度和拦截成功率大大下降。作为解决冲突对抗或竞争问题的有效工具，微分对策能够根据具体的对抗或冲突问题进行建模分析。与最优控制相比，微分对策是一种研究双方或多方最优策略的理论，它能够在充分考虑对策参与者之间博弈关系的条件下，对系统所能实现的最优或最差结果进行研究。考虑到导弹拦截机动目标模型是非线性的且存在不确定性等因素，使得非线性微分对策系统求解出现困难，即耦合的Hamilton-Jacobi-Isaacs(HJI)或Hamilton-Jacobi(HJ)方程的求解问题在一定程度上制约了其在拦截制导系统中的应用。近年来，自适应动态规划(Adaptive dynamicprogramming,ADP)作为一种有效的智能控制方法吸引了广大学者的注意。ADP方法的基本原理是利用函数近似结构(如神经网络等)来近似性能指标函数，然后根据贝尔曼最优性原理更新函数近似结构的参数，从而获得最优性能指标函数和最优控制策略。但是基于ADP技术的多人合作微分对策理论还有很多的不足与缺陷，因而研究基于ADP技术的多人合作微分对策理论具有很大的潜力。

随着现代和未来战争的战场环境越来越复杂，海量的数据传输和有限的网络带宽之间的矛盾日益激烈。而传统的时间触发控制方案需要卫星根据周期采样的信息调节自身状态，以实现有效拦截。通信压力较大，控制输入更新较为频繁，造成资源浪费。为克服时间触发控制的局限性，避免通信资源和计算资源的不必要浪费，学者们提出了一种可以替代周期控制的策略，即事件触发控制(Event-triggered Control,ETC)。这是一种有效的降低计算成本的控制方法，信号传输是根据系统的需求来进行的，在网络系统控制、复杂系统跟踪、编队控制、多智能体等领域有着广泛的应用。与时间触发相比，事件触发系统的主要特点是某个事件的发生决定了采样信号，而不是随着时间的流逝而周期性采样。也就是说，事件触发是一种仅在“需要”时进行采样的控制策略，利用该机制能够在保证系统控制性能的同时，有效的减少控制器的计算成本和系统的通信成本。因此，基于事件触发控制的制导律，不仅能够保证拦截效果，而且能够提高通信资源的利用率，节约计算成本，减轻网络带宽的压力，因而更加的符合现代信息化战争思想的作战方式。

发明内容

为了解决网络带宽限制和时变的非线性HJI方程求解困难等问题，本发明提出了一种基于事件触发的微分对策协同制导方法。该方法通过引入事件触发通信方案，避免大量不必要的数据传输；利用自适应动态规划技术近似求解耦合的HJI方程，得到最优的微分对策协同制导律。

本发明为解决上述问题采用以下技术方案：

一种基于事件触发的微分对策协同制导方法，包括以下步骤：

步骤1、设导弹与目标的运动为质点运动，且其速度大小及视线角大小恒定，定义M₁,M₂…M_N分别表示N枚导弹，T表示机动的目标；建立二维平面多导弹-目标的相对运动方程：

其中,θ_i,V_i,α_i,u_i,r_i分别表示第i枚导弹的视线角、飞行速度、航迹角、垂直于速度方向的控制输入以及和目标T之间的距离；V_T,β,v表示机动目标的飞行速度、航迹角以及垂直于速度方向的控制输入；

分别表示r_i,θ_i,α_i,β_i对时间t的导数；步骤2、考虑导弹与目标均表现为一阶自动驾驶仪，则第i枚导弹M_i和机动目标T的自动驾驶仪分别为：

其中：x_Mi、y_Mi、a_i和τ_Mi分别为第i枚导弹的横坐标位置信息、纵坐标位置信息、侧向加速度和自动驾驶仪时间常数；x_T、y_T、a_T和τ_T分别为机动目标的横坐标位置信息、纵坐标位置信息、侧向加速度和自动驾驶仪时间常数；

分别表示x_Mi,y_Mi,a_i,x_T,y_T,a_T对时间t的导数；

步骤3、根据导弹能够成功拦截机动目标的条件：

及视线角速保持不变时，碰撞角的表达式：

并考虑到有限时域约束，定义新的时间变量

其中r_i(0)表示第i枚导弹与机动目标之间的初始距离，r_i(t)表示第i枚导弹在t时刻与机动目标之间的距离；基于时间变量

定义第i枚导弹的剩余时间

定义状态变量

得到有限时域隐式协同制导模型：

其中，

为状态变量x_i对

的导数，x₀为领弹的状态变量，f(x₀)为领弹的非线性动态，

为从弹i的非线性动态，

表示第i枚导弹的视线角速率，t_go_i表示第i枚导弹的剩余时间，

为从弹i的控制策略，

为机动目标针对从弹i的逃逸策略；

步骤4、对第i个跟随者，定义如下局部邻域一致误差

其中:x_j为从弹j的状态变量，x₀为领弹的状态变量，a_ij表示邻接矩阵

的元素，a_i0为智能体i与领导者之间连接矩阵的对角元素，

是δ_i的一阶导数，则通过数学求导、变换获得下列局部邻域一致误差的动态方程

其中，l_ij和

分别是矩阵

和

的元素，f(x_j)、g_j(x_j)及k_j(x_j)为从弹j的非线性动态，

为从弹j的控制策略，

为机动目标针对从弹j的逃逸策略；

步骤5、根据微分对策理论，导弹和目标的微分对策协同制导律以及时变的HJI方程如下：

其中，

为从弹i的最优控制策略，

为

的转置，

为从弹j的最优控制策略，

为从弹i的最优逃逸策略，

从弹j的最优逃逸策略，

为

的转置，

为智能体i与领导者之间连接矩阵的元素，R_ii和T_ii都是正定的常数矩阵，

为R_ii的逆矩阵，

为T_ii的逆矩阵，γ_i为常数参数，

表示成本函数

对δ_i的偏导数，

表示成本函数

对t的偏导数；

步骤6、设计事件触发机制，具体如下：每间隔h秒对一致误差系统的状态δ_i进行采样，得到周期采样后的状态

定义一个事件触发条件，当系统当前的周期采样状态δ_i(lh)与上次触发状态

的差值违反我们定义的触发条件时，产生新的触发时刻

反馈制导律随之更新；

时刻的制导律表示为

和

其具体表达式如下：

其中，

为成本函数

对t的偏导数在

时刻的值；

引入事件触发机制后，得到基于事件触发的局部邻域一致误差的动态方程：

其中：

为从弹i事件触发的最优控制策略，

为从弹i事件触发的最优逃逸策略；

步骤7、执行微分对策制导律，具体如下：

利用神经网络的万能逼近特性，设计一个评价网络近似最优的成本函数

及其终端约束

其具体表达式如下：

其中，

和

分别是和

和

的估计，

和σ_i(δ_i,t_f-t)分别表示第i个智能体的评价网络近似权值以及激活函数，

是在稳定域中选取的状态δ_i(t)的估计值,t_f为终端时间；

利用(13)式，得到近似的事件触发微分对策协同制导律，定义导弹和目标基于事件的近似反馈控制器分别为

其具体表达式为：

其中，

是激活函数σ_i(δ_i,t_f-t)对δ_i的偏导数。

令

则可根据梯度下降法，得到

的更新律：

式(15)中，

表示

对时间的一阶导数；

和

均大于零，为设计的学习速率；

是在稳定域内随机选择的δ_i(t_f)的估计值；∈_i(δ_i(t_f),0)为神经网络的近似误差，

为误差∈_i(δ_i(t_f),0)对δ_i的偏导数，

是

的转置；

表示驻留误差；

x_i,r是从弹i基于事件触发机制的状态变量，

为φ_i的转置，

为

的转置，

是

的转置，

为从弹i事件触发的近似最优控制策略，

为从弹i事件触发的近似最优逃逸策略，

为从弹i的近似最优控制策略，

为从弹i的近似最优逃逸策略。

所述步骤5中构造HJI方程，微分对策协同制导律的具体过程如下：

定义第i个智能体的有限时域的成本函数为：

式(16)中，Q_i(δ_i,τ)是关于一致误差δ_i和时间t的正定矩阵，

为从弹i所有邻域导弹的控制策略组成的集合，

为机动目标针对从弹i所有邻域从弹的控制策略组成的集合，ψ_i(δ_i(t_f),t_f)表示第i个智能体的终端时刻的成本函数；在式(16)中所有的矩阵均为常数矩阵，并且q_i,R_ii,T_ii为正定矩阵，R_ij,T_ij为半正定矩阵；对第i个智能体，定义时变的Hamilton函数为：

其中，

为成本函数V_i(δ_i,t)对δ_i的偏导数，

为成本函数对时间t的偏导数；

根据微分对策理论，由静态条件得到如下反馈制导律：

进而得到耦合的时变HJI方程如下：

本发明的有益效果如下：

(1)本发明将多弹协同制导系统描述为二人零和微分对策系统，在该系统下，追逃双方策略选择是一个动态博弈过程，与传统制导方案中将目标飞行器制导策略看成已知函数相比，本发明的制导方案更适用于复杂的实际作战过程。

(2)本发明引入事件触发机制，大大减少不必要数据的传输，提高了通信资源的利用率，缓解了网络带宽的限制。

(3)本发明利用自适应动态规划技术，用神经网络逼近耦合的HJI方程的最优解，从而解决了非线性微分对策系统最优解的求解问题，并近似得到最优反馈控制策略，使得最优协同制导律的设计成为可能。

附图说明

图1是本发明的多导弹协同制导二维平面示意图。

图2是本发明方法的协同制导控制流程图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

本发明所公布的一种基于事件触发的微分对策协同制导方法包括由节点集合

组成的多智能体系统之间的强联通有向通信拓扑结构图

其中，边集

表示智能体之间的信息传输通道，若(i,j)∈ε则说明智能体i能够接收到智能体j的信息，反之则不然。对于智能体i而言，所有能被它接收到信息的智能体的集合用

表示。

表示图

的邻接矩阵，如智能体i和智能体j之间存在通信链路，也就是(i,j)∈ε时，矩阵元素a_ij＝1，反之a_ij＝0。在这里我们假设图

中任意两个节点之间总存在一条有向路径且图

且没有自环，即a_ii＝0。图

的入度矩阵被定义为

其中

智能体i与领导者之间的连接矩阵由

表示，如果智能体i能接收到领导者的信息，则

反之

定义图

的拉普拉斯矩阵为

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

如图1所示，本发明建立多导弹协同拦截同一目标的数学模型。N枚导弹M₁,M₂…M_N协同拦截机动目标T,假设导弹和目标的速度大小不变，只有速度方向发生改变。图中，θ_i,V_i,α_i,u_i,r_i分别表示第i枚导弹的视线角、飞行速度、航迹角、垂直于速度方向的控制输入以及和目标T之间的距离；V_T,β,v表示机动目标的飞行速度、航迹角以及垂直于速度方向的控制输入。

如图2所示，根据所建立的多导弹协同拦截同一目标的数学模型，构造多导弹协同制导系统；多导弹协同制导系统将连续的状态变量传输到事件产生器，在事件产生器中生成事件触发的状态变量，并将其分别传输到事件触发的微分对策协同制导律以及评价网络；微分对策协同制导律通过零阶保持器，连续的作用于本发明建立的多导弹协同拦截同一目标的数学模型；评价网络用于更新评价网络的权值，该权值能够优化事件触发的多弹协同制导律。

具体步骤如下：

步骤1，建立二维平面多导弹-目标的相对运动方程。

假设N枚导弹M₁,M₂…M_N协同拦截机动目标T,导弹和目标的速度大小不变，只有速度方向发生改变。多导弹-目标的相对运动方程可表示为如下数学模型：

其中，θ_i,V_i,α_i,u_i,r_i分别表示第i枚导弹的视线角、飞行速度、航迹角、垂直于速度方向的控制输入以及和目标T之间的距离；V_T,β,v表示机动目标的飞行速度、航迹角以及垂直于速度方向的控制输入；

分别表示r_i,θ_i,α_i,β_i对时间t的导数。

本发明考虑导弹与目标均表现为一阶自动驾驶仪。定义x_Mi、y_Mi、a_i和τ_Mi分别为第i枚导弹的横坐标位置信息、纵坐标位置信息、侧向加速度和自动驾驶仪时间常数；定义x_T、y_T、a_T和τ_T分别为机动目标的横坐标位置信息、纵坐标位置信息、侧向加速度和自动驾驶仪时间常数；

分别表示x_Mi,y_Mi,a_i,x_T,y_T,a_T对时间t的导数；在本发明中设定

则第i枚导弹M_i和机动目标T的自动驾驶仪分别为：

步骤2，根据导弹能够成功拦截机动目标的条件：

及视线角速保持不变时，碰撞角的表达式：

并考虑到有限时域约束，定义新的时间变量

其中r_i(0)表示第i枚导弹与机动目标之间的初始距离，r_i(t)表示第i枚导弹在t时刻与机动目标之间的距离。基于时间变量

定义第i枚导弹的剩余时间

状态变量

得到有限时域隐式协同制导模型：

式(6)中，x_i1表示第i枚导弹的视线角，

表示第i枚导弹的视线角速率，t_go_i表示第i枚导弹的剩余时间，导弹M₁,M₂…M_N的新的控制量分别为

u_i表示第i枚导弹垂直于速度方向的控制输入，目标T的新的控制量为

_v表示目标垂直于速度方向的控制输入。

将导弹和目标新的控制量带入到式(6)中，得到有限时域隐式协同制导模型：

x₀′＝f(x₀)，

其中，

为状态变量x_i对

的导数，x_i为从弹i的二维状态变量，f(x₀)为领弹的非线性动态，f(x_i)、k_i(x_i)及g_i(x_i)为从弹i的非线性动态，

为从弹i的控制策略，

为机动目标针对从弹i的逃逸策略。

步骤4、为了保证所有导弹都能以相同的碰撞角攻击机动目标，对第i个跟随者，定义如下局部邻域一致误差

其中：δ_i为智能体i的局部邻域一致误差，x_i为从弹i的二维状态变量，x_j为从弹j的二维状态变量，x₀为领弹的状态变量，a_i0为智能体i与领导者之间连接矩阵的对角元素；a_ij表示邻接矩阵

的元素。

定义

是δ_i的一阶导数，则通过数学求导、变换获得下列局部邻域一致误差的动态方程：

其中，l_ij和

分别是矩阵

和

的元素，f(x_i)、k_i(x_i)及g_i(x_i)为从弹i的非线性动力学，

为从弹i的控制策略，

为机动目标针对从弹i的逃逸策略，f(x_j)、k_j(x_j)及g_j(x_j)为从弹j的非线性动力学，

为从弹j的控制策略，

为机动目标针对从弹j的逃逸策略。

步骤5、根据微分对策理论，推导有限时域微分对策闭环解形式

式(10)中，

为从弹i所有邻域导弹的控制策略组成的集合，

为机动目标针对从弹i所有邻域从弹的控制策略组成的集合，Q_i(δ_i,t)是关于一致误差δ_i和时间t的正定矩阵，u_Ni＝{u_j:j∈N_i}为所有控制器u_j，j∈N_i组成的集合，δ_i为智能体i的局部邻域一致误差，q_i,R_ii,T_ii为给定的正定矩阵，R_ij,T_ij为给定的半正定矩阵，γ_i为常数参数，t_f为终端时间，且ψ_i(δ_i(t_f),t_f)表示第i个智能体的终端时刻的成本函数

对第i个智能体，定义时变的Hamilton函数为：

其中，x_i为从弹i的状态变量，x_j从弹j的状态变量，

为从弹i的控制策略，

为机动目标针对从弹i的逃逸策略，

为从弹j的控制策略，

为机动目标针对从弹j的逃逸策略，

对δ_i的偏导数，

为V_i(δ_i,t)对t的偏导数，q_i,R_ii,T_ii为给定的正定矩阵，R_ij,T_ij为给定的半正定矩阵，γ_i为常数参数，l_ij是拉普拉斯矩阵的元素，

智能体i与领导者之间连接矩阵的元素，f(x_j)、k_j(x_j)及g_j(x_j)为从弹j的非线性动态，

为从弹j的控制策略，

为机动目标针对从弹j的逃逸策略

为第j枚导弹的控制策略，

为机动目标针对第j枚导弹的逃逸策略。

根据微分对策理论，由静态条件得到如下微分对策协同制导律：

其中，

为导弹i最优的控制策略，

为目标针对导弹i最优的逃逸策略，l_ii是拉普拉斯矩阵的元素，

智能体i与领导者之间连接矩阵的元素，

是最优的成本函数，

是

关于δ_i的偏导数。

进而得到耦合的时变HJI方程如下：

其中，

为导弹j最优的控制策略，

为目标针对导弹j最优的逃逸策略。因此，只要能够求解非线性的HJI方程(13)，有限时域的微分对策协同制导律即可获得。但HJI方程本质上属于非线性偏微分方程，很难通过数学推导求得其解析解。因此，本发明采用自适应动态规划技术，利用神经网络的万能逼近特性，得到HJI方程的近似最优解。

利用神经网络的万能逼近特性，本发明构造评价网络近似最优的成本函数

及其终端约束

其具体表达式如下：

式(14)中，

是理想的权值向量,

是激活函数，

是神经网络的近似误差,δ_i智能体i的局部邻域一致误差,t_f是终端时间。

在神经网络的逼近过程中，理想的权值向量是未知的，因此不能直接用于执行微分对策协同制导律。为解决这一难题，本发明用实际近似方式表示。

实际近似可表示为

其中，

为最优成本函数

的估计，

是对最优终端成本

的估计，

和σ_i(δ_i,t_f-t)分别表示第i个智能体的评价网络近似权值以及激活函数，δ_i(t)为智能体i的局部邻域一致误差,

是在稳定域中选取的状态δ_i(t)的估计值。

利用(15)式，得到近似的事件触发微分对策制导律，定义导弹和目标的近似反馈控制器分别为：

其中，

和

分别是最优控制器

和

的估计，l_ii是拉普拉斯矩阵的元素，

智能体i与领导者之间连接矩阵的元素，

是激活函数σ_i(δ_i,t_f-t)关于δ_i的偏导数。

设计事件触发机制，具体如下：

每间隔h秒对一致误差系统的状态δ_i进行采样，得到周期采样后的状态

的差值违反我们定义的触发条件时，产生新的触发时刻

反馈制导律随之更新。

时刻的制导律表示为

和

其具体表达式如下：

其中，

是导弹i在

时刻的最优控制策略，

是目标针对导弹i在

时刻的最优逃逸策略，

是在

时刻最优成本函数

对δ_i的偏导数。

其中，

是一致误差δ_i的导数，

是导弹i在

时刻的最优控制策略，

是目标针对导弹i的最优逃逸策略。

利用(18)式，得到近似的事件触发微分对策制导律，定义导弹和目标基于事件的近似反馈控制器分别为

其具体表达式为：

其中，x_i,r是智能体i事件触发机制下状态，的

是导弹i事件触发的近似最优控制策略，

是机动目标针对导弹i的事件触发的近似最优逃逸策略，

是激活函数σ_i(δ_i,t_f-t)对δ_i的偏导数。

令

则可根据梯度下降法，得到

的更新律：

式(20)中，

表示

对时间的一阶导数；

和

均大于零，为设计的学习速率；

为误差∈_i(δ_i(t_f),0)对δ_i的偏导数，

是

的转置；

表示驻留误差；并且

为φ_i的转置，

为

的转置，

是

的转置，

为导弹j的近似最优控制策略，

为机动目标针对导弹j的近似最优逃逸策略。

根据上述设计的评价网络更新律，基于事件的微分对策制导律(20)可以实现在线更新，直到所有导弹以相同的攻击角成功击中同一机动目标。

以上所述，仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进，这些改进应视为本发明的保护范围。

Claims

1.一种基于事件触发的微分对策协同制导方法，其特征在于，包括以下步骤：

分别表示r_i,θ_i,α_i,β_i对时间t的导数；

步骤2、考虑导弹与目标均表现为一阶自动驾驶仪，则第i枚导弹M_i和机动目标T的自动驾驶仪分别为：

分别表示x_Mi,y_Mi,a_i,x_T,y_T,a_T对时间t的导数；

步骤3、根据导弹能够成功拦截机动目标的条件：

及视线角速保持不变时，碰撞角的表达式：

η_i＝α_i-β＝θ_i-arcsin(V_i ^-1V_Tsin(θ_i-β)-β, (5)

并考虑到有限时域约束，定义新的时间变量

定义第i枚导弹的剩余时间

定义状态变量

得到有限时域隐式协同制导模型：

其中，

为状态变量x_i对

为从弹i的非线性动态，

表示第i枚导弹的视线角速率，t_goi表示第i枚导弹的剩余时间，

为从弹i的控制策略，

为机动目标针对从弹i的逃逸策略；

步骤4、对第i个跟随者，定义如下局部邻域一致误差

的元素，a_i0为智能体i与领导者之间连接矩阵的对角元素，

其中，l_ij和

分别是矩阵

和

的元素，f(x_j)、g_j(x_j)及k_j(x_j)为从弹j的非线性动态，

为从弹j的控制策略，

为机动目标针对从弹j的逃逸策略；

其中，

为从弹i的最优控制策略，

为

的转置，

为从弹j的最优控制策略，

为从弹i的最优逃逸策略，

从弹j的最优逃逸策略，

为

的转置，

为R_ii的逆矩阵，

为T_ii的逆矩阵，γi为常数参数，

表示成本函数

对δ_i的偏导数，

表示成本函数

对t的偏导数；

的差值违反我们定义的触发条件时，产生新的触发时刻

反馈制导律随之更新；

时刻的制导律表示为

其具体表达式如下：

其中，

为成本函数

对t的偏导数在

时刻的值；

其中：

为从弹i事件触发的最优控制策略，

为从弹i事件触发的最优逃逸策略；

步骤7、执行微分对策制导律，具体如下：

及其终端约束

其具体表达式如下：

其中，

和

分别是和

和

的估计，

是在稳定域中选取的状态δ_i(t)的估计值,t_f为终端时间；

其具体表达式为：

其中，

是激活函数σ_i(δ_i,t_f-t)对δ_i的偏导数；

令

则可根据梯度下降法，得到

的更新律：

式(15)中，

表示

对时间的一阶导数；

和

均大于零，为设计的学习速率；

是在稳定域内随机选择的δ_i(t_f)的估计值；ε_i(δ_i(t_f),0)为神经网络的近似误差，

为误差ε_i(δ_i(t_f),0)对δ_i的偏导数，

是

的转置；

表示驻留误差；

x_i,r是从弹i基于事件触发机制的状态变量，

为φ_i的转置，

为

的转置，

是

的转置，

为从弹i事件触发的近似最优控制策略，

为从弹i事件触发的近似最优逃逸策略，

为从弹i的近似最优控制策略，

为从弹i的近似最优逃逸策略。

2.根据权利要求1所述的一种基于事件触发的微分对策协同制导方法，其特征在于，所述步骤5中构造HJI方程，微分对策协同制导律的具体过程如下：

定义第i个智能体的有限时域的成本函数为：

式(16)中，Q_i(δ_i,τ)是关于一致误差δ_i和时间t的正定矩阵，

为从弹i所有邻域导弹的控制策略组成的集合，

为机动目标针对从弹i所有邻域从弹的控制策略组成的集合，ψi(δ_i(t_f),t_f)表示第i个智能体的终端时刻的成本函数；在式(16)中所有的矩阵均为常数矩阵，并且q_i,R_ii,T_ii为正定矩阵，R_ij,T_ij为半正定矩阵；

对第i个智能体，定义时变的Hamilton函数为：

其中，

为成本函数V_i(δ_i,t)对δ_i的偏导数，

为成本函数对时间t的偏导数；

根据微分对策理论，由静态条件得到如下反馈制导律：

进而得到耦合的时变HJI方程如下：