CN116258317B

CN116258317B - 一种基于博弈论的卫星编队反监视最优控制方法、装置及介质

Info

Publication number: CN116258317B
Application number: CN202211583979.0A
Authority: CN
Inventors: 叶东; 高祥博; 肖岩; 张刚; 孙兆伟
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2022-12-09
Filing date: 2022-12-09
Publication date: 2023-10-31
Anticipated expiration: 2042-12-09
Also published as: CN116258317A

Abstract

本发明实施例公开了一种基于博弈论的卫星编队反监视最优控制方法，属于航天器轨道控制技术领域；该方法包括：对卫星编队反监视系统中参与博弈的每一颗卫星进行建模，获得运动微分方程；分别根据参与博弈的每一颗卫星期望的博弈目标，设计对应的目标状态变量；基于运动微分方程以及目标状态变量，分别得到对应的微分状态方程；将微分状态方程中含有非自身控制量的耦合约束项通过关联变量代替，以将微分状态方程解耦得到分别仅针对追击卫星、非追击卫星以及敌方卫星的非线性方程；基于非线性方程循环依次对参与博弈的卫星中的每一颗的支付函数求解相应的控制量并迭代更新与控制量相关的关联变量，得到参与博弈的每一颗卫星的最优控制量。

Description

一种基于博弈论的卫星编队反监视最优控制方法、装置及介质

技术领域

本发明实施例涉及航天器轨道控制技术领域，尤其涉及一种基于博弈论的卫星编队反监视最优控制方法、装置及计算机存储介质。

背景技术

卫星编队对敌方卫星的反监视控制是一个由多卫星参与的博弈问题，当前大多数使用传统微分博弈算法对其进行求解。但传统微分博弈方法便于计算线性系统，对于非线性系统，无论是系统非线性还是目标非线性都难以求解；多卫星控制量同时作用于系统中，导致相互耦合而难以求解每个航天器自身控制量；同时由于传统微分博弈方法需要对偏微分方程进行求解，最终得到的矩阵里卡提方程是高度依赖积分初值的，因此难以在多卫星的反监视控制中得到良好的控制结果。

发明内容

有鉴于此，本发明实施例期望提供一种基于博弈论的卫星编队反监视最优控制方法、装置及介质；在多卫星参与的反监视场景中，通过对非线性微分博弈问题进行解耦，使问题转化为多个非线性最优控制问题，降低了多卫星博弈问题求解复杂度且易于实现。

本发明实施例的技术方案是这样实现的：

第一方面，本发明实施例提供了一种基于博弈论的卫星编队反监视最优控制方法，包括：

对卫星编队反监视系统中参与博弈的每一颗卫星进行建模，获得运动微分方程；其中，所述卫星编队反监视系统包括由中心卫星和多个防御卫星组成的卫星编队以及敌方卫星，所述参与博弈的卫星包括防御卫星中的追击卫星和非追击卫星以及敌方卫星；

分别根据所述参与博弈的每一颗卫星期望的博弈目标，设计对应的目标状态变量；

基于所述运动微分方程以及所述参与博弈的每一颗卫星对应的目标状态变量，分别得到对应的微分状态方程；

将所述微分状态方程中含有非自身控制量的耦合约束项通过关联变量代替，以将所述微分状态方程解耦得到分别仅针对追击卫星、非追击卫星以及敌方卫星的非线性方程；

基于所述非线性方程循环依次对所述参与博弈的卫星中的每一颗的支付函数求解相应的控制量并迭代更新与所述控制量相关的关联变量，得到参与博弈的每一颗卫星的最优控制量，以使得参与博弈的每一颗卫星按照所述最优控制量进行运行控制。

第二方面，本发明实施例提供了一种基于博弈论的卫星编队反监视最优控制装置，包括建模部分、设计部分、更新部分、解耦部分和求解部分；其中，

所述建模部分，经配置为对卫星编队反监视系统中参与博弈的每一颗卫星进行建模，获得运动微分方程；

所述设计部分，经配置为分别根据所述参与博弈的每一颗卫星期望的博弈目标，设计对应的目标状态变量；

所述更新部分，经配置为基于所述运动微分方程以及所述参与博弈的每一颗卫星对应的目标状态变量，分别得到对应的微分状态方程；

所述解耦部分，经配置为将所述微分状态方程中含有非自身控制量的耦合约束项通过关联变量代替，以将所述微分状态方程解耦得到分别仅针对追击卫星、非追击卫星以及敌方卫星的非线性方程；

所述求解部分，经配置为基于所述非线性方程循环依次对所述参与博弈的卫星中的每一颗的支付函数求解相应的控制量并迭代更新与所述控制量相关的关联变量，得到参与博弈的每一颗卫星的最优控制量，以使得参与博弈的每一颗卫星按照所述最优控制量进行运行控制。

第三方面，本发明实施例提供了一种计算设备，所述计算设备包括：通信接口，存储器和处理器；各个组件通过总线系统耦合在一起；其中，

所述通信接口，用于在与其他外部网元之间进行收发信息过程中，信号的接收和发送；

所述存储器，用于存储能够在所述处理器上运行的计算机程序；

所述处理器，用于在运行所述计算机程序时，执行第一方面中所述基于博弈论的卫星编队反监视最优控制方法步骤，这里不再进行赘述。

第四方面，本发明实施例提供了一种计算机存储介质，所述计算机存储介质存储有基于博弈论的卫星编队反监视最优控制程序，所述基于博弈论的卫星编队反监视最优控制程序被至少一个处理器执行时实现第一方面所述基于博弈论的卫星编队反监视最优控制方法步骤。

本发明实施例提供了一种基于博弈论的卫星编队反监视最优控制方法、装置及介质；首先对卫星编队反监视系统中的每一颗卫星进行建模，分别针对所述卫星编队中追击卫星、非追击卫星和敌方卫星设计不同的目标状态变量，体现了多卫星博弈问题中各卫星不同的博弈目标；通过分解协调原理将多卫星控制量相互耦合的多人博弈问题解耦成多个仅含有单个卫星控制量的最优控制问题，从而降低了问题的求解复杂度且便于实现。

附图说明

图1为本发明实施例提供的卫星编队反监视场景示意图；

图2为本发明实施例提供的基于博弈论的卫星编队反监视最优控制方法流程示意图；

图3为本发明实施例提供的卫星编队视线遮蔽极坐标投影示意图；

图4为本发明实施例提供的追击卫星和非追击卫星与敌方卫星夹角变化曲线示意图；

图5为本发明实施例提供的敌方卫星燃料消耗变化曲线示意图；

图6为本发明实施例提供的卫星编队中追击卫星燃料消耗变化曲线示意图；

图7为本发明实施例提供的卫星编队中非追击卫星燃料消耗变化曲线示意图；

图8为本发明实施例提供的一种基于博弈论的卫星编队反监视最优控制装置组成示意图；

图9为本发明实施例提供的一种计算设备的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

如图1所示的卫星编队反监视场景示例中，中心卫星11和防御卫星12、13、14、15组成的卫星编队10正在轨道上正常运行，此时，一敌方卫星16正于某方向前来探测，为了获得中心卫星11的详细图像信息，敌方卫星16需在一定距离内对中心卫星11进行图像拍摄，为避免中心卫星11关键技术信息泄露，在卫星编队的中心卫星11机动能力显著弱于敌方卫星16，无法进行机动变轨以躲避敌方卫星16拍摄的情况下，采用卫星编队10中的防御卫星对中心卫星11进行遮挡，在未知敌方卫星16策略的情况下，对敌方卫星16到中心卫星11之间的视线通路进行遮蔽，使中心卫星11图像信息尽可能少的暴露。对于上述场景，敌方卫星16与卫星编队10将展开博弈，卫星编队10试图保证敌方卫星16与中心卫星11的视线通路上始终有至少1颗防御卫星作为追击卫星15，以保证敌方卫星16不能直接获取中心卫星11的图像信息，其他防御卫星12、13、14作为非追击卫星在中心卫星11周围形成包围圈以构成对敌方卫星16防御的完整性；而敌方卫星16希望尽可能地甩开追击卫星15，可以完整清晰的获得中心卫星11的图像信息。这样，卫星编队10就与敌方卫星16形成了一组多人非线性微分博弈，对于敌方卫星16的反监视控制本质上是一个由多卫星参与的博弈问题。为了解决上述的多人非线性微分博弈问题，参见图2，其示出了一种基于博弈论的卫星编队反监视最优控制方法，所述方法包括：

S201：对卫星编队反监视系统中参与博弈的每一颗卫星进行建模，获得运动微分方程；其中，所述卫星编队反监视系统包括由中心卫星和多个防御卫星组成的卫星编队以及敌方卫星，所述参与博弈的卫星包括防御卫星中的追击卫星和非追击卫星以及敌方卫星；

S202：分别根据所述参与博弈的每一颗卫星期望的博弈目标，设计对应的目标状态变量；

S203：基于所述运动微分方程以及所述参与博弈的每一颗卫星对应的目标状态变量，分别得到对应的微分状态方程；

S204：将所述微分状态方程中含有非自身控制量的耦合约束项通过关联变量代替，以将所述微分状态方程解耦得到分别仅针对追击卫星、非追击卫星以及敌方卫星的非线性方程；

S205：基于所述非线性方程循环依次对所述参与博弈的卫星中的每一颗的支付函数求解相应的控制量并迭代更新与所述控制量相关的关联变量，得到参与博弈的每一颗卫星的最优控制量，以使得参与博弈的每一颗卫星按照所述最优控制量进行运行控制。

对于图2所示的技术方案，在一些可能的实现方式中，所述对卫星编队反监视系统中参与博弈的每一颗卫星进行建模，获得运动微分方程，包括：以需要遮挡的中心卫星为坐标系原点，使用当地轨道坐标系(Local Vertical Local Horizontal，LVLH)对于所述参与博弈的每一颗卫星的机动进行描述，在LVLH坐标系下，使用相对运动C-W方程对于所述参与博弈的每一颗卫星进行建模，其运动微分方程如下式(1)所示：

其中，状态变量/>表征了位置与速度向量，控制变量u＝[a_x,a_y,a_z]^T，/>表示中心卫星轨道的平均角速度，μ表示地球引力常数，r表示中心卫星轨道半径。

对于图2所示的技术方案，在一些可能的实现方式中，所述分别根据所述参与博弈的每一颗卫星期望的博弈目标，设计对应的目标状态变量，包括：

根据所述追击卫星尽可能的缩减自身和敌方卫星与中心卫星之间的连线夹角以及满足设定的与中心卫星之间距离约束的博弈目标，设计追击卫星目标状态变量Y和P，如式(2)所示：

其中，表示防御卫星中的追击卫星的状态变量；X_e表示敌方卫星的状态变量，表示追击卫星距离中心卫星人为设定的最大距离，/>表示追击卫星距离中心卫星人为设定的最小距离，式中(1:3)表示该向量的前3项。

需要说明的是，为了描述方便，使用角标d表示防御卫星，角标d₁表示追击卫星，角标e表示敌方卫星，d₂、d₃、d₄表示非追击卫星。还需要说明的是，所述目标状态变量Y表征了当Y＝0时，追击卫星的博弈目标为追击卫星和敌方卫星与中心卫星之间的连线夹角为0，即追击卫星在中心卫星与敌方卫星连线上，达到遮挡敌方卫星的目标；所述目标状态变量P表征了追击卫星在中心卫星最小距离和最大距离的中间位置。

根据所述非追击卫星的对敌方卫星包围圈的均匀性与完整性的博弈目标，设计非追击卫星目标状态变量如下式(3)所示：

其中，

S_m,n表示了两颗卫星之间的夹角。

需要说明的是，S_1,2表征了1号防御卫星与2号防御卫星之间的夹角，S_1,3表征了1号防御卫星与3号防御卫星之间的夹角，可以理解地，当S＝0时，S_1,2与S_1,3相等，同样地，S_1,2与S_1,4相等，S_1,2与S_3,2相等，即卫星编队中防御卫星的构型是均匀分布的。

根据所述敌方卫星避开追击卫星遮蔽的博弈目标，设计敌方卫星目标状态变量Y_i如下式(4)所示：

其中，n为2时表示敌方卫星的警戒范围内有两颗防御卫星。

需要说明的是，敌方卫星博弈的目标是期望其与追击卫星之间的夹角尽可能的大，以方便敌方卫星对中心卫星进行观测。

对于图2所示的技术方案，在一些可能的实现方式中，所述基于所述运动微分方程以及所述参与博弈的每一颗卫星对应的目标状态变量，分别得到对应的微分状态方程，包括：

根据所述运动微分方程，对所述追击卫星目标状态变量Y和P求导，可得如式(5)所示的追击卫星的原始微分状态方程：

设定由式(5)获得追击卫星的最终微分状态方程为式(6)所示：

需要说明的是，通过式(6)可以观察到，所述追击卫星微分状态方程不仅与所述追击卫星自身的控制量相关，还与敌方卫星的控制量u_e耦合相关。

根据所述运动微分方程，对所述非追击卫星目标状态变量S求导，可得如式(7)所示的非追击卫星的原始微分状态方程：

设定获得非追击卫星的最终微分状态方程如式(8)所示：

需要说明的是，通过式(8)可以观察到，非追击卫星微分状态方程除了与追击卫星的控制量耦合相关，防御卫星之间也存在控制量耦合约束，如图1所示的卫星编队反监视场景示意图中，即非追击卫星12控制量/>的求解受追击卫星15控制量/>非追击卫星13控制量/>非追击卫星14控制量/>的影响，可以理解地，非追击卫星13控制量/>的求解受追击卫星15控制量/>非追击卫星12控制量/>非追击卫星14控制量/>的影响，非追击卫星14控制量/>的求解受追击卫星15控制量/>非追击卫星12控制量/>非追击卫星13控制量/>的影响。

根据所述运动微分方程，对所述敌方卫星目标状态变量Y求导，敌方卫星的微分状态方程如式(9)所示：

其中，n为2时表示敌方卫星的警戒范围内有两颗防御卫星。

需要说明的是，通过式(9)可以观察到，所述敌方卫星微分方程不仅与所述敌方卫星自身的控制量相关，还与所述追击卫星的控制量耦合相关；所述警戒范围指敌方卫星与中心卫星连线两侧小于人为设定夹角的区域。

对于图2所示的技术方案，在一些可能的实现方式中，所述将所述微分状态方程中含有非自身控制量的耦合约束项通过关联变量代替，以将所述微分状态方程解耦得到分别仅针对追击卫星、非追击卫星以及敌方卫星的非线性方程，包括：

设计追击卫星关联变量为非追击卫星关联变量为/>k＝2,3,4，敌方卫星关联变量为z_e，如式(10)所示：

将式(10)中设计的关联项分别带入式(6)(8)(9)的微分状态方程中，获得解耦后的仅针对追击卫星、非追击卫星、敌方卫星的非线性方程，如式(11)(12)(13)：

需要说明的是，可以看到，经过解耦处理以后，公式(6)(8)(9)中的耦合项被所述关联变量k＝2,3,4、z_e所代替，在每次循环之中把所述关联变量当作常值进行计算，这样，原有的非线性多人微分博弈问题就被解耦成为多个相互独立的最优控制问题，降低了问题求解的复杂度和实现难度，所述关联变量在循环迭代中不断更新，直到获得满足设定要求的控制量作为最优控制量。

对于这些相互独立的最优控制问题的求解，在一些可能的实现方式中，所述基于所述非线性方程依次循环对所述参与博弈的卫星中的每一颗的支付函数求解相应的控制量并迭代更新与所述控制量相关的关联变量，得到参与博弈的每一颗卫星的最优控制量，包括：

在当前循环过程中，执行：

根据参与博弈的第i个卫星的非线性方程对其支付函数进行求解，获得所述第i个卫星的控制量，其中，0≤i<M，M表示参与博弈的卫星数量；

根据所述第i个卫星的控制量，更新与所述第i个卫星控制量相关的参与博弈的卫星中其他卫星的非线性方程中的关联变量；并根据参与博弈的第(i+1)个卫星的更新后的非线性方程对其支付函数进行求解，直至获得所有参与博弈的每个卫星的控制量；

获取参与博弈的每个卫星在当前循环与前次循环之间的控制量变化量；

如果参与博弈的每个卫星的控制量变化量均小于相应的设定阈值，则将所述当前循环参与博弈的每个卫星的控制量作为所述追击卫星的最优控制量、非追击卫星中每一个的最优控制量和敌方卫星的最优控制量，并结束整个循环过程；否则，进入下一循环过程。

对于上述实现方式中，在一些示例中，所述根据参与博弈的第i个卫星的非线性方程对其支付函数进行求解，获得所述第i个卫星的控制量，包括：

设计参与博弈的第i个卫星的支付函数；

根据所述第i个卫星的非线性方程以及其对应的支付函数，通过对对应的哈密顿-雅可比-贝尔曼方程(HJB方程)进行求解，获得控制量的隐式解；

使用在线评价网络对所述参与博弈的第i个卫星的控制量的隐式解中各支付函数对各目标状态变量的偏导数进行数值逼近，获得所述控制量的数值解。

对于上述示例中，优选地，所述设计参与博弈的第i个卫星的支付函数，包括：

如果第i个卫星为追击卫星，设计追击卫星的支付函数如下式所示：

其中，t和t_f分别为博弈起止时间；为常值矩阵，其中/>为半正定矩阵，/>为对称正定矩阵；

如果第i个卫星为非追击卫星，设计非追击卫星的支付函数如下式所示：

其中，t和t_f分别为博弈起止时间；为常值矩阵，其中，/>为半正定矩阵，/>为对称正定矩阵；

如果第i个卫星为敌方卫星，设计敌方卫星支付函数如下式所示：

其中，t和t_f分别为博弈起止时间；Q_Te、Q_e、R_e为常值矩阵，其中，Q_Te、Q_e为半正定矩阵，R_e为对称正定矩阵。

对于上述示例中，优选地，所述根据所述第i个卫星的非线性方程以及其对应的支付函数，通过对对应的哈密顿-雅可比-贝尔曼方程(HJB方程)进行求解，获得控制量的隐式解，包含：

如果第i个卫星为追击卫星，将追击卫星关联项约束、最大控制量约束使用拉格朗日乘子法进行消去，根据追击卫星非线性方程和支付函数构建哈密顿函数；

其中，和/>分别为关联项约束和不等式约束引入的常数拉格朗日乘子，满足表示追击卫星机动能力，即最大控制量；

由哈密顿-雅可比-贝尔曼方程，所述追击卫星对应的方程为：

由泛函变分原理对上述方程进行求解，可以得到所述追击卫星的控制量的隐式解如式(14)所示：

同样地，如果第i个卫星为非追击卫星或者敌方卫星，得到非追击卫星与敌方卫星控制量的隐式解如式(15)(16)所示：

需要说明的是，在上式(14)(15)(16)中，仍然存在各个支付函数对各个状态变量的偏导数没有进行求解，本发明实施例优选对所述追击卫星、非追击卫星与敌方卫星的控制量的隐式解中各个支付函数对各个状态变量的偏导数使用在线评价网络的形式进行数值逼近，以获得所述控制量的数值解。

对于上述示例中，优选地，所述使用在线评价网络对所述参与博弈的第i个卫星的控制量的隐式解中各支付函数对各目标状态变量的偏导数进行数值逼近，获得所述控制量的数值解，包括：

如果第i个卫星为追击卫星，搭建单隐含层BP神经网络，将支付函数近似为：

其中，为所述BP神经网络的权值，/>为激活函数，/>为神经网络有界近似误差；

将分别对Y,P,t求偏导，可以得到

其中x代表任意变量；

使用评价网络替代HJB方程中的支付函数，可以得到如下形式：

其中，ε_HJB为神经网络近似产生的残余误差，将该近似残余误差记为/>

设计末端约束误差如下所示：

其中，为终端约束函数，追击卫星/>

定义能量函数如下：

使用梯度下降法设计追击卫星在线评价网络权值的更新率为：

其中，为评价网络学习率，均为正数；

同样地，如果第i个卫星为非追击卫星或者敌方卫星，可以得到非追击卫星与敌方卫星在线评价网络权值更新率，如下式(18)和(19)所示：

/>

其中，当为评价网络学习率，均为正数；

其中，n＝1 or2，/>

通过评价网络的权值更新率在线更新评价网络权值，随着时间的推移，评价网络权值最终收敛，使得评价网络的输出逐渐逼近支付函数最优值，进而得到控制量的数值解。

需要说明的是，本发明实施例以1颗中心卫星和4颗防御卫星组成的卫星编队进行示例，可以理解地，防御卫星的数量还可以是其他任意大于1的正整数；当追击卫星渐渐被敌方卫星拉开加速度差距，导致无法保证对于敌方卫星视线的遮蔽，此时需要非追击卫星中具有遮蔽优势的卫星开始切换进入追击状态，即切换其目标状态变量和支付函数为追击卫星目标状态变量和追击卫星支付函数，以对于敌方卫星进行实现遮蔽；原追击卫星随着遮蔽条件逐渐变差，原追击卫星退守为非追击卫星，即切换其目标状态变量和支付函数为非追击卫星目标状态变量和非追击卫星支付函数，以实现非追击卫星对敌方卫星的包围；上述追击卫星和非追击卫星角色的切换过程为换防过程，换防后进入新的一轮博弈，参与所述新的一轮博弈的卫星根据换防后新的博弈目标按照上文所述基于博弈论的卫星编队反监视最优控制方法求解控制量进行运行控制，所述换防过程包括：

步骤1：在人为设置时间t₀时，所有非追击卫星d_k计算自身即将前往防区所需时间T_predict；其中，所述前往防区为非追击卫星进入非追击卫星和中心卫星连线与敌方卫星和中心卫星连线之间的夹角小于等于θ_min的区域，其中，θ_min为人为设定值；

步骤2：所有非追击卫星d_k从当前追击卫星处接收信号，获得当前追击卫星即将离开防区的预计时间T_remain；其中，所述离开防区为所述追击卫星离开追击卫星和中心卫星连线与敌方卫星和中心卫星连线之间的夹角小于等于0.8*θ_max的区域，其中，θ_max为人为设定值；

步骤3：如果T_predict小于0.8T_remain，且追击卫星数量小于2，则当前T_predict最小的卫星改变为新追击卫星，所述新追击卫星采用追击卫星目标状态变量和追击卫星支付函数；否则，则t₀＝t₀+Δt，返回步骤1；其中Δt为人为设定时间间隔；

步骤4：当所述新追击卫星进入防区，则原追击卫星退为新非追击卫星，所述新非追击卫星采用非追击卫星目标状态变量和非追击卫星支付函数。

基于前述技术方案，本发明实施例以一颗中心卫星和四颗防御卫星组成的卫星编队与一颗敌方卫星博弈场景进行仿真实验，仿真参数设置如表1所示：

表1

基于上述仿真参数，按照前述图2所示的技术方案进行仿真，仿真结果如下：图3示出了采用本发明实施例技术方案的卫星编队视线遮蔽极坐标投影示意；图4示出了采用本发明实施例技术方案的追击卫星和非追击卫星与敌方卫星夹角变化曲线示意；图5示出了采用本发明实施例技术方案的敌方卫星燃料消耗变化曲线示意；图6示出了采用本发明实施例技术方案的卫星编队中追击卫星燃料消耗变化曲线示意；图7示出了采用本发明实施例技术方案的卫星编队中非追击卫星燃料消耗变化曲线示意。可以看出，经过3000s的仿真，编队卫星实现了由追击卫星遮蔽敌方卫星视线、一非追击卫星前来取代当前追击卫星、原追击卫星回归编队的三个阶段，由图3可以看出，卫星编队完成了在一个循环中对于敌方卫星的视线遮蔽任务，并由于本次仿真的结尾状态可以作为另一次仿真的开始状态，因此本仿真证明了该种卫星编队视线遮蔽策略可以多次重复实现，可以长期实现对敌方卫星的视线遮蔽。由图4可以看出，追击卫星与非追击卫星换防完美地实现了防御身份互换的任务，解决了追击卫星在追击过程中由于机动劣势带来的无法长期遮蔽的问题。同时，由图5，图6和图7可以看出，卫星编队总体的燃料消耗要远低于对方卫星，同样实现了预期目标。

基于前述技术方案相同的发明构思，参见图8，其示出了本发明实施例提供的一种基于博弈论的卫星编队反监视最优控制装置80，所述装置80包括：建模部分801、设计部分802、更新部分803、解耦部分804和求解部分805；其中，

所述建模部分801，经配置为对卫星编队以及敌方卫星中的每一个进行建模，获得运动微分方程；

所述设计部分802，经配置为分别根据所述卫星编队和敌方卫星期望的博弈目标，针对所述防御卫星中的追击卫星、非追击卫星和敌方卫星设计对应的追击卫星目标状态变量、非追击卫星目标状态变量和敌方卫星目标状态变量；

所述更新部分803，经配置为基于所述运动微分方程以及所述追击卫星目标状态变量、非追击卫星目标状态变量和敌方卫星目标状态变量，分别得到追击卫星、非追击卫星和敌方卫星的微分状态方程；

所述解耦部分804，经配置为将所述微分状态方程中的耦合约束项通过关联变量代替，以将所述微分状态方程解耦得到分别仅针对追击卫星、非追击卫星以及敌方卫星的非线性方程；

所述求解部分805，经配置为基于所述非线性方程循环依次对所述参与博弈的卫星中的每一颗的支付函数求解相应的控制量并迭代更新与所述控制量相关的关联变量，得到参与博弈的每一颗卫星的最优控制量，以使得参与博弈的每一颗卫星按照所述最优控制量进行运行控制。

需要说明的是，对于上述装置中，各“部分”所配置功能的具体实现，可参见前述图2所示基于博弈论的卫星编队反监视最优控制方法中相对应步骤的实现方式及其示例，在此不再赘述。

可以理解地，在本实施例中，“部分”可以是部分电路、部分处理器、部分程序或软件等等，当然也可以是单元，还可以是模块也可以是非模块化的。

另外，在本实施例中的各组成部分可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

所述集成的单元如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时，可以存储在一个计算机可读取存储介质中，基于这样的理解，本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或processor(处理器)执行本实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

因此，本实施例提供了一种计算机存储介质，所述计算机存储介质存储有基于博弈论的卫星编队反监视最优控制程序，所述基于博弈论的卫星编队反监视最优控制程序被至少一个处理器执行时实现上述技术方案中所述基于博弈论的卫星编队反监视最优控制方法步骤。

根据上述基于博弈论的卫星编队反监视最优控制装置80以及计算机存储介质，参见图9，其示出了本发明实施例提供的一种能够实施上述基于博弈论的卫星编队反监视最优控制装置80的计算设备90的具体硬件结构，该计算设备90可以为无线装置、移动或蜂窝电话(包含所谓的智能电话)、个人数字助理(PDA)、视频游戏控制台(包含视频显示器、移动视频游戏装置、移动视频会议单元)、膝上型计算机、桌上型计算机、电视机顶盒、平板计算装置、电子书阅读器、固定或移动媒体播放器，等。计算设备90包括：通信接口901，存储器902和处理器903；各个组件通过总线系统904耦合在一起。可理解，总线系统904用于实现这些组件之间的连接通信。总线系统904除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图X中将各种总线都标为总线系统904。其中，

所述通信接口901，用于在与其他外部网元之间进行收发信息过程中，信号的接收和发送；

所述存储器902，用于存储能够在所述处理器903上运行的计算机程序；

所述处理器903，用于在运行所述计算机程序时，执行前述技术方案中所述基于博弈论的卫星编队反监视最优控制方法步骤，这里不再进行赘述。

可以理解，本发明实施例中的存储器902可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM，DRRAM)。本文描述的系统和方法的存储器902旨在包括但不限于这些和任意其它适合类型的存储器。

而处理器903可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器903中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器903可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器902，处理器903读取存储器902中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits，ASIC)、数字信号处理器(Digital Signal Processing，DSP)、数字信号处理设备(DSP Device，DSPD)、可编程逻辑设备(Programmable LogicDevice，PLD)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

具体来说，处理器903还配置为运行所述计算机程序时，执行前述技术方案中所述基于博弈论的卫星编队反监视最优控制方法步骤，这里不再进行赘述。

可以理解地，上述基于博弈论的卫星编队反监视最优控制装置80以及计算设备90的示例性技术方案，与前述基于博弈论的卫星编队反监视最优控制方法的技术方案属于同一构思，因此，上述对于基于博弈论的卫星编队反监视最优控制装置80以及计算设备90的技术方案未详细描述的细节内容，均可以参见前述基于博弈论的卫星编队反监视最优控制方法的技术方案的描述。本发明实施例对此不做赘述。

需要说明的是：本发明实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于博弈论的卫星编队反监视最优控制方法，其特征在于，包括：

基于所述非线性方程循环依次对所述参与博弈的卫星中的每一颗的支付函数求解相应的控制量并迭代更新与所述控制量相关的关联变量，得到参与博弈的每一颗卫星的最优控制量，以使得参与博弈的每一颗卫星按照所述最优控制量进行运行控制；

其中，

所述分别根据所述参与博弈的每一颗卫星期望的博弈目标，设计对应的目标状态变量，包括：

根据所述追击卫星尽可能的缩减自身和敌方卫星与中心卫星之间的连线夹角以及满足设定的与中心卫星之间距离约束的博弈目标，设计追击卫星目标状态变量Y和P，如式(1)所示：

其中，代表防御卫星中的追击卫星的状态变量；X_e代表敌方卫星的状态变量，表示追击卫星距离中心卫星人为设定的最大距离，/>表示追击卫星距离中心卫星人为设定的最小距离，式中(1:3)表示该向量的前3项；

根据所述非追击卫星的对敌方卫星包围圈的均匀性与完整性的博弈目标，设计非追击卫星目标状态变量如式(2)所示：

其中，

S_m,n表示了两颗卫星之间的夹角；

根据所述敌方卫星避开追击卫星遮蔽的博弈目标，设计敌方卫星目标状态变量Y_e如式(3)所示：

其中，n为2时表示敌方卫星的警戒范围内有两颗防御卫星；

所述将所述微分状态方程中含有非自身控制量的耦合约束项通过关联变量代替，以将所述微分状态方程解耦得到分别仅针对追击卫星、非追击卫星以及敌方卫星的非线性方程，包括：

设计追击卫星关联变量为非追击卫星关联变量为/> 敌方卫星关联变量为z_e，如式(4)所示：

将式(4)中设计的关联项分别带入微分状态方程中，获得解耦后的仅针对追击卫星、非追击卫星、敌方卫星的非线性方程，如式(5)(6)(7)所示：

所述基于所述非线性方程依次循环对所述参与博弈的卫星中的每一颗的支付函数求解相应的控制量并迭代更新与所述控制量相关的关联变量，得到参与博弈的每一颗卫星的最优控制量，包括：

在当前循环过程中，执行：

根据参与博弈的第i个卫星的非线性方程对其支付函数进行求解，获得所述第i个卫星的控制量，其中，0≤i≤M，M表示参与博弈的卫星数量；

2.根据权利要求1所述的方法，其特征在于，所述根据参与博弈的第i个卫星的非线性方程对其支付函数进行求解，获得所述第i个卫星的控制量，包括：

设计参与博弈的第i个卫星的支付函数；

3.根据权利要求2所述的方法，其特征在于，所述设计参与博弈的第i个卫星的支付函数，包括：

其中，t和t_f分别为博弈起止时间；为常值矩阵，其中为半正定矩阵，/>为对称正定矩阵；

4.根据权利要求3所述的方法，其特征在于，所述根据所述第i个卫星的非线性方程以及其对应的支付函数，通过对对应的哈密顿-雅可比-贝尔曼方程(HJB方程)进行求解，获得控制量的隐式解，包含：

由泛函变分原理对上述方程进行求解，可以得到所述追击卫星的控制量的隐式解如式(8)所示：

同样地，如果第i个卫星为非追击卫星或者敌方卫星，得到非追击卫星与敌方卫星控制量的隐式解如式(9)(10)所示：

5.根据权利要求4所述的方法，其特征在于，所述使用在线评价网络对所述参与博弈的第i个卫星的控制量的隐式解中各支付函数对各目标状态变量的偏导数进行数值逼近，获得所述控制量的数值解，包括：

将分别对Y,P,t求偏导，可以得到

其中x代表任意变量；

设计末端约束误差如下所示：

其中，为终端约束函数，追击卫星/>

定义能量函数如下：

其中，为评价网络学习率，均为正数；

同样地，如果第i个卫星为非追击卫星或者敌方卫星，可以得到非追击卫星与敌方卫星在线评价网络权值更新率，如下式(12)和(13)所示：

其中，当为评价网络学习率，均为正数；

其中，

6.一种基于博弈论的卫星编队反监视最优控制装置，其特征在于，所述装置包括建模部分、设计部分、更新部分、解耦部分和求解部分；其中，

所述求解部分，经配置为基于所述非线性方程循环依次对所述参与博弈的卫星中的每一颗的支付函数求解相应的控制量并迭代更新与所述控制量相关的关联变量，得到参与博弈的每一颗卫星的最优控制量，以使得参与博弈的每一颗卫星按照所述最优控制量进行运行控制；

其中，

根据所述追击卫星尽可能的缩减自身和敌方卫星与中心卫星之间的连线夹角以及满足设定的与中心卫星之间距离约束的博弈目标，设计追击卫星目标状态变量Y和P，如式(14)所示：

根据所述非追击卫星的对敌方卫星包围圈的均匀性与完整性的博弈目标，设计非追击卫星目标状态变量如式(15)所示：

其中，

S_m,n表示了两颗卫星之间的夹角；

根据所述敌方卫星避开追击卫星遮蔽的博弈目标，设计敌方卫星目标状态变量Y_e如式(16)所示：

其中，n为2时表示敌方卫星的警戒范围内有两颗防御卫星；

设计追击卫星关联变量为非追击卫星关联变量为/> 敌方卫星关联变量为z_e，如式(17)所示：

将式(17)中设计的关联项分别带入微分状态方程中，获得解耦后的仅针对追击卫星、非追击卫星、敌方卫星的非线性方程，如式(18)(19)(20)所示：

在当前循环过程中，执行：

7.一种计算机存储介质，其特征在于，所述计算机存储介质存储有基于博弈论的卫星编队反监视最优控制程序，所述基于博弈论的卫星编队反监视最优控制程序被至少一个处理器执行时实现权利要求1至5任一项所述基于博弈论的卫星编队反监视最优控制方法步骤。