CN115913343B

CN115913343B - 卫星通信功率资源在线分配方法、装置、设备及存储介质

Info

Publication number: CN115913343B
Application number: CN202310220773.XA
Authority: CN
Inventors: 陈少飞; 邹明我; 苏小龙; 苏炯铭; 刘鸿福; 吉祥; 石泉; 马骜; 冯俊侨
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2023-03-09
Filing date: 2023-03-09
Publication date: 2023-04-28
Anticipated expiration: 2043-03-09
Also published as: CN115913343A

Abstract

本申请涉及一种卫星通信功率资源在线分配方法、装置、设备及存储介质。所述方法包括：通过根据通信信道数量以及总功率预算构建有向无环的图结构，将每次对抗阶段对各信道进行功率分配的问题转化为在图结构上选取最短路径的问题，在各阶段对抗后，采用在线无悔学习算法对图结构中的各边的权重进行更新，以影响下一轮次对抗中对各信道的功率分配。采用本方法可使得抗干扰方在与干扰方进行对抗时，有更多数量的传输信道完成信息传输，以增大通信容量，进一步实现卫星通信中高效的频谱利用率的现实问题。

Description

卫星通信功率资源在线分配方法、装置、设备及存储介质

技术领域

本申请涉及智能卫星通信干扰技术领域，特别是涉及一种卫星通信功率资源在线分配方法、装置、设备及存储介质。

背景技术

目前主流的卫星通信抗干扰技术是以宽带高速跳频为主，结合不同的调制、编码方法实现抗干扰效果。虽然这类宽带高速跳频卫星通信系统已经具备一定的抗干扰能力，但其本质依然是一种盲抗干扰系统，不能基于干扰认知做出最优决策，各种抗干扰性能的提升均以消耗卫星通信系统的频率资源、功率资源为代价，从香农信息论的角度看，这些方法最终都将损失通信系统的总容量或者导致系统的复杂性提升，这种抗干扰技术难以有效应对人工智能背景下日益智能化的对抗态势。因此，有必要探索人工智能技术支撑背景下的卫星通信智能抗干扰技术研究。

发明内容

基于此，有必要针对上述技术问题，提供一种能够在线进行合理功率分配以对抗干扰方的卫星通信功率资源在线分配方法、装置、设备及存储介质。

一种卫星通信功率资源在线分配方法，所述方法应用于抗干扰方在总功率约束下与干扰方进行多轮次对抗的场景下，所述方法包括：

获取抗干扰方的总功率预算以及通信信道数量；

根据所述通信信道数量以及总功率预算构建有向无环的图结构，所述图结构包括多个节点以及连接两个节点之间的边，各所述边表示不同的分配功率，并标记有相应的权重，将每次对抗阶段对各信道进行功率分配的问题转化为在所述图结构上选取最短路径的问题；

在当前轮次的对抗阶段中，根据各所述边的权重计算相关节点的选取概率，再根据相关节点的选取概率选在所述图结构中取一条最短路径，即生成该次对抗阶段的功率分配策略；

根据所述功率分配策略与干扰方进行对抗，并根据对抗结果计算第一参数以及第二参数；

根据更新算法选择所述第一参数或者第二参数作为奖励对所述图结构中边的权重进行更新，作为损失对所述更新算法进行更新；

在下一轮次的对抗阶段中，根据各所述边更新后的权重计算相关节点的选取概率以得到该轮次对抗阶段的功率分配策略，并根据该轮次对抗结果重新计算第一参数以及第二参数，再通过更新后的更新算法重新选择第一参数或者第二参数作为奖励及损失对图结构中边的权重及更新算法进行更新。

在其中一实施例中，根据各对抗阶段的功率分配策略进行计算，得到分配到各对抗阶段的阶段功率预算；

在各对抗阶段累计所有在前对抗阶段的阶段功率预算，并计算剩余的总功率预算；

若所述剩余的总功率预算小于每次对抗阶段中抗干扰方能够使用的最大资源预算则结束与干扰方的对抗。

在其中一实施例中，所述图结构包括多层节点，其中，第0层和第N层只有一个节点，分别为路径的起始点和终点，并且所述起始点位于图结构的左上角，所述终点位于图结构的右下角；

位于所述第0层和第N层之间的中间层均包括数量相同的多个节点；

各层中的所有节点均与下一层节点中处于正下方节点以及靠右侧的所有节点具有连接边。

在其中一实施例中，所述 N的取值由所述通信信道数量决定；

所述中间层的节点数量由每次对抗阶段中抗干扰方能够使用的最大资源预算决定。

在其中一实施例中，所述根据各所述边的权重计算相关节点的选取概率采取以下公式：

；

在上式中，表示连接两个节点和的边，表示所述图结构中第层，表示第层的下一层，表示第次对抗阶段，表示经过节点和之间的所有路径的权重之和，表示边的权重，表示所述图结构中所有经过边的路径的数量，表示所述图结构中的路径集合。

在其中一实施例中，在所述更新算法中，根据所述第一参数的权重和第二参数的权重计算得到的概率对所述第一参数和第二参数进行选择；

在根据所述损失对更新算法进行更新时，利用所述损失分别对第一参数的权重以及第二参数的权重进行更新。

在其中一实施例中，所述奖励对所述图结构中边的权重进行更新时，根据所述奖励计算增益估计，根据所述增益估计对所述图结构中的各边权重进行更新。

一种卫星通信功率资源在线分配装置，所述装置包括：

信息获取模块，用于获取抗干扰方的总功率预算以及通信信道数量；

图结构构建模块，用于根据所述通信信道数量以及总功率预算构建有向无环的图结构，所述图结构包括多个节点以及连接两个节点之间的边，各所述边表示不同的分配功率，并标记有相应的权重，将每次对抗阶段对各信道进行功率分配的问题转化为在所述图结构上选取最短路径的问题；

一次对抗阶段功率分配策略生成模块，用于在当前轮次的对抗阶段中，根据各所述边的权重计算相关节点的选取概率，再根据相关节点的选取概率选在所述图结构中取一条最短路径，即生成该次对抗阶段的功率分配策略；

对抗模块，用于根据所述功率分配策略与干扰方进行对抗，并根据对抗结果计算第一参数以及第二参数；

参数选择模块，用于根据更新算法选择所述第一参数或者第二参数作为奖励对所述图结构中边的权重进行更新，作为损失对所述更新算法进行更新；

更新对抗模块，用于在下一轮次的对抗阶段中，根据各所述边更新后的权重计算相关节点的选取概率以得到该轮次对抗阶段的功率分配策略，并根据该轮次对抗结果重新计算第一参数以及第二参数，再通过更新后的更新算法重新选择第一参数或者第二参数作为奖励及损失对图结构中边的权重及更新算法进行更新。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取抗干扰方的总功率预算以及通信信道数量；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取抗干扰方的总功率预算以及通信信道数量；

上述卫星通信功率资源在线分配方法、装置、设备及存储介质，通过根据通信信道数量以及总功率预算构建有向无环的图结构，将每次对抗阶段对各信道进行功率分配的问题转化为在图结构上选取最短路径的问题，在各阶段对抗后，采用在线无悔学习算法对图结构中的各边的权重进行更新，以影响下一轮次对抗中对各信道的功率分配。采用本方法可使得抗干扰方在与干扰方进行对抗时，有更多数量的传输信道完成信息传输，以增大通信容量，进一步实现卫星通信中高效的频谱利用率的现实问题。

附图说明

图1为一个实施例中卫星通信功率资源在线分配方法的应用环境图；

图2为一个实施例中卫星通信功率资源在线分配方法的流程示意图；

图3为一个实施例中功率资源分配博弈对抗示意图；

图4为一个实施例中图结构示意图；

图5为一个实施例中卫星通信功率资源在线分配装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在多用户（也就是抗干扰方）同步正交跳频的卫星通信系统中，用户方可以同时申请多个信道，以增大同行容量，通过侦查手段，干扰方能够对用户方实施跟踪干扰或阻塞式干扰，考虑存在干扰功率的限制，干扰方不能同时阻塞用户所有的信道。对抗双方分配各自的功率资源至各个传输信道，对于每一个信道，当接收机接收到的信干噪声比(Signal toInterference plus Noise Ratio，SINR)满足信号传输要求时，信号能够成功传输，相反，则不能成功传输。考虑用户方和干扰方之间进行多轮次上述对抗的情形：用户方和干扰方各自存在总功率约束，而双方之间进行T轮次对抗，在对抗过程中用户方需要兼顾两个层面的问题：

(1)在上层级，用户方面临如何在时间范围T内分配总功率预算至各个对抗阶段t的问题，t=1,2....T。该分配行为不是孤立的，需要基于上一次对抗的反馈信息做出决策，不同的阶段预算（对抗阶段t的功率预算）之间是相关的，它们相加之和为总功率预算，某些阶段预算的增加（相对于平均数）意味着另一些阶段预算的减少；

(2)在下层级，用户方在每个对抗阶段t面临和对手进行一次性对抗条件下的功率资源分配问题。用户方在每个对抗阶段t的功率预算可能不同。而对于其中的一次性对抗问题，涉及到多个信道之间的功率资源分配，必须整体考虑分配的合理性，任何仅仅专注于一个信道的做法都是不可取的。

而本文所提出的方法主要解决在上述对抗背景下，面对可能采取任意卫星通信功率资源分配策略的干扰方，卫星通信用户如何在时间范围T内分配总功率预算至各个对抗阶段t以及如何在各个对抗阶段t分配有限的功率资源至各个传输信道上和对手进行一次性对抗的问题，以获取更多数量的传输信道完成信息传输，以增大通信容量，进一步实现卫星通信中高效的频谱利用率的现实问题。

本申请提供的卫星通信功率资源在线分配方法，可以应用于如图1所示的对抗场景中。其中，抗干扰方射终端通过上行链路与接收终端进行通信，而干扰方干扰机对接收终端进行干扰，对发射终端进行侦查。

如图2所示，提供了一种卫星通信功率资源在线分配方法，以该方法应用于图1中的发射终端（也就是下文中抗干扰方）为例进行说明，包括以下步骤：

步骤S100，获取抗干扰方的总功率预算以及通信信道数量；

步骤S110，根据通信信道数量以及总功率预算构建有向无环的图结构，该图结构包括多个节点以及连接两个节点之间的边，各边表示不同的分配功率，并标记有相应的权重，将每次对抗阶段对各信道进行功率分配的问题转化为在图结构上选取最短路径的问题；

步骤S120，在当前轮次的对抗阶段中，根据各边的权重计算相关节点的选取概率，再根据相关节点的选取概率选在图结构中取一条最短路径，即生成该次对抗阶段的功率分配策略；

步骤S130，根据功率分配策略与干扰方进行对抗，并根据对抗结果计算第一参数以及第二参数；

步骤S140，根据更新算法选择第一参数或者第二参数作为奖励对图结构中边的权重进行更新，作为损失对更新算法进行更新；

步骤S150，在下一轮次的对抗阶段中，根据各边更新后的权重计算相关节点的选取概率以得到该轮次对抗阶段的功率分配策略，并根据该轮次对抗结果重新计算第一参数以及第二参数，再通过更新后的更新算法重新选择第一参数或者第二参数作为奖励及损失对图结构中边的权重及更新算法进行更新。

在本实施例中，针对总功率约束下的多轮次对抗条件下的卫星通信功率资源分配问题，设计了一种在线对抗资源分配算法，目标是最小化在线对抗过程中用户方的高概率遗憾，同时保持良好的运行效率。对于其中的每一次对抗，基于布洛托（blotto）博弈资源分配模型对抗干扰方和干扰方在多信道上分配有限功率资源问题进行建模，并采用信息反馈类型为带侧面观测的半信息反馈（semi-bandit information feedback with side-observation，SIFS），该类反馈类型反馈包括信道价值、当前策略下每个信道的输赢结果、部分未知策略下每个信道的输赢结果以及所有信道的输赢结果。在本文中将以上描述的资源分配问题用RAP_PCC(resource allocation problem under power constraintcondition, RAP_PCC）表示。

对于RAP_PCC中的每一次对抗，可视为一次性对抗条件下的功率资源分配问题，用户方（抗干扰方）在上行链路信息传输时使用多个信息传输信道，而干扰方通过侦查手段获知用户方所占用的信道，能够对用户方实施跟踪干扰或阻塞式干扰，但是受限于总干扰功率的限制，不能同时阻塞用户方所有的信道，对于用户方占用的每一个信道而言，如果接收机接收到的信干噪比(Signal to Interference plus Noise Ratio，SINR)满足公式（1），则可以成功传输信息，否则信息传输失败：

（1）

在公式（1）中，表示抗干扰方分配至信道的功率，表示干扰方分配至信道的功率，表示信道对应的白噪声的方差，表示由服务类型决定。

双方在这些信道上按照各自的策略进行功率资源分配，用户方的目标是最大化信息传输信道的数量，而干扰方的目标是最小化用户方信息传输信道的数量。该对抗过程可以使用布洛托博弈资源分配模型进行建模，用户方和干扰方功率资源分配博弈对抗示意图如图3所示，左边的用户方采用合适的功率分配策略，使其满足公式（1），以最大化成功传输信息的信道数量，进一步成功完成信息传输，右边的干扰方发射一定的干扰功率以阻止用户方的信息传输。

由于，RAP_PCC中包含了用户方和干扰方之间多轮次对抗，对于其中的每一次对抗，用户方在不知道部分信息（如，对手的阶段预算等）的条件下作出决策，当一次对抗结束之后，用户方获得带侧面观测的半信息反馈（SIFS），在这种情况下，用户方通常需要连续地动态学习，并调整利用已知信息和探索获得新信息之间的权衡。RAP_PCC本质上是具有组合结构的在线资源分配问题，是在线组合优化问题的一个实例。在线组合优化框架涵盖多种预测问题，包括在线最短路径问题。在线线性优化问题中的算法衡量指标是遗憾，遗憾定义为：

（2）

在公式（2）中，表示在全局范围内产生损失最小的固定动作，表示用户方在阶段选择的行动。该公式表示遗憾是用户在时间范围内采取实际动作产生的累积损失与事后看来选择最佳固定动作产生的累积损失之差，将其成称为高概率遗憾。

在本实施例中，将RAP_PCC与转化为拥有图结构的在线最短路径问题（OSP），使问题求解过程更加直观，同时提高求解效率。

具体的，在步骤S110中，根据通信信道数量以及总功率预算构建有向无环的图结构，该图结构包括多个节点以及连接两个节点之间的边，各边表示不同的分配功率，并标记有相应的权重，将每次对抗阶段对各信道进行功率分配的问题转化为在图结构上选取最短路径的问题。

进一步的，图结构包括多层节点，其中，第0层和第N层只有一个节点，分别为路径的起始点和终点，并且起始点位于图结构的左上角，终点位于图结构的右下角，且位于第0层和第N层之间的中间层均包括数量相同的多个节点，各层中的所有节点均与下一层节点中处于正下方节点以及靠右侧的所有节点具有连接边。

进一步的，N的取值由所述通信信道数量决定，而中间层的节点数量由每次对抗阶段中抗干扰方能够使用的最大资源预算决定。

以干扰方和抗干扰方的阶段资源预算以及信道数量等于3为例，其图结构如图4所示，从图4中可以看出，起始点s在第一层，而终点d在最后一层也就是第3层，其中，两层之间表示一个信道，而上一层中的节点到下一层的多个路径表示该信道上多中功率分配方法。

如图4所示，从初始点s到终止点d共有10条路径，代表10种不同的资源分配策略，其中每条边代表分配至当前的资源数量。例如，图中虚线的路径代表第1阶段分配2个资源，第2阶段分配0个资源，第3阶段分配1个资源，即分配策略为（2,0,1）。

给出时间范围，在线最短路径问题（OSP）定义如下：在阶段，每条边对应一个由对手确定的标量损失，用户方在未知标量损失的情况下选择一条路径，并产生该路径所含边的损失，，在阶段结束时，用户方会获得带侧面观测的半信息反馈（SIFS）。用户方的目标是：经过之后，最小化用户方的高概率遗憾。借助DAG的图结构，阐述布洛托博弈模型中带侧面观测的半信息反馈（SIFS）的原理。在图4中，假设虚线路径代表用户方在时间阶段t实际选择的分配策略，如果用户方在阶段1失败了，则边2能够揭示边1和边0的损失（边2称为揭示边，边1和边0称为被揭示边），因为边1和边0代表的分配策略比实际选择的分配策略少，且边1和边0在当前时间阶段t的损失至少为边2对应的损失。如果用户方在阶段1赢了，其在阶段1的损失为0，则边2能够揭示边3的损失，即边3在当前时间阶段t的损失为0，因为边3代表的分配策略比实际选择的分配策略多。通过这种侧面观察所得到的信息，可以更加准确地估计部分边的损失，进一步合理地更新对应边的权重，对下一次的对抗产生正确的指导作用。

在本实施例中，由于总功率预算是一定的，所以在经过每轮次的对抗后，都会对总功率进行消耗，直至消耗完，则完成该次对抗。具体的，可以根据各对抗阶段的功率分配策略进行计算，得到分配到各对抗阶段的阶段功率预算。在各对抗阶段对所有在前的阶段功率预算进行累计，并计算剩余的总功率预算。若剩余的总功率预算小于每次对抗阶段中抗干扰方能够使用的最大资源预算，则将剩余的总功率预算作为当前对抗阶段的阶段功率预算，在图结构中选取相应的一条路径，即分配策略，与干扰方进行对抗，之后结束与干扰方的对抗。

进一步的，每次对抗阶段中抗干扰方能够使用的最大资源可根据总功率预算以及对抗次数计算得到。

在本步骤S120中，在图结构中对路径进行采样时，根据各所述边的权重计算相关节点的选取概率采取以下公式：

（3）

其中，；

在公式（3）中，表示连接两个节点和的边，表示图结构中第层，表示第层的下一层，，表示第次对抗阶段，表示经过节点和之间的所有路径的权重之和，表示边的权重，表示图结构中所有经过边的路径的数量，表示所述图结构中的路径集合。

在这里需要说明的是，在本文中同时用对信道及图结构中的节点层进行表示，实际上在图结构中的第层及层之间的部分表示信道，所以这两者是不冲突的。

在每次对抗结束后，还根据对抗结果计算第一参数和第二参数，并由其中一个参数对图结构中的各边的权重进行更新，从而影响下一次对抗中对路径的采样，也就是各信道的功率分配。

在本实施例中，采用更新算法对参数进行挑选，在更新算法中，根据第一参数的权重和第二参数的权重计算得到的概率对第一参数和第二参数进行选择。并将选择出来的参数作为奖励对图结构中边的权重进行更新，作为损失对更新算法进行更新，利用损失分别对第一参数的权重以及第二参数的权重进行更新。

在本实施例中，在利用奖励对图结构中边的权重进行更新时，根据奖励计算增益估计，根据所述增益估计对图结构中的各边权重进行更新。

在本实施例中，在每个对抗阶段结束后，都通过对图结构中各边的权重进行更新从而影响下一个对抗阶段对各信道的功率分配。实际上，在影响每个对抗阶段的功率分配时也同时对各轮次对抗阶段的阶段功率的分配进行了影响。

在本实施例中，根据上述方法具体提供了一种LagrangeBwK-Exp3-G算法以获取RAP_PCC的高概率遗憾，LagrangeBwK-Exp3-G算法是面向在线对抗问题的在线无悔学习算法，其中ALG₁算法解决下层级用户方在每个对抗阶段t面临和对手进行一次性对抗条件下的功率资源分配问题，ALG₂算法解决上层级用户方在时间范围T内分配总功率预算至各个对抗阶段t的问题。

Algorithm 1 LagrangeBwK-Exp3-G 算法

Input:

B, T, m=cB/T, n, ALG₁, ALG₂, DAG.

1:for t=1,2.......T do

2:对手选择分配策略；

3:利用ALG₁算法采样一条路径.

4:if x(τ) ≤ m

5:利用ALG₁算法采样一条路径；

6:算法终止；

7:end if

8:计算和 .

9:利用ALG₂算法选择或者，并将其作为奖励传递给ALG₁算法，作为损失传递给ALG₂算法；

10:利用ALG₁算法更新DAG中边的权重；

11:利用ALG₂算法更新和的权重；

12:end for

在上述算法中，B表示用户方的总功率预算, m表示每次对抗中用户方能够使用的最大资源预算。表示最后剩余的总功率预算，表示对应于的路径，c表示常数，及分别表示第一参数和第二参数，且：

（4）

（5）

在公式（4）和公式（5）中，表示阶段t时的阶段预算，表示阶段t获得的奖励。

Algorithm 2 ALG₁算法.

Input: , , DAG.

1: Initialization:对于DAG中的每一条边，有,Q={0}, ，k=0，d 表示DAG中的终止点.

2:for t=1,..., T do

3:for k =< n do

4:从的继承点集合中采样一个继承点的概率为：

；

其中，表示经过顶点（u，v）的所有路径（不一定是DAG图中完整的路径）的权重之和，u和v都表示DAG图中的顶点，只不过顶点u更靠近DAG图中起始点s，而顶点v更靠近DAG图中终止点d。表示DAG图中所有经过e边的路径的数量；

5:增加顶点到集合 Q中；

6:连接集合Q中所有的顶点得到采样路径，即分配策略；

7:和对手对抗产生增益；

8:计增益估计：

；

9:更新DAG图中各个边的权重：；

11: end for

在ALG₁算法中，表示由ALG₂算法选择或者，也就是由更新算法选择第一参数或者第二参数作为奖励传送到ALG₁算法中，对图结构中边的权重进行更新。

Algorithm 3 ALG₂算法.

Input: , .

1: Initialization: 对于任意，, A表示动作集；

2: for t=1,..., T do

3:以概率采样一个动作；

4:遭受损失，.

5:更新动作权重，.

6: end for

在ALG₂算法中，动作表示选择第一参数，和选择第二参数两个东西，而表示选择第一参数或者是选择第二参数动作权重。

上述卫星通信功率资源在线分配方法中，考虑了对手因素，并基于以往的对抗结果对下一阶段的对抗做出合理的指导，对实际的卫星通信功率域的抗干扰问题提供良好的求解思路。相比于仅仅考虑己方单方面的情形，本方法考虑的对抗条件因素所获得的求解方法更能够适应环境高复杂、动态不确定和博弈强对抗的对抗场景，支撑在对抗条件下进行卫星通信的有效实施。本方法初步应用在线无悔学习方法对卫星通信功率资源分配问题进行求解，作为面向总功率约束的多轮次对抗条件下卫星通信功率资源分配问题求解的初步尝试。通过调研了解，目前对于RAP_PCC的研究尚且处于空白。在线无悔学习方法的应用为卫星通信功率资源分配问题的求解提供了新的求解方法。本方法结合基于布洛托博弈资源分配模型以及在线无悔学习算法，结合卫星通信的实际应用需求，设计以信道数量为优化目标的效用函数，相较于以通信容量为优化目标的方法，该设计更符合实际，进一步实现卫星通信中高效的频谱利用率的现实问题。

面对总功率约束的多轮次对抗条件下卫星通信功率资源分配问题，本文中提出的LagrangeBwK-Exp3-G 算法能够实现高概率遗憾最小化，即：参用户方的策略使得当 T →∞ 时，有R_T /T → 0。并且遗憾界有严格的数学理论保证。该算法的作用对象为DAG图中的边，相比作用于路径具有较高的运行效率。在线对抗方法一个很重要的衡量指标是算法运行时间，高效的算法能够在实际对抗中节省运行时间，有利于决策者在有限的时间内做出决策，从而处于对抗中的主动地位。

最后，本方法结合卫星通信的实际应用需求，设计以信道数量为优化目标的效用函数，相较于以通信容量为优化目标的方法，该设计更符合实际。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种卫星通信功率资源在线分配装置，包括：信息获取模块200、图结构构建模块210、一次对抗阶段功率分配策略生成模块220、对抗模块230、参数选择模块240和更新对抗模块250，其中：

信息获取模块200，用于获取抗干扰方的总功率预算以及通信信道数量；

图结构构建模块210，用于根据所述通信信道数量以及总功率预算构建有向无环的图结构，所述图结构包括多个节点以及连接两个节点之间的边，各所述边表示不同的分配功率，并标记有相应的权重，将每次对抗阶段对各信道进行功率分配的问题转化为在所述图结构上选取最短路径的问题；

一次对抗阶段功率分配策略生成模块220，用于在当前轮次的对抗阶段中，根据各所述边的权重计算相关节点的选取概率，再根据相关节点的选取概率选在所述图结构中取一条最短路径，即生成该次对抗阶段的功率分配策略；

对抗模块230，用于根据所述功率分配策略与干扰方进行对抗，并根据对抗结果计算第一参数以及第二参数；

参数选择模块240，用于根据更新算法选择所述第一参数或者第二参数作为奖励对所述图结构中边的权重进行更新，作为损失对所述更新算法进行更新；

更新对抗模块250，用于在下一轮次的对抗阶段中，根据各所述边更新后的权重计算相关节点的选取概率以得到该轮次对抗阶段的功率分配策略，并根据该轮次对抗结果重新计算第一参数以及第二参数，再通过更新后的更新算法重新选择第一参数或者第二参数作为奖励及损失对图结构中边的权重及更新算法进行更新。

关于卫星通信功率资源在线分配装置的具体限定可以参见上文中对于卫星通信功率资源在线分配方法的限定，在此不再赘述。上述卫星通信功率资源在线分配装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种卫星通信功率资源在线分配方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取抗干扰方的总功率预算以及通信信道数量；

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取抗干扰方的总功率预算以及通信信道数量；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.卫星通信功率资源在线分配方法，其特征在于，所述方法应用于抗干扰方在总功率约束下与干扰方进行多轮次对抗的场景下，所述方法包括：

获取抗干扰方的总功率预算以及通信信道数量；

2.根据权利要求1所述的卫星通信功率资源在线分配方法，其特征在于，

根据各对抗阶段的功率分配策略进行计算，得到分配到各对抗阶段的阶段功率预算；

在各对抗阶段对所有在前的阶段功率预算进行累积，以计算剩余的总功率预算；

若所述剩余的总功率预算小于每次对抗阶段中抗干扰方能够使用的最大资源预算，则将剩余的总功率预算作为当前对抗阶段的阶段功率预算，在所述图结构中选取相应的一条路径，即分配策略，与干扰方进行对抗，之后结束与干扰方的对抗。

3.根据权利要求2所述的卫星通信功率资源在线分配方法，其特征在于，

所述图结构包括多层节点，其中，第0层和第N层只有一个节点，分别为路径的起始点和终点，并且所述起始点位于图结构的左上角，所述终点位于图结构的右下角；

4.根据权利要求3所述的卫星通信功率资源在线分配方法，其特征在于，

所述 N的取值由所述通信信道数量决定；

5.根据权利要求4所述的卫星通信功率资源在线分配方法，其特征在于，所述根据各所述边的权重计算相关节点的选取概率采取以下公式：

；

6.根据权利要求5所述的卫星通信功率资源在线分配方法，其特征在于，

在所述更新算法中，根据所述第一参数的权重和第二参数的权重计算得到的概率对所述第一参数和第二参数进行选择；

7.根据权利要求6所述的卫星通信功率资源在线分配方法，其特征在于，所述奖励对所述图结构中边的权重进行更新时，根据所述奖励计算增益估计，根据所述增益估计对所述图结构中的各边权重进行更新。

8.卫星通信功率资源在线分配装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。