CN114698128B

CN114698128B - 一种认知星地网络的抗干扰信道选择方法和系统

Info

Publication number: CN114698128B
Application number: CN202210531627.4A
Authority: CN
Inventors: 贾录良; 王梦阳; 储飞黄; 方胜良; 颜培杰; 李海滨; 吴署光; 杨忠霖; 周尚辉; 胡豪杰; 万颖
Original assignee: Peoples Liberation Army Strategic Support Force Aerospace Engineering University
Current assignee: Peoples Liberation Army Strategic Support Force Aerospace Engineering University
Priority date: 2022-05-17
Filing date: 2022-05-17
Publication date: 2022-09-13
Anticipated expiration: 2042-05-17
Also published as: CN114698128A

Abstract

本发明涉及一种认知星地网络的抗干扰信道选择方法和系统，基于认知用户和外部恶意干扰之间存在明显分层行为，将抗干扰决策问题建模为一个Stackelberg博弈，同时针对认知用户间相干扰呈现局部影响的特性，建立图博弈的下层子博弈模型，最后基于局部信息交互的分层学习算法以及Q学习算法来收敛对应的子博弈模型，与其他算法相比，不仅收敛性能突出，而且该算法的系统平均吞吐量接近最优NE解，从而解决了现有技术所采用算法收敛效果差、信道选择结果不准确的问题，缓解用频短缺和频谱利用率不高的现状，提高频谱资源利用率。

Description

一种认知星地网络的抗干扰信道选择方法和系统

技术领域

本发明涉及通讯领域，特别涉及一种认知星地网络的抗干扰信道选择方法和系统。

背景技术

随着信息技术的快速发展，“频谱短缺”与“频谱利用率低下”的矛盾日益凸显，基于认知无线电的星地系统之间的动态频谱共享，可以有效提升频谱利用效率，增加星地一体化网络的信息服务能力。目前关于认知星地网络频谱共享的研究很多，比如部分文献研究利用波束成形技术研究了卫星和地面网络的频谱共享问题，其中卫星上行链路用户为主用户，地面下行链路用户为认知用户。部分文献研究认知星地网络的频谱共享问题，利用中继链路实现与地面认知用户的频谱共享。还有部分文献提出了一种新颖的认知卫星网络设计，地面认知用户根据频谱保护距离的不同采用不同的频谱接入策略，构造了一个多通道访问博弈和一个功率优化博弈。除此之外，为了从不同角度刻画用户之间的关系，使系统整体效果最优，部分文献采用图形博弈的方法，研究了小蜂窝网络的负载感知频谱接入问题。部分文献研究认知无线电网络中分布式信道选择的全局优化问题，提出了两种特殊的局部交互博弈:局部利他博弈和局部拥塞博弈，通过局部信息交互，实现全局最优。

然而，这些研究忽略了外部恶意干扰或者认知用户之间干扰的影响。比如这些研究工作中都隐含一个假设，即所有用户同时行动，没有考虑用户和干扰之间的分层行为特征。因此存在现有技术的算法收敛效果差、抗干扰信道选择结果不准确、难以到达预期效果的技术问题。

发明内容

本发明所要解决的技术问题是提供一种认知星地网络的抗干扰信道选择方法和系统，解决了现有算法收敛效果差、抗干扰信道选择不准确的技术问题。

本发明解决上述技术问题的技术方案如下：一种认知星地网络的抗干扰信道选择方法，包括以下步骤：

步骤1，构建认知星地网络通信场景，并将所述认知星地网络通信场景下的抗干扰决策问题建模为Stackelberg博弈模型，所述Stackelberg博弈模型中认知用户为跟随者，干扰为领导者，所述干扰包括认知用户间互扰、多波束卫星通信系统对地面认知用户的同信道干扰以及外部恶意干扰；

步骤2，基于认知用户的局部互利博弈特性定义所述Stackelberg博弈模型中认知用户对应的下层子博弈模型以及外部恶意干扰对应的上层子博弈模型，其中认知用户的效用函数为干扰条件下认知用户以及对应相邻用户所获得的整体吞吐量，外部恶意干扰的效用函数为认知用户策略保持不变时干扰对认知用户以及对应相邻用户的整体吞吐量影响；

步骤3，基于局部信息交互的分层学习算法对所述认知用户的当前策略进行更新，基于Q学习的信道选择算法对所述外部恶意干扰的当前策略进行更新，直至达到预设收敛条件时生成最优的抗干扰信道选择，以获得所述Stackelberg博弈模型的最优均衡解。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，通过干扰图定量描述认知用户之间的局部互干扰特性，所述认知用户与所述干扰图的顶点一一对应，当两个认知用户之间的距离小于预设门限时，将对应认知用户进行连接，且存在连接关系的两认知用户互为对方的相邻用户。

进一步，所述Stackelberg博弈模型的下层子博弈模型为图博弈模型，建立所述下层子博弈模型具体包括：

S201,定义动作图

，其中N是节点集合对应认知用户集，每个节点表示一个认知用户对；每一个节点即认知用户

选择的信道为

，其中

是认知用户的策略集；

是相邻认知用户对应的边的集合；

S202，定义图博弈模型为

，其中

是博弈参与者的效用函数；

S203，定义所述Stackelberg博弈模型的下层子博弈模型为：

；

其中，N是认知用户集，A _n是认知用户的策略集，θ _n是认知用户与相邻用户连接的边的集合， U1_n是认知用户n的效用函数；所述认知用户n的效用函数为干扰条件下认知用户以及对应相邻用户所获得的整体吞吐量，具体表示为：

,

其中，

是认知用户n的相邻用户集合，

是多波束卫星通信系统的同信道干扰，

是关于认知用户外部恶意干扰，

是认知用户n的相邻用户k的相邻用户集合，

是多波束卫星通信系统对认知用户n的相邻用户k的同信道干扰，

是外部恶意干扰对认知用户n的相邻用户k的干扰，

为关于该相邻用户k的外部恶意干扰

的干扰信道策略，

为认知用户n的相邻用户k的相邻用户的信道选择策略，

为对认知用户n的相邻用户k遭受的多波束卫星通信系统干扰的信道选择策略，

是认知用户n所获得的吞吐量，

是认知用户n的相邻用户k所获得的吞吐量；

S204，所述认知用户以自身效用函数为优化目标，通过调整策略使自身效用函数最大化，具体表示为：

。

进一步，所述定义Stackelberg博弈模型中外部恶意干扰对应的上层子博弈模型，具体包括：

S205，假设认知用户n为跟随者，干扰为领导者，基于干扰对所述认知用户n以及与对应相邻用户k的干扰效果，所述Stackelberg博弈模型的上层子博弈模型定义为：

；

其中，J是外部恶意干扰，

是外部恶意干扰的策略集，

是外部恶意干扰的效用函数；所述外部恶意干扰的效用函数

表示认知用户策略保持不变时干扰对认知用户以及对应相邻用户的整体吞吐量影响，具体为：

，

其中，n表示认知用户集N中的一个认知用户，

为认知用户n从策略集

中所选择的接入信道，

为关于认知用户n的外部恶意干扰

的干扰信道策略，即

，

；

是认知用户n的相邻用户集合，

为相邻用户集合中相邻用户k从策略集

中所选择的接入信道，

为关于该相邻用户k的外部恶意干扰

的干扰信道策略，且：

；

。

S206，所述外部恶意干扰以自身效用函数为优化目标，通过调整策略使自身效用函数最大化，具体表示为：

。

进一步，所述基于局部信息交互的分层学习算法对认知用户的当前策略进行更新，基于Q学习的信道选择算法对所述外部恶意干扰的当前策略进行更新，包括以下步骤：

S301，设置t=0,h=0，让每个认知用户n从认知用户的策略集

中等概率随机选择一个信道

，获得初始奖励

；

S302，在时期h时，外部恶意干扰根据干扰策略

选择干扰信道

；

S303，在时期h的第t时隙，所述认知用户n根据策略集

选择信道

，然后所述认知用户n与相邻用户k交互信息后，计算对应的效用

，

，并按照以下规则更新当前抗干扰策略：

如果

,更新概率为

；

如果

,更新概率为

；

其中，

为学习参数；G为表示接受当前过程的概率；

S304，对外部恶意干扰根据以下公式更新Q值：

；

；

其中，Q值表示强化学习算法的状态、动作的值；

且按照以下规则更新当前干扰策略：

；

其中，

表示学习速率，

表示干扰效用，

表示外部恶意干扰在时期h从干扰信道集

选择干扰信道

的概率，

是调节因子，用于调节学习过程中探测与利用的折中；

S305，重复以上过程S302-S304，直至实际迭代次数大于预设最大迭代次数。

为了解决本发明的技术问题，还提供了一种认知星地网络的抗干扰信道选择系统，包括构建模块、定义模块和计算模块，

所述构建模块用于构建认知星地网络通信场景，并将所述认知星地网络通信场景下的抗干扰决策问题建模为Stackelberg博弈模型，所述Stackelberg博弈模型中认知用户为跟随者，干扰为领导者，所述干扰包括认知用户间互扰、多波束卫星通信系统对地面认知用户的同信道干扰以及外部恶意干扰；

所述定义模块用于基于认知用户的局部互利博弈特性定义所述Stackelberg博弈模型中认知用户对应的下层子博弈模型以及外部恶意干扰对应的上层子博弈模型，其中认知用户的效用函数为干扰条件下认知用户以及对应相邻用户所获得的整体吞吐量，外部恶意干扰的效用函数为认知用户策略保持不变时干扰对认知用户以及对应相邻用户的整体吞吐量影响；

所述计算模块用于基于局部信息交互的分层学习算法对所述认知用户的当前策略进行更新，基于Q学习的信道选择算法对所述外部恶意干扰的当前策略进行更新，直至达到预设收敛条件时生成最优的抗干扰信道选择，以获得所述Stackelberg博弈模型的最优均衡解。

进一步，还包括相邻用户选择模块，所述相邻用户选择模块用于通过干扰图定量描述认知用户之间的局部互干扰特性，所述认知用户与所述干扰图的顶点一一对应，当两个认知用户之间的距离小于预设门限时，将对应认知用户进行连接，且存在连接关系的两认知用户互为对方的相邻用户。

本发明的有益效果包括：

（1）本发明考虑到认知用户和外部恶意干扰之间存在明显分层行为，将所述抗干扰决策问题建模为一个Stackelberg博弈，且该博弈同时考虑两个层面的竞争，即外部恶意干扰与认知用户之间的竞争以及认知用户内部间的竞争。

（2）本发明针对认知用户间相干扰呈现局部影响的特性，提出局部理性的假设，并且把该问题建模为图博弈(Graph game)/局部影响博弈(Local interaction game)，这样每个认知用户在充分考虑各方面干扰的前提下，做出决策时需同时考虑自身效用和相邻用户效用，以此通过局部信息交互来实现全网最优。

（3）本发明提出了基于局部信息交互的分层学习算法以及Q学习算法来收敛对应的子博弈模型，与其他算法相比，不仅收敛性能突出，而且该算法的系统平均吞吐量接近最优NE解，从而解决了现有技术所采用算法收敛效果差、信道选择结果不准确的问题，缓解用频短缺和频谱利用率不高的现状，提高频谱资源利用率。

为使发明的上述目的、特征和优点能更明显易懂，下文特举本发明较佳实施例，并配合所附附图，作详细说明如下。

附图说明

图1为本发明实施例提供的认知星地网络的系统模型图；

图2为本发明实施例提供的干扰图的示意图；

图3为本发明实施例提供的认知星地网络的抗干扰信道选择方法的流程示意图；

图4为本发明实施例提供的认知星地网络的抗干扰信道选择系统的结构示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

图1为本发明实施例提供的认知星地网络的系统模型图，如图1所示，本发明涉及一个多波束卫星通信系统，每个波束服务于一个特定区域。GEO卫星及其固定卫星接收站是主用户，而地面用户是认知用户,每个认知用户都对应于一个由发射机和接收机组成的通信链路。认知用户通过频谱感知或查询本地数据库的方式来获取主卫星用户的可用空闲频谱信息。本发明考虑不存在中心控制器的情况，系统中有个N个认知用户和M个授权信道，认知用户使用机会频谱接入方式，自主地竞争可用空闲信道，即当授权信道空闲时，认知用户接入信道进行数据传输；反之，认知用户不能接入授权信道，必须保持静默。

由于认知用户在空间上任意分布，用户间的互干扰呈现局部影响的特性。为了定量描述认知用户之间的局部互干扰特性，本发明优选实施例引入干扰图的概念，如图2所示。认知用户和干扰图上的顶点一一对应，而两个用户之间的距离决定了干扰图的边。具体地，当两个认知用户之间的距离小于预设门限时，代表该认知用户的顶点之间由一条边相连接。即存在如图2所述连接关系的两认知用户互为对方的相邻用户，而当选择一样的信道时，干扰图上相邻用户之间会互相干扰。如图2所示，该干扰图中包含5个认知用户，认知用户间的互干扰呈现局部影响的特性，比如，若认知用户选择同一信道，认知用户5只会对认知用户4产生干扰，却不会对认知用户1,2和3产生干扰。

在上述前提下，本发明实施例假设认知用户能够感知和获得全部信道信息，即所用信道的状态已知。但由于设备条件受限，认知用户在同一时间只能接入一个信道进行传输。针对认知用户上述特点，本发明建立基于时隙Aloha的传输模型。具体来说，当认知用户想接入某一授权信道进行数据传输时，它以概率

接入信道，以概率

保持静默。

记认知用户n的可用信道集为

，即：

（1）

假定认知用户n选择接入信道

，则它能获得的吞吐量为：

（2）

其中，

是认知用户n的相邻用户集合，

是外部恶意干扰，

是多波束卫星通信系统的同信道干扰。

是如下指示函数：

（3）

那么，系统的网络吞吐量可表示为：

（4）

因此本发明要解决的抗干扰信道选择需要考虑的优化目标是寻找最优的信道选择组合使得系统的吞吐量最大，即：

（5）

该信道选择问题是组合优化问题，针对这类问题，现有技术常用穷举方法进行求解，但穷举法计算复杂度很高，而其它的一些启发式算法，比如贪心算法，可能得不到全局最优解。本发明的实施例采用博弈模型来进行抗干扰信道选择。

具体来说，本发明的认知星地网络场景中，地面认知用户需要考虑外部恶意干扰、多波束卫星通信系统的同信道干扰和用户间互扰等多方面影响，从干扰效果来说，多波束卫星通信系统的同信道干扰可以归结为“非智能”的外部恶意干扰或者“特殊”的背景噪声。

如图3所述，本发明的一个实施例提供了一种认知星地网络的抗干扰信道选择方法，包括以下步骤：

步骤1，构建认知星地网络通信场景，并将所述认知星地网络通信场景下的抗干扰决策问题建模为Stackelberg博弈模型。具体来说，从数学上它可表示为

。其中，N表示认知用户集，J表示外部恶意干扰，A和C分别表示认知用户和恶意干扰的策略集，

和

分别表示认知用户n和外部恶意干扰的效用函数。该博弈模型能够同时考虑两个层面的竞争：外部恶意干扰与认知用户之间的竞争以及认知用户内部间的竞争。在考虑的模型中，用户为了有效应对干扰需要进行干扰检测，假设用户为跟随者，干扰为领导者，认知用户和干扰各自独立地进行信道选择，并且追求自身效用的最大化。为了分析求解该博弈的Stackelberg均衡，采用经典的Stackelberg博弈分析方法—逆向递推法，即先分析下层子博弈，再分析上层子博弈。

然后执行步骤2，基于认知用户的局部互利博弈特性定义所述Stackelberg博弈模型中认知用户对应的下层子博弈模型。具体来说，针对认知用户间互扰呈现局部影响的特性，把该问题建模为局部影响博弈，比如可以选择图博弈模型。通过建立的图博弈模型，重点研究如何分布式求解全网最优解。一个优选实施例中，具体建立所述下层子博弈模型具体包括：

S201,定义动作图

，其中N是节点集合，每个节点表示一个认知用户对；每一个节点

选择的信道为

，其中

是认知用户的策略集；

是相邻认知用户对应的边的集合；

S202，定义图博弈模型为

，其中

是博弈参与者的效用函数；

S203，定义所述Stackelberg博弈模型的下层子博弈模型为：

（6）；

其中，N是认知用户集，

是认知用户的策略集，

是认知用户与相邻用户连接的边的集合，

是认知用户的效用函数。

以往传统的博弈模型中，博弈参与者以利己主义进行决策，只考虑个体最大化回报，而这种方式往往难以实现全局最优。本发明借鉴自然界中局部互利行为，即是生物个体在做决策时会考虑其邻近的其他个体，提出一种基于局部互利博弈的频谱接入方式，此时认知用户的效用函数

为干扰条件下认知用户以及对应相邻用户所获得的整体吞吐量，具体表示为：

（7），

其中，

是认知用户n的相邻用户集合，

是多波束卫星通信系统的同信道干扰，

是外部恶意干扰，

是邻居用户集合，

是多波束卫星通信系统对认知用户n的邻居用户的同信道干扰，

是外部恶意干扰对认知用户n的邻居用户的干扰，

是认知用户n所获得的吞吐量，

是认知用户n的相邻用户k所获得的吞吐量。即是认知用户n进行决策时，它不仅考虑自己，还同时考虑它的相邻用户。以图2为例进行说明，认知用户1考虑认知用户1、2和4的吞吐量之和，认知用户2考虑认知用户2、1、3和4的吞吐量之和，认知用户3考虑认知用户3、2和4的吞吐量之和，认知用户4考虑认知用户4、1、2、3和5的吞吐量之和，而认知用户5考虑认知用户5和4的吞吐量之和。

S204,所述认知用户以自身效用函数为优化目标，通过调整策略使自身效用函数最大化，即：

所述认知用户的优化目标表示为：

（8）。

上述下层子博弈模型为精确势能博弈模型，且至少存在一个纯策略纳什均衡。具体证明过程如下：

首先构造下层子博弈模型的下列势能函数：

(9)

其中，

是认知用户n获得的吞吐量，该势能函数与公式4定义的网络吞吐量一样。若任意认知用户单方面把它的信道选择由

改为

，则该认知用户的效用函数的变化量如下：

（10）

整合上式，令：

（11）

（12）

上式整合后为：

（13）

其中，

表示认知用户n单方面改变信道选择后，认知用户n的效用变化量。

表示认知用户n单方面改变信道选择后，认知用户n的相邻用户的效用变化量。

而认知用户n单方面改变信道选择导致势能函数的变化量为：

（14）

整合上式，令:

（15）

（16）

上式整合后为：

（17）

其中，

表示认知用户n单方面改变信道选择后，相邻用户获得吞吐量。C\D表示集合D从集合C中删除。由于认知用户n只考虑其相邻用户的效用，那么有：

（18）

又因为，

（19）

所以可知下面等式成立：

(20）

由上述分析可知，任意认知用户n单方面的信道选择改变导致该用户的效用函数变化和导致的势能函数变化相等，因此该博弈

是一个精确势能博弈。精确势能潜博弈具有很多独特的性质，其中最重要的两条如下：

1.任何精确势能博弈至少有一个纯策略纳什均衡；

2.势能函数的全局或局部最优解是一个纳什均衡。

然后基于认知用户的局部互利博弈特性定义外部恶意干扰对应的上层子博弈模型。具体来说，在建模的抗干扰Stackelberg博弈中，由于认知用户考虑局部理性，在考虑自身效用的时候，同时还考虑相邻用户的效用，所以，干扰也需要同时考虑对认知用户及其相邻用户的干扰效果。此时，执行S205，所述Stackelberg博弈模型的上层子博弈模型定义为：

（21）；

其中，J是外部恶意干扰，

是外部恶意干扰的策略集，

是外部恶意干扰的效用函数；所述外部恶意干扰的效用函数

（22），

其中，n表示认知用户集N中的一个认知用户，

为认知用户n从策略集

中所选择的接入信道，

为外部恶意干扰

的干扰信道策略，

是认知用户n的相邻用户集合，

为相邻用户集合中相邻用户k从策略集

中所选择的接入信道，

为外部恶意干扰

的干扰信道策略，且

（23）；

S206，所述外部恶意干扰以自身效用函数为优化目标，通过调整策略使自身效用函数最大化，即：

（24）。

上述上层子博弈模型为精确势能博弈模型，且至少存在一个纯策略纳什均衡。具体证明过程如下：

首先构造上述上层子博弈模型对应的势能函数：

（25）

其中

是外部恶意干扰对认知用户的干扰效益。若任意认知用户单方面地把它的信道选择从

改为

，则该认知用户的效用函数的改变量如下：

（26）

另一方面，认知用户n单方面改变信道选择导致势能函数产生下面的改变量：

（27）

其中，

表示认知用户单方面改变信道选择后，外部恶意干扰获得的干扰效益。C\D表示集合D从集合C中删除。由于干扰效益只考虑对认知用户n及其相邻用户产生的直接影响，那么有：

（28）

由上可知下面的等式成立：

（29）

由上述分析可知，任意认知用户单方面的信道选择改变导致外部恶意干扰的效用函数变化和导致的势能函数变化相等，因此该上层子博弈是一个精确势能博弈，至少存在一个纯策略纳什均衡。

然后执行步骤3，基于局部信息交互的分层学习算法对所述认知用户的当前策略进行更新，基于Q学习的信道选择算法对所述外部恶意干扰的当前策略进行更新，直至达到预设收敛条件，生成所建博弈问题的均衡解。现有技术通常采用试错算法（Trial andError，TE）获得的抗干扰信道选择博弈的均衡解，该算法是完全分布式的，并且在统计意义上收敛到最优的NE，但TE算法没有考虑认知用户之间信息交换。为了克服这个局限，本发明实施例提出了一种基于局部信息交互的分层学习算法（Local information interactionof hierarchical learning algorithm,LIIH），在LIIH算法中，认知用户和干扰在不同的时间尺度上更新策略。干扰的策略更新周期定义为一个时期h，用户在每个时隙t进行策略更新，其中，每个时期包含T个时隙。认知用户n在时隙t从可用信道

中选择信道

的概率

，且满足

。外部恶意干扰在时期h从干扰信道集

中选择信道

的概率

，且满足

。

利用LIIA算法，认知用户n通过与相邻用户进行信息交互学习获得最佳策略。认知用户在时隙t获得的回报为：

（30）

在上层子博弈模型中，为获得均衡解，提出一种基于Q学习的信道选择算法，外部恶意干扰通过与环境的交互进行策略更新。干扰在时期h获得的回报值为：

（31）

一个具体实施例中，上述收敛过程包括以下步骤：

S301，设置t=0,h=0，让每个认知用户

从认知用户的策略集

中等概率随机选择一个信道

，获得初始奖励

；

S302，在时期h时，外部恶意干扰根据干扰策略

选择干扰信道

；

S303，在时期h的第t时隙，所述认知用户根据策略集

选择信道

，

并按照以下规则更新当前抗干扰策略：

如果

,更新概率为

；

如果

,更新概率为

；

S304，对外部恶意干扰根据以下公式更新Q值：

；

且按照以下规则更新当前干扰策略：

；

其中，

表示学习速率，

表示干扰效用，

表示外部恶意干扰在时期h从干扰信道集

选择干扰信道

的概率，

是调节因子，用于调节学习过程中探测与利用的折中；

以上实施例提出了一种认知星地网络的抗干扰信道选择方法，基于认知用户和外部恶意干扰之间存在明显分层行为，将抗干扰决策问题建模为一个Stackelberg博弈，同时针对认知用户间相干扰呈现局部影响的特性，建立图博弈的子博弈模型，最后基于局部信息交互的分层学习算法以及Q学习算法来收敛对应的子博弈模型，与其他算法相比，不仅收敛性能突出，而且该算法的系统平均吞吐量接近最优NE解，从而解决了现有技术所采用算法收敛效果差、信道选择结果不准确的问题，缓解用频短缺和频谱利用率不高的现状，提高频谱资源利用率。

本发明实施例的第二方面提供了一种认知星地网络的抗干扰信道选择系统，如图4所示，包括构建模块100、定义模块200和计算模块300，

所述构建模块100用于构建认知星地网络通信场景，并将所述认知星地网络通信场景下的抗干扰决策问题建模为Stackelberg博弈模型，所述Stackelberg博弈模型中认知用户为跟随者，干扰为领导者，所述干扰包括认知用户间互扰、多波束卫星通信系统对地面认知用户的同信道干扰以及外部恶意干扰；

所述定义模块200用于基于认知用户的局部互利博弈特性定义所述Stackelberg博弈模型中认知用户对应的下层子博弈模型以及外部恶意干扰对应的上层子博弈模型，其中认知用户的效用函数为干扰条件下认知用户以及对应相邻用户所获得的整体吞吐量，外部恶意干扰的效用函数为认知用户策略保持不变时干扰对认知用户以及对应相邻用户的整体吞吐量影响；

所述计算模块300用于基于局部信息交互的分层学习算法对所述认知用户的当前策略进行更新，基于Q学习的信道选择算法对所述外部恶意干扰的当前策略进行更新，直至达到预设收敛条件时生成最优的抗干扰信道选择，以获得所述Stackelberg博弈模型的最优均衡解。

另一优选实施例中，所述认知星地网络的抗干扰信道选择系统还包括相邻用户选择模块400，所述相邻用户选择模块400用于通过干扰图定量描述认知用户之间的局部互干扰特性，所述认知用户与所述干扰图的顶点一一对应，当两个认知用户之间的距离小于预设门限时，将对应认知用户进行连接，且存在连接关系的两认知用户互为对方的相邻用户。

本发明实施例还提供了一种非易失性计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行，可使得上述一个或多个处理器可执行上述任意方法实施例中的认知星地网络的抗干扰信道选择方法。

本发明实施例还提供了一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被电子设备执行时，使所述电子设备执行任一项所述的认知星地网络的抗干扰信道选择方法。

以上所描述的装置或设备实施例仅仅是示意性的，其中所述作为分离部件说明的单元模块可以是或者也可以不是物理上分开的，作为模块单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络模块单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明，它们没有在细节中提供；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种认知星地网络的抗干扰信道选择方法，其特征在于，包括以下步骤：

步骤3，基于局部信息交互的分层学习算法对所述认知用户的当前策略进行更新，认知用户和干扰在不同的时间尺度上更新策略；基于Q学习的信道选择算法对所述外部恶意干扰的当前策略进行更新，直至达到预设收敛条件时生成最优的抗干扰信道选择，以获得所述Stackelberg博弈模型的最优均衡解；

其中，所述Stackelberg博弈模型的下层子博弈模型为图博弈模型，所述步骤2包括：

S201，定义动作图Ls＝(N,A_n,θ)，其中N是节点集合对应认知用户集，每个节点表示一个认知用户对；每一个节点即认知用户n∈N选择的信道为α_n∈A_n，其中A_n是认知用户的策略集；θ是相邻认知用户对应的边的集合；

S202，定义图博弈模型为Ψ＝(L_s，U)，其中U是博弈参与者的效用函数；

S203，定义所述Stackelberg博弈模型的下层子博弈模型为：

其中，N是认知用户集，A_n是认知用户的策略集，θ_n是认知用户与相邻用户连接的边的集合，U1_n是认知用户n的效用函数；

S204，所述认知用户n以自身效用函数为优化目标，通过调整策略使自身效用函数最大化，具体表示为：

其中，P_n是认知用户n的相邻用户集合，Z_n是多波束卫星通信系统的同信道干扰，J_n是关于认知用户外部恶意干扰，

为外部恶意干扰J_n的干扰信道策略，

为认知用户n的相邻用户的信道策略，

为对认知用户n遭受的多波束卫星通信系统干扰的信道选择策略；

S205，假设认知用户n为跟随者，干扰为领导者，基于干扰对所述认知用户n以及与对应相邻用户k的干扰效果，将所述Stackelberg博弈模型的上层子博弈模型定义为：

其中，J是外部恶意干扰，C_j是外部恶意干扰的策略集，U2_n是外部恶意干扰的效用函数；

所述外部恶意干扰的效用函数表示为：

其中，n表示认知用户集N中的一个认知用户，a_n为认知用户n从策略集A_n中所选择的接入信道，

为关于认知用户n的外部恶意干扰J_n的干扰信道策略，即

P_n是认知用户n的相邻用户集合，a_k为相邻用户集合中相邻用户k从策略集A_n中所选择的接入信道，

为关于该相邻用户k的外部恶意干扰J_k的干扰信道策略，且：

2.根据权利要求1所述认知星地网络的抗干扰信道选择方法，其特征在于，通过干扰图定量描述认知用户之间的局部互干扰特性，所述认知用户与所述干扰图的顶点一一对应，当两个认知用户之间的距离小于预设门限时，将对应认知用户进行连接，且存在连接关系的两认知用户互为对方的相邻用户。

3.根据权利要求1所述认知星地网络的抗干扰信道选择方法，其特征在于，所述认知用户n的效用函数表示为：

其中，P_n是认知用户n的相邻用户集合，Z_n是多波束卫星通信系统的同信道干扰，J_n是关于认知用户外部恶意干扰，P_k是认知用户n的相邻用户k的相邻用户集合，Z_k是多波束卫星通信系统对认知用户n的相邻用户k的同信道干扰，J_k是外部恶意干扰对认知用户n的相邻用户k的干扰，

为关于该相邻用户k的外部恶意干扰J_k的干扰信道策略，

为认知用户n的相邻用户k的相邻用户的信道选择策略，

是认知用户n所获得的吞吐量，

是认知用户n的相邻用户k所获得的吞吐量。

4.根据权利要求1所述认知星地网络的抗干扰信道选择方法，其特征在于，所述步骤3包括以下步骤：

S301，设置t＝0，h＝0，让每个认知用户n从认知用户的策略集A_n中等概率随机选择一个信道a_n(0)，获得初始奖励u_n(0)；

S302，在时期h时，外部恶意干扰根据干扰策略C_j(h)选择干扰信道c_jn；

S303，在时期h的第t时隙，所述认知用户n根据策略集A_n(t)选择信道a_n(t)，然后所述认知用户n与相邻用户k交互信息后，计算对应的效用u_n(t)，

并按照以下规则更新当前抗干扰策略：

如果u_n(t+1)≥u_n(t)，更新概率为

如果u_n(t+1)≤u_n(t)，更新概率为

其中，ω为学习参数；G为表示接受当前过程的概率；

S304，对外部恶意干扰根据以下公式更新Q值：

其中，Q值表示强化学习算法的状态、动作的值；

且按照以下规则更新当前干扰策略：

其中，α表示学习速率，u_j(h)表示干扰效用，q_j(h)表示外部恶意干扰在时期h从干扰信道集C_j(h)选择干扰信道c_j的概率，β是调节因子，用于调节学习过程中探测与利用的折中；

5.一种认知星地网络的抗干扰信道选择系统，其特征在于，包括构建模块、定义模块和计算模块，

所述计算模块用于基于局部信息交互的分层学习算法对所述认知用户的当前策略进行更新，认知用户和干扰在不同的时间尺度上更新策略；基于Q学习的信道选择算法对所述外部恶意干扰的当前策略进行更新，直至达到预设收敛条件时生成最优的抗干扰信道选择，以获得所述Stackelberg博弈模型的最优均衡解；

其中，所述Stackelberg博弈模型的下层子博弈模型为图博弈模型，所述定义模块执行以下操作：

S203，定义所述Stackelberg博弈模型的下层子博弈模型为：

为外部恶意干扰J_n的干扰信道策略，

为认知用户n的相邻用户的信道策略，

所述外部恶意干扰的效用函数表示为：

为关于认知用户n的外部恶意干扰J_n的干扰信道策略，即

为关于该相邻用户k的外部恶意干扰J_k的干扰信道策略，且：

6.根据权利要求5所述认知星地网络的抗干扰信道选择系统，其特征在于，还包括相邻用户选择模块，所述相邻用户选择模块用于通过干扰图定量描述认知用户之间的局部互干扰特性，所述认知用户与所述干扰图的顶点一一对应，当两个认知用户之间的距离小于预设门限时，将对应认知用户进行连接，且存在连接关系的两认知用户互为对方的相邻用户。