CN114698128B - 一种认知星地网络的抗干扰信道选择方法和系统 - Google Patents
一种认知星地网络的抗干扰信道选择方法和系统 Download PDFInfo
- Publication number
- CN114698128B CN114698128B CN202210531627.4A CN202210531627A CN114698128B CN 114698128 B CN114698128 B CN 114698128B CN 202210531627 A CN202210531627 A CN 202210531627A CN 114698128 B CN114698128 B CN 114698128B
- Authority
- CN
- China
- Prior art keywords
- interference
- cognitive
- user
- users
- cognitive user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000001149 cognitive effect Effects 0.000 title claims abstract description 315
- 238000010187 selection method Methods 0.000 title claims abstract description 9
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 34
- 230000003993 interaction Effects 0.000 claims abstract description 17
- 230000006870 function Effects 0.000 claims description 59
- 238000004891 communication Methods 0.000 claims description 35
- 238000000034 method Methods 0.000 claims description 28
- 238000005457 optimization Methods 0.000 claims description 15
- 230000002452 interceptive effect Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 11
- 230000000694 effects Effects 0.000 claims description 10
- 230000009471 action Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 2
- 230000002787 reinforcement Effects 0.000 claims description 2
- 230000006399 behavior Effects 0.000 abstract description 5
- 230000001427 coherent effect Effects 0.000 abstract description 2
- 238000001228 spectrum Methods 0.000 description 17
- 238000005381 potential energy Methods 0.000 description 14
- 239000000126 substance Substances 0.000 description 12
- 230000008859 change Effects 0.000 description 8
- 238000011160 research Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/50—Allocation or scheduling criteria for wireless resources
- H04W72/54—Allocation or scheduling criteria for wireless resources based on quality criteria
- H04W72/541—Allocation or scheduling criteria for wireless resources based on quality criteria using the level of interference
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B17/00—Monitoring; Testing
- H04B17/30—Monitoring; Testing of propagation channels
- H04B17/382—Monitoring; Testing of propagation channels for resource allocation, admission control or handover
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/14—Relay systems
- H04B7/15—Active relay systems
- H04B7/185—Space-based or airborne stations; Stations for satellite systems
- H04B7/1851—Systems using a satellite or space-based relay
- H04B7/18517—Transmission equipment in earth stations
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Astronomy & Astrophysics (AREA)
- Aviation & Aerospace Engineering (AREA)
- General Physics & Mathematics (AREA)
- Electromagnetism (AREA)
- Mobile Radio Communication Systems (AREA)
- Radio Relay Systems (AREA)
Abstract
本发明涉及一种认知星地网络的抗干扰信道选择方法和系统,基于认知用户和外部恶意干扰之间存在明显分层行为,将抗干扰决策问题建模为一个Stackelberg博弈,同时针对认知用户间相干扰呈现局部影响的特性,建立图博弈的下层子博弈模型,最后基于局部信息交互的分层学习算法以及Q学习算法来收敛对应的子博弈模型,与其他算法相比,不仅收敛性能突出,而且该算法的系统平均吞吐量接近最优NE解,从而解决了现有技术所采用算法收敛效果差、信道选择结果不准确的问题,缓解用频短缺和频谱利用率不高的现状,提高频谱资源利用率。
Description
技术领域
本发明涉及通讯领域,特别涉及一种认知星地网络的抗干扰信道选择方法和系统。
背景技术
随着信息技术的快速发展,“频谱短缺”与“频谱利用率低下”的矛盾日益凸显,基于认知无线电的星地系统之间的动态频谱共享,可以有效提升频谱利用效率,增加星地一体化网络的信息服务能力。目前关于认知星地网络频谱共享的研究很多,比如部分文献研究利用波束成形技术研究了卫星和地面网络的频谱共享问题,其中卫星上行链路用户为主用户,地面下行链路用户为认知用户。部分文献研究认知星地网络的频谱共享问题,利用中继链路实现与地面认知用户的频谱共享。还有部分文献提出了一种新颖的认知卫星网络设计,地面认知用户根据频谱保护距离的不同采用不同的频谱接入策略,构造了一个多通道访问博弈和一个功率优化博弈。除此之外,为了从不同角度刻画用户之间的关系,使系统整体效果最优,部分文献采用图形博弈的方法,研究了小蜂窝网络的负载感知频谱接入问题。部分文献研究认知无线电网络中分布式信道选择的全局优化问题,提出了两种特殊的局部交互博弈:局部利他博弈和局部拥塞博弈,通过局部信息交互,实现全局最优。
然而,这些研究忽略了外部恶意干扰或者认知用户之间干扰的影响。比如这些研究工作中都隐含一个假设,即所有用户同时行动,没有考虑用户和干扰之间的分层行为特征。因此存在现有技术的算法收敛效果差、抗干扰信道选择结果不准确、难以到达预期效果的技术问题。
发明内容
本发明所要解决的技术问题是提供一种认知星地网络的抗干扰信道选择方法和系统,解决了现有算法收敛效果差、抗干扰信道选择不准确的技术问题。
本发明解决上述技术问题的技术方案如下:一种认知星地网络的抗干扰信道选择方法,包括以下步骤:
步骤1,构建认知星地网络通信场景,并将所述认知星地网络通信场景下的抗干扰决策问题建模为Stackelberg博弈模型,所述Stackelberg博弈模型中认知用户为跟随者,干扰为领导者,所述干扰包括认知用户间互扰、多波束卫星通信系统对地面认知用户的同信道干扰以及外部恶意干扰;
步骤2,基于认知用户的局部互利博弈特性定义所述Stackelberg博弈模型中认知用户对应的下层子博弈模型以及外部恶意干扰对应的上层子博弈模型,其中认知用户的效用函数为干扰条件下认知用户以及对应相邻用户所获得的整体吞吐量,外部恶意干扰的效用函数为认知用户策略保持不变时干扰对认知用户以及对应相邻用户的整体吞吐量影响;
步骤3,基于局部信息交互的分层学习算法对所述认知用户的当前策略进行更新,基于Q学习的信道选择算法对所述外部恶意干扰的当前策略进行更新,直至达到预设收敛条件时生成最优的抗干扰信道选择,以获得所述Stackelberg博弈模型的最优均衡解。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,通过干扰图定量描述认知用户之间的局部互干扰特性,所述认知用户与所述干扰图的顶点一一对应,当两个认知用户之间的距离小于预设门限时,将对应认知用户进行连接,且存在连接关系的两认知用户互为对方的相邻用户。
进一步,所述Stackelberg博弈模型的下层子博弈模型为图博弈模型,建立所述下层子博弈模型具体包括:
S203,定义所述Stackelberg博弈模型的下层子博弈模型为:
其中,N是认知用户集,A n 是认知用户的策略集,θ n 是认知用户与相邻用户连接的边的集合, U1 n 是认知用户n的效用函数;所述认知用户n的效用函数为干扰条件下认知用户以及对应相邻用户所获得的整体吞吐量,具体表示为:
其中,是认知用户n的相邻用户集合,是多波束卫星通信系统的同信道干扰,是关于认知用户外部恶意干扰,是认知用户n的相邻用户k的相邻用户集合,是多波束卫星通信系统对认知用户n的相邻用户k的同信道干扰,是外部恶意干扰对认知用户n的相邻用户k的干扰,为关于该相邻用户k的外部恶意干扰的干扰信道策略,为认知用户n的相邻用户k的相邻用户的信道选择策略,为对认知用户n的相邻用户k遭受的多波束卫星通信系统干扰的信道选择策略,是认知用户n所获得的吞吐量,是认知用户n的相邻用户k所获得的吞吐量;
进一步,所述定义Stackelberg博弈模型中外部恶意干扰对应的上层子博弈模型,具体包括:
S205,假设认知用户n为跟随者,干扰为领导者,基于干扰对所述认知用户n以及与对应相邻用户k的干扰效果,所述Stackelberg博弈模型的上层子博弈模型定义为:
其中,n表示认知用户集N中的一个认知用户,为认知用户n从策略集中所选择的接入信道,为关于认知用户n的外部恶意干扰的干扰信道策略,即,;是认知用户n的相邻用户集合,为相邻用户集合中相邻用户k从策略集中所选择的接入信道,为关于该相邻用户k的外部恶意干扰的干扰信道策略,且:
S206,所述外部恶意干扰以自身效用函数为优化目标,通过调整策略使自身效用函数最大化,具体表示为:
进一步,所述基于局部信息交互的分层学习算法对认知用户的当前策略进行更新,基于Q学习的信道选择算法对所述外部恶意干扰的当前策略进行更新,包括以下步骤:
S304,对外部恶意干扰根据以下公式更新Q值:
其中,Q值表示强化学习算法的状态、动作的值;
且按照以下规则更新当前干扰策略:
S305,重复以上过程S302-S304,直至实际迭代次数大于预设最大迭代次数。
为了解决本发明的技术问题,还提供了一种认知星地网络的抗干扰信道选择系统,包括构建模块、定义模块和计算模块,
所述构建模块用于构建认知星地网络通信场景,并将所述认知星地网络通信场景下的抗干扰决策问题建模为Stackelberg博弈模型,所述Stackelberg博弈模型中认知用户为跟随者,干扰为领导者,所述干扰包括认知用户间互扰、多波束卫星通信系统对地面认知用户的同信道干扰以及外部恶意干扰;
所述定义模块用于基于认知用户的局部互利博弈特性定义所述Stackelberg博弈模型中认知用户对应的下层子博弈模型以及外部恶意干扰对应的上层子博弈模型,其中认知用户的效用函数为干扰条件下认知用户以及对应相邻用户所获得的整体吞吐量,外部恶意干扰的效用函数为认知用户策略保持不变时干扰对认知用户以及对应相邻用户的整体吞吐量影响;
所述计算模块用于基于局部信息交互的分层学习算法对所述认知用户的当前策略进行更新,基于Q学习的信道选择算法对所述外部恶意干扰的当前策略进行更新,直至达到预设收敛条件时生成最优的抗干扰信道选择,以获得所述Stackelberg博弈模型的最优均衡解。
进一步,还包括相邻用户选择模块,所述相邻用户选择模块用于通过干扰图定量描述认知用户之间的局部互干扰特性,所述认知用户与所述干扰图的顶点一一对应,当两个认知用户之间的距离小于预设门限时,将对应认知用户进行连接,且存在连接关系的两认知用户互为对方的相邻用户。
本发明的有益效果包括:
(1)本发明考虑到认知用户和外部恶意干扰之间存在明显分层行为,将所述抗干扰决策问题建模为一个Stackelberg博弈,且该博弈同时考虑两个层面的竞争,即外部恶意干扰与认知用户之间的竞争以及认知用户内部间的竞争。
(2)本发明针对认知用户间相干扰呈现局部影响的特性,提出局部理性的假设,并且把该问题建模为图博弈(Graph game)/局部影响博弈(Local interaction game),这样每个认知用户在充分考虑各方面干扰的前提下,做出决策时需同时考虑自身效用和相邻用户效用,以此通过局部信息交互来实现全网最优。
(3)本发明提出了基于局部信息交互的分层学习算法以及Q学习算法来收敛对应的子博弈模型,与其他算法相比,不仅收敛性能突出,而且该算法的系统平均吞吐量接近最优NE解,从而解决了现有技术所采用算法收敛效果差、信道选择结果不准确的问题,缓解用频短缺和频谱利用率不高的现状,提高频谱资源利用率。
为使发明的上述目的、特征和优点能更明显易懂,下文特举本发明较佳实施例,并配合所附附图,作详细说明如下。
附图说明
图1为本发明实施例提供的认知星地网络的系统模型图;
图2为本发明实施例提供的干扰图的示意图;
图3为本发明实施例提供的认知星地网络的抗干扰信道选择方法的流程示意图;
图4为本发明实施例提供的认知星地网络的抗干扰信道选择系统的结构示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
图1为本发明实施例提供的认知星地网络的系统模型图,如图1所示,本发明涉及一个多波束卫星通信系统,每个波束服务于一个特定区域。GEO卫星及其固定卫星接收站是主用户,而地面用户是认知用户,每个认知用户都对应于一个由发射机和接收机组成的通信链路。认知用户通过频谱感知或查询本地数据库的方式来获取主卫星用户的可用空闲频谱信息。本发明考虑不存在中心控制器的情况,系统中有个N个认知用户和M个授权信道,认知用户使用机会频谱接入方式,自主地竞争可用空闲信道,即当授权信道空闲时,认知用户接入信道进行数据传输;反之,认知用户不能接入授权信道,必须保持静默。
由于认知用户在空间上任意分布,用户间的互干扰呈现局部影响的特性。为了定量描述认知用户之间的局部互干扰特性,本发明优选实施例引入干扰图的概念,如图2所示。认知用户和干扰图上的顶点一一对应,而两个用户之间的距离决定了干扰图的边。具体地,当两个认知用户之间的距离小于预设门限时,代表该认知用户的顶点之间由一条边相连接。即存在如图2所述连接关系的两认知用户互为对方的相邻用户,而当选择一样的信道时,干扰图上相邻用户之间会互相干扰。如图2所示,该干扰图中包含5个认知用户,认知用户间的互干扰呈现局部影响的特性,比如,若认知用户选择同一信道,认知用户5只会对认知用户4产生干扰,却不会对认知用户1,2和3产生干扰。
在上述前提下,本发明实施例假设认知用户能够感知和获得全部信道信息,即所用信道的状态已知。但由于设备条件受限,认知用户在同一时间只能接入一个信道进行传输。针对认知用户上述特点,本发明建立基于时隙Aloha的传输模型。具体来说,当认知用户想接入某一授权信道进行数据传输时,它以概率接入信道,以概率保持静默。
那么,系统的网络吞吐量可表示为:
因此本发明要解决的抗干扰信道选择需要考虑的优化目标是寻找最优的信道选择组合使得系统的吞吐量最大,即:
该信道选择问题是组合优化问题,针对这类问题,现有技术常用穷举方法进行求解,但穷举法计算复杂度很高,而其它的一些启发式算法,比如贪心算法,可能得不到全局最优解。本发明的实施例采用博弈模型来进行抗干扰信道选择。
具体来说,本发明的认知星地网络场景中,地面认知用户需要考虑外部恶意干扰、多波束卫星通信系统的同信道干扰和用户间互扰等多方面影响,从干扰效果来说,多波束卫星通信系统的同信道干扰可以归结为“非智能”的外部恶意干扰或者“特殊”的背景噪声。
如图3所述,本发明的一个实施例提供了一种认知星地网络的抗干扰信道选择方法,包括以下步骤:
步骤1,构建认知星地网络通信场景,并将所述认知星地网络通信场景下的抗干扰决策问题建模为Stackelberg博弈模型。具体来说,从数学上它可表示为。其中,N表示认知用户集,J表示外部恶意干扰,A和C分别表示认知用户和恶意干扰的策略集,和分别表示认知用户n和外部恶意干扰的效用函数。该博弈模型能够同时考虑两个层面的竞争:外部恶意干扰与认知用户之间的竞争以及认知用户内部间的竞争。在考虑的模型中,用户为了有效应对干扰需要进行干扰检测,假设用户为跟随者,干扰为领导者,认知用户和干扰各自独立地进行信道选择,并且追求自身效用的最大化。为了分析求解该博弈的Stackelberg均衡,采用经典的Stackelberg博弈分析方法—逆向递推法,即先分析下层子博弈,再分析上层子博弈。
然后执行步骤2,基于认知用户的局部互利博弈特性定义所述Stackelberg博弈模型中认知用户对应的下层子博弈模型。具体来说,针对认知用户间互扰呈现局部影响的特性,把该问题建模为局部影响博弈,比如可以选择图博弈模型。通过建立的图博弈模型,重点研究如何分布式求解全网最优解。一个优选实施例中,具体建立所述下层子博弈模型具体包括:
S203,定义所述Stackelberg博弈模型的下层子博弈模型为:
以往传统的博弈模型中,博弈参与者以利己主义进行决策,只考虑个体最大化回报,而这种方式往往难以实现全局最优。本发明借鉴自然界中局部互利行为,即是生物个体在做决策时会考虑其邻近的其他个体,提出一种基于局部互利博弈的频谱接入方式,此时认知用户的效用函数为干扰条件下认知用户以及对应相邻用户所获得的整体吞吐量,具体表示为:
其中,是认知用户n的相邻用户集合,是多波束卫星通信系统的同信道干扰,是外部恶意干扰,是邻居用户集合,是多波束卫星通信系统对认知用户n的邻居用户的同信道干扰,是外部恶意干扰对认知用户n的邻居用户的干扰,是认知用户n所获得的吞吐量,是认知用户n的相邻用户k所获得的吞吐量。即是认知用户n进行决策时,它不仅考虑自己,还同时考虑它的相邻用户。以图2为例进行说明,认知用户1考虑认知用户1、2和4的吞吐量之和,认知用户2考虑认知用户2、1、3和4的吞吐量之和,认知用户3考虑认知用户3、2和4的吞吐量之和,认知用户4考虑认知用户4、1、2、3和5的吞吐量之和,而认知用户5考虑认知用户5和4的吞吐量之和。
S204,所述认知用户以自身效用函数为优化目标,通过调整策略使自身效用函数最大化,即:
所述认知用户的优化目标表示为:
上述下层子博弈模型为精确势能博弈模型,且至少存在一个纯策略纳什均衡。具体证明过程如下:
首先构造下层子博弈模型的下列势能函数:
整合上式,令:
上式整合后为:
而认知用户n单方面改变信道选择导致势能函数的变化量为:
整合上式,令:
上式整合后为:
又因为,
所以可知下面等式成立:
1.任何精确势能博弈至少有一个纯策略纳什均衡;
2.势能函数的全局或局部最优解是一个纳什均衡。
然后基于认知用户的局部互利博弈特性定义外部恶意干扰对应的上层子博弈模型。具体来说,在建模的抗干扰Stackelberg博弈中,由于认知用户考虑局部理性,在考虑自身效用的时候,同时还考虑相邻用户的效用,所以,干扰也需要同时考虑对认知用户及其相邻用户的干扰效果。此时,执行S205,所述Stackelberg博弈模型的上层子博弈模型定义为:
其中,n表示认知用户集N中的一个认知用户,为认知用户n从策略集中所选择的接入信道,为外部恶意干扰的干扰信道策略,是认知用户n的相邻用户集合,为相邻用户集合中相邻用户k从策略集中所选择的接入信道,为外部恶意干扰的干扰信道策略,且
S206,所述外部恶意干扰以自身效用函数为优化目标,通过调整策略使自身效用函数最大化,即:
上述上层子博弈模型为精确势能博弈模型,且至少存在一个纯策略纳什均衡。具体证明过程如下:
首先构造上述上层子博弈模型对应的势能函数:
另一方面,认知用户n单方面改变信道选择导致势能函数产生下面的改变量:
由上可知下面的等式成立:
由上述分析可知,任意认知用户单方面的信道选择改变导致外部恶意干扰的效用函数变化和导致的势能函数变化相等,因此该上层子博弈是一个精确势能博弈,至少存在一个纯策略纳什均衡。
然后执行步骤3,基于局部信息交互的分层学习算法对所述认知用户的当前策略进行更新,基于Q学习的信道选择算法对所述外部恶意干扰的当前策略进行更新,直至达到预设收敛条件,生成所建博弈问题的均衡解。现有技术通常采用试错算法(Trial andError,TE)获得的抗干扰信道选择博弈的均衡解,该算法是完全分布式的,并且在统计意义上收敛到最优的NE,但TE算法没有考虑认知用户之间信息交换。为了克服这个局限,本发明实施例提出了一种基于局部信息交互的分层学习算法(Local information interactionof hierarchical learning algorithm,LIIH),在LIIH算法中,认知用户和干扰在不同的时间尺度上更新策略。干扰的策略更新周期定义为一个时期h,用户在每个时隙t进行策略更新,其中,每个时期包含T个时隙。认知用户n在时隙t从可用信道中选择信道的概率,且满足。外部恶意干扰在时期h从干扰信道集中选择信道的概率,且满足。
利用LIIA算法,认知用户n通过与相邻用户进行信息交互学习获得最佳策略。认知用户在时隙t获得的回报为:
在上层子博弈模型中,为获得均衡解,提出一种基于Q学习的信道选择算法,外部恶意干扰通过与环境的交互进行策略更新。干扰在时期h获得的回报值为:
一个具体实施例中,上述收敛过程包括以下步骤:
并按照以下规则更新当前抗干扰策略:
S304,对外部恶意干扰根据以下公式更新Q值:
且按照以下规则更新当前干扰策略:
S305,重复以上过程S302-S304,直至实际迭代次数大于预设最大迭代次数。
以上实施例提出了一种认知星地网络的抗干扰信道选择方法,基于认知用户和外部恶意干扰之间存在明显分层行为,将抗干扰决策问题建模为一个Stackelberg博弈,同时针对认知用户间相干扰呈现局部影响的特性,建立图博弈的子博弈模型,最后基于局部信息交互的分层学习算法以及Q学习算法来收敛对应的子博弈模型,与其他算法相比,不仅收敛性能突出,而且该算法的系统平均吞吐量接近最优NE解,从而解决了现有技术所采用算法收敛效果差、信道选择结果不准确的问题,缓解用频短缺和频谱利用率不高的现状,提高频谱资源利用率。
本发明实施例的第二方面提供了一种认知星地网络的抗干扰信道选择系统,如图4所示,包括构建模块100、定义模块200和计算模块300,
所述构建模块100用于构建认知星地网络通信场景,并将所述认知星地网络通信场景下的抗干扰决策问题建模为Stackelberg博弈模型,所述Stackelberg博弈模型中认知用户为跟随者,干扰为领导者,所述干扰包括认知用户间互扰、多波束卫星通信系统对地面认知用户的同信道干扰以及外部恶意干扰;
所述定义模块200用于基于认知用户的局部互利博弈特性定义所述Stackelberg博弈模型中认知用户对应的下层子博弈模型以及外部恶意干扰对应的上层子博弈模型,其中认知用户的效用函数为干扰条件下认知用户以及对应相邻用户所获得的整体吞吐量,外部恶意干扰的效用函数为认知用户策略保持不变时干扰对认知用户以及对应相邻用户的整体吞吐量影响;
所述计算模块300用于基于局部信息交互的分层学习算法对所述认知用户的当前策略进行更新,基于Q学习的信道选择算法对所述外部恶意干扰的当前策略进行更新,直至达到预设收敛条件时生成最优的抗干扰信道选择,以获得所述Stackelberg博弈模型的最优均衡解。
另一优选实施例中,所述认知星地网络的抗干扰信道选择系统还包括相邻用户选择模块400,所述相邻用户选择模块400用于通过干扰图定量描述认知用户之间的局部互干扰特性,所述认知用户与所述干扰图的顶点一一对应,当两个认知用户之间的距离小于预设门限时,将对应认知用户进行连接,且存在连接关系的两认知用户互为对方的相邻用户。
本发明实施例还提供了一种非易失性计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行,可使得上述一个或多个处理器可执行上述任意方法实施例中的认知星地网络的抗干扰信道选择方法。
本发明实施例还提供了一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被电子设备执行时,使所述电子设备执行任一项所述的认知星地网络的抗干扰信道选择方法。
以上所描述的装置或设备实施例仅仅是示意性的,其中所述作为分离部件说明的单元模块可以是或者也可以不是物理上分开的,作为模块单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络模块单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明,它们没有在细节中提供;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (6)
1.一种认知星地网络的抗干扰信道选择方法,其特征在于,包括以下步骤:
步骤1,构建认知星地网络通信场景,并将所述认知星地网络通信场景下的抗干扰决策问题建模为Stackelberg博弈模型,所述Stackelberg博弈模型中认知用户为跟随者,干扰为领导者,所述干扰包括认知用户间互扰、多波束卫星通信系统对地面认知用户的同信道干扰以及外部恶意干扰;
步骤2,基于认知用户的局部互利博弈特性定义所述Stackelberg博弈模型中认知用户对应的下层子博弈模型以及外部恶意干扰对应的上层子博弈模型,其中认知用户的效用函数为干扰条件下认知用户以及对应相邻用户所获得的整体吞吐量,外部恶意干扰的效用函数为认知用户策略保持不变时干扰对认知用户以及对应相邻用户的整体吞吐量影响;
步骤3,基于局部信息交互的分层学习算法对所述认知用户的当前策略进行更新,认知用户和干扰在不同的时间尺度上更新策略;基于Q学习的信道选择算法对所述外部恶意干扰的当前策略进行更新,直至达到预设收敛条件时生成最优的抗干扰信道选择,以获得所述Stackelberg博弈模型的最优均衡解;
其中,所述Stackelberg博弈模型的下层子博弈模型为图博弈模型,所述步骤2包括:
S201,定义动作图Ls=(N,An,θ),其中N是节点集合对应认知用户集,每个节点表示一个认知用户对;每一个节点即认知用户n∈N选择的信道为αn∈An,其中An是认知用户的策略集;θ是相邻认知用户对应的边的集合;
S202,定义图博弈模型为Ψ=(Ls,U),其中U是博弈参与者的效用函数;
S203,定义所述Stackelberg博弈模型的下层子博弈模型为:
其中,N是认知用户集,An是认知用户的策略集,θn是认知用户与相邻用户连接的边的集合,U1n是认知用户n的效用函数;
S204,所述认知用户n以自身效用函数为优化目标,通过调整策略使自身效用函数最大化,具体表示为:其中,Pn是认知用户n的相邻用户集合,Zn是多波束卫星通信系统的同信道干扰,Jn是关于认知用户外部恶意干扰,为外部恶意干扰Jn的干扰信道策略,为认知用户n的相邻用户的信道策略,为对认知用户n遭受的多波束卫星通信系统干扰的信道选择策略;
S205,假设认知用户n为跟随者,干扰为领导者,基于干扰对所述认知用户n以及与对应相邻用户k的干扰效果,将所述Stackelberg博弈模型的上层子博弈模型定义为:
其中,J是外部恶意干扰,Cj是外部恶意干扰的策略集,U2n是外部恶意干扰的效用函数;
S206,所述外部恶意干扰以自身效用函数为优化目标,通过调整策略使自身效用函数最大化,具体表示为:
所述外部恶意干扰的效用函数表示为:
其中,n表示认知用户集N中的一个认知用户,an为认知用户n从策略集An中所选择的接入信道,为关于认知用户n的外部恶意干扰Jn的干扰信道策略,即 Pn是认知用户n的相邻用户集合,ak为相邻用户集合中相邻用户k从策略集An中所选择的接入信道,为关于该相邻用户k的外部恶意干扰Jk的干扰信道策略,且:
2.根据权利要求1所述认知星地网络的抗干扰信道选择方法,其特征在于,通过干扰图定量描述认知用户之间的局部互干扰特性,所述认知用户与所述干扰图的顶点一一对应,当两个认知用户之间的距离小于预设门限时,将对应认知用户进行连接,且存在连接关系的两认知用户互为对方的相邻用户。
3.根据权利要求1所述认知星地网络的抗干扰信道选择方法,其特征在于,所述认知用户n的效用函数表示为:
4.根据权利要求1所述认知星地网络的抗干扰信道选择方法,其特征在于,所述步骤3包括以下步骤:
S301,设置t=0,h=0,让每个认知用户n从认知用户的策略集An中等概率随机选择一个信道an(0),获得初始奖励un(0);
S302,在时期h时,外部恶意干扰根据干扰策略Cj(h)选择干扰信道cjn;
S303,在时期h的第t时隙,所述认知用户n根据策略集An(t)选择信道an(t),然后所述认知用户n与相邻用户k交互信息后,计算对应的效用un(t),
并按照以下规则更新当前抗干扰策略:
其中,ω为学习参数;G为表示接受当前过程的概率;
S304,对外部恶意干扰根据以下公式更新Q值:
其中,Q值表示强化学习算法的状态、动作的值;
且按照以下规则更新当前干扰策略:
其中,α表示学习速率,uj(h)表示干扰效用,qj(h)表示外部恶意干扰在时期h从干扰信道集Cj(h)选择干扰信道cj的概率,β是调节因子,用于调节学习过程中探测与利用的折中;
S305,重复以上过程S302-S304,直至实际迭代次数大于预设最大迭代次数。
5.一种认知星地网络的抗干扰信道选择系统,其特征在于,包括构建模块、定义模块和计算模块,
所述构建模块用于构建认知星地网络通信场景,并将所述认知星地网络通信场景下的抗干扰决策问题建模为Stackelberg博弈模型,所述Stackelberg博弈模型中认知用户为跟随者,干扰为领导者,所述干扰包括认知用户间互扰、多波束卫星通信系统对地面认知用户的同信道干扰以及外部恶意干扰;
所述定义模块用于基于认知用户的局部互利博弈特性定义所述Stackelberg博弈模型中认知用户对应的下层子博弈模型以及外部恶意干扰对应的上层子博弈模型,其中认知用户的效用函数为干扰条件下认知用户以及对应相邻用户所获得的整体吞吐量,外部恶意干扰的效用函数为认知用户策略保持不变时干扰对认知用户以及对应相邻用户的整体吞吐量影响;
所述计算模块用于基于局部信息交互的分层学习算法对所述认知用户的当前策略进行更新,认知用户和干扰在不同的时间尺度上更新策略;基于Q学习的信道选择算法对所述外部恶意干扰的当前策略进行更新,直至达到预设收敛条件时生成最优的抗干扰信道选择,以获得所述Stackelberg博弈模型的最优均衡解;
其中,所述Stackelberg博弈模型的下层子博弈模型为图博弈模型,所述定义模块执行以下操作:
S201,定义动作图Ls=(N,An,θ),其中N是节点集合对应认知用户集,每个节点表示一个认知用户对;每一个节点即认知用户n∈N选择的信道为αn∈An,其中An是认知用户的策略集;θ是相邻认知用户对应的边的集合;
S202,定义图博弈模型为Ψ=(Ls,U),其中U是博弈参与者的效用函数;
S203,定义所述Stackelberg博弈模型的下层子博弈模型为:
其中,N是认知用户集,An是认知用户的策略集,θn是认知用户与相邻用户连接的边的集合,U1n是认知用户n的效用函数;
S204,所述认知用户n以自身效用函数为优化目标,通过调整策略使自身效用函数最大化,具体表示为:其中,Pn是认知用户n的相邻用户集合,Zn是多波束卫星通信系统的同信道干扰,Jn是关于认知用户外部恶意干扰,为外部恶意干扰Jn的干扰信道策略,为认知用户n的相邻用户的信道策略,为对认知用户n遭受的多波束卫星通信系统干扰的信道选择策略;
S205,假设认知用户n为跟随者,干扰为领导者,基于干扰对所述认知用户n以及与对应相邻用户k的干扰效果,将所述Stackelberg博弈模型的上层子博弈模型定义为:
其中,J是外部恶意干扰,Cj是外部恶意干扰的策略集,U2n是外部恶意干扰的效用函数;
S206,所述外部恶意干扰以自身效用函数为优化目标,通过调整策略使自身效用函数最大化,具体表示为:
所述外部恶意干扰的效用函数表示为:
其中,n表示认知用户集N中的一个认知用户,an为认知用户n从策略集An中所选择的接入信道,为关于认知用户n的外部恶意干扰Jn的干扰信道策略,即 Pn是认知用户n的相邻用户集合,ak为相邻用户集合中相邻用户k从策略集An中所选择的接入信道,为关于该相邻用户k的外部恶意干扰Jk的干扰信道策略,且:
6.根据权利要求5所述认知星地网络的抗干扰信道选择系统,其特征在于,还包括相邻用户选择模块,所述相邻用户选择模块用于通过干扰图定量描述认知用户之间的局部互干扰特性,所述认知用户与所述干扰图的顶点一一对应,当两个认知用户之间的距离小于预设门限时,将对应认知用户进行连接,且存在连接关系的两认知用户互为对方的相邻用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210531627.4A CN114698128B (zh) | 2022-05-17 | 2022-05-17 | 一种认知星地网络的抗干扰信道选择方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210531627.4A CN114698128B (zh) | 2022-05-17 | 2022-05-17 | 一种认知星地网络的抗干扰信道选择方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114698128A CN114698128A (zh) | 2022-07-01 |
CN114698128B true CN114698128B (zh) | 2022-09-13 |
Family
ID=82144554
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210531627.4A Expired - Fee Related CN114698128B (zh) | 2022-05-17 | 2022-05-17 | 一种认知星地网络的抗干扰信道选择方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114698128B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115378487B (zh) * | 2022-07-05 | 2023-12-01 | 中国人民解放军战略支援部队航天工程大学 | 基于电磁屏障的卫星通信动态频谱接入方法 |
CN114978295B (zh) * | 2022-07-29 | 2022-10-21 | 中国人民解放军战略支援部队航天工程大学 | 一种面向卫星互联网的跨层抗干扰方法和系统 |
CN116073924B (zh) * | 2023-03-07 | 2023-05-30 | 中国人民解放军军事科学院国防科技创新研究院 | 基于Stackelberg博弈的抗干扰信道分配方法及系统 |
CN117768010B (zh) * | 2024-02-21 | 2024-04-26 | 中国人民解放军战略支援部队航天工程大学 | 一种基于分层斯坦伯格博弈与匹配博弈的卫星抗干扰方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10291347B2 (en) * | 2017-01-03 | 2019-05-14 | Intelligent Fusion Technology, Inc. | Effective cross-layer satellite communications link interferences mitigation in the presence of various RFI types |
CN108616916B (zh) * | 2018-04-28 | 2021-07-13 | 中国人民解放军陆军工程大学 | 一种基于合作抗干扰分层博弈模型的抗干扰学习方法 |
CN113613337B (zh) * | 2021-08-05 | 2023-06-20 | 中国人民解放军陆军工程大学 | 一种面向波束成形通信的用户协作抗干扰方法 |
-
2022
- 2022-05-17 CN CN202210531627.4A patent/CN114698128B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN114698128A (zh) | 2022-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114698128B (zh) | 一种认知星地网络的抗干扰信道选择方法和系统 | |
Li et al. | Applications of multi-agent reinforcement learning in future internet: A comprehensive survey | |
Song et al. | Wireless device-to-device communications and networks | |
CN109639377B (zh) | 基于深度强化学习的频谱资源管理方法 | |
Wang et al. | A survey on applications of model-free strategy learning in cognitive wireless networks | |
CN111800828B (zh) | 一种超密集网络的移动边缘计算资源分配方法 | |
Oladejo et al. | Latency-aware dynamic resource allocation scheme for multi-tier 5G network: A network slicing-multitenancy scenario | |
US20210326695A1 (en) | Method and apparatus employing distributed sensing and deep learning for dynamic spectrum access and spectrum sharing | |
Ma et al. | UAV-aided cooperative data collection scheme for ocean monitoring networks | |
Lu et al. | A cross-layer resource allocation scheme for ICIC in LTE-Advanced | |
CN115065678A (zh) | 一种基于深度强化学习的多智能设备任务卸载决策方法 | |
CN115866787A (zh) | 融合终端直传通信和多接入边缘计算的网络资源分配方法 | |
Tang et al. | Nonconvex dynamic spectrum allocation for cognitive radio networks via particle swarm optimization and simulated annealing | |
Nasr-Azadani et al. | Distillation and ordinary federated learning actor-critic algorithms in heterogeneous UAV-aided networks | |
CN116302569B (zh) | 一种基于用户请求信息的资源分区智能化调度方法 | |
Nguyen et al. | Utility optimization for blockchain empowered edge computing with deep reinforcement learning | |
Elhachmi | Distributed reinforcement learning for dynamic spectrum allocation in cognitive radio‐based internet of things | |
Rohoden et al. | Evolutionary game theoretical model for stable femtocells’ clusters formation in hetnets | |
Ren et al. | Joint spectrum allocation and power control in vehicular communications based on dueling double DQN | |
CN112383965B (zh) | 基于drqn和多传感器模型的认知无线电功率分配方法 | |
Nauman et al. | Dynamic resource management in integrated NOMA terrestrial–satellite networks using multi-agent reinforcement learning | |
Chen et al. | Efficient Task Scheduling and Resource Allocation for AI Training Services in Native AI Wireless Networks | |
Amiri | Reinforcement learning in self organizing cellular networks | |
CN113497816B (zh) | 一种智能物联网边缘网关服务器协作式任务卸载方法 | |
Wu et al. | Explore Deep Reinforcement Learning to Energy-efficient Data Synchronism in 5G Self-powered Sensor Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220913 |