CN114698128B - 一种认知星地网络的抗干扰信道选择方法和系统 - Google Patents

一种认知星地网络的抗干扰信道选择方法和系统 Download PDF

Info

Publication number
CN114698128B
CN114698128B CN202210531627.4A CN202210531627A CN114698128B CN 114698128 B CN114698128 B CN 114698128B CN 202210531627 A CN202210531627 A CN 202210531627A CN 114698128 B CN114698128 B CN 114698128B
Authority
CN
China
Prior art keywords
interference
cognitive
user
users
cognitive user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202210531627.4A
Other languages
English (en)
Other versions
CN114698128A (zh
Inventor
贾录良
王梦阳
储飞黄
方胜良
颜培杰
李海滨
吴署光
杨忠霖
周尚辉
胡豪杰
万颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peoples Liberation Army Strategic Support Force Aerospace Engineering University
Original Assignee
Peoples Liberation Army Strategic Support Force Aerospace Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peoples Liberation Army Strategic Support Force Aerospace Engineering University filed Critical Peoples Liberation Army Strategic Support Force Aerospace Engineering University
Priority to CN202210531627.4A priority Critical patent/CN114698128B/zh
Publication of CN114698128A publication Critical patent/CN114698128A/zh
Application granted granted Critical
Publication of CN114698128B publication Critical patent/CN114698128B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/54Allocation or scheduling criteria for wireless resources based on quality criteria
    • H04W72/541Allocation or scheduling criteria for wireless resources based on quality criteria using the level of interference
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/382Monitoring; Testing of propagation channels for resource allocation, admission control or handover
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/1851Systems using a satellite or space-based relay
    • H04B7/18517Transmission equipment in earth stations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Astronomy & Astrophysics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • General Physics & Mathematics (AREA)
  • Electromagnetism (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Radio Relay Systems (AREA)

Abstract

本发明涉及一种认知星地网络的抗干扰信道选择方法和系统,基于认知用户和外部恶意干扰之间存在明显分层行为,将抗干扰决策问题建模为一个Stackelberg博弈,同时针对认知用户间相干扰呈现局部影响的特性,建立图博弈的下层子博弈模型,最后基于局部信息交互的分层学习算法以及Q学习算法来收敛对应的子博弈模型,与其他算法相比,不仅收敛性能突出,而且该算法的系统平均吞吐量接近最优NE解,从而解决了现有技术所采用算法收敛效果差、信道选择结果不准确的问题,缓解用频短缺和频谱利用率不高的现状,提高频谱资源利用率。

Description

一种认知星地网络的抗干扰信道选择方法和系统
技术领域
本发明涉及通讯领域,特别涉及一种认知星地网络的抗干扰信道选择方法和系统。
背景技术
随着信息技术的快速发展,“频谱短缺”与“频谱利用率低下”的矛盾日益凸显,基于认知无线电的星地系统之间的动态频谱共享,可以有效提升频谱利用效率,增加星地一体化网络的信息服务能力。目前关于认知星地网络频谱共享的研究很多,比如部分文献研究利用波束成形技术研究了卫星和地面网络的频谱共享问题,其中卫星上行链路用户为主用户,地面下行链路用户为认知用户。部分文献研究认知星地网络的频谱共享问题,利用中继链路实现与地面认知用户的频谱共享。还有部分文献提出了一种新颖的认知卫星网络设计,地面认知用户根据频谱保护距离的不同采用不同的频谱接入策略,构造了一个多通道访问博弈和一个功率优化博弈。除此之外,为了从不同角度刻画用户之间的关系,使系统整体效果最优,部分文献采用图形博弈的方法,研究了小蜂窝网络的负载感知频谱接入问题。部分文献研究认知无线电网络中分布式信道选择的全局优化问题,提出了两种特殊的局部交互博弈:局部利他博弈和局部拥塞博弈,通过局部信息交互,实现全局最优。
然而,这些研究忽略了外部恶意干扰或者认知用户之间干扰的影响。比如这些研究工作中都隐含一个假设,即所有用户同时行动,没有考虑用户和干扰之间的分层行为特征。因此存在现有技术的算法收敛效果差、抗干扰信道选择结果不准确、难以到达预期效果的技术问题。
发明内容
本发明所要解决的技术问题是提供一种认知星地网络的抗干扰信道选择方法和系统,解决了现有算法收敛效果差、抗干扰信道选择不准确的技术问题。
本发明解决上述技术问题的技术方案如下:一种认知星地网络的抗干扰信道选择方法,包括以下步骤:
步骤1,构建认知星地网络通信场景,并将所述认知星地网络通信场景下的抗干扰决策问题建模为Stackelberg博弈模型,所述Stackelberg博弈模型中认知用户为跟随者,干扰为领导者,所述干扰包括认知用户间互扰、多波束卫星通信系统对地面认知用户的同信道干扰以及外部恶意干扰;
步骤2,基于认知用户的局部互利博弈特性定义所述Stackelberg博弈模型中认知用户对应的下层子博弈模型以及外部恶意干扰对应的上层子博弈模型,其中认知用户的效用函数为干扰条件下认知用户以及对应相邻用户所获得的整体吞吐量,外部恶意干扰的效用函数为认知用户策略保持不变时干扰对认知用户以及对应相邻用户的整体吞吐量影响;
步骤3,基于局部信息交互的分层学习算法对所述认知用户的当前策略进行更新,基于Q学习的信道选择算法对所述外部恶意干扰的当前策略进行更新,直至达到预设收敛条件时生成最优的抗干扰信道选择,以获得所述Stackelberg博弈模型的最优均衡解。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,通过干扰图定量描述认知用户之间的局部互干扰特性,所述认知用户与所述干扰图的顶点一一对应,当两个认知用户之间的距离小于预设门限时,将对应认知用户进行连接,且存在连接关系的两认知用户互为对方的相邻用户。
进一步,所述Stackelberg博弈模型的下层子博弈模型为图博弈模型,建立所述下层子博弈模型具体包括:
S201,定义动作图
Figure 808739DEST_PATH_IMAGE001
,其中N是节点集合对应认知用户集,每个节点表示一个认知用户对;每一个节点即认知用户
Figure 849245DEST_PATH_IMAGE002
选择的信道为
Figure 190709DEST_PATH_IMAGE003
,其中
Figure 797009DEST_PATH_IMAGE004
是认知用户的策略集;
Figure 883170DEST_PATH_IMAGE005
是相邻认知用户对应的边的集合;
S202,定义图博弈模型为
Figure 348655DEST_PATH_IMAGE006
,其中
Figure 575368DEST_PATH_IMAGE007
是博弈参与者的效用函数;
S203,定义所述Stackelberg博弈模型的下层子博弈模型为:
Figure 56682DEST_PATH_IMAGE008
其中,N是认知用户集,A n 是认知用户的策略集,θ n 是认知用户与相邻用户连接的边的集合, U1 n 是认知用户n的效用函数;所述认知用户n的效用函数为干扰条件下认知用户以及对应相邻用户所获得的整体吞吐量,具体表示为:
Figure 841973DEST_PATH_IMAGE009
,
其中,
Figure 827378DEST_PATH_IMAGE010
是认知用户n的相邻用户集合,
Figure 93668DEST_PATH_IMAGE011
是多波束卫星通信系统的同信道干扰,
Figure 877822DEST_PATH_IMAGE012
是关于认知用户外部恶意干扰,
Figure 335479DEST_PATH_IMAGE013
是认知用户n的相邻用户k的相邻用户集合,
Figure 569365DEST_PATH_IMAGE014
是多波束卫星通信系统对认知用户n的相邻用户k的同信道干扰,
Figure 901995DEST_PATH_IMAGE015
是外部恶意干扰对认知用户n的相邻用户k的干扰,
Figure 307699DEST_PATH_IMAGE016
为关于该相邻用户k的外部恶意干扰
Figure 437723DEST_PATH_IMAGE017
的干扰信道策略,
Figure 161834DEST_PATH_IMAGE018
为认知用户n的相邻用户k的相邻用户的信道选择策略,
Figure 967329DEST_PATH_IMAGE019
为对认知用户n的相邻用户k遭受的多波束卫星通信系统干扰的信道选择策略,
Figure 493120DEST_PATH_IMAGE020
是认知用户n所获得的吞吐量,
Figure 728798DEST_PATH_IMAGE021
是认知用户n的相邻用户k所获得的吞吐量;
S204,所述认知用户以自身效用函数为优化目标,通过调整策略使自身效用函数最大化,具体表示为:
Figure 739873DEST_PATH_IMAGE022
进一步,所述定义Stackelberg博弈模型中外部恶意干扰对应的上层子博弈模型,具体包括:
S205,假设认知用户n为跟随者,干扰为领导者,基于干扰对所述认知用户n以及与对应相邻用户k的干扰效果,所述Stackelberg博弈模型的上层子博弈模型定义为:
Figure 853453DEST_PATH_IMAGE023
其中,J是外部恶意干扰,
Figure 997864DEST_PATH_IMAGE024
是外部恶意干扰的策略集,
Figure 463831DEST_PATH_IMAGE025
是外部恶意干扰的效用函数;所述外部恶意干扰的效用函数
Figure 867262DEST_PATH_IMAGE025
表示认知用户策略保持不变时干扰对认知用户以及对应相邻用户的整体吞吐量影响,具体为:
Figure 345385DEST_PATH_IMAGE026
其中,n表示认知用户集N中的一个认知用户,
Figure 550495DEST_PATH_IMAGE027
为认知用户n从策略集
Figure 393555DEST_PATH_IMAGE028
中所选择的接入信道,
Figure 612178DEST_PATH_IMAGE029
为关于认知用户n的外部恶意干扰
Figure 164683DEST_PATH_IMAGE030
的干扰信道策略,即
Figure 283687DEST_PATH_IMAGE031
Figure 799113DEST_PATH_IMAGE032
Figure 740918DEST_PATH_IMAGE010
是认知用户n的相邻用户集合,
Figure 560844DEST_PATH_IMAGE033
为相邻用户集合中相邻用户k从策略集
Figure 973502DEST_PATH_IMAGE034
中所选择的接入信道,
Figure 217751DEST_PATH_IMAGE035
为关于该相邻用户k的外部恶意干扰
Figure 643922DEST_PATH_IMAGE036
的干扰信道策略,且:
Figure 909950DEST_PATH_IMAGE037
Figure 740896DEST_PATH_IMAGE038
S206,所述外部恶意干扰以自身效用函数为优化目标,通过调整策略使自身效用函数最大化,具体表示为:
Figure 158977DEST_PATH_IMAGE039
进一步,所述基于局部信息交互的分层学习算法对认知用户的当前策略进行更新,基于Q学习的信道选择算法对所述外部恶意干扰的当前策略进行更新,包括以下步骤:
S301,设置t=0,h=0,让每个认知用户n从认知用户的策略集
Figure 777171DEST_PATH_IMAGE040
中等概率随机选择一个信道
Figure 139232DEST_PATH_IMAGE041
,获得初始奖励
Figure 87335DEST_PATH_IMAGE042
S302,在时期h时,外部恶意干扰根据干扰策略
Figure 912202DEST_PATH_IMAGE043
选择干扰信道
Figure 519157DEST_PATH_IMAGE044
S303,在时期h的第t时隙,所述认知用户n根据策略集
Figure 422260DEST_PATH_IMAGE045
选择信道
Figure 221939DEST_PATH_IMAGE046
,然后所述认知用户n与相邻用户k交互信息后,计算对应的效用
Figure 420971DEST_PATH_IMAGE047
Figure 574609DEST_PATH_IMAGE048
,并按照以下规则更新当前抗干扰策略:
如果
Figure 18753DEST_PATH_IMAGE049
,更新概率为
Figure 177333DEST_PATH_IMAGE050
如果
Figure 576959DEST_PATH_IMAGE051
,更新概率为
Figure 707244DEST_PATH_IMAGE052
其中,
Figure 719193DEST_PATH_IMAGE053
为学习参数;G为表示接受当前过程的概率;
S304,对外部恶意干扰根据以下公式更新Q值:
Figure 168498DEST_PATH_IMAGE054
Figure 538693DEST_PATH_IMAGE055
其中,Q值表示强化学习算法的状态、动作的值;
且按照以下规则更新当前干扰策略:
Figure 604606DEST_PATH_IMAGE056
其中,
Figure 685826DEST_PATH_IMAGE057
表示学习速率,
Figure 49025DEST_PATH_IMAGE058
表示干扰效用,
Figure 524874DEST_PATH_IMAGE059
表示外部恶意干扰在时期h从干扰信道集
Figure 110707DEST_PATH_IMAGE060
选择干扰信道
Figure 497083DEST_PATH_IMAGE061
的概率,
Figure 452138DEST_PATH_IMAGE062
是调节因子,用于调节学习过程中探测与利用的折中;
S305,重复以上过程S302-S304,直至实际迭代次数大于预设最大迭代次数。
为了解决本发明的技术问题,还提供了一种认知星地网络的抗干扰信道选择系统,包括构建模块、定义模块和计算模块,
所述构建模块用于构建认知星地网络通信场景,并将所述认知星地网络通信场景下的抗干扰决策问题建模为Stackelberg博弈模型,所述Stackelberg博弈模型中认知用户为跟随者,干扰为领导者,所述干扰包括认知用户间互扰、多波束卫星通信系统对地面认知用户的同信道干扰以及外部恶意干扰;
所述定义模块用于基于认知用户的局部互利博弈特性定义所述Stackelberg博弈模型中认知用户对应的下层子博弈模型以及外部恶意干扰对应的上层子博弈模型,其中认知用户的效用函数为干扰条件下认知用户以及对应相邻用户所获得的整体吞吐量,外部恶意干扰的效用函数为认知用户策略保持不变时干扰对认知用户以及对应相邻用户的整体吞吐量影响;
所述计算模块用于基于局部信息交互的分层学习算法对所述认知用户的当前策略进行更新,基于Q学习的信道选择算法对所述外部恶意干扰的当前策略进行更新,直至达到预设收敛条件时生成最优的抗干扰信道选择,以获得所述Stackelberg博弈模型的最优均衡解。
进一步,还包括相邻用户选择模块,所述相邻用户选择模块用于通过干扰图定量描述认知用户之间的局部互干扰特性,所述认知用户与所述干扰图的顶点一一对应,当两个认知用户之间的距离小于预设门限时,将对应认知用户进行连接,且存在连接关系的两认知用户互为对方的相邻用户。
本发明的有益效果包括:
(1)本发明考虑到认知用户和外部恶意干扰之间存在明显分层行为,将所述抗干扰决策问题建模为一个Stackelberg博弈,且该博弈同时考虑两个层面的竞争,即外部恶意干扰与认知用户之间的竞争以及认知用户内部间的竞争。
(2)本发明针对认知用户间相干扰呈现局部影响的特性,提出局部理性的假设,并且把该问题建模为图博弈(Graph game)/局部影响博弈(Local interaction game),这样每个认知用户在充分考虑各方面干扰的前提下,做出决策时需同时考虑自身效用和相邻用户效用,以此通过局部信息交互来实现全网最优。
(3)本发明提出了基于局部信息交互的分层学习算法以及Q学习算法来收敛对应的子博弈模型,与其他算法相比,不仅收敛性能突出,而且该算法的系统平均吞吐量接近最优NE解,从而解决了现有技术所采用算法收敛效果差、信道选择结果不准确的问题,缓解用频短缺和频谱利用率不高的现状,提高频谱资源利用率。
为使发明的上述目的、特征和优点能更明显易懂,下文特举本发明较佳实施例,并配合所附附图,作详细说明如下。
附图说明
图1为本发明实施例提供的认知星地网络的系统模型图;
图2为本发明实施例提供的干扰图的示意图;
图3为本发明实施例提供的认知星地网络的抗干扰信道选择方法的流程示意图;
图4为本发明实施例提供的认知星地网络的抗干扰信道选择系统的结构示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
图1为本发明实施例提供的认知星地网络的系统模型图,如图1所示,本发明涉及一个多波束卫星通信系统,每个波束服务于一个特定区域。GEO卫星及其固定卫星接收站是主用户,而地面用户是认知用户,每个认知用户都对应于一个由发射机和接收机组成的通信链路。认知用户通过频谱感知或查询本地数据库的方式来获取主卫星用户的可用空闲频谱信息。本发明考虑不存在中心控制器的情况,系统中有个N个认知用户和M个授权信道,认知用户使用机会频谱接入方式,自主地竞争可用空闲信道,即当授权信道空闲时,认知用户接入信道进行数据传输;反之,认知用户不能接入授权信道,必须保持静默。
由于认知用户在空间上任意分布,用户间的互干扰呈现局部影响的特性。为了定量描述认知用户之间的局部互干扰特性,本发明优选实施例引入干扰图的概念,如图2所示。认知用户和干扰图上的顶点一一对应,而两个用户之间的距离决定了干扰图的边。具体地,当两个认知用户之间的距离小于预设门限时,代表该认知用户的顶点之间由一条边相连接。即存在如图2所述连接关系的两认知用户互为对方的相邻用户,而当选择一样的信道时,干扰图上相邻用户之间会互相干扰。如图2所示,该干扰图中包含5个认知用户,认知用户间的互干扰呈现局部影响的特性,比如,若认知用户选择同一信道,认知用户5只会对认知用户4产生干扰,却不会对认知用户1,2和3产生干扰。
在上述前提下,本发明实施例假设认知用户能够感知和获得全部信道信息,即所用信道的状态已知。但由于设备条件受限,认知用户在同一时间只能接入一个信道进行传输。针对认知用户上述特点,本发明建立基于时隙Aloha的传输模型。具体来说,当认知用户想接入某一授权信道进行数据传输时,它以概率
Figure 131512DEST_PATH_IMAGE063
接入信道,以概率
Figure 903509DEST_PATH_IMAGE064
保持静默。
记认知用户n的可用信道集为
Figure 293908DEST_PATH_IMAGE065
,即:
Figure 604935DEST_PATH_IMAGE066
(1)
假定认知用户n选择接入信道
Figure 956675DEST_PATH_IMAGE067
,则它能获得的吞吐量为:
Figure 281215DEST_PATH_IMAGE068
(2)
其中,
Figure 711191DEST_PATH_IMAGE069
是认知用户n的相邻用户集合,
Figure 169067DEST_PATH_IMAGE070
是外部恶意干扰,
Figure 423200DEST_PATH_IMAGE071
是多波束卫星通信系统的同信道干扰。
Figure 378911DEST_PATH_IMAGE072
是如下指示函数:
Figure 878156DEST_PATH_IMAGE073
(3)
那么,系统的网络吞吐量可表示为:
Figure 193469DEST_PATH_IMAGE074
(4)
因此本发明要解决的抗干扰信道选择需要考虑的优化目标是寻找最优的信道选择组合使得系统的吞吐量最大,即:
Figure 373432DEST_PATH_IMAGE075
(5)
该信道选择问题是组合优化问题,针对这类问题,现有技术常用穷举方法进行求解,但穷举法计算复杂度很高,而其它的一些启发式算法,比如贪心算法,可能得不到全局最优解。本发明的实施例采用博弈模型来进行抗干扰信道选择。
具体来说,本发明的认知星地网络场景中,地面认知用户需要考虑外部恶意干扰、多波束卫星通信系统的同信道干扰和用户间互扰等多方面影响,从干扰效果来说,多波束卫星通信系统的同信道干扰可以归结为“非智能”的外部恶意干扰或者“特殊”的背景噪声。
如图3所述,本发明的一个实施例提供了一种认知星地网络的抗干扰信道选择方法,包括以下步骤:
步骤1,构建认知星地网络通信场景,并将所述认知星地网络通信场景下的抗干扰决策问题建模为Stackelberg博弈模型。具体来说,从数学上它可表示为
Figure 642870DEST_PATH_IMAGE076
。其中,N表示认知用户集,J表示外部恶意干扰,A和C分别表示认知用户和恶意干扰的策略集,
Figure 709921DEST_PATH_IMAGE077
Figure 351511DEST_PATH_IMAGE078
分别表示认知用户n和外部恶意干扰的效用函数。该博弈模型能够同时考虑两个层面的竞争:外部恶意干扰与认知用户之间的竞争以及认知用户内部间的竞争。在考虑的模型中,用户为了有效应对干扰需要进行干扰检测,假设用户为跟随者,干扰为领导者,认知用户和干扰各自独立地进行信道选择,并且追求自身效用的最大化。为了分析求解该博弈的Stackelberg均衡,采用经典的Stackelberg博弈分析方法—逆向递推法,即先分析下层子博弈,再分析上层子博弈。
然后执行步骤2,基于认知用户的局部互利博弈特性定义所述Stackelberg博弈模型中认知用户对应的下层子博弈模型。具体来说,针对认知用户间互扰呈现局部影响的特性,把该问题建模为局部影响博弈,比如可以选择图博弈模型。通过建立的图博弈模型,重点研究如何分布式求解全网最优解。一个优选实施例中,具体建立所述下层子博弈模型具体包括:
S201,定义动作图
Figure 980070DEST_PATH_IMAGE001
,其中N是节点集合,每个节点表示一个认知用户对;每一个节点
Figure 235339DEST_PATH_IMAGE002
选择的信道为
Figure 40835DEST_PATH_IMAGE003
,其中
Figure 832204DEST_PATH_IMAGE004
是认知用户的策略集;
Figure 536724DEST_PATH_IMAGE005
是相邻认知用户对应的边的集合;
S202,定义图博弈模型为
Figure 485482DEST_PATH_IMAGE006
,其中
Figure 628756DEST_PATH_IMAGE007
是博弈参与者的效用函数;
S203,定义所述Stackelberg博弈模型的下层子博弈模型为:
Figure 239079DEST_PATH_IMAGE008
(6);
其中,N是认知用户集,
Figure 209440DEST_PATH_IMAGE079
是认知用户的策略集,
Figure 908144DEST_PATH_IMAGE080
是认知用户与相邻用户连接的边的集合,
Figure 326880DEST_PATH_IMAGE081
是认知用户的效用函数。
以往传统的博弈模型中,博弈参与者以利己主义进行决策,只考虑个体最大化回报,而这种方式往往难以实现全局最优。本发明借鉴自然界中局部互利行为,即是生物个体在做决策时会考虑其邻近的其他个体,提出一种基于局部互利博弈的频谱接入方式,此时认知用户的效用函数
Figure 92842DEST_PATH_IMAGE082
为干扰条件下认知用户以及对应相邻用户所获得的整体吞吐量,具体表示为:
Figure 935902DEST_PATH_IMAGE083
(7),
其中,
Figure 853393DEST_PATH_IMAGE010
是认知用户n的相邻用户集合,
Figure 167830DEST_PATH_IMAGE011
是多波束卫星通信系统的同信道干扰,
Figure 693359DEST_PATH_IMAGE012
是外部恶意干扰,
Figure 975829DEST_PATH_IMAGE084
是邻居用户集合,
Figure 180283DEST_PATH_IMAGE085
是多波束卫星通信系统对认知用户n的邻居用户的同信道干扰,
Figure 642619DEST_PATH_IMAGE086
是外部恶意干扰对认知用户n的邻居用户的干扰,
Figure 902216DEST_PATH_IMAGE087
是认知用户n所获得的吞吐量,
Figure 352658DEST_PATH_IMAGE088
是认知用户n的相邻用户k所获得的吞吐量。即是认知用户n进行决策时,它不仅考虑自己,还同时考虑它的相邻用户。以图2为例进行说明,认知用户1考虑认知用户1、2和4的吞吐量之和,认知用户2考虑认知用户2、1、3和4的吞吐量之和,认知用户3考虑认知用户3、2和4的吞吐量之和,认知用户4考虑认知用户4、1、2、3和5的吞吐量之和,而认知用户5考虑认知用户5和4的吞吐量之和。
S204,所述认知用户以自身效用函数为优化目标,通过调整策略使自身效用函数最大化,即:
所述认知用户的优化目标表示为:
Figure 985021DEST_PATH_IMAGE022
(8)。
上述下层子博弈模型为精确势能博弈模型,且至少存在一个纯策略纳什均衡。具体证明过程如下:
首先构造下层子博弈模型的下列势能函数:
Figure 844524DEST_PATH_IMAGE089
(9)
其中,
Figure 141382DEST_PATH_IMAGE090
是认知用户n获得的吞吐量,该势能函数与公式4定义的网络吞吐量一样。若任意认知用户单方面把它的信道选择由
Figure 25375DEST_PATH_IMAGE091
改为
Figure 705886DEST_PATH_IMAGE092
,则该认知用户的效用函数的变化量如下:
Figure 805298DEST_PATH_IMAGE093
(10)
整合上式,令:
Figure 756329DEST_PATH_IMAGE094
(11)
Figure 253301DEST_PATH_IMAGE095
(12)
上式整合后为:
Figure 654064DEST_PATH_IMAGE096
(13)
其中,
Figure 819817DEST_PATH_IMAGE097
表示认知用户n单方面改变信道选择后,认知用户n的效用变化量。
Figure 858311DEST_PATH_IMAGE098
表示认知用户n单方面改变信道选择后,认知用户n的相邻用户的效用变化量。
而认知用户n单方面改变信道选择导致势能函数的变化量为:
Figure 555877DEST_PATH_IMAGE099
(14)
整合上式,令:
Figure 712446DEST_PATH_IMAGE100
(15)
Figure 419239DEST_PATH_IMAGE101
(16)
上式整合后为:
Figure 515502DEST_PATH_IMAGE102
(17)
其中,
Figure 708937DEST_PATH_IMAGE103
表示认知用户n单方面改变信道选择后,相邻用户获得吞吐量。C\D表示集合D从集合C中删除。由于认知用户n只考虑其相邻用户的效用,那么有:
Figure 21975DEST_PATH_IMAGE104
(18)
又因为,
Figure 768345DEST_PATH_IMAGE105
(19)
所以可知下面等式成立:
Figure 548476DEST_PATH_IMAGE106
(20)
由上述分析可知,任意认知用户n单方面的信道选择改变导致该用户的效用函数变化和导致的势能函数变化相等,因此该博弈
Figure 119003DEST_PATH_IMAGE107
是一个精确势能博弈。精确势能潜博弈具有很多独特的性质,其中最重要的两条如下:
1.任何精确势能博弈至少有一个纯策略纳什均衡;
2.势能函数的全局或局部最优解是一个纳什均衡。
然后基于认知用户的局部互利博弈特性定义外部恶意干扰对应的上层子博弈模型。具体来说,在建模的抗干扰Stackelberg博弈中,由于认知用户考虑局部理性,在考虑自身效用的时候,同时还考虑相邻用户的效用,所以,干扰也需要同时考虑对认知用户及其相邻用户的干扰效果。此时,执行S205,所述Stackelberg博弈模型的上层子博弈模型定义为:
Figure 951961DEST_PATH_IMAGE023
(21);
其中,J是外部恶意干扰,
Figure 21065DEST_PATH_IMAGE024
是外部恶意干扰的策略集,
Figure 652773DEST_PATH_IMAGE108
是外部恶意干扰的效用函数;所述外部恶意干扰的效用函数
Figure 131552DEST_PATH_IMAGE108
表示认知用户策略保持不变时干扰对认知用户以及对应相邻用户的整体吞吐量影响,具体为:
Figure 717385DEST_PATH_IMAGE109
(22),
其中,n表示认知用户集N中的一个认知用户,
Figure 304093DEST_PATH_IMAGE110
为认知用户n从策略集
Figure 521798DEST_PATH_IMAGE111
中所选择的接入信道,
Figure 466752DEST_PATH_IMAGE112
为外部恶意干扰
Figure 38416DEST_PATH_IMAGE030
的干扰信道策略,
Figure 727018DEST_PATH_IMAGE113
是认知用户n的相邻用户集合,
Figure 273930DEST_PATH_IMAGE114
为相邻用户集合中相邻用户k从策略集
Figure 888320DEST_PATH_IMAGE111
中所选择的接入信道,
Figure 448745DEST_PATH_IMAGE115
为外部恶意干扰
Figure 171064DEST_PATH_IMAGE116
的干扰信道策略,且
Figure 38395DEST_PATH_IMAGE117
(23);
S206,所述外部恶意干扰以自身效用函数为优化目标,通过调整策略使自身效用函数最大化,即:
Figure 29878DEST_PATH_IMAGE039
(24)。
上述上层子博弈模型为精确势能博弈模型,且至少存在一个纯策略纳什均衡。具体证明过程如下:
首先构造上述上层子博弈模型对应的势能函数:
Figure 812020DEST_PATH_IMAGE118
(25)
其中
Figure 606539DEST_PATH_IMAGE119
是外部恶意干扰对认知用户的干扰效益。若任意认知用户单方面地把它的信道选择从
Figure 653342DEST_PATH_IMAGE120
改为
Figure 579841DEST_PATH_IMAGE121
,则该认知用户的效用函数的改变量如下:
Figure 19919DEST_PATH_IMAGE122
(26)
另一方面,认知用户n单方面改变信道选择导致势能函数产生下面的改变量:
Figure 355478DEST_PATH_IMAGE123
(27)
其中,
Figure 994139DEST_PATH_IMAGE124
表示认知用户单方面改变信道选择后,外部恶意干扰获得的干扰效益。C\D表示集合D从集合C中删除。由于干扰效益只考虑对认知用户n及其相邻用户产生的直接影响,那么有:
Figure 825960DEST_PATH_IMAGE125
(28)
由上可知下面的等式成立:
Figure 101737DEST_PATH_IMAGE126
(29)
由上述分析可知,任意认知用户单方面的信道选择改变导致外部恶意干扰的效用函数变化和导致的势能函数变化相等,因此该上层子博弈是一个精确势能博弈,至少存在一个纯策略纳什均衡。
然后执行步骤3,基于局部信息交互的分层学习算法对所述认知用户的当前策略进行更新,基于Q学习的信道选择算法对所述外部恶意干扰的当前策略进行更新,直至达到预设收敛条件,生成所建博弈问题的均衡解。现有技术通常采用试错算法(Trial andError,TE)获得的抗干扰信道选择博弈的均衡解,该算法是完全分布式的,并且在统计意义上收敛到最优的NE,但TE算法没有考虑认知用户之间信息交换。为了克服这个局限,本发明实施例提出了一种基于局部信息交互的分层学习算法(Local information interactionof hierarchical learning algorithm,LIIH),在LIIH算法中,认知用户和干扰在不同的时间尺度上更新策略。干扰的策略更新周期定义为一个时期h,用户在每个时隙t进行策略更新,其中,每个时期包含T个时隙。认知用户n在时隙t从可用信道
Figure 441321DEST_PATH_IMAGE127
中选择信道
Figure 170373DEST_PATH_IMAGE128
的概率
Figure 940140DEST_PATH_IMAGE129
,且满足
Figure 151547DEST_PATH_IMAGE130
。外部恶意干扰在时期h从干扰信道集
Figure 823050DEST_PATH_IMAGE131
中选择信道
Figure 672188DEST_PATH_IMAGE132
的概率
Figure 141085DEST_PATH_IMAGE133
,且满足
Figure 108297DEST_PATH_IMAGE134
利用LIIA算法,认知用户n通过与相邻用户进行信息交互学习获得最佳策略。认知用户在时隙t获得的回报为:
Figure 25569DEST_PATH_IMAGE135
(30)
在上层子博弈模型中,为获得均衡解,提出一种基于Q学习的信道选择算法,外部恶意干扰通过与环境的交互进行策略更新。干扰在时期h获得的回报值为:
Figure 290066DEST_PATH_IMAGE136
(31)
一个具体实施例中,上述收敛过程包括以下步骤:
S301,设置t=0,h=0,让每个认知用户
Figure 661354DEST_PATH_IMAGE137
从认知用户的策略集
Figure 879977DEST_PATH_IMAGE040
中等概率随机选择一个信道
Figure 630633DEST_PATH_IMAGE138
,获得初始奖励
Figure 690250DEST_PATH_IMAGE139
S302,在时期h时,外部恶意干扰根据干扰策略
Figure 736834DEST_PATH_IMAGE043
选择干扰信道
Figure 675709DEST_PATH_IMAGE044
S303,在时期h的第t时隙,所述认知用户根据策略集
Figure 227126DEST_PATH_IMAGE045
选择信道
Figure 702101DEST_PATH_IMAGE140
,然后所述认知用户n与相邻用户k交互信息后,计算对应的效用
Figure 886964DEST_PATH_IMAGE047
并按照以下规则更新当前抗干扰策略:
如果
Figure 50485DEST_PATH_IMAGE141
,更新概率为
Figure 175567DEST_PATH_IMAGE142
如果
Figure 206846DEST_PATH_IMAGE051
,更新概率为
Figure 645434DEST_PATH_IMAGE143
S304,对外部恶意干扰根据以下公式更新Q值:
Figure 794787DEST_PATH_IMAGE144
且按照以下规则更新当前干扰策略:
Figure 894199DEST_PATH_IMAGE145
其中,
Figure 48493DEST_PATH_IMAGE146
表示学习速率,
Figure 138940DEST_PATH_IMAGE058
表示干扰效用,
Figure 539703DEST_PATH_IMAGE059
表示外部恶意干扰在时期h从干扰信道集
Figure 705456DEST_PATH_IMAGE147
选择干扰信道
Figure 478371DEST_PATH_IMAGE061
的概率,
Figure 238254DEST_PATH_IMAGE148
是调节因子,用于调节学习过程中探测与利用的折中;
S305,重复以上过程S302-S304,直至实际迭代次数大于预设最大迭代次数。
以上实施例提出了一种认知星地网络的抗干扰信道选择方法,基于认知用户和外部恶意干扰之间存在明显分层行为,将抗干扰决策问题建模为一个Stackelberg博弈,同时针对认知用户间相干扰呈现局部影响的特性,建立图博弈的子博弈模型,最后基于局部信息交互的分层学习算法以及Q学习算法来收敛对应的子博弈模型,与其他算法相比,不仅收敛性能突出,而且该算法的系统平均吞吐量接近最优NE解,从而解决了现有技术所采用算法收敛效果差、信道选择结果不准确的问题,缓解用频短缺和频谱利用率不高的现状,提高频谱资源利用率。
本发明实施例的第二方面提供了一种认知星地网络的抗干扰信道选择系统,如图4所示,包括构建模块100、定义模块200和计算模块300,
所述构建模块100用于构建认知星地网络通信场景,并将所述认知星地网络通信场景下的抗干扰决策问题建模为Stackelberg博弈模型,所述Stackelberg博弈模型中认知用户为跟随者,干扰为领导者,所述干扰包括认知用户间互扰、多波束卫星通信系统对地面认知用户的同信道干扰以及外部恶意干扰;
所述定义模块200用于基于认知用户的局部互利博弈特性定义所述Stackelberg博弈模型中认知用户对应的下层子博弈模型以及外部恶意干扰对应的上层子博弈模型,其中认知用户的效用函数为干扰条件下认知用户以及对应相邻用户所获得的整体吞吐量,外部恶意干扰的效用函数为认知用户策略保持不变时干扰对认知用户以及对应相邻用户的整体吞吐量影响;
所述计算模块300用于基于局部信息交互的分层学习算法对所述认知用户的当前策略进行更新,基于Q学习的信道选择算法对所述外部恶意干扰的当前策略进行更新,直至达到预设收敛条件时生成最优的抗干扰信道选择,以获得所述Stackelberg博弈模型的最优均衡解。
另一优选实施例中,所述认知星地网络的抗干扰信道选择系统还包括相邻用户选择模块400,所述相邻用户选择模块400用于通过干扰图定量描述认知用户之间的局部互干扰特性,所述认知用户与所述干扰图的顶点一一对应,当两个认知用户之间的距离小于预设门限时,将对应认知用户进行连接,且存在连接关系的两认知用户互为对方的相邻用户。
本发明实施例还提供了一种非易失性计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行,可使得上述一个或多个处理器可执行上述任意方法实施例中的认知星地网络的抗干扰信道选择方法。
本发明实施例还提供了一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被电子设备执行时,使所述电子设备执行任一项所述的认知星地网络的抗干扰信道选择方法。
以上所描述的装置或设备实施例仅仅是示意性的,其中所述作为分离部件说明的单元模块可以是或者也可以不是物理上分开的,作为模块单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络模块单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明,它们没有在细节中提供;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (6)

1.一种认知星地网络的抗干扰信道选择方法,其特征在于,包括以下步骤:
步骤1,构建认知星地网络通信场景,并将所述认知星地网络通信场景下的抗干扰决策问题建模为Stackelberg博弈模型,所述Stackelberg博弈模型中认知用户为跟随者,干扰为领导者,所述干扰包括认知用户间互扰、多波束卫星通信系统对地面认知用户的同信道干扰以及外部恶意干扰;
步骤2,基于认知用户的局部互利博弈特性定义所述Stackelberg博弈模型中认知用户对应的下层子博弈模型以及外部恶意干扰对应的上层子博弈模型,其中认知用户的效用函数为干扰条件下认知用户以及对应相邻用户所获得的整体吞吐量,外部恶意干扰的效用函数为认知用户策略保持不变时干扰对认知用户以及对应相邻用户的整体吞吐量影响;
步骤3,基于局部信息交互的分层学习算法对所述认知用户的当前策略进行更新,认知用户和干扰在不同的时间尺度上更新策略;基于Q学习的信道选择算法对所述外部恶意干扰的当前策略进行更新,直至达到预设收敛条件时生成最优的抗干扰信道选择,以获得所述Stackelberg博弈模型的最优均衡解;
其中,所述Stackelberg博弈模型的下层子博弈模型为图博弈模型,所述步骤2包括:
S201,定义动作图Ls=(N,An,θ),其中N是节点集合对应认知用户集,每个节点表示一个认知用户对;每一个节点即认知用户n∈N选择的信道为αn∈An,其中An是认知用户的策略集;θ是相邻认知用户对应的边的集合;
S202,定义图博弈模型为Ψ=(Ls,U),其中U是博弈参与者的效用函数;
S203,定义所述Stackelberg博弈模型的下层子博弈模型为:
Figure FDA0003783311330000011
其中,N是认知用户集,An是认知用户的策略集,θn是认知用户与相邻用户连接的边的集合,U1n是认知用户n的效用函数;
S204,所述认知用户n以自身效用函数为优化目标,通过调整策略使自身效用函数最大化,具体表示为:
Figure FDA0003783311330000012
其中,Pn是认知用户n的相邻用户集合,Zn是多波束卫星通信系统的同信道干扰,Jn是关于认知用户外部恶意干扰,
Figure FDA0003783311330000021
为外部恶意干扰Jn的干扰信道策略,
Figure FDA0003783311330000022
为认知用户n的相邻用户的信道策略,
Figure FDA0003783311330000023
为对认知用户n遭受的多波束卫星通信系统干扰的信道选择策略;
S205,假设认知用户n为跟随者,干扰为领导者,基于干扰对所述认知用户n以及与对应相邻用户k的干扰效果,将所述Stackelberg博弈模型的上层子博弈模型定义为:
Figure FDA0003783311330000024
其中,J是外部恶意干扰,Cj是外部恶意干扰的策略集,U2n是外部恶意干扰的效用函数;
S206,所述外部恶意干扰以自身效用函数为优化目标,通过调整策略使自身效用函数最大化,具体表示为:
Figure FDA0003783311330000025
所述外部恶意干扰的效用函数表示为:
Figure FDA0003783311330000026
其中,n表示认知用户集N中的一个认知用户,an为认知用户n从策略集An中所选择的接入信道,
Figure FDA0003783311330000027
为关于认知用户n的外部恶意干扰Jn的干扰信道策略,即
Figure FDA0003783311330000028
Figure FDA0003783311330000029
Pn是认知用户n的相邻用户集合,ak为相邻用户集合中相邻用户k从策略集An中所选择的接入信道,
Figure FDA00037833113300000210
为关于该相邻用户k的外部恶意干扰Jk的干扰信道策略,且:
Figure FDA00037833113300000211
2.根据权利要求1所述认知星地网络的抗干扰信道选择方法,其特征在于,通过干扰图定量描述认知用户之间的局部互干扰特性,所述认知用户与所述干扰图的顶点一一对应,当两个认知用户之间的距离小于预设门限时,将对应认知用户进行连接,且存在连接关系的两认知用户互为对方的相邻用户。
3.根据权利要求1所述认知星地网络的抗干扰信道选择方法,其特征在于,所述认知用户n的效用函数表示为:
Figure FDA0003783311330000031
其中,Pn是认知用户n的相邻用户集合,Zn是多波束卫星通信系统的同信道干扰,Jn是关于认知用户外部恶意干扰,Pk是认知用户n的相邻用户k的相邻用户集合,Zk是多波束卫星通信系统对认知用户n的相邻用户k的同信道干扰,Jk是外部恶意干扰对认知用户n的相邻用户k的干扰,
Figure FDA0003783311330000032
为关于该相邻用户k的外部恶意干扰Jk的干扰信道策略,
Figure FDA0003783311330000033
为认知用户n的相邻用户k的相邻用户的信道选择策略,
Figure FDA0003783311330000034
为对认知用户n的相邻用户k遭受的多波束卫星通信系统干扰的信道选择策略,
Figure FDA0003783311330000035
是认知用户n所获得的吞吐量,
Figure FDA0003783311330000036
是认知用户n的相邻用户k所获得的吞吐量。
4.根据权利要求1所述认知星地网络的抗干扰信道选择方法,其特征在于,所述步骤3包括以下步骤:
S301,设置t=0,h=0,让每个认知用户n从认知用户的策略集An中等概率随机选择一个信道an(0),获得初始奖励un(0);
S302,在时期h时,外部恶意干扰根据干扰策略Cj(h)选择干扰信道cjn
S303,在时期h的第t时隙,所述认知用户n根据策略集An(t)选择信道an(t),然后所述认知用户n与相邻用户k交互信息后,计算对应的效用un(t),
Figure FDA0003783311330000041
并按照以下规则更新当前抗干扰策略:
如果un(t+1)≥un(t),更新概率为
Figure FDA0003783311330000042
如果un(t+1)≤un(t),更新概率为
Figure FDA0003783311330000043
其中,ω为学习参数;G为表示接受当前过程的概率;
S304,对外部恶意干扰根据以下公式更新Q值:
Figure FDA0003783311330000044
Figure FDA0003783311330000045
其中,Q值表示强化学习算法的状态、动作的值;
且按照以下规则更新当前干扰策略:
Figure FDA0003783311330000046
其中,α表示学习速率,uj(h)表示干扰效用,qj(h)表示外部恶意干扰在时期h从干扰信道集Cj(h)选择干扰信道cj的概率,β是调节因子,用于调节学习过程中探测与利用的折中;
S305,重复以上过程S302-S304,直至实际迭代次数大于预设最大迭代次数。
5.一种认知星地网络的抗干扰信道选择系统,其特征在于,包括构建模块、定义模块和计算模块,
所述构建模块用于构建认知星地网络通信场景,并将所述认知星地网络通信场景下的抗干扰决策问题建模为Stackelberg博弈模型,所述Stackelberg博弈模型中认知用户为跟随者,干扰为领导者,所述干扰包括认知用户间互扰、多波束卫星通信系统对地面认知用户的同信道干扰以及外部恶意干扰;
所述定义模块用于基于认知用户的局部互利博弈特性定义所述Stackelberg博弈模型中认知用户对应的下层子博弈模型以及外部恶意干扰对应的上层子博弈模型,其中认知用户的效用函数为干扰条件下认知用户以及对应相邻用户所获得的整体吞吐量,外部恶意干扰的效用函数为认知用户策略保持不变时干扰对认知用户以及对应相邻用户的整体吞吐量影响;
所述计算模块用于基于局部信息交互的分层学习算法对所述认知用户的当前策略进行更新,认知用户和干扰在不同的时间尺度上更新策略;基于Q学习的信道选择算法对所述外部恶意干扰的当前策略进行更新,直至达到预设收敛条件时生成最优的抗干扰信道选择,以获得所述Stackelberg博弈模型的最优均衡解;
其中,所述Stackelberg博弈模型的下层子博弈模型为图博弈模型,所述定义模块执行以下操作:
S201,定义动作图Ls=(N,An,θ),其中N是节点集合对应认知用户集,每个节点表示一个认知用户对;每一个节点即认知用户n∈N选择的信道为αn∈An,其中An是认知用户的策略集;θ是相邻认知用户对应的边的集合;
S202,定义图博弈模型为Ψ=(Ls,U),其中U是博弈参与者的效用函数;
S203,定义所述Stackelberg博弈模型的下层子博弈模型为:
Figure FDA0003783311330000051
其中,N是认知用户集,An是认知用户的策略集,θn是认知用户与相邻用户连接的边的集合,U1n是认知用户n的效用函数;
S204,所述认知用户n以自身效用函数为优化目标,通过调整策略使自身效用函数最大化,具体表示为:
Figure FDA0003783311330000052
其中,Pn是认知用户n的相邻用户集合,Zn是多波束卫星通信系统的同信道干扰,Jn是关于认知用户外部恶意干扰,
Figure FDA0003783311330000053
为外部恶意干扰Jn的干扰信道策略,
Figure FDA0003783311330000054
为认知用户n的相邻用户的信道策略,
Figure FDA0003783311330000055
为对认知用户n遭受的多波束卫星通信系统干扰的信道选择策略;
S205,假设认知用户n为跟随者,干扰为领导者,基于干扰对所述认知用户n以及与对应相邻用户k的干扰效果,将所述Stackelberg博弈模型的上层子博弈模型定义为:
Figure FDA0003783311330000061
其中,J是外部恶意干扰,Cj是外部恶意干扰的策略集,U2n是外部恶意干扰的效用函数;
S206,所述外部恶意干扰以自身效用函数为优化目标,通过调整策略使自身效用函数最大化,具体表示为:
Figure FDA0003783311330000062
所述外部恶意干扰的效用函数表示为:
Figure FDA0003783311330000063
其中,n表示认知用户集N中的一个认知用户,an为认知用户n从策略集An中所选择的接入信道,
Figure FDA0003783311330000064
为关于认知用户n的外部恶意干扰Jn的干扰信道策略,即
Figure FDA0003783311330000065
Figure FDA0003783311330000066
Pn是认知用户n的相邻用户集合,ak为相邻用户集合中相邻用户k从策略集An中所选择的接入信道,
Figure FDA0003783311330000067
为关于该相邻用户k的外部恶意干扰Jk的干扰信道策略,且:
Figure FDA0003783311330000068
6.根据权利要求5所述认知星地网络的抗干扰信道选择系统,其特征在于,还包括相邻用户选择模块,所述相邻用户选择模块用于通过干扰图定量描述认知用户之间的局部互干扰特性,所述认知用户与所述干扰图的顶点一一对应,当两个认知用户之间的距离小于预设门限时,将对应认知用户进行连接,且存在连接关系的两认知用户互为对方的相邻用户。
CN202210531627.4A 2022-05-17 2022-05-17 一种认知星地网络的抗干扰信道选择方法和系统 Expired - Fee Related CN114698128B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210531627.4A CN114698128B (zh) 2022-05-17 2022-05-17 一种认知星地网络的抗干扰信道选择方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210531627.4A CN114698128B (zh) 2022-05-17 2022-05-17 一种认知星地网络的抗干扰信道选择方法和系统

Publications (2)

Publication Number Publication Date
CN114698128A CN114698128A (zh) 2022-07-01
CN114698128B true CN114698128B (zh) 2022-09-13

Family

ID=82144554

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210531627.4A Expired - Fee Related CN114698128B (zh) 2022-05-17 2022-05-17 一种认知星地网络的抗干扰信道选择方法和系统

Country Status (1)

Country Link
CN (1) CN114698128B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115378487B (zh) * 2022-07-05 2023-12-01 中国人民解放军战略支援部队航天工程大学 基于电磁屏障的卫星通信动态频谱接入方法
CN114978295B (zh) * 2022-07-29 2022-10-21 中国人民解放军战略支援部队航天工程大学 一种面向卫星互联网的跨层抗干扰方法和系统
CN116073924B (zh) * 2023-03-07 2023-05-30 中国人民解放军军事科学院国防科技创新研究院 基于Stackelberg博弈的抗干扰信道分配方法及系统
CN117768010B (zh) * 2024-02-21 2024-04-26 中国人民解放军战略支援部队航天工程大学 一种基于分层斯坦伯格博弈与匹配博弈的卫星抗干扰方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10291347B2 (en) * 2017-01-03 2019-05-14 Intelligent Fusion Technology, Inc. Effective cross-layer satellite communications link interferences mitigation in the presence of various RFI types
CN108616916B (zh) * 2018-04-28 2021-07-13 中国人民解放军陆军工程大学 一种基于合作抗干扰分层博弈模型的抗干扰学习方法
CN113613337B (zh) * 2021-08-05 2023-06-20 中国人民解放军陆军工程大学 一种面向波束成形通信的用户协作抗干扰方法

Also Published As

Publication number Publication date
CN114698128A (zh) 2022-07-01

Similar Documents

Publication Publication Date Title
CN114698128B (zh) 一种认知星地网络的抗干扰信道选择方法和系统
Li et al. Applications of multi-agent reinforcement learning in future internet: A comprehensive survey
Song et al. Wireless device-to-device communications and networks
CN109639377B (zh) 基于深度强化学习的频谱资源管理方法
Wang et al. A survey on applications of model-free strategy learning in cognitive wireless networks
CN111800828B (zh) 一种超密集网络的移动边缘计算资源分配方法
Oladejo et al. Latency-aware dynamic resource allocation scheme for multi-tier 5G network: A network slicing-multitenancy scenario
US20210326695A1 (en) Method and apparatus employing distributed sensing and deep learning for dynamic spectrum access and spectrum sharing
Ma et al. UAV-aided cooperative data collection scheme for ocean monitoring networks
Lu et al. A cross-layer resource allocation scheme for ICIC in LTE-Advanced
CN115065678A (zh) 一种基于深度强化学习的多智能设备任务卸载决策方法
CN115866787A (zh) 融合终端直传通信和多接入边缘计算的网络资源分配方法
Tang et al. Nonconvex dynamic spectrum allocation for cognitive radio networks via particle swarm optimization and simulated annealing
Nasr-Azadani et al. Distillation and ordinary federated learning actor-critic algorithms in heterogeneous UAV-aided networks
CN116302569B (zh) 一种基于用户请求信息的资源分区智能化调度方法
Nguyen et al. Utility optimization for blockchain empowered edge computing with deep reinforcement learning
Elhachmi Distributed reinforcement learning for dynamic spectrum allocation in cognitive radio‐based internet of things
Rohoden et al. Evolutionary game theoretical model for stable femtocells’ clusters formation in hetnets
Ren et al. Joint spectrum allocation and power control in vehicular communications based on dueling double DQN
CN112383965B (zh) 基于drqn和多传感器模型的认知无线电功率分配方法
Nauman et al. Dynamic resource management in integrated NOMA terrestrial–satellite networks using multi-agent reinforcement learning
Chen et al. Efficient Task Scheduling and Resource Allocation for AI Training Services in Native AI Wireless Networks
Amiri Reinforcement learning in self organizing cellular networks
CN113497816B (zh) 一种智能物联网边缘网关服务器协作式任务卸载方法
Wu et al. Explore Deep Reinforcement Learning to Energy-efficient Data Synchronism in 5G Self-powered Sensor Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220913