一种基于补偿机制的合作抗干扰分层博弈模型及方法
技术领域
本发明属于无线通信技术领域,提出了一种基于补偿机制的合作抗干扰分层博弈模型及相应的抗干扰学习算法。
背景技术
随着无线技术的发展,恶意干扰对正常通信用户的影响越来越明显。这使得减少恶意干扰对用户通信质量影响的研究越来越重要。目前的相关研究中,有文献(LuliangJia,Fuqiang Yao,Youming Sun,Yingtao Niu,Yonggang Zhu,``Bayesian StackelbergGame for Antijamming Transmission With Incomplete Information”,IEEECommunications Letters,vol.20,no.10,pp.1991-1994,2016.)将抗干扰过程建模为Stackelberg博弈,通过调整功率配置,使得节点的抗干扰性能得到提升。也有文献通过研究干扰跳频序列(Long Yu,Yuhua Xu,Qihui Wu,Luliang Jia,“Self-organizing HitAvoidance in Distributed Frequency Hopping Multiple Access Networks”,IEEEAccess,vol.5,pp.26614-26622,2017.)使得节点之间的在躲避干扰时尽可能减小相互之间的影响。文献(Xiao Tang,Pinyi Ren,Yichen Wang,Qinghe Du,Li Sun,“SecuringWireless Transmission against Reactive Jamming:A Stackelberg Game Framework”,IEEE GLOBECOM 2015,pp.1-6,San Diego,December,2015.)中研究了面向反应式干扰的迅捷跳频方法,但场景仍为单用户。综上所述,目前的抗干扰研究问题中,需要对更为常见的多用户场景进行研究。
文献(Yuli Zhang,Yitao Xu,Yuhua Xu,et al.,“A Multi-leader One-followerStackelberg Game Approach for Cooperative Anti-jamming:No Pains,No Gains”,IEEE Communications Letters,online,2018.)考虑了一种多用户合作抗干扰的场景,节点优化网络总吞吐量,从而达到均衡,实现抗干扰性能的提升。但是,该研究模型中,没有考虑节点的异构通信需求。且该模型中的方法最后输出的结果是静态的,即被干扰的用户始终处于被干扰状态,在公平性受损的同时,不能适用于用户动态业务需求的场景。
发明内容
本发明的目的是针对上述问题,提出一种能够提高系统吞吐量、降低干扰损失的基于补偿机制的合作抗干扰分层博弈模型及方法。
本发明的技术方案是:
本发明提供一种基于补偿机制的合作抗干扰分层博弈方法,该方法为:建立博弈模型,将频谱管理者、用户和干扰建模为博弈参与者,用户通过向频谱管理者支付报酬获得频谱资源的接入权,频谱管理者通过选择并补偿诱饵用户降低干扰影响,以保护其余用户的正常通信;
干扰以最小化用户的吞吐量为优化目标,频谱管理者依据用户的业务需求和补偿量,选择诱饵用户,其余用户通过调整信道和功率配置,优化数据业务的传输,提高网络抗干扰性能。
进一步地,该方法包括以下步骤:
步骤1,将频谱市场中合作抗干扰问题建模为分层博弈模型,将频谱管理者、用户和干扰作为博弈参与者;
步骤2,所有用户根据其当前时刻的业务传输需求hn,计算数据传输支付量Bn和相应的补偿量Γn,将前述业务传输需求hn、数据传输支付量Bn和补偿量Γn一同上报频谱管理者;
步骤3,频谱管理者根据所有用户的上报信息,按照补偿量Γn由低到高的顺序对用户进行排列,依此顺序选择用户作为诱饵用户,前述诱饵用户采用最大功率进行通信,吸引干扰;
步骤4,对于诱饵用户以外的其他用户,配置各自的通信策略,包括信道和功率;建立频谱管理者的效用函数USO表征频谱管理者的网络频谱资源综合收益;采用较优相应法更新用户的通信策略,当达到最大迭代次数时更新停止;最后获得的通信策略及系统效用即为当前诱饵用户对应的通信策略和网络频谱资源综合收益;
步骤5,循环步骤3和4,按照补偿量Γn顺序选择下一个诱饵用户,并计算相应选择下频谱管理者的总收益即效用函数USO,与现有总收益进行比较,若总收益提高,则保存此次诱饵用户选择策略和其余用户通信策略,继续步骤3和4;反之,则停止诱饵用户的选取,按照之前策略进行传输。
进一步地,步骤1具体为:
步骤1-1、定义分层博弈模型G为:
G={{N,j},E,{AN,aj},{USO,uj}}
其中:{N,j}为博弈参与者,用户集合为N={1,2,..,N},N表示用户总数,j表示干扰,E为网络拓扑关系,{AN,aj}为用户和干扰两者的策略空间;USO,uj为系统的效用函数和干扰效用函数,SO为频谱资源管理者。
进一步地,步骤2具体为:
步骤2-1、对于各用户n,其数据业务负载为tn,业务传输需求hn,hn≤tn;计算该用户基于前述业务传输需求产生的支付量Bn和补偿量Γn;
其中,βn是用户n的单位数据价值,考虑用户获得接入机会后实际传输数据量小于目标数据量时,频谱管理者对用户进行补偿;补偿量Γn设为与支付量Bn相同,即Γn=Bn。
进一步地,步骤4中,配置用户通信策略和建立频谱管理者的效用函数USO具体包括以下步骤:
步骤4-1、对于诱饵用户以外的其他用户,配置各自的通信策略,包括信道和功率;建立频谱管理者的效用函数USO表征频谱管理者的网络频谱资源综合收益;
步骤4-2、定义用户n的动作即通信策略为an={ln,cn,pn};
其中,ln表示用户是否成功接入网络获得频谱资源使用机会;如果成功获得接入机会ln=1,则其接入策略为信道cn,cn∈M,M为信道集合;
p
n表示用户n的功率(初始情况下为
的任意值);
为用户n的最大功率限制;若接入失败,则将信道选择l
n和功率p
n配置为0;
步骤4-3、基于前述用户接入的通信策略,计算用户n受到的干扰In:
其中,a-n为其他用户的策略,i表示用户编号,i∈N/n,din为用户i发射机与用户n接收机之间的物理距离,路径衰落因子为α,pi为用户i的发射功率,li为用户i的接入状态,ci为其信道选择。
步骤4-4、对于信道集合M,其中的信道均为正交信道即当两个用户选择同一个信道时,两者之间才会发生相互干扰,采用下述公式表达用户n和用户i的信道选择是否相同:
其中:cn表示用户n的信道选择,ci表示用户i的信道选择;
步骤4-5、建立用户n吞吐量的效用函数rn(an,a-n):
其中,d
nn是用户n的发送机和接收机之间的物理距离;α是信道衰落因子;N
0是噪声功率,h
n用户希望能够成功传输的业务量为;
表明用户在无干扰的情况下能够获得的吞吐量;
cj是干扰j的信道选择,(1-δ(cn,cj))表明如果用户n受到干扰j的影响,则其吞吐量降为0;min[]为取两者的较小值,即用户实际的发送数据量不能超过用户的业务负载。
步骤4-6、建立干扰的效用函数uj(aj,aN)即网络因为干扰而降低的吞吐量:
其中,aN是全体用户的通信策略,aj=0代表此时干扰不施加作用;
从干扰角度思考问题,干扰通过调整其信道策略,尽可能地选择具有最大吞吐量地信道进行干扰,从而最大化地降低系统整体吞吐量。
步骤4-7、建立用户n对于频谱管理者影响的效用函数un(an,a-n),频谱管理者的最终收益包括了成功传输的数据带来的收益和未能成功传输数据的补偿之差:
步骤4-8、建立频谱管理者的效用函数USO,即所有用户效用相加表征频谱管理者的网络频谱资源综合收益:
综上所述,频谱管理者和干扰作为决策的双方,其优化目标分别为最大化网络频谱资源综合收益和干扰效用。在诱饵用户确定的条件下,按照如下过程更新其余用户的通信策略。
进一步地,步骤4中,更新用户的通信策略;
步骤4-9、随机选取一个用户n,计算当前策略条件an下效用函数USO;改变策略a′n,计算现有策略下的效用函数U′SO;
步骤4-10、更新用户信道策略,采用下述公式选择较高效用函数对应的策略:
步骤4-11、当达到最大迭代次数时更新停止(一般情况下,最大迭代次数为用户数量的10-20倍,能够遍历所有用户),最后获得的通信策略及网络频谱资源综合收益即为按照步骤3选择的诱饵用户对应的通信策略和网络频谱资源综合收益。
进一步地,步骤5采用贪婪算法进行最终诱饵用户的确定,包括以下步骤:
步骤5-1、按照前述补偿量由低到高排列,依次选择诱饵用户;
步骤5-2、在诱饵用户确定的条件下,对剩余用户的信道接入策略采用较优响应法进行优化,得到此诱饵用户对应的市场收益即频谱管理者的效用函数USO,以及其余用户通信策略;按照顺序选择下一个诱饵用户,并通过较优响应获得其余用户的通信策略,计算市场收益。
步骤5-3、与现有收益进行比较,若收益提高,则保存此次诱饵用户选择策略和其余用户通信策略,继续在新诱饵用户的情况下计算收益;反之,则停止诱饵用户的选择过程,选择最高收益对应的诱饵用户和通信策略作为最终的策略。
步骤5-4、按照最终确定的信道接入策略和诱饵用户选取结果进行数据传输,更新业务负载。
一种基于补偿机制的合作抗干扰分层博弈模型,该模型包括:
分层博弈模型建立模块:将频谱市场中合作抗干扰问题建模为分层博弈模型,将频谱管理者、用户和干扰作为博弈参与者;
用户数据上传模块:所有用户根据其当前时刻的业务传输需求hn,计算数据传输支付量Bn和相应的补偿量Γn,将前述业务传输需求hn、数据传输支付量Bn和补偿量Γn一同上报频谱管理者;
诱饵用户排序模块:频谱管理者根据所有用户的上报信息,按照补偿量Γn由低到高的顺序对用户进行排列,依此顺序选择用户作为诱饵用户,前述诱饵用户采用最大功率进行通信,吸引干扰;
效用函数计算模块:对于诱饵用户以外的其他用户,配置各自的通信策略,包括信道和功率;建立频谱管理者的效用函数USO表征频谱管理者的网络频谱资源综合收益;采用较优相应法更新用户的通信策略,当达到最大迭代次数时更新停止;最后获得的通信策略及系统效用即为当前诱饵用户对应的通信策略和网络频谱资源综合收益;
循环策略更新模块:按照补偿量Γn顺序选择下一个诱饵用户,并计算相应选择下频谱管理者的总收益即效用函数USO,与现有总收益进行比较,若总收益提高,则保存此次诱饵用户选择策略和其余用户通信策略,继续诱饵用户排序模块和效用函数计算模块的运算;反之,则停止诱饵用户的选取,按照之前策略进行传输。
本发明的有益效果:
本发明在合作抗干扰的系统场景中,充分考虑用户异构的业务需求,设计了补偿机制,通过低业务量用户主动增加功率吸引干扰,从而为其他用户成功传输数据提供保护。将问题建模为分层博弈模型,证明了均衡的存在性。
本发明设计了基于较优响应的通信资源配置算法,引入势能博弈,保证了较优响应算法的收敛性,且进一步优化了算法性能。设计了基于贪婪思想的诱饵用户选择算法,保证了抗干扰联合算法的收敛性。
本发明的其它特征和优点将在随后具体实施方式部分予以详细说明。
附图说明
通过结合附图对本发明示例性实施方式进行更详细的描述,本发明的上述以及其它目的、特征和优势将变得更加明显,其中,在本发明示例性实施方式中,相同的参考标号通常代表相同部件。
图1是多用户合作抗干扰系统模型示意图。
图2是本发明的流程图。
图3是本发明应用中在用户数目增加时系统吞吐量对比图。
图4是本发明应用中在信道数目增加时频谱资源收益对比图。
具体实施方式
下面将参照附图更详细地描述本发明的优选实施方式。虽然附图中显示了本发明的优选实施方式,然而应该理解,可以以各种形式实现本发明而不应被这里阐述的实施方式所限制。
考虑一个具有N个用户对,M个可选信道,1个干扰源的无线通信网络。图1所示为本发明考虑的合作抗干扰分层博弈模型。在图1中,6个用户对随机分布,共有3个信道可供选择,例如,通信对1和通信对5作为诱饵用户选择信道1传输,被干扰;通信对2,3和4正常通信;通信对6则没有接入信道。
本发明提供一种基于补偿机制的合作抗干扰分层博弈方法,该方法为:建立博弈模型,将频谱管理者、用户和干扰建模为博弈参与者,用户通过向频谱管理者支付报酬获得频谱资源的接入权,频谱管理者通过选择并补偿诱饵用户降低干扰影响,以保护其余用户的正常通信;
干扰以最小化用户的吞吐量为优化目标,频谱管理者依据用户的业务需求和补偿量,选择诱饵用户,其余用户通过调整信道和功率配置,优化数据业务的传输,提高网络抗干扰性能。
步骤1,初始时刻,每个用户随机产生位置和功率约束
初始化的业务负载t
n;用户将上述信息上报频谱资源管理者云端。将频谱市场中合作抗干扰问题建模为分层博弈模型,将频谱管理者、用户和干扰作为博弈参与者;定义分层博弈模型G为:
G={{N,j},E,{AN,aj},{USO,uj}}
其中:{N,j}为博弈参与者,用户集合为N={1,2,..,N},N表示用户总数,j表示干扰,E为网络拓扑关系,{AN,aj}为用户和干扰两者的策略空间;USO,uj为系统的效用函数和干扰效用函数,SO为频谱资源管理者。
步骤2,对于各用户n,根据其当前时刻的业务传输需求hn,数据业务负载为tn,hn≤tn;计算该用户基于前述业务传输需求产生的支付量Bn和补偿量Γn;
其中,βn是用户n的单位数据价值,考虑用户获得接入机会后实际传输数据量小于目标数据量时,频谱管理者对用户进行补偿;补偿量Γn设为与支付量Bn相同,即Γn=Bn。
步骤3,频谱管理者根据所有用户的上报信息,按照补偿量Γn由低到高的顺序对用户进行排列,依此顺序选择用户作为诱饵用户,前述诱饵用户采用最大功率进行通信,吸引干扰;
步骤4,对于诱饵用户以外的其他用户,配置各自的通信策略,包括信道和功率;建立频谱管理者的效用函数USO表征频谱管理者的网络频谱资源综合收益;采用较优相应法更新用户的通信策略,当达到最大迭代次数时更新停止;最后获得的通信策略及系统效用即为当前诱饵用户对应的通信策略和网络频谱资源综合收益;
步骤4中,配置用户通信策略和建立频谱管理者的效用函数USO具体包括以下步骤:
步骤4-1、对于诱饵用户以外的其他用户,配置各自的通信策略,包括信道和功率;建立频谱管理者的效用函数USO表征频谱管理者的网络频谱资源综合收益;
步骤4-2、定义用户n的动作即通信策略为an={ln,cn,pn};
其中,ln表示用户是否成功接入网络获得频谱资源使用机会;如果成功获得接入机会ln=1,则其接入策略为信道cn,cn∈M,M为信道集合;
p
n表示用户n的功率(初始情况下为
的任意值);
为用户n的最大功率限制;若接入失败,则将信道选择l
n和功率p
n配置为0;
步骤4-3、基于前述用户接入的通信策略,计算用户n受到的干扰In:
其中,a-n为其他用户的策略,i表示用户编号,i∈N/n,din为用户i发射机与用户n接收机之间的物理距离,路径衰落因子为α,pi为用户i的发射功率,li为用户i的接入状态,ci为其信道选择。
步骤4-4、对于信道集合M,其中的信道均为正交信道即当两个用户选择同一个信道时,两者之间才会发生相互干扰,采用下述公式表达用户n和用户i的信道选择是否相同:
其中:cn表示用户n的信道选择,ci表示用户i的信道选择;
步骤4-5、建立用户n吞吐量的效用函数rn(an,a-n):
其中,d
nn是用户n的发送机和接收机之间的物理距离;α是信道衰落因子;N
0是噪声功率,h
n用户希望能够成功传输的业务量为;
表明用户在无干扰的情况下能够获得的吞吐量;
cj是干扰j的信道选择,(1-δ(cn,cj))表明如果用户n受到干扰j的影响,则其吞吐量降为0;min[]为取两者的较小值,即用户实际的发送数据量不能超过用户的业务负载。
步骤4-6、建立干扰的效用函数uj(aj,aN)即网络因为干扰而降低的吞吐量:
其中,aN是全体用户的通信策略,aj=0代表此时干扰不施加作用;
从干扰角度思考问题,干扰通过调整其信道策略,尽可能地选择具有最大吞吐量地信道进行干扰,从而最大化地降低系统整体吞吐量。
步骤4-7、建立用户n对于频谱管理者影响的效用函数un(an,a-n),频谱管理者的最终收益包括了成功传输的数据带来的收益和未能成功传输数据的补偿之差:
步骤4-8、建立频谱管理者的效用函数USO,即所有用户效用相加表征频谱管理者的网络频谱资源综合收益:
综上所述,频谱管理者和干扰作为决策的双方,其优化目标分别为最大化网络频谱资源综合收益和干扰效用。在诱饵用户确定的条件下,按照如下过程更新其余用户的通信策略。
步骤4中,更新用户的通信策略;
步骤4-9、随机选取一个用户n,计算当前策略条件an下效用函数USO;改变策略a′n,计算现有策略下的效用函数U′SO;
步骤4-10、更新用户信道策略,采用下述公式选择较高效用函数对应的策略:
步骤4-11、当达到最大迭代次数时更新停止(一般情况下,最大迭代次数为用户数量的10-20倍,能够遍历所有用户),最后获得的通信策略及网络频谱资源综合收益即为按照步骤3选择的诱饵用户对应的通信策略和网络频谱资源综合收益。
步骤5,循环步骤3和4,按照补偿量Γn顺序选择下一个诱饵用户,并计算相应选择下频谱管理者的总收益即效用函数USO,与现有总收益进行比较,若总收益提高,则保存此次诱饵用户选择策略和其余用户通信策略,继续步骤3和4;反之,则停止诱饵用户的选取,按照之前策略进行传输。
进一步地,步骤5采用贪婪算法进行最终诱饵用户的确定,包括以下步骤:
步骤5-1、按照前述补偿量由低到高排列,依次选择诱饵用户;
步骤5-2、在诱饵用户确定的条件下,对剩余用户的信道接入策略采用较优响应法进行优化,得到此诱饵用户对应的市场收益即频谱管理者的效用函数USO,以及其余用户通信策略;按照顺序选择下一个诱饵用户,并通过较优响应获得其余用户的通信策略,计算市场收益。
步骤5-3、与现有收益进行比较,若收益提高,则保存此次诱饵用户选择策略和其余用户通信策略,继续在新诱饵用户的情况下计算收益;反之,则停止诱饵用户的选择过程,选择最高收益对应的诱饵用户和通信策略作为最终的策略。
步骤5-4、按照最终确定的信道接入策略和诱饵用户选取结果进行数据传输,更新业务负载。
一种基于补偿机制的合作抗干扰分层博弈模型,该模型包括:
分层博弈模型建立模块:将频谱市场中合作抗干扰问题建模为分层博弈模型,将频谱管理者、用户和干扰作为博弈参与者;
用户数据上传模块:所有用户根据其当前时刻的业务传输需求hn,计算数据传输支付量Bn和相应的补偿量Γn,将前述业务传输需求hn、数据传输支付量Bn和补偿量Γn一同上报频谱管理者;
诱饵用户排序模块:频谱管理者根据所有用户的上报信息,按照补偿量Γn由低到高的顺序对用户进行排列,依此顺序选择用户作为诱饵用户,前述诱饵用户采用最大功率进行通信,吸引干扰;
效用函数计算模块:对于诱饵用户以外的其他用户,配置各自的通信策略,包括信道和功率;建立频谱管理者的效用函数USO表征频谱管理者的网络频谱资源综合收益;采用较优相应法更新用户的通信策略,当达到最大迭代次数时更新停止;最后获得的通信策略及系统效用即为当前诱饵用户对应的通信策略和网络频谱资源综合收益;
循环策略更新模块:按照补偿量Γn顺序选择下一个诱饵用户,并计算相应选择下频谱管理者的总收益即效用函数USO,与现有总收益进行比较,若总收益提高,则保存此次诱饵用户选择策略和其余用户通信策略,继续诱饵用户排序模块和效用函数计算模块的运算;反之,则停止诱饵用户的选取,按照之前策略进行传输。
实施例
本发明的一个具体实施例如下描述:系统仿真采用Matlab软件,参数设定不影响一般性;用户数目为10,信道数目为5,用户功率限制为0.05W,信道的带宽为1Mhz,噪声功率为-110dBm,路径损耗因子为-2,用户随机分布于400x400米的区域内。用户的发送端和接收端之间距离范围为30-40米。
本发明基于补偿机制的合作抗干扰分层博弈模型算法,具体过程如下:
步骤1:每个用户随机产生位置和功率约束
初始化的业务负载t
n,用户将上述信息上报频谱资源管理者云端。
步骤2:报酬和补偿上报:基于用户自身的业务达到速率,用户更新其业务负载,产生本时隙的数据需求hn。根据业务需求,确定数据报酬Bn和补偿Γn,将信息上报云端。
步骤3:基于贪婪算法的诱饵用户选取:对于频谱管理者,采用贪婪的思路,按照用户的补偿排序,从低到高,从单个到多个,尝试补偿用户的选取。
步骤4:通信资源配置:在诱饵用户确定的条件下,对剩余用户的信道接入策略采用较优响应算法进行优化。
步骤5:循环步骤2,3和4,将最终确定的信道接入策略和诱饵用户选取规则返回用户,用户按照该模式接入信道,进行数据传输。更新业务负载。
图2为随用户数目变化时,全网吞吐量的变化情况。对比算法为随机抗干扰方法和不基于补偿机制的合作抗干扰方法(Yuli Zhang,Yitao Xu,Yuhua Xu,et al.,“A Multi-leader One-follower Stackelberg Game Approach for Cooperative Anti-jamming:NoPains,No Gains”,IEEE Communications Letters,online,2018.)。由图可知,采用本发明所提基于补偿机制的合作抗干扰方法取得的全网吞吐量性能高于现有的合作抗干扰方法。随用户数目增加,全网吞吐量性能也呈逐步增加趋势。
例1业务到达速率情况
考虑信道数目为4、5和6三种情况时,在补偿机制下对诱饵用户的选取仍然采用贪婪的策略,其余用户的通信资源划分则比较基于较优响应的合作抗干扰策略和随机合作策略。由图3可知,信道数越大,吞吐量性能越高,干扰损失越小。且本发明采用的贪婪-较优响应联合算法优于贪婪-随机合作策略。
综上,本发明提出的基于补偿机制的合作抗干扰分层博弈模型及算法,充分考虑到了用户业务量的异构性,通过设计补偿机制,激励低业务量的用户成为诱饵主动吸引干扰,为其余用户传输数据提供保护。将问题建模为分层博弈模型,在通信资源的配置中引入势能博弈模型,证明了分层博弈均衡的存在性,有效提高了全网总收益、吞吐量性能和抗干扰水平。通过与无补偿机制的合作抗干扰方法对比,所提基于补偿机制的合作抗干扰策略能够在降低干扰影响的情况下,通过均衡性质,提高全网吞吐量。算法仿真结果也表明了所提模型及算法的有效性,验证了理论的正确性。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。