CN107949025B

CN107949025B - 一种基于非合作博弈的网络选择方法

Info

Publication number: CN107949025B
Application number: CN201711064727.6A
Authority: CN
Inventors: 赵高峰; 冯宝; 胡倩倩; 李洋; 刘金锁; 张立武; 蔡世龙; 刘文贵; 张影; 完颜绍澎; 陈泽; 卞宇翔; 马涛; 丁晨阳; 胡阳
Original assignee: NARI Group Corp; Nari Information and Communication Technology Co
Current assignee: NARI Group Corp; Nari Information and Communication Technology Co
Priority date: 2017-11-02
Filing date: 2017-11-02
Publication date: 2020-06-26
Anticipated expiration: 2037-11-02
Also published as: CN107949025A

Abstract

本发明公开了一种基于非合作博弈的网络选择方法，以适应网络资源和接入用户数不断变化的动态网络选择问题。方法包括以下步骤：建立以系统吞吐量最大化为目标的非合作博弈模型；将非合作博弈模型转化为普通势博弈模型，此势博弈模型中势函数定义为所有用户的加权干扰总和的负值；将求解吞吐量最大的网络选择问题转化为求解加权干扰总和最小的网络选择问题；采用分布式学习算法求解势博弈模型的纳什均衡，获得的解即为最佳的接入网络选择方案。本发明能最大化系统吞吐量，且采用学习算法能有效降低计算复杂度，本发明方法得到的收敛解的系统吞吐量接近系统最优吞吐量。

Description

一种基于非合作博弈的网络选择方法

技术领域

本发明涉及无线通信网络选择技术领域，具体涉及一种基于非合作博弈的网络选择方法，以适应网络资源和接入用户数不断变化的动态网络选择问题。

背景技术

随着移动用户数量的增加和无线通信应用的要求不断提高，单一制式的网络往往无法不能满足要求，因而异构网络融合以满足用户各方面的需求成为下一代无线网络发展的趋势。在异构网络中，终端用户具有接入不同制式网络的能力，如短距离通信(Zigbee,Bluetooth)，长距离通信(WiFi,WiMax,LTE)等。这些不同制式的网络往往在地理位置上相互交叠，如在城市区域可能有3G、LTE以及WiFi等多种网络覆盖。为了用户能够收到无缝切换的网络体验和满足其QoS的网络需求，终端必须采用合适的网络选择算法。

网络选择算法的目的是在复杂多变的网络环境中为终端用户选择最佳接入网络，以获得最大收益。常用的网络选择算法有很多，如多属性决策方法、层次分析法、灰度关联法等。这些算法根据用户QoS要求对不同网络进行加权，选择收益最大的网络作为最佳接入网络，这样的算法能够综合考虑用户需求和网络状况，比较全面，但因其网络属性权重需要事先确定，故不能适应动态变化的网络环境。

发明内容

本发明的目的在于克服现有技术中的不足，提供了一种基于非合作博弈的网络选择方法，适应系统中网络资源和连接用户数量的动态变化，且能够最大化系统吞吐量。

为解决上述技术问题，本发明提供了一种基于非合作博弈的网络选择方法，其特征是，包括以下步骤：

步骤S1，根据无线接入网络模型中用户和网络接入点之间动态选择特征，建立非合作博弈模型，此模型中参与者为用户，动作为可接入的网络，支付函数为系统吞吐量；

步骤S2，将非合作博弈模型转化为普通势博弈模型，此势博弈模型中势函数定义为所有用户的加权干扰总和的负值；将求解吞吐量最大的网络选择问题转化为求解加权干扰总和最小的网络选择问题；

步骤S3，求解势博弈模型的纳什均衡，获得的解即为最佳的接入网络选择方案。

进一步的，步骤S2中，非合作博弈模型是一个服从势函数

的普通势博弈，其中P_i和P_n分别为第i个以及第n个AP的发射功率；d_in为第i个AP与第n个用户之间的距离，U为用户集合，I_n为用户u_n干扰AP的集合，α为路径损耗因子。

进一步的，采用分布式学习算法求解势博弈模型的纳什均衡。

进一步的，采用分布式学习算法求解势博弈模型的纳什均衡的具体过程为：

定义q_n(k)＝[q_n1(k),…,q_nm(k),…,q_nM(k)]为用户u_n在其可接入网络集中的选择策略，其中q_nm(k)为在第k次试验中，用户u_n选择接入APa_m的概率；

步骤1：初始化选择策略为q_nm(k)＝1/|A_n|，其中|A_n|表示用户u_n可选择网络集合A_n的元素个数；

步骤2：根据策略q_n(k)选择接入网络，设为a_m；

步骤3：计算选择a_m后的吞吐量R_n(k)；

步骤4：更新下一轮策略q_n(k+1)：

步骤5：重复步骤2～4，直至达到最大迭代次数或者算法收敛；

步骤6：用户u_n根据q_n(k)选择网络接入。

进一步的，用户u_n的吞吐量R_n采用下式计算：

R_n＝B_mlog₂(1+SINR_n)

其中，B_m为APa_m的可用带宽，SINR_n为用户u_n的信号干噪比。

进一步的，用户u_n的信号干噪比可以表示为：

其中，P_m表示第m个APa_m的发射功率；d_mn为第m个APa_m与第n个用户u_n之间的距离；P_i表示干扰集合中第i个APa_i的发射功率；d_in为干扰集合中第i个APa_i与用户u_n之间的距离；α为路径损耗因子；σ为加性噪声。

与现有技术相比，本发明所达到的有益效果是：

①可以在网络资源和用户数目动态变化的网路中为选择最佳接入网络；

②在网络选择过程中，非合作博弈模型很适合描述用户间自私的选择最大化自身利益的网络且不经过信息交换的行为；

③通过构造势函数，将非合作博弈问题转化为易于求解纳什均衡的普通势博弈，采用分布式学习算法求解纳什均衡，以选择最佳网络；

④本文算法能最大化系统吞吐量，且采用学习算法能有效降低计算复杂度。

附图说明

图1是WAN网络模型图；

图2是本发明方法的流程图；

图3是本发明一实施例中WAN仿真模型图；

图4是图3实施例中采用3种不同方法时吞吐量随用户激活率变化图；

图5是图3实施例中采用3种不同方法时吞吐量随用户数目变化图；

图6是可接入网络数为2的用户网络选择概率图；

图7是可接入网络数为4的用户网络选择概率图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

本发明的一种基于非合作博弈的网络选择方法，如图2所示，包括以下步骤：

步骤S3，采用分布式学习算法求解势博弈模型的纳什均衡，获得的收敛解即为最佳的接入网络选择方案。

考虑一个包含M个无线接入点(Access Point,AP)和N个用户的无线接入网络(Wireless Access Network,WAN)，假设每个AP可以被其覆盖范围内的任意一个用户接入。设所有AP的集合为A，其中第m个AP为a_m∈A,(m＝1,…,M)；设所有用户集合为U，其中第n个用户为u_n∈U,(n＝1,…,N)。定义该系统模型中所用K个可用信道集合为F，每个AP采用其中一个信道f_k∈F,(k＝1,…,K)与用户交互数据，不同AP可以复用同一信道f_k。

图1显示一个包含3个AP和9个用户的WAN系统模型，其中用户u₁只可以接入到a₁，而用户u₂以及u₃可以接入到多个AP中。定义用户u_n可接入的网络集合为A_n。一般而言，只有当用户可以接入两个及两个以上的网络中时，才会进行网络选择决策，本发明为方便起见，将只有一个可接入网络的用户也加入决策模型中，其网络选择集合仅有一个网络，这不会对网络选择结果产生影响。

在以上所述的WAN网络模型中，假设每个网络都提供相同的服务，如不同运营商提供的WiFi接入网络。在上述网络场景中，用户在多个可用网络中动态选择最佳接入网络，由于用户在进行网络选择的过程中不会与其他用户进行信息交换，所以该网络选择模型可以看作是一个非合作博弈模型。一般而言，非合作博弈模型包含参与者、动作和支付函数要素。在本文非合作博弈模型中，参与者为待接入网络的用户，对于每个用户，其可选择的动作集为可以接入的网络，支付函数为系统吞吐量。

当用户u_n使用某一信道f_k与a_m进行数据通信时，在u_n信号感知范围内同样使用该信道f_k发送数据的AP会对用户u_n产生干扰，定义用户u_n干扰AP的集合为I_n。对于用户u_n，当其接入a_m时，信号干噪比(Signal to Interference plus Noise Radio,SINR)可以表示为：

表示除APa_m以外，在用户u_n信号接收范围内的AP产生的干扰总和。

那么，根据香农定理，用户u_n的吞吐量可以表示为：

R_n＝B_mlog₂(1+SINR_n)

其中，B_m为APa_m的可用带宽。

在本发明的非合作博弈模型中将用户的吞吐量R_n作为支付函数，支付函数值越大，就意味着系统能获得更高的吞吐量。为了得到用户u_n的最大吞吐量，需要解决以下优化问题：

已知要求解以上的非合作博弈模型，需要求解该问题的纳什均衡，其定义如下：

定义1(纳什均衡)：对于任何一用户集U，接入选择a^*是一个纳什均衡当且仅当任意用户均不能通过单独改变自身的接入选择以获得更大的收益，即

其中，

表示除了达到纳什均衡的接入选择a^*以外的接入选择。也就是说，在纳什均衡下，每一个用户的选择都是最优的。纳什均衡多种求解方法，如梯度下降法，数学模型求解等。

本发明的非合作博弈是一种特殊的博弈：普通势博弈(Ordinal Potential Game,OPG)。已知普通势博弈的定义如下：

定义2(普通势博弈)：一个博弈被称为普通势博弈当其服从一个势函数Φ:A₁×…×A_N→R，使得

都存在

也就是说，对于普通势博弈，当某用户的动作改变时，其势函数和支付函数有相同的变化趋势。而普通势博弈有良好的性质。

定理1：任一普通势博弈至少存在一个纯策略纳什均衡；且使得势函数最大化的动作也是一个纯策略纳什均衡。

根据现有文献Xu Y,Wang J,Wu Q,et al.Opportunistic Spectrum Access inUnknown Dynamic Environment:A Game-Theoretic Stochastic Learning Solution[J].IEEE Transactions on Wireless Communications，可知，本发明的非合作博弈模型是一个服从势函数

的普通势博弈，其中P_i和P_n分别为第i个以及第n个AP的发射功率；d_in为第i个AP与第n个用户之间的距离。

由定理1可得，本文的非合作博弈至少存在一个纯策略纳什均衡，且可用通过最大化势函数来求解纳什均衡。

由势函数的定义可知，若将P_n视为常数，则势函数

中的

可以看作用户u_n受到干扰在乘上系数P_n后的总和，则整个势函数去除负号的部分(-Φ)可以看作所有用户的等效加权干扰总和。要使得势函数Φ最大，就意味着等效加权干扰总和最小。所以纳什均衡能最小化干扰，最大化系统吞吐量。

由于直接求解以上势函数的最大值以得到势博弈模型的纳什均衡比较困难，故本发明采用分布式学习算法来求解该优化问题。且采用学习算法能有效降低计算复杂度。

定义q_n(k)＝[q_n1(k),…,q_nm(k),…,q_nM(k)]为用户u_n在其可接入网络集中的选择策略(即用户选择接入网络的策略)，其中q_nm(k)为在第k次试验中，用户u_n选择接入APa_m的概率，即用户u_n在可接入网络集合中以概率q_nm(k)选择网络a_m接入。例如4个可选网络情况下，假设q_n(k)＝[0.2,0.4,0.3,0.1]，则用户u_n选择四个网络的概率分别为0.2、0.4、0.3、0.1，概率越大，则被选择的概率越大。但不一定每次都会选择概率最大的接入。

并在接入后即时更新q_n(k)，其更新策略为

其中，b为学习步长因子；

为归一化吞吐量；T_n为判决因子，若用户接入APa_m，则T_n＝1，否则T_n＝0。该更新策略的含义为：当用户接入某AP后，可以计算此时的吞吐量，即归一化支付函数R_n(k)。若假设接入的AP为a_m，根据上文的更新策略，则其下一次试验中被选择的概率q_nm(k+1)增大(T_n＝1)，相应的，其余没有接入的AP概率减小(T_n＝0)。由此可以看出，当接入某个AP后的归一化支付函数

较大时，则该AP下轮被选择的概率增加的幅度较大。依照此更新策略，在多次试验后，某个AP被选择的概率将趋近于1，即q_nm(∞)＝1。

采用分布式学习算法来求解纳什均衡的具体计算过程为：

步骤1(初始化)：初始化选择策略为qnm(k)＝1/|A_n|，其中|A_n|表示用户u_n可选择网络集合A_n的元素个数；初始化概率都是相等的。在随后的迭代过程中会逐渐变化，直至趋于收敛。理论上初始概率可以为任何值，但合理的初始化值能加快收敛速度。

步骤2(动作选择)：根据策略q_n(k)选择接入网络，设为a_m；

步骤3(计算回报)：计算选择a_m后的吞吐量R_n(k)；

步骤4(更新策略)：更新下一轮策略q_n(k+1)：

步骤5(循环)：重复步骤2～4，直至达到最大迭代次数或者算法收敛(即max(q_n(k))≥q_threshold，其中q_threshold为收敛阀值，可取0.99)；

步骤6(选择网络)：用户u_n根据q_n(k)选择网络接入。

根据上述现有文献中记载定理5，当存在非负函数H(Q):Q→R对某些常数c>0满足下式时

文献中的学习算法收敛于一个纯策略纳什均衡点，其中Q＝[q₁,…,q_M]，q_i为上文的选择策略，

为用户u_n采用策略

而其余用户采用剩余策略时的平均收益，

文献Xu Y,Xu Y,Anpalagan A.Database-Assisted Spectrum Access inDynamic Networks:A Distributed Learning Solution中定理3证明，当学习算法的学习步长足够小，即b→0时，只要满足

(u_n(a_n,a_-n)-u_n(a'_n,a_-n))(φ(a_n,a_-n)-φ(a'_n,a_-n))≥0

就能满足文献中定理5成立的条件，其中u(a_n,a_-n)和φ(a_n,a_-n)分别为选择动作a_n下的支付函数和势函数。故文献定理3中的分布式学习算法渐进收敛于一个纯策略纳什均衡点。本文的势博弈模型服从于相同的势函数

由此可得，当学习步长b→0时，本文的分布式学习算法收敛于势博弈的纳什均衡点。步长参数b趋近于0，学习算法最终会收敛于纳什均衡点，但步长较小会导致收敛速度缓慢。因而，综合考虑，在本文在仿真中设置步长参数为b＝0.1。

因此，上述分布式学习算法求得博弈问题的纳什均衡解，根据势博弈的性质，求得的收敛解能最大化势函数即最小化用户干扰。本发明的算法一方面能够适应系统中网络资源和连接用户数量的动态变化，且能够最大化系统吞吐量。

实施例

以一个具体实施例来验证本发明方法的效果，实际仿真中使用的WAN网络模型如图3所示。该仿真模型中共包含4个AP，其中心坐标位置分别为(-120,120)、(120,120)、(-120,-120)以及(120,-120)，覆盖半径为200，单位均为米，图中4个圆即为4个AP的覆盖范围。每个AP的带宽为5MHz，发射功率在P_n＝[100,400]mW内均匀分布。模型中在4个AP覆盖范围内随机产生20个用户，其位置在图中以方块表示。从图中可以看出，一个用户可能被多个AP覆盖，AP个数即可选接入网络个数。噪声功率σ为-100dbm，路径损耗因子为α＝4，学习步长因子b＝0.1。

将现有技术中最优方法、随机选择算法以及本发明方法进行对比，其中最优方法(Optimal)通过遍历所有接入选择后选择最大吞吐量得到，随机选择算法(RandomSeclection)每次在可选接入网络集中随机选择网络，本发明(Proposed)采用上述分布式学习算法进行网络选择。图4显示3种方法的吞吐量随用户激活率变化的比较。激活率表示每个用户需要与AP进行数据交换的概率，在系统带宽大于所有用户所需带宽的假设下，用户激活率越高，则其需要交换的数据越多，产生的系统吞吐量越大。仿真中，AP数目M＝4，用户数目N＝8。其余仿真条件和参数与图3实施例中相同。从图4中可以看出，本发明方法得到的吞吐量接近最优系统吞吐量，优于随机选择算法。

吞吐量随用户数目增加的比较如图5所示。仿真中，AP数目M＝4，用户数目N由8个逐渐增加至20个，其余仿真条件和参数与图3实施例相同。从图中可以看出，随着用户数目增加，用户间干扰增大，导致系统吞吐量减小。本文算法得到的系统吞吐量接近系统最佳吞吐量。

图6显示可接入网络数为2的用户网络选择概率图。考虑系统包含4个AP和8个用户的情况，其余仿真条件和参数与图3实施例中相同。图中选择的用户可接入AP2和AP3。从图中可以看出，在用户可选择网络数目为2的情况下，在经过一定次数分布式学习算法后均以概率1选择最佳接入网络，证明了本发明算法的收敛性。

图7显示可接入网络数为4的用户网络选择概率图。考虑系统包含4个AP和8个用户的情况，其余仿真条件和参数与图3实施例相同。图中选择的用户可接入全部4个AP。从图中可以看出，在用户可选择网络数目为4的情况下，在经过一定次数分布式学习算法后均以概率1选择最佳接入网络，证明的算法的收敛性。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.一种基于非合作博弈的网络选择方法，其特征是，包括以下步骤：

步骤S3，求解势博弈模型的纳什均衡，获得的解即为最佳的接入网络选择方案；

步骤S2中，非合作博弈模型是一个服从势函数

的普通势博弈，其中P_i和P_n分别为第i个以及第n个AP的发射功率；d_in为第i个AP与第n个用户之间的距离，U为用户集合，I_n为用户u_n干扰AP的集合，α为路径损耗因子；

采用分布式学习算法求解势博弈模型的纳什均衡；

采用分布式学习算法求解势博弈模型的纳什均衡的具体过程为：

步骤2：根据策略q_n(k)选择接入网络，设为a_m；

步骤3：计算选择a_m后的吞吐量R_n(k)；

步骤4：更新下一轮策略q_n(k+1)：

b为学习步长因子；

为归一化吞吐量，R_n为用户u_n的吞吐量；T_n为判决因子；

步骤6：用户u_n根据q_n(k)选择网络接入。

2.根据权利要求1所述的一种基于非合作博弈的网络选择方法，其特征是，用户u_n的吞吐量R_n采用下式计算：

R_n＝B_mlog₂(1+SINR_n)

其中，B_m为APa_m的可用带宽，SINR_n为用户u_n的信号干噪比。

3.根据权利要求1所述的一种基于非合作博弈的网络选择方法，其特征是，用户u_n的信号干噪比可以表示为：