CN106358300B

CN106358300B - 一种微蜂窝网络中的分布式资源分配方法

Info

Publication number: CN106358300B
Application number: CN201510420457.2A
Authority: CN
Inventors: 高瞻; 陈俊宏; 徐煜华; 徐以涛; 陈浩; 黄鑫权
Original assignee: PLA University of Science and Technology
Current assignee: PLA University of Science and Technology
Priority date: 2015-07-16
Filing date: 2015-07-16
Publication date: 2019-09-27
Anticipated expiration: 2035-07-16
Also published as: CN106358300A

Abstract

本发明提出一种微蜂窝网络中的分布式资源分配方法。将微蜂窝网络映射到位于控制中心处的一个虚拟判决网络，虚拟判决网络中的每一个认知代理对应一个用户；所有用户将自己的地理位置坐标信息上报给所属的微基站，微基站将覆盖范围内有通信需求的用户的位置信息上报给控制中心对应的认知代理，然后由认知代理完成信道选择和功率选择；控制中心将信道选择结果和功率选择结果下发给微基站，微基站完成微蜂窝内用户的资源分配。本发明为基于博弈理论的信道选择和功率控制的分步资源分配方法，在大规模、超密集组网条件下通过实现不同微蜂窝之间的信道分配和功率控制，达到降低不同微蜂窝之间互干扰、提高用户的通信速率的目的。

Description

一种微蜂窝网络中的分布式资源分配方法

技术领域

本发明属于无线通信技术领域，具体涉及一种利用博弈理论和在线学习来优化微蜂窝网络资源分配的方法。

背景技术

当前，随着智能手机、笔记本电脑等智能设备的快速发展，传统上主要依托于有线固定接入的电子银行、电子医疗和网上购物等应用已开始呈现出移动化的特点；并且随着用户终端处理能力增强和无线业务日益丰富，无线接入需承载的业务量将急剧增加。据预测，无线业务量将在未来十年增长1000倍。传统的宏蜂窝网络将难以满足日益增长的无线业务量，因此，如何应对现代移动通信网络中快速增长的业务量并提供更高的数据速率成为进一步推动无线通信发展的关键技术。

为了实现高速无线接入的愿景，微蜂窝技术应运而生。微蜂窝技术的基本原理是在宏蜂窝网络中设置低功耗、低成本的微蜂窝来卸载宏蜂窝的流量，从而提高传统宏蜂窝网络的覆盖率和容量(参考文献Y.Li,A.Maeder,L.Fan,A.Nigam,and J.Chou,Overview offemtocell support in advanced WiMAX systems.IEEE Communications Magazine,vol.49,no.7,pp.122-130,2011.)。微蜂窝包括一个微基站和若干个用户，由于微基站减小了用户和网络接入点之间的距离，因此可以提高用户的数据传输速率。然而，大量高密度的部署微蜂窝会导致严重的微蜂窝间干扰，不同微蜂窝内的用户之间的干扰随之加强。为了提高通信性能、降低不同微蜂窝内用户之间的互干扰，需要设计高效的干扰控制策略。

微蜂窝网络的干扰控制问题近年来得到了广泛关注和深入研究，其中两种有效的干扰控制方法为基于博弈理论的动态信道分配机制(参考文献Z.Zhang,L.Song,Z.Han andW.Saad,Coalitional games with over-lapping coalitions for interferencemanagement in small cell networks.IEEE Transactions on WirelessCommunications,vol.13,no.5,pp.2659-2669,2014.)和基于图和分簇思想的信道分配方法(参考文献L.Zhou,R.Ruby,H.Zhao,X.Ji,J.Wei et al,A graph-based resourceallocation scheme with interference coordination in small cellnetworks.Globecom 2014 Workshop-Heterogeneous and Small Cell Networks,pp.1223-1228,2014.)。两种干扰控制方法的基本原理都是通过设计合理的信道分配方法，避免距离较近的多个微蜂窝接入同一个信道，从而降低不同微蜂窝内用户之间的干扰。现有的基于博弈论的干扰控制方法的核心思想是：将微蜂窝之间的干扰关系建模为一个博弈模型，效用函数定义为博弈参与者受到的干扰水平的函数。根据构建的博弈模型设计相应的信道分配算法，博弈参与者以优化效用函数为目标来更新信道选择策略，若当前的选择的信道的干扰水平比较高，则下一时隙会选择其他干扰水平相对较低的信道，这样的信道选择更新原则可以减小不同微蜂窝内用户之间的互干扰。基于图和分簇思想的干扰控制方法的核心思想是：首先，根据微蜂窝实际的地理位置，将地理位置距离较近的若干个微蜂窝分到同一个簇内，距离较远的微蜂窝分到不同簇内。由于不同簇之间的微蜂窝距离远、干扰小，因此这样的分簇可以在不同簇之间实现频谱资源的复用。然后，同一簇内的多个微蜂窝之间进行信道资源的分配选择，尽量使干扰强的微蜂窝分配到不同的信道上从而降低蜂窝间的强干扰。

综合以上分析可以发现：目前已有的微蜂窝网络中干扰控制方法的研究大多关注于信道选择，忽略了微基站的功率控制问题。从单独一个微蜂窝的角度出发，为了提高用户的通信速率，微基站会自私地增大自身的发射功率。但是从全网角度出发，任意微基站自私地增大发射功率都会对邻近微蜂窝内的用户产生更大的干扰。因此在超密集组网条件下，为了降低不同微蜂窝内用户之间的互干扰、提高用户的通信速率，不仅要实现稳定的信道资源分配，还是实现有效的微基站功率控制。

已有的基于演化博弈的干扰控制方法(参考文献P.Semasinghe,E.Hossain andK.Zhu,An evolutionary game for distributed resource allocation in self-organizing small cells.IEEE Transactions on Mobile Computing,vol.14,no.2,pp.274-287,2014.)同时考虑了信道分配和功率控制两个方面。微蜂窝内的微基站作为博弈参与者，通过比较自己用户的速率与种群内所有微蜂窝用户的速率平均值来更新信道选择和功率选择。然而，由于该方法的博弈效用函数的设计仅仅关注于博弈者自身受到的干扰，而没有考虑到自身对整个网络其他博弈者的干扰影响，因此无法实现最小化系统干扰水平。

发明内容

本发明的目的在于针对微蜂窝网络中干扰控制、动态资源(信道和功率)分配问题，提出一种微蜂窝网络中的分布式资源分配方法，该方法是基于博弈理论的信道选择和功率控制的分步资源分配方法，在大规模、超密集组网条件下通过实现不同微蜂窝之间的信道分配和功率控制，达到降低不同微蜂窝之间互干扰、提高用户的通信速率的目的

为了解决上述技术问题，本发明提供一种微蜂窝网络中的分布式资源分配方法，其特征在于，将微蜂窝网络映射到位于控制中心处的一个虚拟判决网络，虚拟判决网络中的每一个认知代理对应一个用户；所有用户将自己的地理位置坐标信息上报给所属的微基站，微基站将覆盖范围内有通信需求的用户的位置信息上报给控制中心对应的认知代理，然后由认知代理完成信道选择和功率选择；控制中心将信道选择结果和功率选择结果下发给微基站，微基站完成微蜂窝内用户的资源分配。

进一步，信道选择方法为：认知代理根据当前的信道选择概率为所对应的用户选择一个信道，并计算选择该信道的信道效用函数，然后根据该信道效用函数更新每一个信道的选择概率；循环前述信道选择和概率更新过程直至信道选择实现收敛；功率选择方法为：认知代理根据当前的功率选择概率为所对应用户所属微基站选择一个发射功率，并计算选择该功率的功率效用函数，然后根据该功率效用函数更新每一个功率的选择概率；循环前述功率选择和概率更新过程直至功率选择实现收敛。

进一步，任意认知代理n的信道效用函数u_n的计算方法如式(1)所示：

式(1)中，a_n是认知代理n选择的信道，a_-n是除认知代理n以外其余所有认知代理选择的信道，a_j是认知代理j的信道选择，n^*是认知代理n对应用户所属的微基站，是微基站n^*在信道a_n上的发射功率，是微基站n^*与认知代理j所对应用户之间的信道增益，α_n是用户n的活动概率(即有通信需求的概率)，α_j是用户j的活动概率；j^*是认知代理j对应用户所属的微基站，是微基站j^*在信道a_j上的发射功率，是用户n和微基站j^*之间的信道增益；是微基站j^*到用户n之间的距离，γ是路径损耗因子，函数I{a_n＝a_j}满足式(2)

认知代理n更新信道选择概率的方法如公式(3)所示，

公式(3)中，Pr[a_n(k+1)＝a_n(k)]是认知代理n在第k+1个时隙与第k个时隙选择相同信道的概率，Pr[a_n(k+1)＝m]是认知代理n在第k+1个时隙选择信道m的概率，Y＝exp{u_n(k)β}+exp{v_mβ}，β是学习参数，k代表当前的时隙，X是所有认知代理都选择同一信道时的总干扰水平，其中，u_n(k)为认知代理n在当前时隙内选择信道a_n(k)获得的信道效用函数，v_m为认知代理n在当前探测信道m获得的信道效用函数。

进一步，任意认知代理n的功率效用函数U_n的计算方法如式(4)所示，

式(4)中，b_n是认知代理n选择的功率，b_-n是除认知代理n以外其余所有认知代理选择的功率，假如认知代理n最终选择信道c，则M_c是选择信道c的认知代理的集合，r_n是根据香农公式得到的用户n在选择的信道c上的速率，r_n如公式(5)所示，

式(5)中，B是信道带宽，σ是噪声功率。α_n是用户n的活动概率(即有通信需求的概率)，α_j是用户j的活动概率，n^*是认知代理n对应用户所属的微基站，是微基站n^*在信道c上的发射功率，是微基站n^*与认知代理n所对应用户之间的信道增益；j^*是认知代理j对应用户所属的微基站，是微基站j^*在信道c上的发射功率，是用户n和微基站j^*之间的信道增益。是微基站n^*(用户n所属的微基站)的最大功率限制。

式(4)中，r_i是用户i在信道a_i上的速率，其具体定义式与式(5)相同，表示当用户n所属的微基站发射功率为0时，用户i得到的速率，如公式(6)所示，

公式(6)中，M_c是选择信道c的认知代理的集合，α_i是用户i的活动概率，是微基站i^*在信道c上的发射功率，是微基站i^*与认知代理i所对应用户之间的信道增益；α_j是用户j的活动概率，是微基站j^*在信道c上的发射功率，是微基站j^*与认知代理j所对应用户之间的信道增益。

进一步，采用强化学习中的Q学习来实现功率选择收敛，其中，每一个认知代理根据功率效用函数值，按照式(7)、(8)和(9)所示规则更新Q值，

其中，Q_n,l(k)是认知代理n在第k个时隙选择功率l时得到的Q值大小，Q_n,l(k+1)是认知代理n在第k+1个时隙选择功率l时得到的Q值，U_n(k)是认知代理n在第k个时隙得到的效用函数，λ_k是步进因子，I(b_n(k),l)的定义如式(10)所示，

公式(10)中，b_n(k)是认知代理n在第k个时隙的功率选择；

每一个认知代理根据当前的功率选择概率和更新后的Q值，按照式(11)所示原则更新功率选择概率，

式(11)中，p_n,l(k+1)是认知代理n在第k+1个时隙选择功率l的概率，p_n,l'(k)是认知代理n在第k个时隙选择功率l'的概率，的含义是“对任意的认知代理n来说”，η是学习参数。

使用本发明方法进行资源分配时，将实际的微蜂窝网络映射到位于控制中心处的一个虚拟判决网络，虚拟判决网络中的决策者是一些认知代理，每一个认知代理对应一个实际的用户。所有用户将自己的地理位置坐标信息上报给所属的微基站，微基站将覆盖范围内有通信需求的用户的位置信息上报给控制中心对应的认知代理。接下来，分步完成信道选择和功率选择。首先，认知代理根据当前的信道选择概率为所对应的用户选择一个信道接入，并计算该信道的效用函数。这里所谓的按照概率选择信道是指任意一个用户都以某一概率选择接入某一个信道，即每个信道对每个用户而言都对应一个选择概率，用户每次都是选择概率值最大的信道接入。根据信道选择的效用函数更新每一个信道的选择概率。循环信道选择和概率更新过程直至信道选择实现收敛。之后，与信道选择过程类似，认知代理根据当前的功率选择概率为所对应用户所属微基站选择一个发射功率，并计算该功率选择的效用函数。根据功率选择的效用函数更新每一个功率的选择概率。循环功率选择和概率更新过程直至功率选择实现收敛。最后，控制中心将信道选择结果和功率选择结果下发给各个微基站，微基站完成微蜂窝内用户的资源分配。本发明为一种基于博弈理论和在线学习的分布式资源分配方法。资源分配时同时考虑信道选择和功率控制，博弈效用函数的设计不仅考虑到用户自身得到的效用值，同时考虑该用户对其他用户效用值的影响，从而实现最小化干扰的目的。

本发明与现有技术相比，其显著优点在于，(1)本发明充分利用智能网关(控制中心，即大型计算机)的高效、快速计算优势，将用户需要完成的基于博弈论的资源分配学习方法映射到智能网关处进行快速运算，避免了集中式资源分配方式存在的全网计算量大的缺陷，实现完全分布式资源分配，因而适用于大规模、超密集网络；(2)本发明同时考虑了降低干扰策略的信道选择和功率控制两个方面，分步实现信道资源分配和功率控制。其中，信道选择先粗略地实现干扰降低的目的，功率控制进一步降低用户间干扰，提高用户的通信速率，因此本发明在性能上进一步降低干扰、提高全网吞吐量；此外，在控制中心处实现了完全分布式的资源分配，避免了集中式在计算量方面的缺陷，因此适用于大规模网络；(3)本发明针对功率控制，提出基于边际效用的功率控制效用函数，该效用函数不仅考虑了该用户得到的速率，同时考虑了该用户对同信道上其他用户的干扰，因此可以最小化用户间干扰、最大化系统吞吐量(用户的通信速率)。

附图说明

图1是使用本发明方法的一种系统模型。

图2是本发明所述微蜂窝网络中的分布式资源分配方法流程示意图。

图3是本发明实施例中任意用户的信道选择收敛示意过程。

图4是本发明实施例中任意用户的功率选择收敛示意过程。

图5是本发明实施例中不同信道数下吞吐量性能随微蜂窝数的变数示意图。

图6是本发明方法与现有演化博弈方法的吞吐量性能比较示意图。

具体实施方式

容易理解，依据本发明的技术方案，在不变更本发明的实质精神的情况下，本领域的一般技术人员可以想象出本发明微蜂窝网络中的分布式资源分配方法流的多种实施方式。因此，以下具体实施方式和附图仅是对本发明的技术方案的示例性说明，而不应当视为本发明的全部或者视为对本发明技术方案的限制或限定。

结合图1，是使用本发明所述微蜂窝网络中的分布式资源分配方法的分布式资源分配系统模型。系统中包含1个控制中心，S个微蜂窝，N个用户，以及M个正交可用信道。本发明的基本思想是，在实际的微蜂窝网络映射到位于控制中心处的一个虚拟判决网络(决策者是一些认知代理)，每一个认知代理对应一个终端用户。将信道选择和功率控制问题分别建模为博弈模型，博弈的参与者是所有的认知代理。网络中的用户将自己的地理位置信息上报给所属的微基站，微基站将覆盖范围内所有用户的信息分别上报给虚拟判决网络中对应的认知代理。在信道选择阶段，认知代理选择一个信道，并根据其他代理的信道选择情况计算当前受到的干扰水平。利用空间自适应学习算法，根据本信道选择的干扰水平更新该信道的选择概率。在下一时隙，认知代理选择所有信道中概率值最大的信道接入(概率值大说明代理在该信道上受到的干扰水平低)。多次迭代学习之后，所有认知代理的信道选择实现收敛，并将信道选择结果作为输入进入功率控制阶段。此时，所有认知代理要选择在接入信道上与所属微基站的通信功率。认知代理选择一个功率之后计算当前功率得到的数据速率，利用Q学习算法，将得到的速率值转化为该功率的选择概率。多次迭代学习之后，所有认知代理的功率选择可以实现收敛。最后，控制中心将资源分配结果下发给各个微基站，微基站完成微蜂窝内用户的资源分配。

本发明的具体实施包括两个部分，每部分步骤如下：

第一部分：信道选择

步骤1：信道选择博弈模型构建，完成以下工作：

1.1博弈模型：将信道选择问题建模为一个博弈模型，定义为该博弈模型中包含三个组成部分，其中，是所有参与博弈的认知代理的集合，A_n是认知代理n的可用信道选择策略空间，且u_n是认知代理n的效用函数。

1.2效用函数：定义任意认知代理信道选择受到的干扰水平为I_n，且I_n的定义如式(1)所示

式(1)中，a_n是认知代理n的信道选择，α_n是用户n的活动概率(即有通信需求的概率)，是认知代理j所属微基站j^*在信道a_j上的发射功率，是用户n和微基站j^*之间的信道增益。是微基站j^*到用户n之间的距离，γ是路径损耗因子。函数I{a_j＝a_n}满足式(2)

考虑到信道选择中的干扰控制问题，将任意认知代理n的信道选择的效用函数u_n定义为如式(3)所示：

式(3)中，a_n是认知代理n选择的信道，a_-n是除认知代理n以外其余所有认知代理选择的信道，a_j是认知代理j的信道选择，n^*是认知代理n对应用户所属的微基站，是微基站n^*在信道a_n上的发射功率，是微基站n^*与认知代理j所对应用户之间的信道增益，α_n是用户n的活动概率(即有通信需求的概率)，α_j是用户j的活动概率。同理，j^*是认知代理j对应用户所属的微基站，是基站j^*在信道a_j上的发射功率，是用户n和微基站j^*之间的信道增益；是微基站j^*到用户n之间的距离，γ是路径损耗因子，且函数I{a_j＝a_n}满足上式(2)。

1.3博弈的优化目标：以式(3)的效用函数为优化目标进行信道选择，最终可以实现全网干扰水平最小化的优化目标如式(4)所示，

公式(4)说明，信道选择的博弈优化目标是最小化系统中所有认知代理受到的干扰水平之和。以上式(4)为优化目标进行信道选择，可以实现最小化用户之间干扰的目的。

步骤2：进行信道选择，更新信道选择概率，完成以下工作：

2.1初始化：每个认知代理从它的可用信道集A_i中等概率随机选择一个信道a_i(0)。

2.2认知代理选择：通过自组织的方式，认知代理n被随机选出进行信道选择概率更新。此时所有认知代理保持当前信道选择不变，被选择的代理n按照式(3)计算其在当前时隙内信道选择a_n(k)获得的效用函数u_n(k)，k代表当前的时隙。

2.3探测：之后，被选出的代理n以概率1/|A_n|随机地在可用信道集中选择一个信道m，其中|A_n|指代理n的可用信道数目。所有认知代理保持当前的信道选择不变，代理n按照式(3)估计其在当前探测信道m获得的效用函数v_m。

2.4更新信道选择概率：被选出的代理n根据以下规则更新信道选择概率：

其中，Pr[a_n(k+1)＝a_n(k)]是认知代理n在第k+1个时隙与第k个时隙选择相同信道的概率，Pr[a_n(k+1)＝m]是认知代理n在第k+1个时隙选择信道m的概率，Y＝exp{u_n(k)β}+exp{v_mβ}，β是学习参数，k代表当前的时隙。X是所有代理都选择同一信道时的总干扰水平，u_n(k)为代理n在当前时隙内信道选择a_n(k)获得的效用函数，v_m为代理n在当前探测信道m获得的效用函数。

2.5更新信道选择：被选出的代理n根据更新后的信道选择概率，选择概率值最大的信道接入。

步骤3：循环步骤2.2-2.5，直至所有认知代理的信道选择实现收敛，即以概率1选择某一信道接入。

第二部分：功率选择

步骤1：功率选择博弈模型构建，完成以下工作：

1.1博弈模型：将功率选择问题建模为一个博弈模型，定义为该博弈模型中包含三个组成部分，其中，是所有参与博弈的认知代理的集合，B_n是代理n的功率选择策略空间。本发明考虑到实际中微基站可用的发射功率是离散的，因此定义可用功率策略空间为B_n＝{P₁,P₂,...,P_L}，其中P_l为任意一个可用的发射功率。U_n是认知代理n的效用函数。

1.2效用函数：考虑到任意微基站n^*(用户n所属的微基站)的最大功率限制功率选择应满足公式(6)所示的限制条件，

式(6)说明，同一微基站下所有用户的功率之和不能超过该基站的最大功率限制。这里，为微基站n^*与该基站下选择信道m的用户之间的通信功率。在下面的步骤内容里，所有的用户将以数据速率最大化为原则来调整该功率。

假如认知代理n的信道选择结果为信道c，根据第一部分信道选择结果，定义信道c的认知代理集合为M_c，根据香农公式得到用户n在选择信道c、功率时的速率r_n如式(7)所示：

式(7)中，B是信道带宽，σ是噪声功率。α_n是用户n的活动概率(即有通信需求的概率)，α_j是用户j的活动概率。n^*是认知代理n对应用户所属的微基站，是微基站n^*在信道c上的发射功率，是微基站n^*与认知代理n所对应用户之间的信道增益。同理，j^*是认知代理j对应用户所属的微基站，是微基站j^*在信道c上的发射功率，是用户n和微基站j^*之间的信道增益。是微基站n^*(用户n所属的微基站)的最大功率限制。

考虑到功率选择中的用户速率最大化的原则，定义任意认知代理n的效用函数如式(8)所示，

式(8)中，b_n是认知代理n的功率选择，b_-n是除代理n以外其余所有认知代理的功率选择。r_n是根据香农公式得到的用户n在选择信道c上的速率，r_i是用户i在信道c上的速率。表示当认知代理n所属的微基站发射功率为0时，用户i得到的速率，其如公式(9)所示，

公式(9)中，M_c是选择信道c的认知代理的集合，α_i是用户i的活动概率，是微基站i^*在信道c上的发射功率，是微基站i^*与认知代理i所对应用户之间的信道增益。同理，α_j是用户j的活动概率，是微基站j^*在信道c上的发射功率，是微基站j^*与用户j所对应用户之间的信道增益。

1.3博弈优化目标：按照最大化(8)式所示的效用函数进行功率选择时，可以实现全网所有用户通信速率的最大化，如公式(10)所示：

公式(10)说明，功率选择的博弈优化目标是最大化系统中所有用户得到的数据速率之和。以上式(10)为优化目标进行信道选择，可以实现最大化用户通信速率的目的。

步骤2：进行功率选择，更新功率选择概率，完成以下工作：

2.1定义任意代理n的功率选择概率矢量为p_n＝{p_n,1,p_n,2,...,p_n,L}，p_n,l代表了代理n选择功率l的概率。

2.2初始化：初始化所有代理的功率选择概率矢量为p_n＝{1/L,1/L,...,1/L}，每个认知代理从它的可用功率集B_n中等概率随机选择一个功率b_n(0)。为了避免认知代理之间进行功率选择信息交换，实现完全分布式的自主功率选择，本发明采用强化学习中的Q学习来实现功率选择收敛。初始化Q学习中的Q值矢量为Q_n,l(0)＝0，(Q_n,l是认知代理n选择功率l对应的Q值)。

2.3计算效用函数值：所有认知代理根据当前的功率选择，按照式(8)计算当前的功率效用函数值。

2.4更新Q值：每一个认知代理根据功率选择得到的效用函数值，按照式(11)、(12)和(13)所示规则更新Q值，

其中，Q_n,l(k)是认知代理n在第k个时隙选择功率l时得到的Q值大小，Q_n,l(k+1)是认知代理n在第k+1个时隙选择功率l时得到的Q值。U_n(k)是认知代理n在第k个时隙得到的效用函数，λ_k是步进因子，I(b_n(k),l)的定义如式(14)所示，

公式(14)中，b_n(k)是认知代理n在第k个时隙的功率选择。

2.5更新功率选择概率：每一个认知代理根据当前的功率选择概率和更新后的Q值，按照式(15)所示原则更新功率选择概率，

其中，p_n,l(k+1)是认知代理n在第k+1个时隙选择功率l的概率，p_n,l'(k)是认知代理n在第k个时隙选择功率l'的概率。代表对任意的认知代理n，η是学习参数。

2.6更新功率选择：任意一个认知代理根据更新后的功率选择概率，选择概率值最大的功率b_n(k+1)。

步骤3：循环步骤2.3-2.6，直至所有认知代理的功率选择实现收敛，即以概率1选择某一功率。

实施例：本发明的一个具体实施例如下描述，系统仿真采用Matlab软件，参数设定不影响一般性。该实施例中，验证信道选择和功率选择收敛(图3和图4)时，微蜂窝的总数S＝15，验证吞吐量(系统所有用户平均通信速率)性能时(图5和图6)，微蜂窝的总数从10增长到20。任意微蜂窝下所覆盖的用户数为(1,2,3)中的一个任意值。信道带宽为B＝200kHz，噪声功率为σ＝-130dB，路径损耗因子为γ＝3.7。可用信道数为M＝4，可用离散功率空间为{10mw,30mw,50mw,70mw,90mw}，微基站最大发射功率为100mw。学习参数β＝k，λ_k＝1/k，η＝0.4，其中，k是学习算法的迭代次数。所有用户的活动概率为0～1之间的任意值。S个微基站均匀地分布在100m×100m的方形范围内，且每个微基站的覆盖半径为10m，用户均匀地分布在所属微基站的覆盖范围内。

该实施例中，首先以干扰水平最小化为原则进行多用户的信道选择，然后基于信道选择结果，以吞吐量最大化为原则进行功率选择。在信道选择阶段，假设所有微基站的发射功率为50mw。之后在功率选择阶段，进一步优化每个基站在每个选择信道上的发射功率。

本发明提出的微蜂窝网络的分布式资源分配方法的具体过程如下：

步骤1：信道选择初始化。初始化迭代次数k＝0，每个认知代理从它的可用信道集A_i中等概率随机选择一个信道a_i(0)。

步骤2：信道选择概率更新。通过自组织的方式，认知代理n被选择出来进行策略更新。以第k＝2个时隙为例，认知代理n＝9被选出。该代理在本时隙内的信道选择和信道探测分别为a_n(k)＝2，m＝4，对应的效用函数如表1所示。

表1：认知代理n＝9不同策略对应的效用值

信道选择	a<sub>n</sub>(k)＝2	m＝4
			效用值/X	0.3977	0.1281

进一步按照信道选择概率更新规则(5)可知，更新后的信道选择概率如表2所示。

表2：认知代理n＝9第k＝2个时隙的信道选择概率

信道编号	1	2	3	4
					选择概率	0	0.3684	0	0.6316

根据表2的概率更新结果可知，该代理在下一时隙选择信道4接入并保持不变，直至该用户再次被选择出来进行策略更新。

步骤3：信道选择概率收敛。循环执行步骤2多个时隙后，信道选择实现收敛。以第k＝1000个时隙为例，任意选择系统中的一个认知代理n＝4，该代理的信道选择概率如表3所示。可见，该代理的信道选择实现收敛，最终以概率1选择信道3。其他认知代理的信道选择概率最终结果与表3相似，由于认知代理数目较多(认知代理总数N＝28)，这里不再一一列出。

表3：认知代理n＝4在第k＝1000个时隙的信道选择概率

信道编号	1	2	3	4
					选择概率	0	0	1	0

网络中在第k＝1000个时隙所有认知代理的信道选择实现收敛，最终的信道选择结果如表4所示。

表4：所有认知代理最终的信道选择结果

步骤4：功率选择初始化。初始化迭代次数k＝0，功率选择概率p_n＝{1/5,1/5,...,1/5}，每个认知代理从它的可用功率集B_n中等概率随机选择一个功率b_n(0)。初始化Q值矢量为Q_n,l(0)＝0，

步骤5：更新Q值和功率选择概率。基于信道选择结果，所有认知代理选择接入信道的通信功率。根据自己和其他代理的功率选择结果得到效用值，并据此更新Q值和功率选择概率。以第k＝1个时隙为例，任意代理n＝1的功率选择为10mw，对应的Q值更新结果如表5所示。

表5：认知代理n＝1在第k＝1个时隙的功率选择Q值结果

功率	10mw	30mw	50mw	70mw	90mw
						Q值	0.2201	0	0	0	0

根据表5得到的Q值更新结果，按照功率选择概率更新原则(15)可得功率选择概率，如表6所示。

表6：认知代理n＝1在第k＝1个时隙的功率选择概率

功率	10mw	30mw	50mw	70mw	90mw
						选择概率	0.2120	0.1970	0.1970	0.1970	0.1970

步骤6：功率选择概率收敛。循环执行步骤5多个时隙后，功率选择实现收敛。以第k＝500个时隙为例，任意选择系统中的一个认知代理n＝4，该代理的功率选择概率如表7所示。可见，该代理的功率选择实现收敛，最终以概率1选择功率30mw。其他认知代理的功率选择概率最终结果与表7相似，这里不再一一列出。

表7：认知代理n＝4在第k＝500个时隙的功率选择概率

功率	10mw	30mw	50mw	70mw	90mw
						选择概率	0	1	0	0	0

网络中共有28个用户，图3和图4分别为网络中任意一个用户的信道选择和功率选择的概率收敛过程。从图3中可以看出，该用户在大约300次迭代学习之后，以概率1选择信道1。从图4可以看出，该用户在大约250次迭代学习之后选择功率50mw。上述两个仿真结果说明，本发明所提的学习算法能够实现微蜂窝网络中稳健的信道接入和功率控制，且算法收敛速度较快。

为清晰体现本发明所提方法的吞吐量性能，图5给出了在不同信道数下吞吐量性能随微蜂窝数的变化情况。在该仿真中，假设所有微蜂窝下覆盖的用户数为2。从图5中可以看出：1)网络的平均吞吐量性能随微蜂窝数的增大而减小，2)吞吐量性能随可用信道数的增加而提高。当网络中微蜂窝数量增加时，网络中总的用户数增加，用户之间的干扰加大。网络平均吞吐量定义为所有用户的速率之和的平均值，当用户间干扰增大时，用户得到的数据速率减小，因而网络平均吞吐量性能降低。此外，当网络的可用信道数增加时，选择同一信道的用户之间的干扰减小，因此用户的数据速率增大，网络平均吞吐量性能提高。

为了进一步体现本发明所提分布式资源分配算法的性能优势，图6给出了本发明方法与已有研究中所提的演化博弈方法的性能对比结果。在该仿真中，假设所有微蜂窝内覆盖的用户数为1。从图6可以看出，由于本发明方法分步考虑了信道选择和功率控制，两部分的博弈效用函数都不仅考虑了本用户的效用，同时考虑了本用户对其他用户的干扰影响，因此相较于演化博弈方法，可以进一步降低用户之间的干扰、提高系统吞吐量。

综上，本发明提出的方法同时考虑了微蜂窝网络中的资源分配的信道选择和功率控制两个问题。信道选择粗略的实现了用户间的干扰控制，功率选择部分，通过设计基于边际效用的效用函数进一步实现了干扰减小，实现了全网吞吐量的最大化。此外，本发明利用了智能网关(控制中心)的大量、快速数据处理的优势，将多用户的资源分配问题映射到控制中心的虚拟决策网络进行计算，实现了完全分布式的资源分配，避免了集中式方式在计算量方面的缺陷，因而适用于实际的大容量、超密集网络中。

Claims

1.一种微蜂窝网络中的分布式资源分配方法，其特征在于，将微蜂窝网络映射到位于控制中心处的一个虚拟判决网络，虚拟判决网络中的每一个认知代理对应一个用户；所有用户将自己的地理位置坐标信息上报给所属的微基站，微基站将覆盖范围内有通信需求的用户的位置信息上报给控制中心对应的认知代理，然后由认知代理完成信道选择和功率选择；控制中心将信道选择结果和功率选择结果下发给微基站，微基站完成微蜂窝内用户的资源分配；

信道选择方法为：认知代理根据当前的信道选择概率为所对应的用户选择一个信道，并计算选择该信道的信道效用函数，然后根据该信道效用函数更新每一个信道的选择概率；循环前述信道选择和概率更新过程直至信道选择实现收敛；

功率选择方法为：认知代理根据当前的功率选择概率为所对应用户所属微基站选择一个发射功率，并计算选择该功率的功率效用函数，然后根据该功率效用函数更新每一个功率的选择概率；循环前述功率选择和概率更新过程直至功率选择实现收敛；

任意认知代理n的信道效用函数u_n的计算方法如式(1)所示：

式(1)中，a_n是认知代理n选择的信道，a_-n是除认知代理n以外其余所有认知代理选择的信道，a_j是认知代理j的信道选择，n^*是认知代理n对应用户所属的微基站，是微基站n^*在信道a_n上的发射功率，是微基站n^*与认知代理j所对应用户之间的信道增益，α_n是用户n的活动概率，α_j是用户j的活动概率；j^*是认知代理j对应用户所属的微基站，是微基站j^*在信道a_j上的发射功率，是用户n和微基站j^*之间的信道增益；是微基站j^*到用户n之间的距离，γ是路径损耗因子，是所有参与博弈的认知代理的集合，函数I{a_n＝a_j}满足式(2)，

认知代理n更新信道选择概率的方法如公式(3)所示，

公式(3)中，Pr[a_n(k+1)＝a_n(k)]是认知代理n在第k+1个时隙与第k个时隙选择相同信道的概率，Pr[a_n(k+1)＝m]是认知代理n在第k+1个时隙选择信道m的概率，Y＝exp{u_n(k)β}+exp{v_mβ}，β是学习参数，k代表当前的时隙，X是所有认知代理都选择同一信道时的总干扰水平，其中，u_n(k)为认知代理n在当前时隙内选择信道a_n(k)获得的信道效用函数，v_m为认知代理n在当前探测信道m获得的信道效用函数；

任意认知代理n的功率效用函数U_n的计算方法如式(4)所示，

式(5)中，B是信道带宽，σ是噪声功率，α_n是用户n的活动概率，α_j是用户j的活动概率，n^*是认知代理n对应用户所属的微基站，是微基站n^*在信道c上的发射功率，是微基站n^*在信道m上的发射功率，是微基站n^*与认知代理n所对应用户之间的信道增益；j^*是认知代理j对应用户所属的微基站，是微基站j^*在信道c上的发射功率，是用户n和微基站j^*之间的信道增益，是微基站n^*的最大功率限制；

2.如权利要求1所述分布式资源分配方法，其特征在于，采用强化学习中的Q学习来实现功率选择收敛，其中，每一个认知代理根据功率效用函数值，按照式(7)、(8)和(9)所示规则更新Q值，

公式(10)中，b_n(k)是认知代理n在第k个时隙的功率选择；