CN102811443B

CN102811443B - 家庭基站系统中基于频谱分配及功率控制的干扰管理方法

Info

Publication number: CN102811443B
Application number: CN201210265146.XA
Authority: CN
Inventors: 朱琦; 季祥芬; 朱洪波; 杨龙祥
Original assignee: Nanjing Post and Telecommunication University
Current assignee: CERTUSNET Corp.
Priority date: 2012-07-27
Filing date: 2012-07-27
Publication date: 2014-11-19
Anticipated expiration: 2032-07-27
Also published as: CN102811443A

Abstract

本发明的目的是在基于OFDMA的家庭基站系统中基于频谱分配及功率控制的干扰管理方法。该方法中每个家庭基站作为一个Q学习的智能体和博弈论中的博弈者，基于Q学习动态地分配频谱，在Q学习过程中再通过博弈来进行功率分配，每个家庭基站都以优化自己的性能为目标。家庭基站系统在不断地与环境交互的过程中可以最终收敛到一个最优的动作，使得系统在满足宏基站信干噪比门限要求的基础上提高家庭基站和整个系统的系能，避免了复杂的最优化问题。

Description

家庭基站系统中基于频谱分配及功率控制的干扰管理方法

技术领域

本发明涉及一种特别用于基于OFDMA的家庭基站系统中的动态干扰管理方法，属于通信技术领域。

背景技术

家庭基站是为了服务小面积覆盖（如家庭或者办公室）而设计的，有报告显示在未来的几年内，室外手机呼叫的比例逐渐下降而室内的数据业务明显增加。由于家庭基站覆盖范围小，低花费和低功耗，所以家庭基站可以分布得比宏基站更加密集，频谱可以得到更有效的复用，为室内用户提供更宽的频谱和更好的服务质量。家庭基站的出现势必会增加对宏基站用户的干扰，所以如何进行合理的资源分配来降低家庭基站对宏用户的干扰已经成为运营商考虑的主要问题之一。合理分配家庭基站的资源不仅可以降低对宏用户的干扰而且家庭用户间的干扰也会降低从而获得更好的服务质量。

正交频分多址接入(OFDMA)已经被选为LTE和4G网络的下行接入技术，OFDMA的特点是不同的子载波间使正交的，所以小区内部干扰可以忽略。在LTE中定义能分配一个用户的最小时频单位为一个资源块（ResourceBlock，RB），当一个RB被分配为多个小区时就会引起小区间干扰降低信干噪比从而降低用户的服务质量。很多研究都已经涉及到了多种小区间干扰消除或减轻的算法。由于家庭基站分布的多而且不规律所以对家庭基站进行集中控制难度较大，所以研究都是基于分布式控制的。有的研究是通过动态的频谱复用来减小家庭基站网络中的干扰的，例如通过一种适用于家庭基站分布密集的场景的自组织网络的方法，或者一种基于强化学习的算法在保证对宏基站的干扰门限的同时也保证家庭基站的服务质量；有的研究是基于功率控制的干扰管理方法，例如通过提出一种基于模糊Q学习（Fuzzy learning）的算法来控制家庭基站对宏基站的干扰，或者一种改进的注水功率控制算法来保证网络的公平性；此外还有的文献是采用的是频谱分配和功率控制相结合的方法来避免干扰的，例如在分布式网络中采用基于博弈论的干扰避免模型降低互相之间的干扰。

强化学习(Reinforcement Learning,RL)是一种机器学习方法，它通过从环境状态到动作映射的学习，感知环境状态，使得动作从环境中获得最大的累积回报函数。Q学习是强化中的一种常用的学习方法，它通过马尔科夫过程进行建模，采用迭代的方法逼近最优解，并以状态-动作回报值作为衡量标准。Q学习在学习过程总无需状态转移概率和回报函数的先验知识模型，而是从环境中直接学习，所以Q学习计算复杂度很低。博弈论(gametheory)又称对策论，早期被广泛应用于微观经济学中，它在解决资源调度的问题中有独特的优势。这种理论隐含的基本假设是：决策主体追求确定的外部目标并且考虑他们自身的知识或者其他决策主体行为的期望。博弈论是直到最近才作为分析工具应用于分布式无线资源管理当中。

本发明提供了一种Q学习与博弈论相结合(QL&game)的分布式的干扰管理方法，在保证宏用户的信干噪比门限的条件下提高家庭基站性能。在该方法中家庭基站间不需要进行信息交换，每个家庭基站作为一个Q学习的智能体(Agent)和博弈论中的博弈者(Player)。用Q学习动态地分配频谱，在Q学习过程中再通过博弈来进行功率分配，每个家庭基站都以优化自己的性能为目标。

发明内容

技术问题：本发明的目的是在基于OFDMA的家庭基站系统的场景下提供一种动态干扰管理方法。在该方法中每个家庭基站作为一个Q学习的智能体和博弈论中的博弈者，基于Q学习动态地分配频谱，在Q学习过程中再通过博弈来进行功率分配，每个家庭基站都以优化自己的性能为目标。家庭基站系统在不断地与环境交互的过程中可以最终收敛到一个最优的动作，使得系统在满足了宏基站信干噪比门限要求的基础上提高了家庭基站和整个系统的系能，这样就避免了复杂的最优化问题。

技术方案：本发明提供一种基于OFDMA的家庭基站系统的动态资源分配方法每个家庭基站作为一个Q学习的智能体和博弈论中的博弈者，在基于Q学习动态地分配频谱中通过博弈进行功率分配，每个家庭基站都以优化自己的性能为Q学习的目标和博弈的效用。发明中采用Q学习与博弈论相结合(QL&game)的分布式控制机制进行干扰管理。

本发明考虑的无线网络环境包括M个半径为R的宏小区，每个宏小区的中心都放有一个宏基站。假设每个宏小区中拥有一个居民区由F个房间组成，每个房间中间都放有一个可以随意开关的家庭基站，每个房间都是边长为r的正方形。家庭基站的用户随机均匀分布在每个房间内，而宏基站的用户随机分布在房间的周围。假设宏基站和家庭基站都是工作在相同的频带，宏用户和家庭用户之间会存在干扰。系统场景模型如图1所示。

假设系统总带宽为B，由N个资源块组成，每个资源块的大小为B_rb，即B=N×B_rb。每个宏基站和每个家庭基站的用户数分别为U_M和U_F，基站通过比例公平调度(proportional fair scheduler)算法把N个资源块分配给U_M和U_F个用户，宏基站的总功率为P_M，平均分配到每个资源块上的功率向量家庭基站在每个资源块上的功率向量每个家庭基站可分配在资源块上的最大功率和最小功率分别表示为和

Q学习是一种无师自通的学习算法，它不需要先验知识，完全是在与环境的不断交互过程中学到最优的策略。Q学习被证明在马尔科夫决策过程环境中能最终收敛到最优值。Q学习的基本模型如图2所示。Q学习模型由一组状态-动作对组成，学习的目标是集中控制中心在不断与环境交互过程中能找到一个最优的策略，使得观察到的回报值最大。智能体在处于状态s时，根据策略π:s→a，选择动作。利用博弈论分析一个博弈过程的收敛情况，找到博弈过程的稳定状态即纳什均衡是应用博弈论分析问题的关键。本发明中运用博弈理论把功率分配问题建模成为一个博弈问题。

QL&game算法是在基于OFDMA的家庭基站系统的的场景下的一种动态干扰管理方法。在该方法中每个家庭基站作为一个Q学习的智能体和博弈论中的博弈者，基于Q学习动态地分配频谱，在Q学习过程中再通过博弈来进行功率分配，每个家庭基站都以优化自己的性能为目标。将Q学习应用到家庭基站网络中，首先要将状态、动作和回报函数映射到家庭基站系统中；而在博弈论建模中也需要将博弈者，动作或者策略还有效用函数应用到本场景中。在本发明中每个博弈者的动作是发送功率值，每个博弈者都根据其他博弈者的动作选择一个最好的动作。博弈论中效用函数至关重要，随着家庭基站功率的提高，家庭基站对宏基站和其他家庭基站的干扰就会增加，所以在博弈论的效用函数中不仅应考虑自身目标的最大化还应加入功率的成本。由于本发明中的家庭基站采用分布式Q学习机制，所以每个家庭基站之间不进行信息交换，但是我们假设每个家庭基站对宏基站用户所受的干扰信息是已知的。家庭基站作为一个独立的智能体，它还要根据当前学习的资源块分成多个学习过程。家庭基站的状态与资源块当前的宏用户所受干扰和家庭基站受到的干扰有关；而每个家庭基站的动作是资源库的使用情况；回报值体现了学习的目标，所以每个智能体的回报值的选取至关重要，本发明中家庭基站的回报值是与宏基站在资源快上的性能及家庭基站的博弈论的效用函数值相关。QL&game算法流程图如图3所示，在经过多次迭代后QL&game算法收敛到一个最优的资源分配策略，最终使得系统在满足了宏基站信干噪比门限要求的基础上提高了家庭基站和整个系统的系能。

本发明的家庭基站系统中基于频谱分配及功率控制的干扰管理方法将每个家庭基站作为一个Q学习的智能体和博弈论中的博弈者，在基于Q学习动态地分配频谱中通过博弈进行功率分配，目的是在保证满足宏基站信干噪比门限要求的基础上提高家庭基站和整个系统的系能；每个家庭基站作为一个Q学习的智能体和博弈论中的博弈者，在Q学习动态地分配频谱的过程中再通过博弈来进行功率分配，每个家庭基站都以优化自己的性能为目标。

Q学习与博弈论相结合的动态资源分配方法中关于功率控制的博弈G={f,{p_f},{U_f(·)}}的特征包括以下内容：

a.博弈者f：每个家庭基站f都是一个博弈者；

b.动作空间p_f：其中N是总资源块数，每个家庭基站f都会在与环境交互的过程中为每个资源块n分配最优的功率

c.效用函数U_f：家庭基站在满足以下两个条件下根据公式（8）所定义的效用函数给自己分配一个使得自身能性能最优的功率，两个条件为（1）功率分配必须满足p_min和p_max是指每个资源块上的最小功率值和最大功率值，（2）每个资源块上的功率分配都要考虑宏用户信干噪比SINR是否满足门限值γ_th。

Q学习与博弈论相结合的动态资源分配方法中Q学习的特征包括以下内容：

a.智能体f：每个家庭基站f都是一个智能体；

b.动作空间A_f：

A_{f} = {a_{f}^{n}}_{n &Element; {1, \cdot \cdot \cdot, N}},

其中0表示家庭基站f未使用资源块n，1则表示使用；

c.状态空间S_f：与动作空间相似其中是与宏用户和家庭用户所受干扰有关的，宏用户根据其资源块n的信干噪比是否满足门限值γ_th要求分成两种情况，家庭用户根据其资源块n的信干噪比的大小分成T种情况，这样状态的状态数可分为2*T种；

d.回报函数R_f：宏基站的信干噪比必须大于γ_th，选择能在满足宏基站信干噪比要求的前提下家庭基站吞吐量最大的那个策略作为最优策略，当宏基站的信干噪比小于γ_th时回报函数为-B，当宏基站所有资源块的信干噪比大于γ_th时回报函数为权利要求2中博弈论的效用函数U_f，其中B为正的常数，-B表示当宏基站的信干噪比小于γ_th时智能体给当前的策略一个-B的惩罚，反之，智能体则给当前的策略一个值为U_f的奖赏。

有益效果：在OFDMA的家庭基站系统的的场景下，本发明提供了一种动态资源分配方法。家庭基站系统在不断地与环境交互的过程中可以最终收敛到一个最优的资源分配，使得系统在满足了宏基站信干噪比门限要求的前提下提高家庭基站和整个系统的系能，避免复杂的最优化问题。

附图说明

图1是场景模型，

图2是Q学习的基本模型，

图3是QL&game算法流程图。

具体实施方式

本发明分析的性能参数为信干噪比（interference and noise,SINR）和吞吐量，其中宏用户u_m∈U_M在占用资源块n∈N的信干噪比可以表示如下：

γ_{m}^{n} = \frac{p_{m}^{n} g_{m, u_{m}}^{n}}{Σ_{k = 1, k &NotEqual; m}^{M} p_{k}^{n} g_{k, u_{m}}^{n} + Σ_{f = 1}^{F} p_{f}^{n} g_{f, u_{m}}^{n} + σ^{2}} - - - (1)

其中表示宏基站m与其用户u_m在资源块n上的信道增益，和则分别表示其余的宏基站k∈{1,2，…，M}和家庭基站f∈{1,2，…，F}与用户u_m之间的信道增益，σ²为噪声功率。

类似的可以得到家庭基站用户u_f∈U_F在资源块n上的信干噪比为：

γ_{f}^{n} = \frac{p_{f}^{n} g_{f, u_{f}}^{n}}{Σ_{m = 1}^{M} p_{m}^{n} g_{m, u_{f}}^{n} + Σ_{e = 1, e &NotEqual; f}^{F} p_{e}^{n} g_{e, u_{f}}^{n} + σ^{2}} - - - (2)

其中分别表示家庭基站f到其家庭用户u_f的信道增益，而和表示宏基站m和家庭基站e∈{1，2,…,F}到家庭用户u_f的信道增益。在无线通信中用户的吞吐量与调制与编码方式有关，本发明采用自适应调制和编码(AdaptiveModulation and Coding,AMC)，即系统根据信道情况自适应改变调制及编码方式。吞吐量的大小与频谱效率和信道带宽相关，宏基站m和家庭基站f的吞吐量每个资源块上的吞吐量之和，可以分别用C_m和C_f表示，则吞吐量可以表示如下：

C_{f} = \underset{n &Element; N}{Σ} C_{f}^{n} = \underset{n &Element; N}{Σ} B_{rb} \times E_{f}^{n} (γ_{f}^{n}) - - - (3)

C_{m} = \underset{n &Element; N}{Σ} C_{m}^{n} = \underset{n &Element; M}{Σ} B_{rb} \times E_{m}^{n} (γ_{m}^{n}) - - - (4)

其中和表示宏基站和家庭基站每个资源块上的吞吐量；和表示每个资源块上的频谱效率。当宏基站和家庭基站的吞吐量都已知，则系统总吞吐量如下：

C_{sys} = \underset{m &Element; M}{Σ} C_{m} + \underset{f &Element; F}{Σ} C_{f} - - - (5)

本发明采用分布式的资源分配方法来减小小区间的干扰从而提高小区的吞吐量，该方法将Q学习和博弈论相结合，动态的与环境进行交互，最终学习到一个最优的资源分配方法。

强化学习(Reinforcement Learning,RL)是一种机器学习方法，它通过从环境状态到动作映射的学习，感知环境状态，使得动作从环境中获得最大的累积回报函数。Q学习是强化中的一种常用的学习方法，它通过马尔科夫过程进行建模，采用迭代的方法逼近最优解，并以状态-动作回报值作为衡量标准。Q学习在学习过程总无需状态转移概率和回报函数的先验知识模型，而是从环境中直接学习，所以Q学习计算复杂度很低.Q学习是一种强化学习方法，它无需先验知识，只是智能体在不断与环境交互过程中学习，最终收敛到一个最优的策略。在本发明中我们把每个家庭基站都看成一个独立的智能体(Agent),而把宏基站和除了本家庭基站以外的其它家庭基站都看成环境(Environment)。Q学习通过马尔科夫决策过程（Markov Decision Process，MDP）建模，采用迭代的方法逼近最优解，并以状态-动作的回报值作为评价标准。Q学习是Model-free的，它在学习过程中无需具备状态转移概率和回报函数的先验知识模型，而是直接学习最优策略。

Q学习公式包含一组状态和一组动作，能让智能体(如家庭基站)在不断的迭代中找到使得回报最大的那个策略。每个家庭基站都探索环境，观察当前的动作并且要根据决策策略采取下一动作。

用S={S₁,S₂,…,s_u}表示可能的状态空间，A={a₁,a₂,…,a_v}表示agent可能选择的动作空间。定义状态-动作回报值函数Q(s，a)为agent在状态s下采取动作a在无限时间内所获得的最大期望折扣回报之和。当智能体在状态s下执行了动作a后智能体会收到一个即时回报，Q值根据下式的更新规则更新：

Q (s, a) &LeftArrow; (1 - α) Q (s, a) + α (r + γ \max_{a^{'}} Q (s^{'}, a^{'})) - - - (6)

其中α是学习速率，γ∈[0,1)是折扣因子。Q(s′,a′)表示洗衣歌状态的Q值，其中s′和a′分别表示下一个状态和下一个动作。

为了防止Q学习最终收敛到的最优策略不是全局的，在选择动作的过程中每个智能体都是以一定的概率ε选择最优动作。每个智能体的目的都是为每个状态s都找到最优的策略，而多个智能体分布式的联合学习最终就可以使系统收敛到一个最优的策略。

由于每个家庭基站都自私的想最大化自己的功率值来提高自己的性能，所以其他的家庭基站也会提高自己的功率来应对这种情况。这种自私的行为就导致了包括宏基站和家庭基站在内的整个网络会达到一个讨厌的平衡。这里采用一种基于效用函数的非合作的博弈论，其目标是使得有限的频率资源能得到最有效的利用。

每个家庭基站都是一个博弈者，则整个网络共有F个博弈者，关于功率控制的博弈G={f,{p_f},{U_f(·)}}，是对于家庭基站f在不同资源块上传输的功率向量，每个家庭基站的效用函数为U_f，这样每个博弈者都根据其他博弈者的动作选择了一个最好的功率值。对每个资源块功率控制的效用函数都可以表示为：

\begin{matrix} m \underset{p_{f}^{n}}{a} x & U_{f} (γ_{f}, p_{f}) \end{matrix}

\begin{matrix} subjectto & p_{\min} \leq p_{f}^{n} \leq p_{\max} \end{matrix} - - - (7)

p_{f}^{n} \leq p_{m, \max}^{n}

其中是家庭基站f的信干噪比向量，而P_min和P_max是指每个资源块上的最小功率值和最大功率值，是要使宏用户干扰满足门限值时家庭基站的最大功率。假设所有的资源块都周期性地报告当前的SINR值给自己的家庭基站而且每个家庭基站都会收到宏用户的SINR值，这样家庭基站就可以在考虑宏用户SINR要求的情况下再给自己分配一个最优的功率。

本发明的资源分配方法是将Q学习与博弈论相结合，在Q学习资源块分配的过程中博弈功率从而提高系统的性能，Q学习中的回报函数体现了学习的目标，而博弈论中的效用函数体现了博弈的目标，本发明将这种算法表示为QL&game。

随着家庭基站功率的提高，家庭基站对宏基站和其他家庭基站的干扰就会增加，所以在博弈论的效用函数中应该加入功率的花费，功率增加的越大花费也越大。每个家庭基站的效用函数可以表示如下：

U_{f} (γ_{f}, p_{f}) = \underset{n &Element; {1, \cdot \cdot \cdot, N}}{Σ} B_{rb} \times E_{f}^{n} (γ_{f}^{n}) - β \times p_{f}^{n} - - - (8)

其中β是一个正常数，β反映了家庭基站f对宏基站和其他家庭基站的干扰的影响，β越小表示干扰越大β越大表示干扰越小。

由于本发明中的家庭基站采用分布式Q学习机制，所以每个家庭基站之间不进行信息交换，但是假设每个家庭基站对宏基站用户所受的干扰信息是已知的。家庭基站作为一个独立的智能体，它还要根据当前学习的资源块分成多个学习过程。多智能体分布式Q学习中的智能体，动作，状态，回报定义如下：

智能体f：每个家庭基站f都是一个智能体。

状态S_f：家庭基站的状态与资源块有关其中状态与宏用户的干扰和家庭基站收到的干扰有关。

动作A_f：与状态的定义相似其中0表示资源块未使用相反则用1表示。

回报值R_f：类似于状态的定义回报值体现了学习的目标，所以每个智能体的回报值的选取至关重要，这样Q学习的回报函数可以定义如下：

r_{f}^{n} = \{\begin{matrix} - B & if γ_{m}^{n} < γ_{th} \\ U_{f} & if γ_{m}^{n} &GreaterEqual; γ_{th} \end{matrix} - - - (9)

其中B是一个正常数，γ_th是宏用户的SINR门限值，U_f为博弈论的效用函数值。当宏用户的信干噪比不满足要求时Q学习获得-B的惩罚，反之则获得值为U_f的回报。

Claims

1.一种家庭基站系统中基于频谱分配及功率控制的干扰管理方法，其特征在于该方法将每个家庭基站作为一个Q学习的智能体和博弈论中的博弈者，在基于Q学习动态地分配频谱中通过博弈进行功率分配，目的是在保证满足宏基站信干噪比门限要求的基础上提高家庭基站和整个系统的系能；每个家庭基站作为一个Q学习的智能体和博弈论中的博弈者，在Q学习动态地分配频谱的过程中再通过博弈来进行功率分配，每个家庭基站都以优化自己的性能为目标；

Q学习与博弈论相结合的动态资源分配方法中关于功率控制的博弈G＝{f,{p_f},{U_f(·)}}的特征包括以下内容：

a.博弈者f：每个家庭基站f都是一个博弈者；

b.动作空间p_f：其中N是总资源块数，每个家庭基站f都会在与环境交互的过程中为每个资源块n分配最优的功率是要使宏用户干扰满足门限值时家庭基站的最大功率；

c.效用函数U_f：其中B_rb为资源块的大小，表示每个资源块上的频谱效率，是家庭基站f的信干噪比向量，为家庭基站用户在资源块n上的信干噪比，β是一个正常数，家庭基站在满足以下两个条件下根据公式所定义的效用函数给自己分配一个使得自身性能最优的功率，两个条件为(1)功率分配必须满足p_min和p_max是指每个资源块上的最小功率值和最大功率值，(2)每个资源块上的功率分配都要考虑宏用户信干噪比SINR是否满足门限值γ_th；

a.智能体f：每个家庭基站f都是一个智能体；

b.动作空间A_f：其中0表示家庭基站f未使用资源块n，1则表示使用；

d.回报函数R_f：宏基站的信干噪比必须大于γ_th，选择能在满足宏基站信干噪比要求的前提下家庭基站吞吐量最大的那个策略作为最优策略，当宏基站的信干噪比小于γ_th时回报函数为-B，当宏基站所有资源块的信干噪比大于γ_th时回报函数为博弈论的效用函数U_f，其中B为正的常数，-B表示当宏基站的信干噪比小于γ_th时智能体给当前的策略一个-B的惩罚，反之，智能体则给当前的策略一个值为U_f的奖赏。