CN108521673A

CN108521673A - 一种异构网络中基于强化学习的资源分配和功率控制联合优化方法

Info

Publication number: CN108521673A
Application number: CN201810309020.5A
Authority: CN
Inventors: 赵楠; 贺潇; 范孟林; 田超; 樊鹏飞; 裴扬; 裴一扬; 武明虎; 蒋云昊; 李利荣; 常春
Original assignee: Hubei University of Technology
Current assignee: First Construction and Installation Co Ltd of China Construction Third Engineering Bureau Co Ltd
Priority date: 2018-04-09
Filing date: 2018-04-09
Publication date: 2018-09-11
Anticipated expiration: 2038-04-09
Also published as: CN108521673B

Abstract

本发明属于无线通信技术领域，具体涉及一种异构网络中基于强化学习的资源分配和功率控制联合优化方法。针对传输信道和传输功率等因素的动态和时变特性，在考虑异构网络中用户的自私性和运营商利益的前提下，在建立异构蜂窝网络系统模型基础上，通过建立多智能体强化学习框架，结合用户满意度和运营商追求利益的条件，利用分布式Q学习方法，获得最优的资源分配、用户关联和功率控制联合策略，从而实现整个网络的长期系统效用的最大化。

Description

一种异构网络中基于强化学习的资源分配和功率控制联合优化方法

技术领域

本发明属于无线通信技术领域，具体涉及一种异构网络中基于强化学习的资源分配和功率控制联合优化方法。

背景技术

随着无线设备的迅猛发展和人们对无线业务需求的不断增大，蜂窝网络面临着日益增长的网络容量需求的巨大挑战。通过在宏基站(Macro Base Station，MBS) 中部署多个具有不同发射功率、覆盖范围的家庭基站(Femto Base Station，FBS)，不仅可以降低通信负载和运营商的成本，而且可使用与MBS相同的无线频率以提高无线频谱的利用率。因此，异构蜂窝网络有望改善下一代蜂窝网络的系统容量和资源利用率。

异构蜂窝网络存在着一些性能瓶颈，如用户关联、资源分配和功率控制问题。现有研究大多单独地考虑上述优化问题。同时，由于联合优化问题的非凸性和组合特性，获得全局最优策略非常困难。现有文献提出了博弈论、线性规划、马尔科夫近似等优化方法，但这些优化方法大多需要几乎所有的网络信息，然而，一般来说，这些信息很难获得。因此，本方法提出基于强化学习的异构蜂窝网络资源分配和功率控制联合优化方法。

发明内容

为了克服上述现有技术存在的不足，本发明的目的在于提出一种异构网络中基于强化学习的资源分配和功率控制联合优化方法。

为了达到上述目的，本发明所采用的技术方案是：一种异构网络中基于强化学习的资源分配和功率控制联合优化方法，其特征在于，所述方法包括如下步骤：

针对传输信道和传输功率等因素的动态和时变特性，在考虑到异构网络中用户的自私性和运营商的利益性的前提下，在建立异构蜂窝网络系统模型基础上，通过提出多智能体强化学习优化策略，结合用户满意度(Quality of service，Qos) 和运营商追求利益的条件，利用分布式Q学习方法，获得最优的资源分配、用户关联和功率控制联合策略，从而实现整个网络长期系统效用的最大化。

进一步地，所述建立异构蜂窝网络系统模型实现过程包括：考虑由MBS、 FBS和用户设备组成的两层异构蜂窝网络，假设某一个MBS信号覆盖范围内存在L个FBSs，即FBS₁,...,FBS_L，于是，所有基站可表示为 BS＝{MBS,FBS₁,...,FBS_L}，假设所有的基站和N个UEs都只有一个通信天线， BS可以在K个信道上工作；

对于任意一个UE，定义二元信道分配变量为：

其中，在时间t，如果第i个UE使用信道C_k，则否则虽然使用相同信道的UEs数量是不限的，但是UE每次只能选择一个信道。因此，对于每一个UE，有

此外，定义二元联合基站变量：

其中，在时间t，如果第i个用户连接到第l个基站，则b_il(t)＝1，否则，考虑到每个UE只能接入一个基站，对于每一个UE，有

假设在时间t时第i个UE使用信道C_k连接BS_L的传输功率为由于FBSs被部署在MBS的无线电覆盖范围内，于是，第i个UE处的瞬时信号干扰比(Signal to Interference Plus Noise Ratio， SINR)为：

其中，是BS_L和第i个用户在信道C_k上的即时连接增益，W是信道带宽，N₀是噪声谱功率。

于是，第i个UE在信道C_k上收到的下行数据率为因此，第i个UE获得的总数据率：

同时，为了保证每个UE的服务质量，第i个UE的瞬时信号干扰必须小于用户服务的最低要求Ω_i，即

此外，假设第k个信道下行链路的数据传输成本为：其中，λ₁是BS传输功率的单位价格。于是，第i个UE 总传输成本为：

于是，第i个UE的效用定义为：

其中，ρ＞0为每个用户单位速率的收益。

于是，对于任意时间t，UE的长期效用由用户关联、信道分配和基站传输功率控制共同决定，即：

其中，γ是折扣因子，当γ∈[0,1)表示更重视长期收益。

进一步地，所述多智能体强化学习优化策略实现过程包括：联合优化问题可以形式化地定义为MDP(S；A_i；R_i；P)，其中，S是一组离散的环境状态，A₁,...,A_N是一组离散的可能动作，R₁,...,R_N是奖励函数，P是状态转移矩阵。首先描述强化学习的基本模型，接着，提出基于多智能体强化学习的联合优化算法。

定义状态空间，行动空间和奖励函数有关的基本强化学习元素。在这种异构蜂窝网络中，每个UE都扮演着一个智能体的角色。因此，我们提出分布式多智能体强化学习优化策略。

状态空间：目标状态s(t)由N个UE的服务质量综合确定。 s(t)＝{s₁(t),s₂(t),...,s_N(t)}，

当用户对服务质量满意时就等于1，不满意就是0。所有可能状态的数量是 2^N，随着N的增加，这个数目可能非常大。

动作空间：每个UE选择附近的BS、传输信道和功率水平。考虑到实际应用场景，发射功率一般为离散值。于是，考虑M个功率水平，即P₁,...,P_M。功率水平选择变量定义为：

其中，如果BS选择传输功率p_m，则否则，考虑到BS 传输时只能选择一种功率水平，于是有：

于是，每一个UE的动作空间中四个变量：

这样以来，每一UE的状态数量是2^(L+1+K)M。随着L，K和M的增加，状态数量会非常大。

奖励函数：当UE采取动作时就会获得相应的奖励，UE的奖励函数为：

其中，ψ_i是动作选择成本。当UE的SINR大于最低Qos需求，则UE的效用就是其奖励。否则，UE的奖励就是其动作的选择成本。这一奖励函数保证了异构蜂窝网络最小的Qos需求和每个UE最大的效用。

进一步地，所述分布式Q学习方法，所采取的实现过程包括：单个智能体强化学习的目标是找到最优策略来最大化每个智能体的收益。然而，在多智能体强化学习中，智能体的训练还要考虑稳定性和适应性。考虑到其简单性和分布性特点，采用分布式多智能体强化学习。每个UE通过消息传递来获得全局状态空间，并基于全局状态空间以获得最优策略。每个UE不需要发送自身的最优策略，而是一个比特位(0或1)来发送其当前状态给其他UE。每个UE需要找到在每个状态下的最优策略，以获得累计收益的最大化。

第i个UE的累计收益定义为：

其中，E表示学习期望，它与时间t无关。

由于马尔可夫性质，随后的状态只由当前状态决定，与之前的状态无关。于是，值函数可简化为：

其中，u_i(s,a_i)是R_i(s,a_i)的数学期望，P_s,s'(a_i)表示从状态s到状态s'的转移概率。

于是，基于贝尔曼准则，最优策略为：

于是，得到最优Q值函数

基于上述最优Q值函数最优策略可得：

一般来说，很难获得准确的转移概率P_s,s'(a_i)。然而，基于可用信息 (s,a_i,s',E[u_i(s,π_i(s))])，利用Q学习，可以以递归方式获得最优策略。Q学习的迭代公式为：

其中，δ是学习速率，它决定了Q_i(s,a_i)的更新速度。

此外，在动作选择的利用与探索权衡策略中，选择ε-greedy策略，以概率 1-ε选择最佳动作以概率ε随机选择动作。

与现有技术相比，本发明的有益效果是：本发明针对用户关联，资源分配和下行链路传输功率的联合问题，提出了异构网络下基于强化学习联合优化问题的方法，引入了基于强化学习的分布式框架，通过用户联合基站，基站分配信道和控制发射功率，保证了最大化下行链路网络效用和用户服务质量，从而提高异构网络传输效率和网络容量。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

具体过程如下：联合优化问题可以形式化地定义为MDP(S；A_i；R_i；P)，其中， S是一组离散的环境状态，A₁,...,A_N是一组离散的可能动作，R₁,...,R_N是奖励函数，P是状态转移矩阵。首先描述强化学习的基本模型，接着，提出基于多智能体强化学习的联合优化算法。

A.基础模型

定义状态空间，行动空间和奖励函数有关的基本强化学习元素。在这种异构蜂窝网络中，每个UE都扮演着一个智能体的角色。因此，提出分布式多智能体强化学习优化策略。

于是，每一个UE的动作空间中四个变量：

B.多智能体Q学习算法

单个智能体强化学习的目标是找到最优策略来最大化每个智能体的收益。然而，在多智能体强化学习中，智能体的训练还要考虑稳定性和适应性。考虑到其简单性和分布性特点，本发明采用分布式多智能体强化学习。每个UE通过消息传递来获得全局状态空间，并基于全局状态空间以获得最优策略。每个UE不需要发送自身的最优策略，而是一个比特位(0或1)来发送其当前状态给其他 UE。每个UE需要找到在每个状态下的最优策略，以获得累计收益的最大化。

第i个UE的累计收益定义为：

其中，E表示学习期望，它与时间t无关。

于是，基于贝尔曼准则，最优策略为：

于是，得到最优Q值函数

基于上述最优Q值函数最优策略可得：

其中，δ是学习速率，它决定了Q_i(s,a_i)的更新速度。

此外，在动作选择的利用与探索权衡策略中，本发明选择ε-greedy策略，以概率1-ε选择最佳动作以概率ε随机选择动作。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种异构网络中基于强化学习的资源分配和功率控制联合优化方法，其特征在于，所述方法包括如下步骤：

针对传输信道和传输功率的动态和时变特性，在考虑到异构网络中用户的自私性和运营商的利益性的前提下，在建立异构蜂窝网络系统模型基础上，通过提出多智能体强化学习优化策略，结合用户满意度Qos和运营商追求利益的条件，利用分布式Q学习方法，获得最优的资源分配、用户关联和功率控制联合策略，从而实现整个网络长期系统效用的最大化。

2.根据权利要求1所述的异构网络中基于强化学习的资源分配和功率控制联合优化方法，其特征在于，所述建立异构蜂窝网络系统模型实现过程包括：

考虑由MBS、FBS和用户设备组成的两层异构蜂窝网络，假设某一个MBS信号覆盖范围内存在L个FBSs，即FBS₁,...,FBS_L，于是，所有基站可表示为BS＝{MBS,FBS₁,...,FBS_L}，假设所有的基站和N个UEs都只有一个通信天线，BS可以在K个信道上工作；

对于任意一个UE，定义二元信道分配变量为：

其中，在时间t，如果第i个UE使用信道C_k，则否则虽然使用相同信道的UEs数量是不限的，但是UE每次只能选择一个信道，因此，对于每一个UE，有

此外，定义二元联合基站变量：

其中，在时间t，如果第i个用户连接到第l个基站，则否则，考虑到每个UE只能接入一个基站，对于每一个UE，有

假设在时间t时第i个UE使用信道C_k连接BS_L的传输功率为由于FBSs被部署在MBS的无线电覆盖范围内，于是，第i个UE处的瞬时信号干扰比SINR为：

其中，是BS_L和第i个用户在信道C_k上的即时连接增益，W是信道带宽，N₀是噪声谱功率；

此外，假设第k个信道下行链路的数据传输成本为：其中，λ₁是BS传输功率的单位价格，于是，第i个UE总传输成本为：

于是，第i个UE的效用定义为：

其中，ρ＞0为每个用户单位速率的收益；

其中，γ是折扣因子，当γ∈[0,1)表示更重视长期收益。

3.根据权利要求1所述的异构网络中基于强化学习的资源分配和功率控制联合优化方法，其特征在于，所述多智能体强化学习优化策略实现过程包括：

联合优化问题可以形式化地定义为MDP(S；A_i；R_i；P)，其中，S是一组离散的环境状态，A₁,...,A_N是一组离散的可能动作，R₁,...,R_N是奖励函数，P是状态转移矩阵，首先描述强化学习的基本模型，接着，提出基于多智能体强化学习的联合优化算法。

定义状态空间，行动空间和奖励函数有关的基本强化学习元素，在这种异构蜂窝网络中，每个UE都扮演着一个智能体的角色，因此，提出分布式多智能体强化学习优化策略；

状态空间：目标状态s(t)由N个UE的服务质量综合确定，s(t)＝{s₁(t),s₂(t),...,s_N(t)}，

当用户对服务质量满意时就等于1，不满意就是0，所有可能状态的数量是2^N，随着N的增加，这个数目可能非常大；

动作空间：每个UE选择附近的BS、传输信道和功率水平，考虑到实际应用场景，发射功率一般为离散值，于是，考虑M个功率水平，即P₁,...,P_M，功率水平选择变量定义为：

其中，如果BS选择传输功率p_m，则否则，考虑到BS传输时只能选择一种功率水平，于是有：

于是，每一个UE的动作空间中四个变量：

这样以来，每一UE的状态数量是2^(L+1+K)M，随着L，K和M的增加，状态数量会非常大；

其中，ψ_i是动作选择成本，当UE的SINR大于最低Qos需求，则UE的效用就是其奖励，否则，UE的奖励就是其动作的选择成本，这一奖励函数保证了异构蜂窝网络最小的Qos需求和每个UE最大的效用。

4.根据权利要求1所述的异构网络中基于强化学习的资源分配和功率控制联合优化方法，其特征在于，所述分布式Q学习方法，所采取的实现过程包括：

单个智能体强化学习的目标是找到最优策略来最大化每个智能体的收益，然而，在多智能体强化学习中，智能体的训练还要考虑稳定性和适应性，考虑到其简单性和分布性特点，采用分布式多智能体强化学习，每个UE通过消息传递来获得全局状态空间，并基于全局状态空间以获得最优策略，每个UE不需要发送自身的最优策略，而是一个比特位来发送其当前状态给其他UE，每个UE需要找到在每个状态下的最优策略，以获得累计收益的最大化；

第i个UE的累计收益定义为：

其中，E表示学习期望，它与时间t无关；

由于马尔可夫性质，随后的状态只由当前状态决定，与之前的状态无关，于是，值函数可简化为：

其中，u_i(s,a_i)是R_i(s,a_i)的数学期望，P_s,s'(a_i)表示从状态s到状态s'的转移概率；

于是，基于贝尔曼准则，最优策略为：

于是，得到最优Q值函数

基于上述最优Q值函数最优策略可得：

一般来说，很难获得准确的转移概率P_s,s'(a_i)，然而，基于可用信息(s,a_i,s',E[u_i(s,π_i(s))])，利用Q学习，可以以递归方式获得最优策略，Q学习的迭代公式为：

其中，δ是学习速率，它决定了Q_i(s,a_i)的更新速度；

此外，在动作选择的利用与探索权衡策略中，选择ε-greedy策略，以概率1-ε选择最佳动作以概率ε随机选择动作。