CN110191489B

CN110191489B - 一种超密集网络中基于强化学习的资源分配方法及装置

Info

Publication number: CN110191489B
Application number: CN201910409339.XA
Authority: CN
Inventors: 张海君; 李东; 任冶冰; 刘玮; 董江波; 姜春晓; 皇甫伟; 隆克平
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2019-05-17
Filing date: 2019-05-17
Publication date: 2020-07-24
Anticipated expiration: 2039-05-17
Also published as: CN110191489A

Abstract

本发明提供一种超密集网络中基于强化学习的资源分配方法及装置，能够实现网络的负载均衡，并提高网络的能量效率。所述方法包括：基于Q学习对网络的当前状态进行分析，得到使网络能量效率最大时的用户与基站的关联策略和基站的发射功率控制策略；根据得到的使网络能量效率最大时的用户与基站的关联策略进行用户与基站的关联；在用户与基站关联的基础上，根据得到的使网络能量效率最大时的基站的发射功率控制策略对网络中基站的发射功率进行控制。本发明涉及通信技术领域。

Description

一种超密集网络中基于强化学习的资源分配方法及装置

技术领域

本发明涉及通信技术领域，特别是指一种超密集网络中基于强化学习的资源分配方法及装置。

背景技术

随着移动终端的快速发展，对网络容量的需求急剧增加。部署大量小型基站，例如毫微微小区基站(BS)，微小区BS和微微小区BS可以增强网络容量。超密集网络是第五代移动通信中的一种新型网络架构，能够缩短用户与低功率基站之间的距离，提高系统容量和频谱效率。当网络架构从传统架构转向超密集网络时，也面临着诸多新的挑战，例如网络设计、资源分配和用户关联。

超密集网络中用户与低功率基站分布都十分密集，资源管理是保证其系统性能的重要因素。在传统网络中，用户关联通常基于最大信噪比实现，然而，基于最大信噪比的方法在超密集网络中可能不像传统网络那样有效。如果在超密集网络中采用该方法，则连接到用户的基站的优先级往往是高功率宏基站，这将容易导致宏基站过载并将其有限资源划分给多个用户，同时会导致小型基站的利用率低下。移动负载均衡技术可以及时有效地解决超密集网络中小区间业务量不均衡的情况，在多个小区之间平衡负载量，使未过载的邻居小区能够分担过载小区的业务负载量，平衡小区间负载，从而提高资源的利用率和用户的满意度。因此针对用户与基站的负载均衡的关联技术研究有重要意义。

目前，将强化学习应用于超密集网络的资源分配的研究很少，现有研究大多针对一个小基站对一个用户的场景，无法满足超密集网络中密集连接的情况。

发明内容

本发明要解决的技术问题是提供一种超密集网络中基于强化学习的资源分配方法及装置，以解决现有技术所存在的强化学习无法满足超密集网络中密集连接的问题。

为解决上述技术问题，本发明实施例提供一种超密集网络中基于强化学习的资源分配方法，包括：

基于Q学习对网络的当前状态进行分析，得到使网络能量效率最大时的用户与基站的关联策略和基站的发射功率控制策略；

根据得到的使网络能量效率最大时的用户与基站的关联策略进行用户与基站的关联；

在用户与基站关联的基础上，根据得到的使网络能量效率最大时的基站的发射功率控制策略对网络中基站的发射功率进行控制。

进一步地，所述基于Q学习对网络的当前状态进行分析包括：

A1，初始化Q学习算法的Q表，其中，Q表用于存储每个网络状态所采取动作的经验值，所述动作包括：用户与基站的关联策略和基站的发射功率控制策略；

A2，在当前网络状态下随机采取一个动作，并计算在当前网络状态下采取该动作后的系统能量效率；

A3，建立用于负载均衡的用户关联和网络功率控制的强化学习模型，根据建立的强化学习模型对当前网络状态下的Q表进行更新，得到下一个网络状态下的Q表，其中，强化学习模型表示为：

其中，t表示迭代次数，Q(s^t,a^t)表示第t次迭代后的Q表，s^t和a^t分别表示第t次迭代后的网络状态和动作，α表示学习率，β表示折扣因子，α和β取值均在0到1之间，R(s,a)表示在网络状态s和动作a下的网络能量效率，A表示下一次迭代的动作集，b表示下一次迭代的动作，Q(s^t+1,b)表示第t+1次迭代后的Q表，s^t+1表示第t+1次迭代后的网络状态；

A4，返回重复执行A2、A3，直到当前迭代次数达到最大的迭代次数。

进一步地，网络能量效率为网络系统总容量与总功耗的比值。

进一步地，网络能量效率表示为；

其中，f(x,p)表示网络能量效率，x表示用户与基站的关联状态，p表示基站的发射功率，U表示用户集，B表示基站集合，x_ij表示第i个用户和第j个基站的关联状态，c_ij表示第i个用户和第j个基站间无线信道的容量，U_c(x,p)表示系统总功耗。

进一步地，每个基站的用户连接数小于K_j，其中，K_j表示基站j最大的连接数；

每个基站的发射功率小于

其中，

表示基站j最大的发射功率。

本发明实施例还提供一种超密集网络中基于强化学习的资源分配装置，包括：

强化学习模块，用于基于Q学习对网络的当前状态进行分析，得到使网络能量效率最大时的用户与基站的关联策略和基站的发射功率控制策略；

负载均衡模块，用于根据得到的使网络能量效率最大时的用户与基站的关联策略进行用户与基站的关联；

功率控制模块，用于在用户与基站关联的基础上，根据得到的使网络能量效率最大时的基站的发射功率控制策略对网络中基站的发射功率进行控制。

进一步地，所述强化学习模块包括：

初始化单元，用于初始化Q学习算法的Q表，其中，Q表用于存储每个网络状态所采取动作的经验值，所述动作包括：用户与基站的关联策略和基站的发射功率控制策略；

确定单元，用于在当前网络状态下随机采取一个动作，并计算在当前网络状态下采取该动作后的系统能量效率；

更新单元，用于建立用于负载均衡的用户关联和网络功率控制的强化学习模型，根据建立的强化学习模型对当前网络状态下的Q表进行更新，得到下一个网络状态下的Q表，其中，强化学习模型表示为：

重复单元，用于返回重复执行确定单元和更新单元，直到当前迭代次数达到最大的迭代次数。

进一步地，网络能量效率表示为；

每个基站的发射功率小于

其中，

表示基站j最大的发射功率。

本发明的上述技术方案的有益效果如下：

上述方案中，基于Q学习对网络的当前状态进行分析，得到使网络能量效率最大时的用户与基站的关联策略和基站的发射功率控制策略；根据得到的使网络能量效率最大时的用户与基站的关联策略进行用户与基站的关联，实现网络负载均衡的用户关联，让每个用户都连接到最佳的基站上；在用户与基站关联的基础上，根据得到的使网络能量效率最大时的基站的发射功率控制策略对网络中基站的发射功率进行控制。这样，通过采用强化学习里的Q学习方法，考虑网络的高能效和负载均衡，以最大化网络能量效率为目标，计算出超密集网络中最优的用户关联和功率控制策略，从而实现网络用户关联的的负载均衡，并提高网络的能量效率。

附图说明

图1为本发明实施例提供的超密集网络中基于强化学习的资源分配方法的流程示意图；

图2为本发明实施例提供的超密集网络中基于强化学习的资源分配装置的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明针对现有的强化学习无法满足超密集网络中密集连接的问题，提供一种超密集网络中基于强化学习的资源分配方法及装置。

实施例一

如图1所示，本发明实施例提供的超密集网络中基于强化学习的资源分配方法，包括：

S101，基于Q学习(Q-learning)对网络的当前状态进行分析，得到使网络能量效率最大时的用户与基站的关联策略和基站的发射功率控制策略；

S102，根据得到的使网络能量效率最大时的用户与基站的关联策略进行用户与基站的关联；

S103，在用户与基站关联的基础上，根据得到的使网络能量效率最大时的基站的发射功率控制策略对网络中基站的发射功率进行控制。

本发明实施例所述的超密集网络中基于强化学习的资源分配方法，基于Q学习对网络的当前状态进行分析，得到使网络能量效率最大时的用户与基站的关联策略和基站的发射功率控制策略；根据得到的使网络能量效率最大时的用户与基站的关联策略进行用户与基站的关联，实现网络负载均衡的用户关联，让每个用户都连接到最佳的基站上；在用户与基站关联的基础上，根据得到的使网络能量效率最大时的基站的发射功率控制策略对网络中基站的发射功率进行控制。这样，通过采用强化学习里的Q学习方法，考虑网络的高能效和负载均衡，以最大化网络能量效率为目标，计算出超密集网络中最优的用户关联和功率控制策略，从而实现网络用户关联的的负载均衡，并提高网络的能量效率。

为了实现本发明实施例所述的超密集网络中基于强化学习的资源分配方法，本发明实施例还提供了一种与之对应的装置，所述装置包括：

强化学习模块，用于基于Q学习(Q-learning)对网络的当前状态进行分析，得到使网络能量效率最大时的用户与基站的关联策略和基站的发射功率控制策略；

本实施例中，通过强化学习(Q学习)，对超密集网络的用户关联和功率控制建立合适的强化学习模型，强化学习模型根据网络的状态确定最佳(使网络能量效率最大时)的用户与基站的关联策略和发射功率控制策略，然后，负载均衡模块按照强化学习模块得到的最佳关联策略进行用户关联，实现网络的负载均衡，功率控制模块根据强化学习模块得到的发射功率控制策略对基站的发射功率进行控制，从而实现在当前用户关联状态下的最优功率分配，使得系统的总的能量效率最大，并提高网络能效。

在强化学习模块的建模过程中，将根据当前网络状态进行Q学习的计算，最后收敛到一个最优状态，最优状态指：此状态下的发射功率分配，用户与基站的关联能够使得网络能量效率最大。将此状态下的用户关联和功率控制返回给负载均衡模块和功率控制模块以对网络进行控制。

在负载均衡模块，宏基站和小基站共同为用户提供服务，用户可以选择宏基站或者能覆盖它的小基站，并且宏基站的用户接入数量远大于小基站的。在负载均衡模块，基站根据强化学习模块得到的最佳关联策略进行密集网络中基站与用户连接时，需在保证用户服务质量的同时实现网络中基站的负载均衡。

本实施例中，所述网络状态包括：用户与基站的关联状态和基站的发射功率。

在前述超密集网络中基于强化学习的资源分配方法的具体实施方式中，进一步地，所述基于Q学习对网络的当前状态进行分析包括：

A1，初始化Q学习算法的Q表，其中，Q表用于存储每个网络状态所采取动作的经验值，值越大说明采取此动作越好，所述动作包括：用户与基站的关联策略和基站的发射功率控制策略；

A2，在当前网络状态下随机采取一个动作，即对网络用户进行随机的用户与基站的关联和基站的发射功率控制，并计算在当前网络状态下采取该动作后的系统能量效率；

本实施例中，α和β取值均在0到1之间。

本实施例中，将超密集网络中的移动终端和基站假设为智能体。为了保证移动用户的服务质量，在进行资源分配的时候，对每个信道上的信噪比设置了门限值，在Q学习计算中使得每个用户的接收信噪比都能大于门限值，在智能体与环境的互动过程中，每一次积累的经验将会对下一次采取的行动产生很大影响，每一次Q学习迭代都为了让网络能量效率最大，在Q学习的强化学习模型训练中，最后将收敛到一个最佳状态，即：使网络能量效率最大。

本实施例中，负载均衡模块根据强化学习模块得到的Q表与当前网络状态选取最优动作里面的用户关联策略进行用户关联。功率控制模块根据强化学习模块得到的Q表与当前网络状态选取最优动作里的功率分配策略进行发射功率控制，完成网路的功率分配，实现网络能效最大化。

本实施例中，结合超密集网络的特点建立强化学习的学习模型，并根据网络状态进行强化学习的训练，然后根据强化学习的结果，负载均衡模块对网络的用户关联进行控制，实现网络的负载均衡，最后在用户与基站关联的基础上，功率控制模块对基站的发射功率进行控制完成整个资源管理的过程。

本实施例中，智能体所采取的动作包括：用户与基站的关联以及基站的发射功率的调整，每次动作的回报为网络的能量效率，其中，网络能量效率为网络系统总容量与总功耗的比值。

本实施例中，网络能量效率的数学表达为：

本实施例中，x_ij取值为1或0，1表示连接，0表示不连接；c_ij表示第i个用户和第j个基站间无线信道的容量，可根据香农公式得到；U_c(x,p)表示系统总功耗，与用户与基站的关联x和发射功率p有关，包括系统的电路功耗和基站的发射功率总和。

本实施例中，每个基站的用户连接数小于K_j，其中，K_j表示基站j最大的连接数，数学表示为

本实施例中，在超密集网络中，各基站间会存在同层干扰，每个基站在调整发射功率的同时会影响其它用户的接收信噪比，将每个基站的发射功率限制于最大值

即：每个基站的发射功率小于

其中，

表示基站j最大的发射功率。

实施例二

本发明还提供一种超密集网络中基于强化学习的资源分配装置的具体实施方式，由于本发明提供的超密集网络中基于强化学习的资源分配装置与前述超密集网络中基于强化学习的资源分配方法的具体实施方式相对应，该超密集网络中基于强化学习的资源分配装置可以通过执行上述方法具体实施方式中的流程步骤来实现本发明的目的，因此上述超密集网络中基于强化学习的资源分配方法具体实施方式中的解释说明，也适用于本发明提供的超密集网络中基于强化学习的资源分配装置的具体实施方式，在本发明以下的具体实施方式中将不再赘述。

如图2所示，本发明实施例还提供一种超密集网络中基于强化学习的资源分配装置，包括：

强化学习模块11，用于基于Q学习对网络的当前状态进行分析，得到使网络能量效率最大时的用户与基站的关联策略和基站的发射功率控制策略；

负载均衡模块12，用于根据得到的使网络能量效率最大时的用户与基站的关联策略进行用户与基站的关联；

功率控制模块13，用于在用户与基站关联的基础上，根据得到的使网络能量效率最大时的基站的发射功率控制策略对网络中基站的发射功率进行控制。

本发明实施例所述的超密集网络中基于强化学习的资源分配装置，基于Q学习对网络的当前状态进行分析，得到使网络能量效率最大时的用户与基站的关联策略和基站的发射功率控制策略；根据得到的使网络能量效率最大时的用户与基站的关联策略进行用户与基站的关联，实现网络负载均衡的用户关联，让每个用户都连接到最佳的基站上；在用户与基站关联的基础上，根据得到的使网络能量效率最大时的基站的发射功率控制策略对网络中基站的发射功率进行控制。这样，通过采用强化学习里的Q学习方法，考虑网络的高能效和负载均衡，以最大化网络能量效率为目标，计算出超密集网络中最优的用户关联和功率控制策略，从而实现网络用户关联的的负载均衡，并提高网络的能量效率。

在前述超密集网络中基于强化学习的资源分配装置的具体实施方式中，进一步地，所述强化学习模块包括：

在前述超密集网络中基于强化学习的资源分配装置的具体实施方式中，进一步地，网络能量效率为网络系统总容量与总功耗的比值。

在前述超密集网络中基于强化学习的资源分配装置的具体实施方式中，进一步地，网络能量效率表示为；

在前述超密集网络中基于强化学习的资源分配装置的具体实施方式中，进一步地，每个基站的用户连接数小于K_j，其中，K_j表示基站j最大的连接数；

每个基站的发射功率小于

其中，

表示基站j最大的发射功率。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。