CN110392377B

CN110392377B - 一种5g超密集组网资源分配方法及装置

Info

Publication number: CN110392377B
Application number: CN201910657277.4A
Authority: CN
Inventors: 陈莹; 刘智勇; 陈昕
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2019-07-19
Filing date: 2019-07-19
Publication date: 2022-07-12
Anticipated expiration: 2039-07-19
Also published as: CN110392377A

Abstract

本发明实施例提供了一种5G超密集组网资源分配方法及装置，方法包括：针对每个时刻的5G超密集组网系统状态，基于贪婪策略进行决策，计算每个状态对应的即时奖励；将所述每个状态对应的即时奖励输入深度神经网络中，拟合得到近似长期价值；将所述近似长期价值和实际长期价值对比，以更新长期价值函数；当所述长期价值函数收敛时，得到每个时刻的资源分配方案，并按照所述每个时刻的资源分配方案进行资源分配。本发明实施例提供的一种5G超密集组网资源分配方法及装置，基于深度强化学习来解决随机优化问题，从而使得资源的分配能够适应用户到达和离开的随机性，并且同时降低了求解复杂性。

Description

一种5G超密集组网资源分配方法及装置

技术领域

本发明涉及5G超密集组网和强化学习技术领域，尤其涉及一种5G超密集组网资源分配方法及装置。

背景技术

随着移动互联网和物联网技术的快速发展，对移动通信业务的需求也在迅速增长。智能设备的通信需求和海量物联网环境促进了网络基础设施的密集化。超密集网络UDN应运而生，将成为5G网络的关键技术。在UDN架构中，单元的半径会进一步减小，导致单元之间的干扰增加。此外，随着网络环境的变化，系统的性能要求也可能发生变化。因此，网络资源配置应考虑与环境的交互作用，并且由于用户设备在空间和时间上的不均匀性，使得UDN的资源管理更加困难。

现有的组网资源分配方法不能很好适应用户到达和离开的高度动态性并且现有方法的求解复杂度较高，导致其无法很好满足应用的服务质量要求并在实际环境中难以实施。

因此，现在亟需一种新的5G超密集组网资源分配方法来解决上述问题。

发明内容

为了解决上述问题，本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的一种5G超密集组网资源分配方法及装置。

第一方面本发明实施例提供一种5G超密集组网资源分配方法，包括：

针对每个时刻的5G超密集组网系统状态，基于贪婪策略进行决策，计算每个状态对应的即时奖励；

将所述每个状态对应的即时奖励输入深度神经网络中，拟合得到近似长期价值；

将所述近似长期价值和实际长期价值对比，以更新长期价值函数；

当所述长期价值函数收敛时，得到每个时刻的资源分配方案，并按照所述每个时刻的资源分配方案进行资源分配。

其中，所述5G超密集组网系统包括：

多个小小区组成的宏小区，所述宏小区包括一个宏基站，每个小小区包括一个小基站。

其中，所述即时奖励的计算函数为：

其中，r_t为即时奖励，

为5G超密集组网系统的能量效率，

为5G超密集组网系统的频谱效率，ξ^(t)为能量效率与频谱效率之间的权衡因子。

其中，所述长期价值函数为：

Q(s_t,a_t)＝(1-α)Q(s_t,a_t)+α[r_t+γmaxQ(s_t+1,a_t+1)]；

其中，α表示学习效率，γ表示折扣因子，s_t表示t时刻系统的状态，

表示所述宏基站在t时刻做出的决策。

其中，所述方法还包括：

获取每个时刻的5G超密集组网系统的系统状态，所述系统状态包括每个小小区的用户数量、每个小基站的吞吐量以及资源块的复用情况。

其中，所述将所述每个状态对应的即时奖励输入深度神经网络中，拟合得到近似长期价值，包括：

将当前时刻的系统状态、决策、即使奖励以及下一时刻的系统状态作为样本集存储在预设存储空间中；

当所述存储空间的数据量达到上限时，从所述存储空间中随机选择部分样本集进行拟合，得到所述近似长期价值。

第二方面本发明实施例还提供一种5G超密集组网资源分配装置，包括：

决策模块，用于针对每个时刻的5G超密集组网系统状态，基于贪婪策略进行决策，计算每个状态对应的即时奖励；

神经网络拟合模块，用于将所述每个状态对应的即时奖励输入深度神经网络中，拟合得到近似长期价值；

更新模块，用于将所述近似长期价值和实际长期价值对比，以更新长期价值函数；

资源分配模块，用于当所述长期价值函数收敛时，得到每个时刻的资源分配方案，并按照所述每个时刻的资源分配方案进行资源分配。

第三方面本发明实施例提供了一种电子设备，包括：

处理器、存储器、通信接口和总线；其中，所述处理器、存储器、通信接口通过所述总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行上述5G超密集组网资源分配方法。

第四方面本发明实施例提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述5G超密集组网资源分配方法。

本发明实施例提供的一种5G超密集组网资源分配方法及装置，基于深度强化学习来解决随机优化问题，从而使得资源的分配能够适应用户到达和离开的随机性，并且同时降低了求解复杂性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种5G超密集组网资源分配方法流程示意图；

图2是本发明实施例提供的一种5G超密集组网资源分配装置结构示意图；

图3是本发明实施例提供的一种电子设备的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例提供的一种5G超密集组网资源分配方法流程示意图，如图1所示，包括：

101、针对每个时刻的5G超密集组网系统状态，基于贪婪策略进行决策，计算每个状态对应的即时奖励；

102、将所述每个状态对应的即时奖励输入深度神经网络中，拟合得到近似长期价值；

103、将所述近似长期价值和实际长期价值对比，以更新长期价值函数；

104、当所述长期价值函数收敛时，得到每个时刻的资源分配方案，并按照所述每个时刻的资源分配方案进行资源分配。

需要说明的是，本发明实施例的执行主体为5G超密集组网系统中的宏基站MgNB，本发明实施例针对的应用场景主要为UDN架构中资源管理，但其他的应用场景也可以使用本发明实施例提供的资源分配方法，对此本发明实施例不作具体限定。

具体的，在步骤101中，本发明实施例首先需要对每个时刻的网络系统状态进行状态获取，在本发明实施例中，5G超密集组网系统是由n个小小区组成的宏小区，其中有M个资源块可被分配，资源块的集合表示为

其中整个宏小区内有一个宏基站(MgNB)，每个小小区内有一个小基站(SgNB)，小小区与小基站与集合都为

通过本发明实施例提供的MgNB下发资源分配策略来完成让SgNB选择可用的资源块分配给每个小小区的用户，需要说明的是，在本发明实施例提供的5G超密集组网系统中，多个SgNB同时可以复用相同的资源块。那么在时刻t时，MgNB即可以进行决策，并计算决策后网络系统的即时奖励，可以理解的是，该即时奖励与每个时刻的系统状态是一一对应关系，每个时刻所计算出的即时奖励不同。

进一步的，在步骤102中，本发明实施例提供了一个深度神经网络来解决无线网络中的随机优化问题，可以理解的是，在未知环境下，强化学习通过与环境的交互作用得到最优策略，其中，Q-学习算法是目前最流行的强化学习算法之一，然而，由于实际问题中动作状态空间的爆炸，Q-学习收敛速度较慢，很难找到最优的动作来求解。因而本发明实施例提供了深度神经网络来将强化学习过程与深度神经网络相结合，拟合动作状态值函数。优选的采用了深度Q网络，从而解决了Q-学习收敛速度较慢的缺点。那么通过本发明实施例提供的深度Q网络，即能够拟合出动作状态值函数，在本发明实施例中称为近似长期价值。

在步骤103中，可以理解的是，5G超密集组网系统在进行决策后会计算出一个实际的长期价值，那么将实际长期价值与本发明实施例拟合得到的近似长期价值进行比对能够更新当前时刻的长期价值函数，从而缩小近似长期价值的计算误差。

最后，在步骤104中，经过不断的迭代更新，当长期价值函数的更新过程收敛时，即可以判定此时的资源分配方案是最优解，获取此时的各个时刻资源分配策略作为资源分配方案即可完成资源分配，此时得到的资源分配方案能够自动适应用户到达和离开的随机性。

本发明实施例提供的一种5G超密集组网资源分配方法，基于深度强化学习来解决随机优化问题，从而使得资源的分配能够适应用户到达和离开的随机性，并且同时降低了求解复杂性。

在上述实施例的基础上，所述5G超密集组网系统包括：

由上述实施例的内容可知，本发明实施例所针对的具体5G超密集组网系统是由特定的n个小小区组成的宏小区，宏小区内有一个宏基站(MgNB)，每个小小区内有一个小基站(SgNB)。

在上述实施例的基础上，所述即时奖励的计算函数为：

其中，r_t为即时奖励，

为5G超密集组网系统的能量效率，

由上述实施例的内容可知，本发明实施例可以计算每个时刻MgNB在进行决策后系统的即时奖励，其计算函数r_t具体为：

其中，r_t为即时奖励，

为5G超密集组网系统的能量效率，

在上述实施例的基础上，所述长期价值函数为：

Q(s_t,a_t)＝(1-α)Q(s_t,a_t)+α[r_t+γmaxQ(s_t+1,a_t+1)]；

表示所述宏基站在t时刻做出的决策。

由上述实施例的内容可知，本发明实施例需要计算系统的长期价值，那么相应的系统的长期价值计算函数Q(s_t,a_t)具体为：

Q(s_t,a_t)＝(1-α)Q(s_t,a_t)+α[r_t+γmaxQ(s_t+1,a_t+1)]；

表示所述宏基站在t时刻做出的决策。

在上述实施例的基础上，所述方法还包括：

由上述实施例的内容可知，本发明实施例会针对每个时刻的5G超密集组网系统状态，计算出相应的即时奖励，那么相应的在计算之前，本发明实施例需要对每个时刻的5G超密集组网系统的系统状态进行获取，系统状态主要包括了所有小小区的用户数目S_n(t)，每个小基站的吞吐量R_n(t)，以及资源块的复用情况。

在上述实施例的基础上，所述将所述每个状态对应的即时奖励输入深度神经网络中，拟合得到近似长期价值，由上述实施例的内容可知，本发明实施例利用了深度神经网络，拟合得到近似长期过程，具体的拟合过程实际包括了：

具体的，本发明实施例在具体实施时的实施流程为：

首先由MgNB获得当前时刻的系统状态s_t，即所有小小区的用户数目S_n(t)，每个小基站的吞吐量R_n(t)，以及资源块的复用情况；

然后MgNB通过贪婪策略选择资源块分配给每个用户，并根据公式即时奖励计算函数计算即时奖励r_t，然后MgNB接收下一时刻的系统状态s_t+1；

接着MgNB将当前时刻的系统状态，决策，即时奖励以及下一时刻的状态作为一批样本进行存储，当存储空间的数据达到饱和时，从存储空间随机选择部分样本，拟合出状态动作价值神经网络的两个数据流包括状态函数，优势函数，并合并成神经网络拟合的近似长期价值；

再根据长期价值计算函数的计算公式更新当前时刻的价值函数，并结合实际长期价值对神经网络进行训练，缩小长期价值的误差；最后通过迭代循环，当系统的长期价值函数收敛时，便得出每个时刻的资源分配策略。

图2是本发明实施例提供的一种5G超密集组网资源分配装置结构示意图，如图2所示，包括：决策模块201、神经网络拟合模块202、更新模块203和资源分配模块204，其中：

决策模块201用于针对每个时刻的5G超密集组网系统状态，基于贪婪策略进行决策，计算每个状态对应的即时奖励；

神经网络拟合模块202用于将所述每个状态对应的即时奖励输入深度神经网络中，拟合得到近似长期价值；

更新模块203用于将所述近似长期价值和实际长期价值对比，以更新长期价值函数；

资源分配模块204用于当所述长期价值函数收敛时，得到每个时刻的资源分配方案，并按照所述每个时刻的资源分配方案进行资源分配。

具体的如何通过决策模块201、神经网络拟合模块202、更新模块203和资源分配模块204可用于执行图1所示的5G超密集组网资源分配方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

本发明实施例提供的一种5G超密集组网资源分配装置，基于深度强化学习来解决随机优化问题，从而使得资源的分配能够适应用户到达和离开的随机性，并且同时降低了求解复杂性。

在上述实施例的基础上，所述5G超密集组网系统包括：

在上述实施例的基础上，所述即时奖励的计算函数为：

其中，r_t为即时奖励，

为5G超密集组网系统的能量效率，

在上述实施例的基础上，所述长期价值函数为：

Q(s_t,a_t)＝(1-α)Q(s_t,a_t)+α[r_t+γmaxQ(s_t+1,a_t+1)]；

表示所述宏基站在t时刻做出的决策。

在上述实施例的基础上，所述5G超密集组网资源分配装置还包括：

系统状态获取模块，用于获取每个时刻的5G超密集组网系统的系统状态，所述系统状态包括每个小小区的用户数量、每个小基站的吞吐量以及资源块的复用情况。

在上述实施例的基础上，所述神经网络拟合模块具体用于：

图3是本发明实施例提供的一种电子设备的结构框图，参照图3，所述电子设备，包括：处理器(processor)301、通信接口(Communications Interface)302、存储器(memory)303和总线304，其中，处理器301，通信接口302，存储器303通过总线304完成相互间的通信。处理器301可以调用存储器303中的逻辑指令，以执行如下方法：针对每个时刻的5G超密集组网系统状态，基于贪婪策略进行决策，计算每个状态对应的即时奖励；将所述每个状态对应的即时奖励输入深度神经网络中，拟合得到近似长期价值；将所述近似长期价值和实际长期价值对比，以更新长期价值函数；当所述长期价值函数收敛时，得到每个时刻的资源分配方案，并按照所述每个时刻的资源分配方案进行资源分配。

本发明实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：针对每个时刻的5G超密集组网系统状态，基于贪婪策略进行决策，计算每个状态对应的即时奖励；将所述每个状态对应的即时奖励输入深度神经网络中，拟合得到近似长期价值；将所述近似长期价值和实际长期价值对比，以更新长期价值函数；当所述长期价值函数收敛时，得到每个时刻的资源分配方案，并按照所述每个时刻的资源分配方案进行资源分配。

本发明实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：针对每个时刻的5G超密集组网系统状态，基于贪婪策略进行决策，计算每个状态对应的即时奖励；将所述每个状态对应的即时奖励输入深度神经网络中，拟合得到近似长期价值；将所述近似长期价值和实际长期价值对比，以更新长期价值函数；当所述长期价值函数收敛时，得到每个时刻的资源分配方案，并按照所述每个时刻的资源分配方案进行资源分配。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行每个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。