CN114205899B

CN114205899B - 一种基于深度强化学习的异构网高能效功率控制方法

Info

Publication number: CN114205899B
Application number: CN202210054001.9A
Authority: CN
Inventors: 张蔺; 彭剑豪; 郑嘉宝
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-01-18
Filing date: 2022-01-18
Publication date: 2023-04-07
Anticipated expiration: 2042-01-18
Also published as: CN114205899A

Abstract

本发明属于无线通信和深度学习技术领域，具体涉及一种基于深度强化学习的异构网高能效功率控制方法。本发明设定目标为优化每个微基站的发射功率并最大化每个时隙的全局能量效率，并建立了目标模型，基于目标模型，采用深度强化学习让每个微基站根据本地信息确定发射功率，同时根据云端的数据来更新神经网络的参数。利用本发明提出的方法，基站在配置发射功率时仅需要局部状态信息，不需要获取即时的全局信道信息；基站在配置发射功率时不需要与其他基站进行通信协作，可以实现独立工作；同时本发明提出的方法的计算复杂度将比基于迭代优化的算法复杂度低。

Description

一种基于深度强化学习的异构网高能效功率控制方法

技术领域

本发明属于无线通信和深度学习技术领域，具体涉及一种基于深度强化学习的异构网高能效功率控制方法。

背景技术

随着移动通信的快速发展，无线数据流量呈现出了爆炸式增长的趋势，因而传统蜂窝网络已经难以适应不断增长的数据流量。异构网络作为一种灵活、经济的无线网络架构，通过部署小型基站作为对传统宏基站的补充，缩短了基站和用户之间的距离，以此给用户提供更高的传输速率和更好的服务质量。然而，更多的基站将导致更高的能量消耗和二氧化碳排放量，这给异构网络技术的发展带来了压力。

当前绿色通信的主题已经受到了广泛关注，能量效率已经成为未来绿色通信的设计准则，因此，在满足用户需求的前提下，如何有效利用网络现有的频谱资源，降低网络能量开销，提高网络的能量效率，是下一代无线网络优化设计中亟待解决的问题。

异构网络通过部署大量微基站来增加网络的吞吐量，但部署大量的微基站将造成较高的能量损耗，因此，在满足用户服务需求的前提下，提高网络的能量效率是不容忽视的关键问题。传统的分数规划理论可以有效地解决基站和用户之间单个通信链路的能量效率最大化问题，然而，当异构网络中存在多个基站-用户链路，并且所有的链路重复使用相同的无线信道为彼此造成干扰时，能量效率的最大化问题将变得十分复杂。现有的能量效率功率控制方法可以大致分为三类：基于迭代优化的方法、基于深度学习的方法、基于深度强化学习的方法。

(1)基于迭代优化的方法包括基于序贯分式规划(sequential fractionalprogramming，SFP)和基于分支定界的算法，两种算法都需要收集即时的全局信道状态信息，并利用其来迭代求解优化问题的边界，最终可通过优化发射功率来提高网络能量效率；

(2)基于深度学习的方法通过利用已有的优化算法生成数据集，并使用这些数据集训练人工神经网络进行功率控制，最终使用有效训练后的人工神经网络可以实现接近最优的全局能量效率性能；

(3)基于深度强化学习方法可以减少生成数据集的步骤，智能体采用试错的方式不断与环境交互，并通过利用历史交互经验来更新自己的功率控制策略，以逐渐提高网络的能量效率性能，最终在算法收敛后，利用训练好的模型可以快速配置发射功率。

但是上述方法都需要先收集即时的全局信道状态信息，然后利用全局信道状态信息来优化发射功率。然而，在实际情况下，获取即时的全局信道状态信息具有较大的挑战性。假设有即时的全局信道状态信息可以利用，并且具有较高的时间复杂度，而现有的基于深度强化学习算法假设基站之间需要相互协作，使其无法直接应用于典型的蜂窝异构网络中。

发明内容

针对上述问题，本发明通过扩展现有的基于策略的深度强化学习算法，即深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法，为宏基站和微基站设计一种智能功率控制方法。利用本发明所提出的方法，每个基站可以仅基于本地信息独立地确定发射功率。

A问题描述

如图1所示，本发明考虑一个下行异构网络，其中宏基站负责为整个宏小区提供无线服务，并部署N个微基站以加强小范围区域内无线信号的覆盖。其中，宏基站和微基站复用相同的频段并会给彼此造成干扰。分别将基站及其服务的用户记为基站n和用户n，

下面，提供系统模型和问题描述。

基站和用户之间的无线信道由大尺度衰落(路径损耗和阴影)和小尺度块状瑞利衰落组成。其中，大尺度衰落与基站和用户的位置高度相关，而小尺度块状瑞利衰落是一个随机变量，它通常在单个时隙内保持恒定而在不同时隙之间变化。将基站n到用户k之间的大尺度衰落表示为φ_n,k，小尺度块状瑞利衰落表示为h_n,k，相应的信道增益可以表示为g_n,k＝φ_n,k|h_n,k|²。

将时隙t时基站n的发射功率表示为p_n(t)，则在用户n处测得的信干噪比(signalto interference and noise ratio,SINR)表示为

其中σ²是用户处存在的噪声功率。那么，在时隙t时从基站n到用户n的下行链路速率为

r_n(t)＝Blog₂(1+γ_n(t))， (2)

其中B是频谱带宽。因此，时隙t时异构网络的全局能量效率可以表示为

其中ψ_n是基站n的功率放大器效率的倒数，p_c是总电路的功率。

从(3)可知，全局能量效率与每个基站的发射功率高度相关。目标是优化每个基站的发射功率并最大化每个时隙的全局能量效率，即

其中，p_n,max是基站n的最大发射功率约束。需要注意的是，在典型的异构网络中，不同的基站可能具有不同的最大发射功率限制。

B高能效功率控制方法框架

本发明考虑到云端中的核心网络具有整个异构网络的冗余历史数据，边缘中的基站可以利用有效的历史数据实时配置发射功率，因此，为了充分利用云端和边缘的优势，本发明设计了一个云端边缘协作框架，如图2所示。通过该框架，云端可以利用整个异构网络的历史数据为边缘基站训练高能效功率控制模型，然后借助训练有效的模型，边缘基站可以仅根据本地信息确定合适的发射功率，以提高全局能量效率。同时，每个边缘基站不需要与其他边缘基站交换即时信息而可以独立配置其发射功率。

基于上述原理，本发明将每个基站作为一个智能体并配备一个深度神经网络，即边缘深度神经网络，负责根据本地信息为基站确定合适的发射功率。因此，边缘深度神经网络的输入和输出分别是本地信息和相应的发射功率。为了在云端实现在线训练，每个边缘基站在每个时隙通过回程链路将边缘经验上传到云端。通过自动整合边缘经验，云端可以构建全局经验并将其存储在全局经验回放缓存中，该缓存中以先进先出的方式调度全局经验。

需要注意的是，不同的边缘基站可能具有独特的特征，因此不同的边缘深度神经网络可能具有不同的最优参数。为了训练得到不同边缘深度神经网络的最优参数，需要在云端建立与边缘深度神经网络相对应的行动者深度神经网络，并且具有相同的结构(例如，输入端口数、网络层数与输出端口数)。同时，在云端建立了一个评判家深度神经网络，该网络将根据全局能量效率评估整个异构网络发射功率配置的优劣，并分别指导每个行动者深度神经网络进行训练。这样，每个行动者深度神经网络可以将训练后的网络参数传输到对应的边缘基站上，直接替换对应边缘深度神经网络的参数。由于评判家深度神经网络的评估包含整个异构网络的信息，因此使用评判家深度神经网络的评估来指导每个行动者深度神经网络的训练，可以使行动者深度神经网络的参数收敛到全局最优。因此，评判家深度神经网络的输入包括整个异构网络的历史状态数据和相应的发射功率，输出的是长期全局能量效率。

C高能效功率控制方法设计

1)边缘网络：

边缘状态设计：在时隙t，第n个边缘深度神经网络的系统状态为：

其中，g_n,n(t-1)为前一个时隙微基站n和用户n之间的信道增益，p_n(t-1)为微基站n的发射功率，

为接收干扰，γ_n(t-1)为接收信号干扰噪声比，r_n(t-1)为微基站n到用户n的速率，g_n,n(t)为当前时隙中微基站n和用户n之间的信道增益，

为在配置发射功率前的接收干扰，ψ_n为微基站的功率放大器倒数；

边缘动作设计：每个微基站仅根据本地信息确定发射功率，因此时隙t中边缘深度神经网络n的动作为a_n＝p_n；

边缘经验：微基站n在时隙t的边缘经验为当前时隙下的状态-动作对的集合：

e_n(t)＝{s_n(t),a_n(t)}。 (5)

边缘/行动者深度神经网络设计：边缘深度神经网络与云端中的行动者深度神经网络具有相同的结构，将其设计为一个全连接的神经网络，如图3所示，其中输入层有八个端口对应于设计状态的八个元素，输出层有一个端口对应于设计的动作。

2)云端网络：

云端状态：定义从边缘到云端的数据传输存在的延迟为T_d，因此将云端中的全局状态设计为：

s(t)＝{s₀(t-T_d),...,s_N(t-T_d),s_g(t-T_d)}， (6)

其中，s_g(t-T_d)构建为异构网络中微基站与用户之间的距离矩阵；由于每个微基站都可以获取到对应用户的位置坐标，因此每个微基站将其与用户的位置坐标共同上传到云端中，云端获取所有微基站与用户的位置坐标，最终在云端完成距离矩阵的构建；

云端动作：时隙t时云端的全局动作为：

a(t)＝{a₀(t-T_d),...,a_N(t-T_d)}。 (7)

云端奖励：将时隙t时云端的全局奖励设计为全局能量效率的函数：

R(t)＝f(GEE(t-T_d))， (8)

其中，f(·)是一个递增函数，用于放大全局能量效率的奖励，使得微小的能量效率改进也能得到奖励；

云端全局经验：将时隙t时云端的全局经验构建为时隙t-1-T_d时的全局状态-动作-奖励对和时隙时t-T_d的全局状态的集合：

E(t)＝{s(t-1-T_d),a(t-1-T_d),R(t-1-T_d),s(t-T_d)}。 (9)

评判家深度神经网络设计：评判家深度神经网络的结构如图4所示。该神经网络的输入由三个全连接的神经网络模块组成，即全局状态模块、全局动作模块和全局状态-动作处理模块。全局状态模块输入全局状态s，全局动作模块输入全局动作a，全局状态和动作模块的最后一层连接在一起作为全局状态-动作处理模块的第一层，全局状态-动作处理模块输出对全局状态-动作对的评估(Q值)。

C高能效功率控制方法训练过程

在深度神经网络的训练中，为了稳定评判家深度神经网络和行动者深度神经网络的训练，为评判家深度神经网络建立一个目标评判家深度神经网络，为每个行动者深度神经网络建立一个目标行动者深度神经网络，则，评判家深度神经网络、行动者深度神经网络和边缘深度神经网络的参数向量将在训练开始时随机初始化，然后评判家深度神经网络和行动者深度神经网络的参数向量将用于初始化对应的目标评判家深度神经网络和目标行动者深度神经网络。

根据上述分析，在边缘有N+1个边缘深度神经网络需要训练，在云端则有N+1个行动者深度神经网络和一个评判家深度神经网络需要训练。本发明将评判家深度神经网络、行动者深度神经网络和边缘深度神经网络分别表示为Q(s,a；θ^(c))、

以及

其中θ^(c)、

和

分别是评判家深度神经网络、行动者深度神经网络和边缘深度神经网络的参数向量。为了稳定评判家深度神经网络和行动者深度神经网络的训练，为评判家深度神经网络建立了一个目标评判家深度神经网络，并将其表示为Q^-(s,a；θ^(c-))，同时，为每个行动者深度神经网络建立一个目标行动者深度神经网络，并将它们表示为

定义云端需要积累D个全局经验才能开始训练，因此所有微基站在每个时隙t的开始为下行链路随机选择发射功率，当边缘深度神经网络的参数向量被更新，边缘基站就使用边缘深度神经网络产生发射功率，即

其中

是零均值动作噪声，用于在训练阶段探索更好的发射功率。通过这种方式，每个边缘基站可以仅根据本地信息不断获得新的边缘经验并将其上传到云端。我们将动作噪声方差ζ设计为随时隙的增加以速率λ衰减的形式，因此在时隙t时的动作噪声方差可以表示为

ζ＝ζ_end+(ζ_ini-ζ_end)e^-λt， (11)

其中ζ_ini和ζ_end分别是初始值和结束值。

在云端网络的训练中，每次从全局经验池中抽取D个样本，用于更新评判家深度神经网络和行动者深度神经网络的参数向量，具体为：

1)训练评判家深度神经网络：

将第i个采样的全局经验表示为E_i＝{s_i,a_i,R_i,s′_i}，其中s′_i表示下一时隙的全局状态信息，将第i个样本的目标Q值

表示成时序差分的形式，即

其中，η∈[0,1]是是折扣因子，θ^(c-)是目标评判家深度神经网络的参数向量，通过使用均方误差的方法来评估预期的长期全局能量效率与采样的D个全局经验的目标Q值之间的损失，表示为：

采用梯度下降法更新评判家深度神经网络的参数向量θ^(c)并最小化损失函数。

2)训练行动者深度神经网络：

由于每个边缘深度神经网络的输出发射功率旨在最大化整个异构网络的全局能量效率，因此每个行动者深度神经网络的训练设计为在最大化期望Q值的方向上更新其参数向量，表示为：

相应地，行动者深度神经网络参数向量

的更新规则为：

其中

是期望Q值对

的偏导，表示为：

3)训练目标评判家深度神经网络和目标行动者深度神经网络：

采用软更新方法更新目标评判家深度神经网络和目标行动者深度神经网络，更新如下：

θ^(c-)←τ^(c)θ^(c)+(1-τ^(c))θ^(c-)， (17)

最后边缘深度神经网络的参数向量被相应的行动者深度神经网络的参数向量替换。

为了减少通信开销，设计每隔T_u个时隙更新边缘深度神经网络的参数向量，直到收敛。

本发明的有益效果是：本发明的方法基站在配置发射功率时仅需要局部状态信息，不需要获取即时的全局信道信息；基站在配置发射功率时不需要与其他基站进行通信协作，可以实现独立工作；同时本发明提出的方法的计算复杂度将比基于迭代优化的算法复杂度低。

附图说明

图1为典型下行异构网络结构示意图。

图2为本发明的原理框架示意图。

图3为边缘/行动者深度神经网络结构示意图。

图4为评判家深度神经网络结构示意图。

图5为仿真模型的两层异构蜂窝网络场景示意。

图6为平均全局能量效率性能比较示意图，(a)为训练阶段，(b)为测试阶段；

图7为本发明与SFP平均时间复杂度比较示意。

具体实施方式

下面结合仿真示例和附图来说明本发明的实用性，首先提供系统模型设置和仿真参数，然后提供仿真结果来评估本发明所提出算法的性能。同时，将所提出算法与现有的SFP算法、随机功率算法和全功率算法进行比较。

如图5所示，仿真考虑了一个两层异构网络场景，其中部署了五个基站。第一层仅包含基站0，它位于坐标(0,0)，最大发射功率约束为30dBm，覆盖最小半径为10米，最大半径为1000米的圆盘区域。基站1到基站4分布在第二层，分别位于坐标(500,0),(0,500),(-500,0)和(0,-500)，每个基站的最大发射功率限制为23dBm，分别覆盖最小半径为10米和最大半径为200米的圆盘区域。每个用户随机分布在相应基站的覆盖范围内。

此外，将所有基站的功率放大器倒数ψ_n设置为10，总电路功率p_c设置为30dbm，带宽B＝10MHz。路径损耗建模为120.9+37.6log10(d)，单位为dB，其中d代表距离(以千米为单位)，对数正态阴影标准偏差为8dB，噪声功率为σ²＝-114dBm。此外，将云端和边缘之间的传输延迟设置为T_d＝50个时隙，并将边缘深度神经网络的参数向量更新周期设置为T_u＝100时隙。

接下来提供深度神经网络的训练超参数。每个边缘/行动者深度神经网络有四个全连接层，包括一个具有八个神经元的输入层，对应于状态设计中的八个元素，以及两个隐藏层，每个隐藏层有100神经元，以及一个具有一个神经元的输出层，对应每个边缘基站的动作。此外，网络优化器的学习率设置为0.00004，噪声方差的初始值为ζ_ini＝1，结束值为ζ_end＝0.4，衰减率λ＝0.00125。

评判家深度神经网络的设计与参数设置如下。全局状态模块具有三个全连接层，首先包括一个含有8(N+1)+(N+1)²个神经元的输入层，神经元的个数对应于全局状态设计中的元素个数，另外还包括两个隐藏层，每个隐藏层有200个神经元。全局动作模块有两层，包括一个含有N+1个神经元的输入层，神经元的个数对应全局动作中的元素个数，另外包括一个具有200个神经元的隐藏层。全局状态-动作处理模块具有三个全连接层，分别对应具有400个神经元的输入层、具有200个神经元的隐藏层以及1个对应Q值的输出层。此外，网络优化器的学习率设置为0.0004，批量大小D＝128，折扣因子γ＝0.4。

图6和图7展示了实验的仿真结果，其中每条数据曲线是10次独立实验的平均值。

图6提供了四种算法的全局能量效率性能。图6-(a)显示了训练阶段的平均全局能量效率性能，可以观察到，所提出算法的性能在大约300时隙后开始提高，并且超过了随机功率和全功率算法的性能。同时，所提出的算法收敛速度很快，在3000个时隙后可以接近SFP算法的性能。图6-(b)显示了测试阶段的性能比较，其中所有深度神经网络的参数向量在收敛后是固定的，每个边缘基站利用相应的边缘神经网络独立地配置其发射功率。从图中可以看出，所提出的算法优于SFP算法、随机功率算法和全功率算法。

图7显示了所提出算法和SFP算法计算一次发射功率的平均时间复杂度，可以看出，所提出的算法平均需要大约8ms，而SFP算法平均需要大约133ms来优化发射功率。由图6和图7可以得出结论，本发明所提出的算法在全局能量效率性能和时间复杂度方面都优于SFP算法。

Claims

1.一种基于深度强化学习的异构网高能效功率控制方法，异构网包括一个宏基站和N个微基站，宏基站和微基站共用相同的频带，定义微基站及其服务的用户为微基站n和用户n，

其特征在于，所述功率控制方法为：

设定目标为优化每个微基站的发射功率并最大化每个时隙的全局能量效率，建立目标模型为：

其中，p_n(t)是时隙t时基站n的发射功率，p_n,max是微基站n的最大发射功率约束；

基于目标模型，采用深度强化学习让每个微基站根据本地信息确定发射功率，具体为：

设定整个异构网络的冗余历史数据存储在云端的核心网络中，边缘中的基站能利用有效的历史数据实时配置发射功率，因此，通过云端利用整个异构网络的历史数据为边缘基站训练高能效功率控制模型，从而边缘基站可以仅根据本地信息确定合适的发射功率，以提高全局能量效率；

将每个微基站作为一个智能体并配备一个深度神经网络，定义为边缘深度神经网络，负责根据本地信息为微基站确定合适的发射功率，边缘深度神经网络的输入和输出分别是本地信息和相应的发射功率；为了在云端实现在线训练，每个边缘基站在每个时隙通过回程链路将边缘经验上传到云端，通过整合边缘经验，云端构建全局经验并将其存储在全局经验回放缓存中，该缓存中以先进先出的方式调度全局经验；

为了训练得到不同边缘深度神经网络的最优参数，需要在云端建立与边缘深度神经网络相对应的行动者深度神经网络，并且边缘深度神经网络和行动者深度神经网络具有相同的结构，同时，在云端建立了一个评判家深度神经网络，该网络将根据全局能量效率评估整个异构网络发射功率配置的优劣，并分别指导每个行动者深度神经网络进行训练；每个行动者深度神经网络将训练后的网络参数传输到对应的边缘深度神经网络，直接替换对应边缘深度神经网络的参数；所述评判家深度神经网络的评估包含整个异构网络的信息，因此使用评判家深度神经网络的评估来指导每个行动者深度神经网络的训练，使行动者深度神经网络的参数收敛到全局最优；评判家深度神经网络的输入包括整个异构网络的历史状态数据和相应的发射功率，输出的是长期全局能量效率；

具体训练过程为：

定义在边缘有N+1个边缘深度神经网络需要训练，在云端则有N+1个行动者深度神经网络和一个评判家深度神经网络需要训练；将评判家深度神经网络、行动者深度神经网络和边缘深度神经网络分别表示为Q(s,a；θ^(c))、

以及

其中θ^(c)、

和

分别是评判家深度神经网络、行动者深度神经网络和边缘深度神经网络的参数向量；为了稳定评判家深度神经网络和行动者深度神经网络的训练，为评判家深度神经网络建立一个目标评判家深度神经网络，并将其表示为Q^-(s,a；θ^(c-))，同时，为每个行动者深度神经网络建立一个目标行动者深度神经网络，并将它们表示为