CN116847446A

CN116847446A - 一种基于智能云边协同的异构网高能效功率控制方法

Info

Publication number: CN116847446A
Application number: CN202310713872.1A
Authority: CN
Inventors: 张蔺; 彭剑豪
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2023-06-15
Filing date: 2023-06-15
Publication date: 2023-10-03

Abstract

本发明属于无线通信和深度强化学习技术领域，具体涉及一种基于智能云边协同的异构网高能效功率控制方法。本发明设定目标为在一个典型异构网络中优化基站的发射功率以此最大化网络的全局能量效率。通过建立目标优化模型，本发明提出一种轻量级云端‑边缘协同的框架，其中云端可以只从边缘基站收集数据速率和能量损耗信息然后反馈所计算的全局奖励到边缘基站。此外，本发明开发了一种多智能体独立行动者评判家算法，从而每个基站可以独立实时的优化发射功率策略。利用本发明提出的算法，边缘基站可以仅基于本地信息配置发射功率，并借助云端反馈的全局奖励优化策略，最终可以达到与传统优化算法相近的全局能量效率性能并大幅降低时间复杂度。

Description

一种基于智能云边协同的异构网高能效功率控制方法

技术领域

本发明属于无线通信和深度强化学习技术领域，具体涉及一种基于智能云边协同的异构网高能效功率控制方法。

背景技术

智能设备数量的增长带来了数据吞吐量需求的显著增加，并给传统蜂窝网络系统带来了沉重的负担。为了解决这个问题，一种称为异构网络的新型网络已经成为通过在服务区域中部署不同类型的基站来增强网络容量和覆盖的有效解决方案。然而，由于异构基站的超密集部署，网络的能量消耗将进一步增加，这可能降低能量效率。能量效率是下一代无线通信系统中的关键指标之一，因为它被定义为总吞吐量与总功耗的比率，以比特/焦耳为单位测量。最大限度地提高无线网络中的能量消耗对于减少碳排放和创建可持续的通信系统至关重要。

能量效率最大化的联合功率控制在数学上已经被证明是一个具有挑战性的非确定型多项式难题，使得难以获得最优解。为了解决这个问题，当前已经提出了各种节能算法。现有的能量效率功率控制方法可以大致分为三类：基于迭代优化的方法、基于深度学习的方法、基于深度强化学习的方法。基于迭代优化的方法包括以下几种。例如，通过结合分式规划和序列优化技术提出了一种用于联合功率优化的序列分式规划(SequentialFractional Programming，SFP)算法，该算法解决了全局能量效率的最大化问题，并取得了接近最优的性能。另一种算法基于分支定界可以用来解决常见的高能效功率控制问题，并获得了全局最优解。此外，还有一种用于求解分数阶多项式问题的优化框架，它可以应用于蜂窝网络的能量效率最大化问题。然而，这些传统的功率控制优化算法需要从所有基站收集瞬时信道状态信息，这在实际场景中是具有挑战性的。此外，它们通常以迭代方式运行，这意味着高计算复杂度并且可能使得优化结果过时。

近年来，基于深度学习和基于深度强化学习的方法，逐渐在无线通信领域展现出了巨大的优势。一些研究已经成功地采用这些方法来解决能量效率最大化问题。具体包括，利用无监督方法来训练深度神经网络进行功率优化，与传统优化技术相比，该方法实现了更高的能效公平性性能。提出了基于深度强化学习的集中式，分布式和基于迁移学习的解决方案，以研究5G认知异构网络中的能效最大化问题。在这些解决方案中，由于智能体之间的有效协调，多智能体分布式解决方案实现了最佳的能效性能。

然而，基于深度学习的算法容易受到典型异构网络中离线训练数据集和在线测试数据集之间的不一致性问题的影响，特别是当异构网络环境快速变化时。基于深度强化学习的优化算法，可以实现高能效性能，但是需要核心网和不同基站之间进行大量的信息交换。

发明内容

为了解决上述问题，本发明提出了一个智能功率控制方法，使得每个基站可以只利用本地信息独立地控制其发射功率，以提高全局能量效率。

A问题描述

本发明考虑一个典型的异构网络，它包含一个宏基站和N个微基站，如图1所示。每个基站服务一个对应的用户，其中所有基站和用户使用单个天线。本发明将基站n服务的用户表示为用户n，其中n∈{0,1,2,...,N}，并且索引0对应于宏基站及其被服务用户。注意，宏基站和微基站共享用于同步下行链路传输的频谱带。

本发明将基站和用户之间的无线信道建模为由两个部分：大尺度衰落(路径损耗和阴影)和小尺度块状瑞利衰落。路径损耗由基站和用户之间的距离确定，而阴影衰落由基站-用户链路的物理阻塞引起。本发明将大规模衰落表示为路径损耗和阴影的总和，表示为χ_n→k＝L_n→k+φ_n→k，其中L_n→k和φ_n→k分别是从基站n到用户k是路径损耗衰减和阴影衰减。小尺度块瑞利衰落是由于基站-用户链路的多径传输引起，并且是快速变化的随机变量。具体来讲，从基站n到用户k的块瑞利衰落被表示为h_n→k，并且它遵循具有零均值和单位方差的循环对称复高斯分布，即

然后，信道增益可以表示为g_n→k＝φ_n→k|h_n→k|²，在用户n处测得的信干噪比可以表示为

其中，p_n(t)为时隙t时刻基站n的发射功率，σ²是用户处存在的噪声功率谱密度。那么，在时隙t时从基站n到用户n的下行链路速率可以建模为

r_n(t)＝Blog₂(1+γ_n(t))， (2)

其中B是频谱带宽。考虑到总功耗由基站发射功率以及基站中消耗的硬件电路功率组成。因此，时隙t时异构网络的全局能量效率可以表示为

其中ψ_n是基站n的功率放大器效率的倒数，p_c是总电路的功率。

如上所述，全局能量效率的最大化问题可以被公式化为联合功率优化问题，即，

其中，p_n,max是基站n的最大发射功率约束。考虑到一般的异构网络是通过部署不同的基站以服务不同区域中的用户，因此，这些基站可能对它们的最大发射功率具有不同的限制。

B高能效功率控制方法框架

从(4)可以看出，异构网络中的全局能量效率优化问题与网络的全局瞬时信息高度相关，其中包括所有基站的下行数据速率和能量损耗信息。然而，构建该全局瞬时信息需要在不同基站之间进行大量信息交换，从而会带来显著的信息交换开销。因此，本发明设计让核心网络(云端)和不同基站(边缘)之间进行轻量级的协作，具体来讲，边缘基站不需要与彼此交换本地瞬时信息，同时云端只需要从每个边缘基站收集历史的本地能效相关数据并计算历史全局奖励，进而利用全局奖励反馈改进本地基站的功率控制策略。

基于上述讨论，本发明提出了一个轻量级的云端-边缘协作框架，如图2所示。在该框架中，每个边缘基站经由具有延迟的双向有线或无线链路连接到云端。

在边缘，本发明为每个基站建立了一个独立的行动者-评论家结构以及两个经验缓冲区，即本地经验回放缓冲区和本地-全局经验回放缓冲区。每个边缘基站将利用其本地行动者神经网络来确定一个合适的下行发射功率，并将对应的本地经验和时间戳存储到其本地经验回放缓存中，然后只需将本地能效相关数据上传到云端。

在云端中，本发明建立一组队列(接收队列和发送队列)用于与每个边缘基站交换历史数据。此外，本发明还设计了一个全局计算模块，它将调度接收队列中的接收数据，计算历史全局奖励。所计算的历史全局奖励将连同对应的时间戳一起被放置在每个发送队列中，然后发送队列将以先进先出的方式将其发送到每个边缘基站。

在从云端接收到数据后，每个边缘基站将从其本地经验回放缓存中检索具有相同时间戳的本地经验，并且将其与全局奖励反馈组合形成本地-全局经验，最后该本地-全局经验会被存储在本地-全局经验回放缓存中。通过这种方式，每个边缘基站可以在每个更新周期采样小批量的本地-全局经验，然后周期性地训练行动者深度神经网络和批评者深度神经网络，该过程将训练至每个深度神经网络收敛为止。至此，每个行动者深度神经网络可以学习到较优的本地功率控制策略以提升全局能量效率性能。

C多智能体独立行动者-评判家算法设计

1)边缘网络：

边缘状态设计：行动者深度神经网络n的状态由前一时隙中的历史本地信息，当前时隙中的本地瞬时信息和本地辅助信息组成，即：

其中历史本地信息包括信道增益g_n→n(t-1)，边缘基站n的发射功率p_n(t-1)，所接收干扰所获取的信干噪比γ_n(t-1)，以及下行可达速率r_n(t-1)。然后，本地瞬时信息包括信道增益g_n→n(t)，在配置新的发射功率之前在当前时隙的开始处接收到的干扰/>此外，本地辅助信息为边缘基站n的功率放大器效率的倒数ψ_n。为了获得时隙t时刻的本地瞬时信息，基站n在时隙t的开始向用户n发送功率为p_n(t-1)的正交导频序列，从而在本地获得信道增益g_n→n(t)和干扰/>

边缘动作设计：在时隙t时刻，行动者深度神经网络n的动作设计为下行链路发射功率，即a_n＝p_n；

边缘经验：在时隙t时刻结束时，边缘基站n可以获取本地经验，并将其构建为一个集合，包括前一时隙中的状态-动作对以及当前时隙中的状态，即，

在从云端接收到历史全局奖励时，每个边缘基站能够通过使用对应的时间戳将对应的本地经验与历史全局奖励组合来构建本地-全局经验。如果将全局奖励表示为R并且将边缘和云之间的传输延迟表示为T_l，则边缘基站n在时隙t时刻的本地-全局经验可以表示为

边缘行动者与评判家深度神经网络设计：行动者深度神经网络n的网络结构设计为如图3所示。特别地，它是一个全连接的深度神经网络，输入层具有对应于设计状态s_n的数量的八个端口，输出是映射到0和p_n,max之间的可行发射功率。图4中设计了评论家深度神经网络n的网络结构，包括状态模块、动作模块和价值评估模块。其中，状态模块接收局部状态s_n作为输入，动作模块接收局部动作a_n作为输入，价值评估模块的输入为状态模块和动作模块的输出。然后，价值评估模块输出长期Q值，其用于评估全局能量效率的性能。

2)云端网络：

如框架中所讨论的，云端被设计为通过从每个基站收集本地能效相关数据来计算历史全局奖励。为了实现这个过程，本发明在云端中建立了N+1组队列和一个全局计算模块。其中，每组队列(一个接收队列和一个发送队列)与每个边缘基站相关联，并且以先进先出方式操作数据。

全局奖励设计：在给定时隙时刻，全局奖励被设计为评估所有基站可以取得的全局能量效率性能。为了确保有效性和简洁性，本发明设计时隙t时刻的全局奖励为

R(t)＝GEE(t-T_l)。 (8)

然后，根据(4)，在时隙t时刻，边缘基站n的本地能效相关数据被设计为数据速率r_n(t)，以及能量消耗信息，包括发射功率p_n(t)、功率放大器效率的倒数ψ_n和本地电路功率。通过这种方式，每个边缘基站可以在每个时隙结束时将获得的本地能效相关数据以及时间戳上传到云端中。

D深度神经网络训练过程

本发明通过扩展深度确定性策略梯度算法引入了一个多智能体独立行动者-评判家功率控制算法来训练边缘深度神经网络。基于在边缘的设计，本发明设计每个行动者和评判家深度神经网络分别为和/>其中/>和/>分别是行动者深度神经网络和评判家深度神经网络的权重。为了确保评论家深度神经网络和行动者深度神经网络训练过程的稳定性，本发明为每个评论家深度神经网络创建目标评论家深度神经网络，由/>表示，以及为每个行动者深度神经网络n建立的目标行动者深度神经网络n，由/>表示。需要注意的是，目标评论家深度神经网络和目标行动者深度神经网络的权重是用评论家深度神经网络和行动者深度神经网络的对应权重来初始化的。

一开始，所有边缘基站在每个时隙的开始时刻确定用于下行链路传输的随机发射功率。然后，通过与云端连续地交换本地能效相关数据和历史全局奖励，边缘基站能够在其本地-全局经验回放缓存中构建和存储本地-全局体验。一旦每个本地-全局经验回放缓存已经存储了至少D条经验，边缘基站将随机采样小批量本地-全局经验以训练评论家深度神经网络和行动者深度神经网络。在下文中，本发明分别提供评论家深度神经网络、行动者深度神经网络和目标深度神经网络的训练过程。

1)训练评判家深度神经网络：

对于边缘基站n，将其本地-全局经验表示为E＝{s_n,a_n,R,s′_n}。然后，评判家深度神经网络n的目标值可以表示为

其中，η是是折扣因子，a′_n是目标行动者神经网络的输出动作。然后，每个评论家深度神经网络的损失函数可以表示为预测的Q值与目标长期全局能量效率之间的均方误差，即，

为此，每个评论家深度神经网络能够通过基于梯度下降的方法反向传播损失并更新其权重通过重复上述过程，每个评论家深度神经网络能够在最大化全局能量效率性能的方向上逐渐优化其权重。

2)训练行动者深度神经网络：

行动者深度神经网络的训练将利用从评论家深度神经网络获得的梯度，特别地，行动者深度神经网络n的权重更新需要最大化评论家深度神经网络n的长期Q值，即

其中α^(a)是行动者深度神经网络n的学习率，是期望Q值对/>的偏导，表示为：

为了平衡行动者深度神经网络在训练阶段时对于已学习策略的利用和更好策略的探索，本发明将高斯噪声添加到行动者策略的输出，即，

其中，是零均值动作噪声，并且其方差ξ确定了对策略利用与探索之间的折衷。直观地说，较高的方差可以在早期训练阶段加速深度神经网络的学习，而较低的方差可以帮助稳定后期训练阶段的性能。这里，本发明设计噪声方差ξ具有初始值ξ_ini和最小值ξ_min，其被初始化为ξ_ini，随着时隙增加以固定速率λ指数衰减，并且当其低于ξ_min时将保持为ξ_min。

3)训练目标深度神经网络：

本发明采用软更新的方法更新目标深度神经网络以稳定训练过程，即，

其中τ^(c)和τ^(a)分别是目标评判家深度神经网络和目标行动者深度神经网络的软更新率。

本发明的有益效果是：与传统的功率控制优化算法相比，所提出的框架使得每个边缘基站仅使用本地信息来确定适当的发射功率。这确保了实时功率控制并减少了由集中式优化引起的计算。其次，所提出的框架使得云端和不同边缘基站之间的轻量级协作成为可能，从而最小化云端和边缘基站之间的信息交换开销。最后，本发明在保证全局能量效率性能与传统迭代优化算法相近的情况下大幅度降低了时间复杂度。

附图说明

图1为下行异构网络结构示意图。

图2为本发明的轻量级云端-边缘协同框架示意图。

图3为行动者深度神经网络结构示意图。

图4为评判家深度神经网络结构示意图。

图5为训练阶段的全局能量效率性能比较示意图。

图6为测试阶段的全局能量效率性能比较示意图。

具体实施方式

下面结合仿真结果和附图来说明本发明的实用性。首先，提供了系统模型设置和仿真所使用的超参数，然后，提供仿真结果来评估本发明所提出算法的性能。其中，仿真结果将所提出算法与SFP算法、随机功率算法和最大功率算法在全局能量效率性能和时间复杂度方面进行了比较。

表1仿真中使用信道参数和算法超参数

本发明考虑具有一个宏基站和四个微基站的两层异构网络场景。其中，宏基站部署在第一层，位于坐标(0，0)。微基站1至基站4分布在第二层，分别位于坐标(500，0)、(0，500)、(-500，0)、(0，-500)处。每个基站负责一个圆盘区域的信号覆盖，宏基站的最大半径为1000m，微基站的最大半径为200m，同时设置所有基站的最小覆盖半径为10m。值得注意的是，宏基站受到的最大功率约束为30dBm，微基站受到23dBm的最大功率约束。

特别的，本发明将仿真分为训练阶段和测试阶段。在训练阶段，所提出算法将训练深度神经网络持续30000个时隙。在测试阶段，所提出算法将测试2000个时隙直接利用训练良好的行动者深度神经网络为基站配置相应的传输功率，且不再进行任何的参数更新。为了确保本发明仿真结果的稳健性，本发明使用了不同的种子设置进行了10次独立试验。在每次试验期间，用户的位置将在其覆盖区域内随机生成。

图5提供了算法在训练阶段的结果。可以看出，在大约1000个时隙之后，所提出的算法迅速超过随机功率和最大功率算法。在此之后，该算法收敛迅速，并在训练结束阶段达到接近SFP算法的全局能量效率性能。图6展示了测试阶段的性能结果，可以看出，所提出算法的全局能量效率性能远高于随机算法和最大功率算法，同时取得约99.08％的SFP算法性能。

需要注意的是，在每个时隙时刻，SFP算法利用全局瞬时的信道状态信息进行集中式功率优化，而所提出的算法使得每个基站能够仅利用本地信息来确定适当的发射功率。这些结果突出了所提出的算法在优化异构网络中的全局能量效率性能方面的优势。

表2深度神经网络的训练参数，

以及该算法和SFP算法平均时间复杂度比较。注意，(目标)行动者和(目标)评论家深度神经网络只需要本地信息作为输入，这样可以减少输入数据的复杂度，进而，只需要相对较少的训练参数便可以有效地训练这些深度神经网络。此外，表2表明训练每个深度神经网络的时间大约是2ms，训练每个目标深度神经网络的时间小于3ms。在测试阶段，所提出算法需要每个行动者深度神经网络使用约1.020ms计算发射功率以传输全局能量效率，而SFP算法需要大约53.042ms优化发射功率。这个结果显示了所提出算法在时间复杂度方面具有明显的优势。这是可以预期的，因为每个边缘基站可以有效地利用本地行动者深度神经网络直接计算传输功率，而传统方法依赖于迭代计算方法，这是非常耗时的。

Claims

1.一种基于智能云边协同的异构网高能效功率控制方法，用于异构网络，包括一个宏基站和N个微基站，每个基站服务一个对应的用户，所有基站和用户使用单个天线，将基站n服务的用户表示为用户n，其中n∈{0,1,2,...,N}，并且索引0对应于宏基站及其被服务用户；宏基站和微基站共享用于同步下行链路传输的频谱带；其特征在于，所述功率控制方法为：

设定目标为联合优化每个宏基站与微基站的发射功率，并最大化整个异构网络的全局能量效率，建立目标模型为：

其中，p_n(t)是时隙t时基站n的发射功率，p_n,max是微基站n的最大发射功率约束；

基于目标模型，采用深度强化学习让基站联合优化发射功率，设计轻量级云端-边缘协作框架，具体为：

令边缘基站不需要与彼此交换本地瞬时信息，同时云端只从每个边缘基站收集历史的本地能效相关数据并计算历史全局奖励，进而利用全局奖励反馈改进本地基站的功率控制策略；

在边缘，为每个基站建立一个独立的行动者-评论家结构以及两个经验缓冲区，即本地经验回放缓冲区和本地-全局经验回放缓冲区，每个边缘基站将利用其本地行动者神经网络来确定下行发射功率，并将对应的本地经验和时间戳存储到其本地经验回放缓存中，然后将本地能效相关数据上传到云端；

在云端中，建立一组队列用于与每个边缘基站交换历史数据，还利用一个全局计算模块来调度接收队列中的接收数据，并计算历史全局奖励；所计算的历史全局奖励将连同对应的时间戳一起被放置在每个发送队列中，然后发送队列将以先进先出的方式将其发送到每个边缘基站；

从云端接收到数据后，每个边缘基站将从其本地经验回放缓存中检索具有相同时间戳的本地经验，并且将其与全局奖励反馈组合形成本地-全局经验，最后该本地-全局经验会被存储在本地-全局经验回放缓存中；通过这种方式，每个边缘基站在每个更新周期采样小批量的本地-全局经验，然后周期性地训练行动者深度神经网络和批评者深度神经网络，该过程将训练至每个深度神经网络收敛为止；至此，每个行动者深度神经网络学习到较优的本地功率控制策略以提升全局能量效率性能；

位于边缘的基站和位于云端的核心网络具体设计如下：

1)边缘网络：

其中历史本地信息包括信道增益g_n→n(t-1)，边缘基站n的发射功率p_n(t-1)，所接收干扰所获取的信干噪比γ_n(t-1)，以及下行可达速率r_n(t-1)；然后，本地瞬时信息包括信道增益g_n→n(t)，在配置新的发射功率之前在当前时隙的开始处接收到的干扰/>本地辅助信息为边缘基站n的功率放大器效率的倒数ψ_n；为了获得时隙t时刻的本地瞬时信息，基站n在时隙t的开始向用户n发送功率为p_n(t-1)的正交导频序列，从而在本地获得信道增益g_n→n(t)和干扰/>

边缘经验：在时隙t时刻结束时，边缘基站n获取本地经验，并将其构建为一个集合，包括前一时隙中的状态-动作对以及当前时隙中的状态，即，

在从云端接收到历史全局奖励时，每个边缘基站通过使用对应的时间戳将对应的本地经验与历史全局奖励组合来构建本地-全局经验，如果将全局奖励表示为R并且将边缘和云之间的传输延迟表示为T_l，则边缘基站n在时隙t时刻的本地-全局经验表示为

2)云端网络：

云端被设计为通过从每个基站收集本地能效相关数据来计算历史全局奖励，在云端中建立了队列和一个全局计算模块，其中，每组队与每个边缘基站相关联，每组队列包括一个接收队列和一个发送队列，并且以先进先出方式操作数据；

全局奖励设计：在给定时隙时刻，将全局奖励设计为评估所有基站取得的全局能量效率性能，设计时隙t时刻的全局奖励为

R(t)＝GEE(t-T_l)

在时隙t时刻，边缘基站n的本地能效相关数据被设计为数据速率r_n(t)，以及能量消耗信息，包括发射功率p_n(t)、功率放大器效率的倒数ψ_n和本地电路功率，通过这种方式，每个边缘基站在每个时隙结束时将获得的本地能效相关数据以及时间戳上传到云端中。