CN115190510A

CN115190510A - 一种5g多基站天线权值联合优化方法和装置

Info

Publication number: CN115190510A
Application number: CN202210714231.3A
Authority: CN
Inventors: 詹仙园; 杨爱东
Original assignee: Tsinghua University; Asiainfo Technologies China Inc
Current assignee: Tsinghua University; Asiainfo Technologies China Inc
Priority date: 2022-06-22
Filing date: 2022-06-22
Publication date: 2022-10-14

Abstract

本发明涉及一种5G多基站天线权值联合优化方法和装置，包括：获取待优化的多个5G基站的状态信息；基于所述状态信息、在包含多个深度Q网络的优化模型上采用UCB探索方式对所述多个5G基站进行天线权值联合寻优，得到所述多个5G基站的最优天线权值。本发明基于深度集成的不确定性估计以及样本有效置信上限(UCB)搜索策略，在极大的搜索空间下有效地搜索最优协同波束，提高协同波束的优化质量和样本效率。

Description

一种5G多基站天线权值联合优化方法和装置

技术领域

本发明涉及无线通信技术领域，尤其涉及一种5G多基站天线权值联合优化方法和装置。

背景技术

Massive MIMO(Massive Multiple Input Multiple Output，大规模多输入多输出天线阵列)技术是5G(5th Generation Mobile Communication Technology，第五代通信技术)中提高系统容量、网络覆盖率和频谱效率的关键性技术，其通过调整基站(BS)中数百个天线的天线权值参数，以形成窄且有方向的高增益信号波束。在Massive MIMO系统中，密集部署的多个5G基站之间不可避免的存在耦合影响(小区间干扰，ICI)，为减少这种影响，需要对多个基站的波束形成进行协调优化。然而，受天线权值参数取值范围以及天线数目的影响，单个5G基站波束形成时天线权值参数搜索空间非常巨大，多个 5G基站波束协调优化将导致搜索空间的指数增长，在实现上非常困难。

目前，波束形成优化方法常采用下述三类方式：

第一类，依赖于解析建模和凸或非凸优化的波速形成优化方法。这类方法提供了一个很好的数学建模框架，但是具有较高的复杂性，在融入复杂的现实世界环境几何或阻塞方面存在困难。

第二类，利用深度学习和强化学习等机器学习技术的波束形成优化方法。例如，深度神经网络已被用于以监督学习方式直接拟合最优波束形成，或结合蒙特卡罗方法搜索最优波束形成向量。这类方法的缺点是需要耗时的样本数据收集和模型训练开销。

第三类，采用基于价值函数的强化学习(RL)框架的波束形成优化方法。这类方法通常与用于MIMO通道建模和评估的3D光线跟踪模拟器一起实现，从而能够真实地捕捉环境影响。虽然这类方法在复杂决策任务上取得了巨大成功，但是RL方法也依赖于在模拟或真实环境中广泛的交互式探索和数据收集。由于波束形成矢量优化是一个单阶段优化问题(不同的操作不会改变环境的状态)，使用RL这样的顺序决策方法可能会过度破坏，缺乏样本效率。同时运行高保真3D射线追踪模拟器的成本相对较高，当扩展到多个基站的波束形成协同优化时，用于仿真的计算成本可能会非常昂贵，不可能支持大规模的实际实施。

总之，当下亟需为多个5G基站波束协调优化提供高性能且低开销的实现方式。

发明内容

本发明的目的是提供一种5G多基站天线权值联合优化方法和装置，以解决现有技术中多个5G基站波束协调优化难以实施的问题，实现高性能以及低开销的5G多基站波束协调优化。

第一方面，本发明提供一种5G多基站天线权值联合优化方法，所述方法包括：

获取待优化的多个5G基站的状态信息；

基于所述状态信息、在包含多个深度Q网络的优化模型上采用 UCB探索方式对所述多个5G基站进行天线权值联合寻优，得到所述多个5G基站的最优天线权值。

根据本发明提供的5G多基站天线权值联合优化方法，所述基于所述状态信息、在包含多个深度Q网络的优化模型上采用UCB探索方式对所述多个5G基站进行天线权值联合寻优，得到所述多个5G基站的最优天线权值，包括：

步骤A：初始化所述优化模型中每一个深度Q网络和迭代步数，并随机设定所述多个5G基站中的每一个5G基站的最优天线权值；

步骤B：在本次迭代中，将所述多个5G基站随机排序得到相应的排列列表；

步骤C：将所述排列列表中首个未进行天线权值寻优的5G基站作为目标5G基站；

步骤D：利用所述状态信息和所述多个5G基站中除所述目标5G 基站之外的其它5G基站的最优天线权值，在所述优化模型上采用 UCB探索方式对所述目标5G基站进行天线权值寻优；

步骤E：基于所述目标5G基站的天线权值寻优结果更新所述优化模型，并将所述目标5G基站的最优天线权值更新为所述目标5G基站的天线权值寻优结果；

步骤F：若所述目标5G基站为所述排列列表中最后一个5G基站，则根据上一次迭代结束时所述多个5G基站中的每一个5G基站的最优天线权值再次更新所述多个5G基站中的每一个5G基站的最优天线权值；否则，返回步骤C；

步骤G：若当前迭代次数等于预设最大迭代次数，则输出此时所述多个5G基站中每一个5G基站的最优天线权值；否则，令迭代步数加1并返回步骤B。

根据本发明提供的5G多基站天线权值联合优化方法，所述步骤D，包括：

利用所述状态信息和所述多个5G基站中除所述目标5G基站之外的其它5G基站的最优天线权值构成

将所述

输入到所述优化模型的每一个深度Q网络中，以使所述优化模型的每一个深度Q网络根据预设价值函数学习

为预存天线权值动作集的每一个天线权值时的Q值；

计算

为预存天线权值动作集的每一个天线权值时所述优化模型中深度Q网络输出的Q值的均值和标准差；

基于所述均值和标准差，利用预设UCB探索公式在所述天线权值动作集范围内探索

其中，S＝{S₁，…，S_i，…，S_n}，S_i表示所述多个5G基站中第 i个5G基站的状态信息，

表示所述多个5G基站中第i个5G基站的天线权值寻优结果，即目标5G基站的天线权值寻优结果；

表示所述多个5G基站中第i个5G基站的天线权值，

表示待优化的第f个5G基站天线权值为其最优天线权值,f≠i,f∈(1～n)，n表示待优化的5G 基站的总数。

根据本发明提供的5G多基站天线权值联合优化方法，所述价值函数用来表征Q_k(S,A)无限逼近r(S,A)；其中，r(S,A)表示(S,A)下的全局奖励，Q_k(S,A)表示(S,A)下优化模型的第k个深度Q网络输出的Q 值，k∈(1～K)，K为优化模型中深度Q网络的总数；

所述r(S,A)的表达式如下：

r(S,A)＝1-αWSC(h_S,A，ρ)-(1-α)ICI(h_S,A，ρ)

上式中，α表示权重因子，WSC(h_S,A，ρ)表示整体弱信号覆盖， ICI(h_S,A，ρ)表示小区间干扰，h_S,A表示由S和A共同决定的信道，ρ表示用户密度，

所述UCB探索公式的表达式如下：

上式中，

表示

为天线权值动作集A_dzj中的

和

分别表示

下所述优化模型中深度Q网络输出的 Q值的均值和标准差，β表示控制探索积极性的超参数。

根据本发明提供的5G多基站天线权值联合优化方法，所述基于所述目标5G基站的天线权值寻优结果更新所述优化模型，包括：

检测结果缓冲区中是否存在全局奖励

在所述结果缓冲区中不存在全局奖励

的情况下，将

输入到高保真MIMO模拟器中进行仿真，得到全局奖励

利用全局奖励

采用回归拟合方式更新所述优化模型中每一个深度Q网络。

根据本发明提供的5G多基站天线权值联合优化方法，所述根据上一次迭代结束时所述多个5G基站中的每一个5G基站的最优天线权值再次更新所述多个5G基站中的每一个5G基站的最优天线权值，包括：

比较全局奖励

和全局奖励

的大小；

若全局奖励

大于全局奖励

则将所述多个5G基站中第i个 5G基站的最优天线权值更新为

否则，将所述多个5G基站中第i个5G基站的最优天线权值更新为

所述根据上一次迭代结束时所述多个5G基站中的每一个5G基站的最优天线权值再次更新所述多个5G基站中的每一个5G基站的最优天线权值的同时，还包括：

将全局奖励

添入所述结果缓冲区中。

根据本发明提供的5G多基站天线权值联合优化方法，所述天线权值，包括：上倾角、方位角、水平波宽和垂直波宽；

所述天线权值动作集的获取过程包括：

利用多维尺度分析方法将多维的波束形状相关变量保距映射成一维连续变量；

将所述一维连续变量、方位角和上倾角离散化，进而得到相应离散动作量；

利用所述离散动作量生成所述天线权值动作集。

第二方面，本发明还提供一种5G多基站天线权值联合优化装置，所述装置包括：

获取模块，用于获取待优化的多个5G基站的状态信息；

联合寻优模块，用于基于所述状态信息、在包含多个深度Q网络的优化模型上采用UCB探索方式对所述多个5G基站进行天线权值联合寻优，得到所述多个5G基站的最优天线权值。

第三方面，本发明还公开了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述的5G多基站天线权值联合优化方法。

第四方面，本发明还公开了一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的5G多基站天线权值联合优化方法。

本发明提供的一种5G多基站天线权值联合优化方法和装置，获取待优化的多个5G基站的状态信息；基于所述状态信息、在包含多个深度Q网络的优化模型上采用UCB探索方式对所述多个5G基站进行天线权值联合寻优，得到所述多个5G基站的最优天线权值。本发明基于深度集成的不确定性估计以及样本有效置信上限(UCB)搜索策略，在极大的搜索空间下有效地搜索最优协同波束，提高协同波束的优化质量和样本效率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的一种5G多基站天线权值联合优化方法流程图；

图2是本发明提供的5G多基站天线权值联合优化框架示意图；

图3是本发明提供的天线权值联合优化方法与传统方法之间最佳奖励的对比图；

图4是本发明提供的天线权值联合优化方法与传统方法之间最佳 WCS的对比图；

图5是本发明提供的天线权值联合优化方法与传统方法之间最佳 ICI的对比图；

图6是本发明提供的一种5G多基站天线权值联合优化装置结构图；

图7是本发明提供的实现5G多基站天线权值联合优化方法的电子设备结构示意图；

附图标记：A：本发明提供的5G多基站天线权值联合优化方法

B：传统的基于MASAC的多基站波束协调优化方法；

C：传统的基于MADDPG的多基站波束协调优化方法；

D：传统的基于GP-UCB的多基站波束协调优化方法。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

大规模多输入多输出(MIMO)是第五代(5G)蜂窝网络的核心技术之一且波束形成在MIMO通信中起着重要的作用，正确设置5G基站的波束可以大大提高移动用户的通信服务质量，具有很大的实用价值。

下面介绍几种传统的MIMO系统波束形成方法：

第一种：基于到达角的波束形成；

基于到达角(AOA)的波束形成是MIMO系统中常用的方法。具体为：对于L行M列的天线单元(AEs)的基站，根据AOA(Ψ_k，φ_k)配置天线单元(AEs)上的权值W_k(L×M矩阵)，以形成波束。这里Ψ_k和φ_k分别为第k个用户设备(UE)的方位角和俯仰角，分别为:

W_k＝[ω_mk·ξ_lk]l＝1,…,L；m＝1,…,M

其中，d_h和d_v分别为天线单元(AEs)中的行距离和列距离。在基于AOA的波束形成中，权值W_k依赖于(Ψ_k，φ_k)，这需要精确的信道状态信息(CSI)来估计(Ψ_k，φ_k)的准确值。这个过程可能非常复杂，在联合建模多个BSs的耦合效应时变得不切实际。

第二种：基于搜索的波束形成：

为了降低建模复杂度，与AOA估计相比，基于搜索的波束形成方法已经成为另一个有希望的方向，即为单个BS找到最优波束下的天线权值。这接近于搜索所有可能的天线权值(包括方位角和下倾角)，并从中找到最优天线权值。例如在给定信道h和UE密度ρ的情况下以最小化总体微弱信号覆盖WSC(h，ρ)和小区间干扰ICI(h，ρ)为目标寻找天线权值。

其中，WSC(h，p)和ICI(h，p)可定义为参考信号接收功率(RSRP) 和信噪比(SINR)小于特定小区中一些预定义阈值的概率：

WSC(h，p)＝P_r(RSRP＜T_r|h，p)

ICI(h，p)＝P_r(sinr＜T_s|h，p)

令

表示来自第

个BS服务的第

个小区处的信号强度，则第

个小区处的RSRP和SINR可评估为：

其中，

是BSs的数量，B(h，p)是背景噪声。在实践中，UE密度ρ可以通过对真实场景中的经验数据建模来获得，可以在实际环境或高保真MIMO仿真中评估(Ψ_k，φ_k)下产生的WSC和ICI。

在大多数现实世界的5G MIMO系统中，对于单个5G基站中的单个天线而言，影响波束形成的因素除了优化方位角和上倾角还有波束形状属性，这导致每个天线的天线权值包含三个元素，即 A_i＝(p_i，Ψ_i，φ_i)。又因为单个5G基站中天线数量众多，因此单个5G基站天线权值搜索搜索空间非常巨大。受到复杂的现实环境(如位置、地形和建筑障碍物)对信号传播有很大的影响致使不同基站的最优波束有很大的差异的限制，若想将单基站波束形成优化问题扩展为密集部署的多个5G基站的波束形成问题，需要以最小化特定区域中所有小区的总体WSC和ICI为目标对多个5G基站进行联合优化，以使每一个基站找到最优天线权值。

可以看出，本发明实际上要实现的是多智能体波束协调优化问题，如下所示：

其中，r(S，A)是一个全局奖励函数，用于捕获所有基站对特定区域中所有小区的耦合影响，S＝{S₁，…，S_i，…，S_n}，S_i∈ S，S_i中包含例如，高度、经度、纬度和其他特定于BS的静态信息；A＝ {A₁，…，A_i，…，A_n}，A_i∈天线权值动作集。

r(S，A)＝1-1-αWSC(h，ρ)-(1-α)ICI(h，ρ)

其中，h依赖于所有基站中的A。

多智能体波束协调优化问题，允许同时协调优化多个基站波束，以削减不同基站之间存在复杂的耦合影响(即抑制ICI)，从而提供了比在现实场景中单独优化每个基站波束更大的性能增益。但是求解上述多智能体波束协调优化问题面临着作用空间(|A|ⁿ)的指数增长问题，耗时且成本高。因此，一种能够有效地探索巨大的行动空间的优化算法，是成功部署的关键。

下面结合图1-图7描述本发明提供的5G多基站天线权值联合优化方法及装置。

第一方面，本发明提供一种5G多基站天线权值联合优化方法，如图1所示，所述方法包括：

S11、获取待优化的多个5G基站的状态信息；

S12、基于所述状态信息、在包含多个深度Q网络的优化模型上采用UCB探索方式对所述多个5G基站进行天线权值联合寻优，得到所述多个5G基站的最优天线权值。

多个密集部署的5G基站之间不可避免的存在耦合影响，因此同时确定多个5G基站的最佳波束是一项复杂的任务。对此，本发明提出了一种高效的多智能体优化框架，其核心算法依赖神经网络的深度集成和基于样本有效置信上限(UCB)的搜索策略。该方法在极大的搜索空间下能够有效地搜索最优协同波束，在优化质量和样本效率方面优于传统多智能体强化学习方法。

本发明提供的一种5G多基站天线权值联合优化方法，基于深度集成的不确定性估计以及样本有效置信上限(UCB)搜索策略，在极大的搜索空间下有效地搜索最优协同波束，提高协同波束的优化质量和样本效率。

在上述各实施例的基础上，作为一种可选的实施例，所述基于所述状态信息、在包含多个深度Q网络的优化模型上采用UCB探索方式对所述多个5G基站进行天线权值联合寻优，得到所述多个5G基站的最优天线权值，包括：

需要了解的是，三维光线跟踪已成为射频(RF)分析和MIMO 信道建模的一种流行技术，近年来已应用于许多无线成形研究中。高保真MIMO模拟器是其中一个应用，其根据经验数据估计的真实世界 UE分布ρ以及真实环境特征(如3D地形图和建筑物)，实现了发射和反弹光线(SBR)跟踪方法，评估高保真MIMO信道特性h。SBR方法可以捕获信号表面反射的影响，在100MHz至100GHz的频率范围内有效。使用光线跟踪方法的好处是，它在周围环境中具有很高的灵敏度，可以准确地反映真实的信道信息，并且不需要大量和昂贵的现场测量。另一方面，高保真光线跟踪模拟也会带来较高的计算成本，尤其是对于具有大量反射面和许多具有大型天线阵列(例如5G BSs)的 MIMO系统的复杂场景。

本发明提供了如图2所示的5G多基站天线权值联合优化框架以协调MIMO波束优化问题。在此框架下，本发明采用了基于真实环境的三维光线追踪模拟器(即高保真MIMO模拟器)，用于优化过程中的通道建模和性能评估。因为对于单一的基站来说，可能的行动空间也已经非常大了。多基站的波束协调优化问题直接使行动空间呈指数增长(即|A|ⁿ)，动作搜索空间更加巨大。如果优化算法与高保真模拟器交互时样本效率不高，高保真光线跟踪模拟的高计算成本将导致这个训练费用将难以承受。因此本发明提出一个轻量级但高效的多智能体优化算法，该算法是基于神经网络的深度集成和基于样本高效置信上限的探索构建的，其可以在大量部署的5G基站上与仿真环境交互的次数最小，同时为实际部署保留了足够的隐式。

该算法核心在于以下两点：

第一：设置了价值函数Q_k(S,A),k＝{1，…，K}的深度Q网络集合，Q_k(S,A)近似于全局奖励函数r(S,A)；

第二：采用UCB探索程序，贪婪地搜索最佳可能行动，并加入不确定性信息。

对于第一点，深度Q网络集合学习Q_k(S，A)，然后计算 Q_k(S，A)，k＝{1，…，K}的均值和标准差，之后利用均值和标准差进行UCB式贪婪搜索。此外，使用深度Q网络集合有几个好处：首先，利用多模型预测的集成方法是机器学习中常用的一种技术，有助于提高预测性能，并弥补学习不足的单个模型。其次，深度神经网络集成最近被证明是不确定性估计最有效的方法之一(例如，评估均值μ(S，A)和标准差σ(S，A)，并基于评估的μ(S，A)和σ(S，A)构建高效的 UCB式勘探。

对于第二点，UCB是一类处理部分信息反馈在线决策中探索-利用权衡的高效算法，在多臂赌博机问题甚至某些RL问题上取得了巨大成功。UCB式探索的理念是在不确定性面前采取乐观的行动。置信上限可以评估为经验平均回报加上与行动的不确定性成比例的某一项。该策略可以显示出优越的样本效率，并有很强的理论保证。

本发明开发了一个多基站的UCB探索，它是基于之前学习到的价值函数的深度集成。为了缩小总体行动空间并提高效率，我们不在所有基站的联合行动空间(|A|ⁿ)上评估UCB，而是在每一次迭代中评估单个基站的行动Ai，并利用最大UCB行动

确定Ai最优选值，得到该次迭代所有基站的最优动作，这将UCB评估量从|A|ⁿ减少到n×| A|。值得一提的是，为了防止迭代动作更新策略导致探索陷入局部最优解，我们进一步引入了一种随机化方案，在每一迭代轮次排列基站的更新顺序(例如：ζ＝{1，…，n}；1，2，.....n是随机排列的)，然后以按照ζ中规定的顺序依次进行UCB探索。

总之，本实施例提出的简单而高效的多智能体优化框架，用于实际的5G蜂窝网络中涉及多个基站的协调波束形成。该框架中核心算法依赖深度集成的不确定性估计以及基于置信上限(upper confidence bound，UCB)的探索，探索强多智能体强化学习(MARL)，实现了优越的优化性能和更好的样本效率。

在上述各实施例的基础上，作为一种可选的实施例，所述步骤D，包括：

将所述

输入到所述优化模型的每一个深度Q网络中，以使所述优化模型的每一个深度Q网络根据预设价值函数学乏

为预存天线权值动作集的每一个天线权值时的Q值；

计算

表示所述多个5G基站中第i个5G基站的天线权值，

表示待优化的第f个5G基站天线权值为其最优天线权值，f≠i，f∈(1～n)，n表示待优化的5G 基站的总数。

可以理解的是，本发明在对一个基站进行UCB探索时，保持其它基站的最优动作不变以使深度网络仅对该基站动作进行学习。学习过程中可利用Q_k(S，A)，k＝{1，…，K}以及以下计算式得到均值μ(S，A)和标准差σ(S，A)：

μ(S，A)＝mean(Q_k(S，A))

σ(S，A)＝std(Q_k(S，A))

此外，需要注意的是，由于深度Q网络的泛化能力，优化模型UCB 探索到的动作A_i可能不在天线权值动作集中，这里引入了一个动作映射程序，将UCB探索到的动作A_i映射到天线权值动作集中最接近的离散化动作

以强制执行可行性条件。

相关公式如下；

本发明通过预设价值函数和UCB探索公式，提高动作探索的有效性。

在上述各实施例的基础上，作为一种可选的实施例，所述价值函数用来表征Q_k(S，A)无限逼近r(S，A)；其中，r(S，A)表示(S，A)下的全局奖励，Q_k(S，A)表示(S，A)下优化模型的第k个深度Q网络输出的Q值，k∈(1～K)，K为优化模型中深度Q网络的总数；

所述r(S，A)的表达式如下：

r(S，A)＝1-αWSC(h_S，A，ρ)-(1-α)ICI(h_S，A，ρ)

上式中，α表示权重因子，WSC(h_S，A，ρ)表示整体弱信号覆盖， ICI(h_S，A，ρ)表示小区间干扰，h_S，A表示由S和A共同决定的信道，ρ表示用户密度，

所述UCB探索公式的表达式如下：

上式中，

表示

为天线权值动作集A_dzj中的

和

分别表示

可以理解的是，本发明优化模型以最小化整体弱信号覆盖(WSC) 和小区间干扰(ICI)为目标进行最优动作搜索。本发明UCB探索中设定β＞0；由于μ(S，A)和σ(S，A)是通过深度神经网络评估的，因此可以在一个或多个批次中并行有效地计算单个基站(大小为|A|)的所有可能动作配置的UCB值，这在Tensorfflow或Pytorch等现代深度学习框架下非常有效。

在上述各实施例的基础上，作为一种可选的实施例，所述基于所述目标5G基站的天线权值寻优结果更新所述优化模型，包括：

检测结果缓冲区中是否存在全局奖励

在所述结果缓冲区中不存在全局奖励

的情况下，将

输入到高保真MIMO模拟器中进行仿真，得到全局奖励

利用全局奖励

采用回归拟合方式更新所述优化模型中每一个深度Q网络。

需要注意的是，本发明Q_k(S，A)近似于全局奖励函数r(S，A)，因此采用回归拟合的方式更新深度Q网络，更新公式具体如下：

本发明利用基于真实环境的三维光线跟踪模拟器模拟的r(S，A) 对深度Q网络作回归拟合，以使深度Q网络随着UCB探索次数的增加而趋向于准确，进而实现高效的UCB探索。

在上述各实施例的基础上，作为一种可选的实施例，所述根据上一次迭代结束时所述多个5G基站中的每一个5G基站的最优天线权值再次更新所述多个5G基站中的每一个5G基站的天线权值，包括：

比较全局奖励

和全局奖励

的大小；

若全局奖励

大于全局奖励

则将所述多个5G基站中第i个5G基站的最优天线权值更新为

将全局奖励

添入所述结果缓冲区中。

本发明构建了一个结果缓冲区B，用来存储唯一的模拟样本 r(S，A)，以避免高保真MIMO模拟器对已经模拟的动作进行重新模拟，减少不必要的资源耗费。

在上述各实施例的基础上，作为一种可选的实施例，所述天线权值，包括：上倾角、方位角、水平波宽和垂直波宽；

所述天线权值动作集的获取过程包括：

利用所述离散动作量生成所述天线权值动作集。

需要注意的是，现实世界的5G基站通常根据一组预先配置的天线模式描述波束形状以及天线如何向空间辐射能量。每个基站天线模式包含方位角、上倾角、波束宽度以及放大器增益等参数。方位角、上倾角具有特定可调范围。这导致了极其复杂和不连续的优化搜索空间。为了降低模型复杂度并进一步降低仿真成本，我们将每个模式有效方位角、上倾角离散为1度，并且仅对这些离散的有效动作值进行仿真。这导致单个基站总共约5000个有效操作配置(华为5G RAN设备|a|＝5091。其他5G设备可能不同)。

下面，以K＝3为例详细解释本发明。

使用K＝3表示优化模型深度Q网络的网络数。3个网络已经产生了良好的不确定性估计，与使用更多网络相比，这有助于减少计算成本。 Q_k被实现为具有RELU激活的五层完全连接的神经网络。网络层的单元数设置为[6n，512，512，128，1]，其中n是基站总数。使用学习率为0.0001的Adam优化器来训练Q_k。用于计算UCB值的β设置为2。

以下为实际操作步骤：

第一步：随机初始化每一个深度Q网络Q_k，并随机设定每一个5G 基站的最优动作，结果缓冲区

第二步：对于迭代步数1至最大迭代步数，生成一个随机排列的多基站有序列表；

第三步：将有序列表中首个未进行UCB探索的5G基站作为目标 5G基站；

第四步：对目标5G基站进行UCB探索；

第五步：根据目标5G基站的UCB探索动作对应的全局奖励更新 Q_k以及将目标5G基站的最优动作更新为目标5G基站的UCB探索动作；

第六步：重复第三步到第五步直至有序列表中不存在未进行UCB 探索的5G基站；

第七步：若由所有5G基站各自的UCB探索动作构成的动作序列不在B中，则利用高保真MIMO模拟器模拟动作序列对应的全局奖励，并将其对应填入B中；同时依据上一次迭代得到的每一个5G基站的最优动作再次更新本次迭代每一个5G基站的最优动作；

第八步：若当前迭代次数等于预设最大迭代次数，则输出此时所述多个5G基站中每一个5G基站的最优天线权值并结束；否则，返回第二步。

在同样条件下，进行了基于GP-UCB、MADDPG和MASAC的多基站波束协调优化，图3示例了本发明方法与传统的基于GP-UCB、MADDPG和MASAC的多基站波束协调优化方法之间最佳奖励的对比图；图4示例了本发明方法与传统的基于GP-UCB、MADDPG和 MASAC的多基站波束协调优化方法之间最佳WCS的对比图；图5示例了本发明方法与传统的基于GP-UCB、MADDPG和MASAC的多基站波束协调优化方法之间最佳ICI的对比图；这三个图中A表示本发明方法、B为基于MASAC的多基站波束协调优化方法、C为基于 MADDPG的多基站波束协调优化方法、D为基于GP-UCB的多基站波束协调优化方法。

从这三个图可以看出，本发明算法在500步内收敛到最佳回报 0.764，而其他算法仍在探索环境，似乎很难接近本发明算法在有限的步骤内实现的最佳回报。MARL算法的一个巨大障碍是，它们需要大量的样本和昂贵的训练步骤才能覆盖到最优解，然而，2000个训练步骤很难满足它们的要求。这符合我们的预期，即MASAC比 MADDPG更有效，因为MADDPG只是将随机噪声添加到动作中，鼓励探索，而MASAC配备了动作的熵损失，因此鼓励高效探索。WCS 优化从11％到9％，但ICI优化从40％到28％，ICI具有很大的潜力，不断优化ICI是有意义的。从行业角度来看，当WCS达到一定阈值时，网络设备将保持连接，没有必要进一步优化此项。然而，尽可能优化 ICI是非常重要的。随着ICI的降低，数据传输错误的概率将越来越低。此外，本发明算法在单代理GP-UCB方面取得了显著的性能，其可以增强代理之间的通信和合作，从而提高总体性能。总之，本发明算法效率很高，可以达到最佳性能。

总结而言，本发明提出了一种简单而有效的多智能体算法，用于现实5G蜂窝网络中涉及多个基站的波束协调寻优。使用MIMO模拟器是以大量计算资源和样本为代价的，而本发明算法最大的亮点是引入了集成价值网络来减少方差并自然地采用UCB促进有价值的探索从而提高样本效率。根据经验本发明算法能够高效地探索有益的协调设置，并在有限训练步骤下获得最佳性能。此外，本发明算法对代理数量具有很强的可扩展性，并且可以在不断增长的代理中实现更好的协调波束形成。

第二方面，对本发明提供的5G多基站天线权值联合优化装置进行描述，下文描述的5G多基站天线权值联合优化装置与上文描述的 5G多基站天线权值联合优化方法可相互对应参照。图6示例了一种5G 多基站天线权值联合优化装置的结构示意图，图中所述装置包括：

获取模块21，用于获取待优化的多个5G基站的状态信息；

联合寻优模块22，用于基于所述状态信息、在包含多个深度Q网络的优化模型上采用UCB探索方式对所述多个5G基站进行天线权值联合寻优，得到所述多个5G基站的最优天线权值。

本发明提供的一种5G多基站天线权值联合优化装置，基于深度集成的不确定性估计以及样本有效置信上限(UCB)搜索策略，在极大的搜索空间下有效地搜索最优协同波束，提高协同波束的优化质量和样本效率。

本发明实施例提供的5G多基站天线权值联合优化装置，具体执行上述各5G多基站天线权值联合优化方法实施例流程，具体请详见上述各5G多基站天线权值联合优化方法实施例的内容，在此不再赘述。

第三方面，图7示例了一种电子设备的实体结构示意图。如图7 所示，该电子设备可以包括：处理器(processor)710、通信接口 (Communications Interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行5G 多基站天线权值联合优化方法，该方法包括：获取待优化的多个5G 基站的状态信息；基于所述状态信息、在包含多个深度Q网络的优化模型上采用UCB探索方式对所述多个5G基站进行天线权值联合寻优，得到所述多个5G基站的最优天线权值。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

第四方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，以执行5G多基站天线权值联合优化方法，该方法包括：获取待优化的多个5G基站的状态信息；基于所述状态信息、在包含多个深度Q网络的优化模型上采用UCB探索方式对所述多个5G基站进行天线权值联合寻优，得到所述多个5G 基站的最优天线权值。

第五方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，以执行5G多基站天线权值联合优化方法，该方法包括：获取待优化的多个5G基站的状态信息；基于所述状态信息、在包含多个深度Q网络的优化模型上采用UCB探索方式对所述多个 5G基站进行天线权值联合寻优，得到所述多个5G基站的最优天线权值。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。