CN114513798A

CN114513798A - 天线参数优化方法、装置及网络侧设备

Info

Publication number: CN114513798A
Application number: CN202011277899.3A
Authority: CN
Inventors: 吕喆; 余立; 杨梦佳
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2022-05-17

Abstract

本发明提供一种天线参数优化方法、装置及网络侧设备，解决现有天线参数优化方案仅涉及对单一小区的优化，单一波束的配置，且无法对不同用户分布做出针对性的优化，不利于实际使用的问题。本发明的方法包括：获取第一地理区域经栅格化后的所有地理栅格的第一三维终端分布；将所述所有地理栅格的第一三维终端分布作为目标卷积神经网络的输入，得到所述第一地理区域内每个小区对应的候选波束的概率；根据所述候选波束的概率，得到所述第一地理区域内每个小区的天线配置；下发所述第一地理区域内每个小区的天线配置。本发明能够对不同用户分布进行针对性优化，对多小区联合优化，且有利于子波束的精细化调整，利于实际使用。

Description

天线参数优化方法、装置及网络侧设备

技术领域

本发明涉及无线技术领域，尤其是涉及一种天线参数优化方法、装置及网络侧设备。

背景技术

在大规模天线(Massive MIMO)参数优化中，通常目标是通过调整天线的波束，使得一个小区或多个小区的用户体验最优。其中，在Massive MIMO中，每个小区可以最多在8个时隙上，配置8个子波束，8个子波束在不同方向上增益的最大值成为合成波束。于是可以调整的动作范围包括：为每个小区配置预定好的有限种常见合成波束，以及合成波束的下倾角和方位角；或者，在预定好有限种子波束中，为每个小区均选择其中8个子波束。

现有的天线参数优化方案中，仅涉及对单一小区的优化，单一波束的配置，且无法对不同用户分布做出针对性的优化，不利于实际使用。

发明内容

本发明的目的在于提供一种天线参数优化方法、装置及网络侧设备，用于解决现有天线参数优化方案仅涉及对单一小区的优化，单一波束的配置，且无法对不同用户分布做出针对性的优化，不利于实际使用的问题。

为了达到上述目的，本发明提供一种天线参数优化方法，包括：

获取第一地理区域经栅格化后的所有地理栅格的第一三维终端分布；

将所述所有地理栅格的第一三维终端分布作为目标卷积神经网络的输入，得到所述第一地理区域内每个小区对应的候选波束的概率；

根据所述候选波束的概率，得到所述第一地理区域内每个小区的天线配置；

下发所述第一地理区域内每个小区的天线配置。

其中，所述目标卷积神经网络的输出层包括N个子输出层，每个子输出层内包括一个子神经网络；每个子神经网络用于表示一个小区，N的取值为所述第一地理区域内的小区的个数。

其中，所述根据所述候选波束的概率，得到所述第一地理区域内每个小区的天线配置，包括：

在按照合成波束配置的情况下，从每个小区对应的候选波束的概率中选择概率最大的合成波束作为对应小区的天线配置；

在按照子波束配置的情况下，从每个小区对应的候选波束的概率中选择M个子波束作为对应小区的天线配置，所述M个子波束为候选波束中概率由大到小排序排在前M位的子波束。

其中，将所述所有地理栅格的第一三维终端分布作为目标卷积神经网络的输入，得到所述第一地理区域内每个小区对应的候选波束的概率之前，所述方法还包括：

根据所述第一地理区域内的地理栅格数，初始化第一卷积神经网络；

将所述所有地理栅格的第二三维终端分布作为第一卷积神经网络的初始输入，得到所述第一地理区域内每个小区对应的初始候选波束的概率，所述第二三维终端分布为所述第一三维终端分布，或者，所述第二三维终端分布包括K类三维终端分布，K≥1，且K为正整数；

根据所述初始候选波束的概率，得到所述第一地理区域内每个小区的初始天线配置；

根据所述第一地理区域内每个小区的初始天线配置，进行无线网络质量评估，得到评估结果；

在所述评估结果满足预设优化条件的情况下，确定所述第一卷积神经网络为目标卷积神经网络。

其中，所述根据所述第一地理区域内每个小区的初始天线配置，进行无线网络质量评估，得到评估结果，包括：

基于所述第一地理区域内每个小区的初始天线配置，得到用于评估无线网络质量的网络参数；

根据所述网络参数以及目标函数，计算得到评估结果。

其中，所述方法还包括：

在所述评估结果不满足所述预设优化条件的情况下，循环执行：

更新所述第一卷积神经网络的参数值，得到更新后的卷积神经网络；

将所述所有地理格栅的第二三维终端分布作为更新后的卷积神经网络的中间输入，得到所述第一地理区域内每个小区对应的中间候选波束的概率；

根据所述中间候选波束的概率，得到所述第一地理区域内每个小区的中间天线配置；

根据所述第一地理区域内每个小区的中间天线配置，进行无线网络质量评估，得到评估结果，直至所述评估结果满足所述预设优化条件，并将满足所述预设优化条件时对应的卷积神经网络确定为目标卷积神经网络。

其中，所述更新所述第一卷积神经网络的参数值，得到更新后的卷积神经网络，包括：

根据所述初始评估结果，计算奖励值；

根据所述奖励值以及预设策略梯度算法，更新所述第一卷积神经网络的参数值，得到更新后的卷积神经网络。

其中，所述第二三维终端分布包括K类三维终端分布的情况下，所述第一卷积神经网络包括K个第二卷积神经网络和1个第三卷积神经网络，其中，所述第二卷积神经网络作为局部决策网络，所述第三卷积神经网络作为全局决策网络；

所述初始化第一卷积神经网络，包括：

初始化K个第二卷积神经网络的网络结构和1个第三卷积神经网络的网络结构；

初始化所述第三卷积神经网络中各参数的值；

将所述第三卷积神经网络中各参数的值赋值给K个第二卷积神经网络。

其中，所述将所述所有地理栅格的第二三维终端分布作为第一卷积神经网络的初始输入，得到所述第一地理区域内每个小区对应的初始候选波束的概率，包括：

将所述K类三维终端分布分别作为K个所述第二卷积神经网络的初始输入，得到各类三维终端分布对应的所述第一地理区域内每个小区对应的初始候选波束的概率；

所述在所述评估结果满足预设优化条件的情况下，确定所述第一卷积神经网络为目标卷积神经网络，包括：

在各类三维终端分布对应的各评估结果均满足预设优化条件的情况下，确定所述第三卷积神经网络为目标卷积神经网络。

更新K个所述第二卷积神经网络的参数值，得到更新后的K个第二卷积神经网络；

所述将所述所有地理格栅的第二三维终端分布作为更新后的卷积神经网络的中间输入，得到所述第一地理区域内每个小区对应的中间候选波束的概率，包括：

将所述K类三维终端分布分别作为更新后的K个第二卷积神经网络的中间输入，得到各类三维终端分布对应的所述第一地理区域内每个小区对应的中间候选波束的概率；

所述将满足所述预设优化条件时对应的卷积神经网络确定为目标卷积神经网络，包括：

将满足所述预设优化条件时对应的更新后的K个第二卷积神经网络的参数值的平均值赋值给所述第三卷积神经网络，并将所述第三卷积神经网络确定为目标卷积神经网络。

本发明还提供一种天线参数优化装置，包括：

获取模块，用于获取第一地理区域经栅格化后的所有地理栅格的第一三维终端分布；

第一处理模块，用于将所述所有地理栅格的第一三维终端分布作为目标卷积神经网络的输入，得到所述第一地理区域内每个小区对应的候选波束的概率；

第一天线配置模块，用于根据所述候选波束的概率，得到所述第一地理区域内每个小区的天线配置；

配置下发模块，用于下发所述第一地理区域内每个小区的天线配置。

本发明还提供一种网络侧设备，包括处理器和收发器，所述收发器在处理器的控制下接收和发送数据，所述处理器用于执行以下操作：

下发所述第一地理区域内每个小区的天线配置。

其中，所述处理器还用于：

根据所述网络参数以及目标函数，计算得到评估结果。

其中，所述处理器还用于：

根据所述初始评估结果，计算奖励值；

所述处理器还用于：

初始化所述第三卷积神经网络中各参数的值；

其中，所述处理器还用于：

本发明还提供一种网络侧设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序；所述处理器执行所述程序时实现如上述所述的天线参数优化方法。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的天线参数优化方法中的步骤。

本发明的上述技术方案至少具有如下有益效果：

本发明实施例中，通过获取第一地理区域经栅格化后的所有地理栅格的第一三维终端分布；将所有地理栅格的第一三维终端分布作为目标卷积神经网络的输入，得到第一地理区域内每个小区对应的候选波束的概率；根据候选波束的概率，得到第一地理区域内每个小区的天线配置；下发第一地理区域内每个小区的天线配置，如此，能够对不同用户分布进行针对性优化，对多小区联合优化，且有利于子波束的精细化调整，利于实际使用。

附图说明

图1表示本发明实施例的天线参数优化方法的流程示意图之一；

图2表示本发明实施例的卷积神经网络的网络结构示意图；

图3表示本发明实施例的天线参数优化方法的流程示意图之二；

图4表示本发明实施例的天线参数优化方法的流程示意图之三；

图5表示本发明实施例的天线参数优化装置的模块示意图；

图6表示本发明实施例的网络侧设备的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明针对现有天线参数优化方案仅涉及对单一小区的优化，单一波束的配置，且无法对不同用户分布做出针对性的优化，不利于实际使用的问题，提供一种天线参数优化方法、装置及网络侧设备。

如图1所示，为本发明实施例提供的天线参数优化方法的流程示意图。该方法可包括：

步骤101，获取第一地理区域经栅格化后的所有地理栅格的第一三维终端分布；

本步骤可具体包括：

对第一地理区域进行栅格化，得到所述第一地理区域经栅格化后的所有地理栅格；

获取每个地理栅格内的第一三维终端分布。

需要说明的是，首先确定第一地理区域经度、纬度的最大值和最小值，由(经度最小值,纬度最小值)，(经度最大值,纬度最大值)两个点，确定第一地理区域(即优化区域)在地面上的矩形区域，确定最大高度H为第一地理区域最高高度，建立三维直角坐标系，以(经度最小值,纬度最小值)为原点，正东方向为x轴正方向，正北方向为y轴正方向，正上方为z轴正方向。

将第一地理区域划分为多个长宽高分别为a米，b米，c米的栅格。栅格编号从原点位置为(0,0,0)，对于任意一位置(x0,y0,z0)所在栅格编号为(floor(x0/a)，floor(y0/b)，floor(z0/c))，其中floor()表示向下取整。由第一地理区域的各边长度，可以计算出每个方向的最大栅格数X_NUM，Y_NUM，Z_NUM。

这里，终端分布(用户分布)是每个栅格中由用户数组成的三维张量，该张量的维度为(X_NUM,Y_NUM,Z_NUM)，每个索引下的值为该索引对应的栅格的用户数。

需要说明的是，这里的用户数具体指的是终端数。

具体的，由以下方式可以观察到用户数：

1、使用最小化路测(Minimization Drive Test，MDT)数据，抽样用户位置，代表栅格的用户数。MDT表示每个用户的终端会定时上报自己的经纬度和测量到的各个小区的信号强度，信干噪比等指标。由经纬度可以知道用户属于哪个栅格，进而统计每个栅格的用户数。

2、使用测量报告(Measurement Report，MR)数据，对MR数据做定位，得到每个用户的经纬度，进而统计每个栅格的用户数。MR数据还上报每个用户的信号强度和信干噪比等信息。

需要说明的是，第一三维终端分布为当前时刻实际的终端分布。

步骤102，将所述所有地理栅格的第一三维终端分布作为目标卷积神经网络的输入，得到所述第一地理区域内每个小区对应的候选波束的概率；

本步骤中，目标卷积神经网络为天线配置决策模型，是一个预先构建的已经训练好的卷积神经网络。

这里，该目标卷积神经网络的输入层为所有地理栅格的第一三维终端分布，输出层表示第一地理区域内每个小区对应的候选波束的概率，即每个小区所有可能的子波束的概率。这样不同小区的天线参数将是耦合的、相关联的，从而可实现多小区的联合优化。

可选的，所述目标卷积神经网络的输出层包括N个子输出层，每个子输出层内包括一个子神经网络；每个子神经网络用于表示一个小区，N的取值为所述第一地理区域内的小区的个数。

步骤103，根据所述候选波束的概率，得到所述第一地理区域内每个小区的天线配置；

步骤104，下发所述第一地理区域内每个小区的天线配置。

本发明实施例的天线参数优化方法，通过获取第一地理区域经栅格化后的所有地理栅格的第一三维终端分布；将所有地理栅格的第一三维终端分布作为目标卷积神经网络的输入，得到第一地理区域内每个小区对应的候选波束的概率；根据候选波束的概率，得到第一地理区域内每个小区的天线配置；下发第一地理区域内每个小区的天线配置，如此，能够对不同用户分布进行针对性优化，对多小区联合优化，且有利于子波束的精细化调整，利于实际使用。

作为一可选的实现方式，本发明实施例的步骤103可包括：

需要说明的是，M的值可根据实际情况具体设置，这里不做具体限定。这里，在Massive MIMO中，每个小区可以最多在8个时隙上，配置8个子波束，此时，优选的，M取值为8。

需要说明的是，小区天线配置有两大类，一类是按合成波束配置，一类是按子波束配置。按照合成波束配置时，每个小区只需要在备选的多个合成波束种选择一个即可，对应于目标卷积神经网络，则是每个子输出层的子神经网络选择出概率最大的一个元素，其编号对应的合成波束即为每个小区选出的合成波束。

比如，第一地理区域存在A个小区，每个小区存在B个合成波束的情况下，从每个小区中的B个合成波束，选出一个作为最终配置，A个小区共选出A个合成波束。

按子波束配置时，需要在多个子波束中，选择M个子波束作为最终的某小区的天线配置。这里，对应于目标卷积神经网络，则是每个子输出层的子神经网络选择出概率由大到小排序排名前M个元素，其编号对应的子波束即为每个小区选出的M个子波束。

比如，第一地理区域存在C个小区，每个小区由P个子波束的情况下，从每个小区中的P个子波束，选出D个子波束作为最终配置，C个小区共选出D*C个子波束。

作为一可选的实现方式，在本发明实施例的步骤102之前，本发明实施例的方法还可包括：

如图2所示，为本发明实施例的卷积神经网络的网络结构示意图。该卷积神经网络的输入为栅格化后的三维的用户分布，大小为X_NUM*Y_NUM*Z_NUM，每个栅格内记录当前栅格块内的用户数，由于用户输入为三维的特征，输入层采用卷积神经网络以提取用户分布的特征，同时降低神经网络的神经单元数，以适应不同用户分布。之后，提取的特征经过多个全连接层+激活函数(relu)，提升非线性能力用以拟合模型，最后输出层经过激活函数(softmax)输出各个动作的概率分布。

需要说明的是，这里的“动作”具体指的是天线参数。

为了完成多小区联合优化，本发明实施例中的所有小区的天线动作输出共享同一个神经网络，在图2中的最右边的全连接层后，分出N个子神经网络，每个子神经网络代表一个小区，子神经网络也可以有类似前面的网络结构，最后的输出层表示每个小区所有可能的子波束的概率。这样，不同小区的天线参数将是耦合的、相关联的。通过这样一种方式，可以实现多小区天线的联合优化。

这里，本步骤可具体包括：

这里，向基站下发第一地理区域内每个小区的初始天线配置，基站执行该初始天线配置，获取每个终端(用户)的信号强度和信干噪比等信息。

根据所述网络参数以及目标函数，计算得到评估结果。

需要说明的是，本发明实施例需要对目标网络的用户接入成功率和区域覆盖率、干扰指标来进行评估，从而完成对5G广播信道天线的优化调整。因此，主要的优化指标是用户的参考信号接收功率(Reference Signal Received Power，RSRP)。

为了提高用户接入成功率，首先需要保证的是RSRP的门限，实际通信场景中移动设备的接入门限大概在-120dB，在此基础上，想要提高区域覆盖率并改善网络性能，从而提高用户的使用体验，则要保证区域内所有用户的整体RSRP。但是单纯的对区域内所有用户的RSRP取平均，显然是一个不太妥善的方法，因为RSRP较高部分用户的提升与RSRP较低部分用户的提升，对于用户性能的改善权重并不是相同的。因此，需要兼顾RSRP较低部分的用户与RSRP较高部分的用户。

为此，本发明实施例提出了如下的目标函数，该目标函数用于评估用户的整体RSRP，兼顾了RSRP较低部分的用户与RSRP较高部分的用户，也将其作为评估强化学习奖励的目标函数，以便判断强化学习优化效果。

需要说明的是，

表示根据每个栅格的RSRP表进行归一化后对RSRP处于后5％用户的归一化值的加权平均；

表示根据每个栅格的RSRP表进行归一化后对剩余95％用户的归一化值的加权平均。

这里，RSRP处于后5％用户具体指的是RSRP由高到低排序后排位处于后5％的用户。

其中，

这里，R_i为当前RSRP值；R_max为所有RSRP值中的最大值；R_min为所有RSRP值中的最小值。

需要说明的是，目标函数的意义：同时考虑了两部分的选优程度。即即只要有一个值小，那么结果就会小。因此，优化目标函数C，就是同时优化后5％用户和前95％用户。可通过添加权重系数，进一步调整两部分的权重占比。

本步骤中，在评估结果大于第一预设门限值TH1，或迭代次数大于第二预设门限值TH2，则确定第一卷积神经网络为目标卷积神经网络，也就是认为优化效果达成，判断为真；否则，判断为假，继续迭代。

需要说明的是，评估结果不满足预设优化条件，即评估结果小于第一预设门限值TH1，或迭代次数小于第二预设门限值TH2，则认为优化效果未达成，仍需继续迭代。

进一步地，本发明实施例的方法还可包括：

这里，本步骤可包括：

根据所述初始评估结果，计算奖励值；

具体的，将初始评估结果代入公式Reward＝γ*(C_now-C_max)，计算得到奖励值。

这里，C_now表示初始评估结果，即当前目标函数值；C_max表示历史目标函数值的最大值；γ表示奖励因子，根据实际工程经验，奖励因子一般设置为50～100。

奖励值很大程度决定了模型(神经网络)能否收敛以及最后训练结果的性能瓶颈。

这里，可选地，预设策略梯度算法为策略梯度Policy Gradient算法，该算法是一种基于策略进行选择的基于策略梯度的强化学习算法。

需要说明的是，Policy Gradient是通过与环境交互选择一个动作直接进行反向传播。它通过利用奖励直接对选择的动作的概率进行增加或者减少，对于奖励高的行为它会增加该行为下一次被选中的概率；反之，奖励低的的行为则会减少下一次被选中的概率。

具体的，Policy Gradient算法流程如下：

a)随机初始化参数θ；

b)对每个轮次，按照π_θ(s_t,a_t)对应的动作概率进行每次的动作选择；

c)在每个轮次中，根据每次的动作状态以及奖励，对参数θ按照θ＝θ+a进行更新；

d)返回θ。即：

这里，loss＝-log(π_θ(s_t,a_t))*v_t，该式为Policy Gradient的损失函数，表示在状态s对所选动作a的吃惊度，π_θ(s_t,a_t)表示在状态s下选择动作a的概率。优化目标就是使得该损失函数最小。

若概率越小，反向的log(π_θ(s_t,a_t))反而会越大。若在log(π_θ(s_t,a_t))很小的情况下，得到一个比较大的奖励，那么损失函数则更大，参数更新步长也较大。

这里，在所述第二三维终端分布为所述第一三维终端分布的情况下，在不同的用户分布间进行训练时，容易产生对某种用户分布过拟合的情况，通俗一点说，即训练了后面的用户分布，忘记前面用户分布的最佳配置，为了解决该问题，作为一可选的实现方式，所述第二三维终端分布包括K类三维终端分布的情况下，所述第一卷积神经网络包括K个第二卷积神经网络和1个第三卷积神经网络，其中，所述第二卷积神经网络作为局部决策网络，所述第三卷积神经网络作为全局决策网络；相应的，所述初始化第一卷积神经网络，可包括：

初始化所述第三卷积神经网络中各参数的值；

通过上述初始化操作，得到K+1个完全相同的决策网络。

需要说明的是，K类三维终端分布可通过以下方法得到：

存储不同时刻的实际用户分布，形成用户分布库。经过长时间不断积累，将获得更多种的用户分类种类。每次从所有种类的用户分布中，选择K类用户分布(即K类三维终端分布)，分配给K个局部决策网络。

具体的，从所有种类的用户分布中，选择K类用户分布包括以下中的至少一种：

优先选择目标函数最低的用户分布；

随机选择用户分布。

优选的，采用优先选择目标函数最低的用户分布以及随机选择用户分布，选择K类用户分布。

即，结合随机和低目标函数的方法，例如，e％的随机选择，(1-e)％的选择低目标值。

在该实现方式中，进一步地，将所述所有地理栅格的第二三维终端分布作为第一卷积神经网络的初始输入，得到所述第一地理区域内每个小区对应的初始候选波束的概率，可包括：

之后，根据各类三维终端分布对应的所述第一地理区域内每个小区对应的初始候选波束的概率，得到各类三维终端分布对应的所述第一地理区域内每个小区的初始天线配置；

需要说明的是，每个第二卷积神经网络，即局部决策网络，因分配了不同的用户分布，有不同的输入和输出，共有K个局部决策网络的输出结果。

最后，分别对各类三维终端分布中每类三维终端分布对应的第一地理区域内每个小区的初始天线配置，进行无线网络质量评估，得到评估结果。

这里，具体的质量评估步骤已在上文中阐述，不同的是，需要重复执行K次质量评估。

所述在所述评估结果满足预设优化条件的情况下，确定所述第一卷积神经网络为目标卷积神经网络，可包括：

在该实现方式中，进一步地，所述更新所述第一卷积神经网络的参数值，得到更新后的卷积神经网络，包括：

这里，具体的，分别根据K个评估结果，计算K个奖励值。之后，根据各个奖励值以及预设策略梯度算法，更新各自对应的第二卷积神经网络的参数值，得到更新后的K个第二卷积神经网络。

具体的更新过程已在上文中阐述，不同的是，需要重复执行K次更新，这里不再赘述。

之后，将所述K类三维终端分布分别作为更新后的K个第二卷积神经网络的中间输入，得到各类三维终端分布对应的所述第一地理区域内每个小区对应的中间候选波束的概率；

之后，根据各类三维终端分布对应的所述第一地理区域内每个小区对应的初始候选波束的概率，得到各类三维终端分布对应的所述第一地理区域内每个小区的中间天线配置；

最后，分别对各类三维终端分布中每类三维终端分布对应的第一地理区域内每个小区的中间天线配置，进行无线网络质量评估，得到评估结果，直至所述评估结果满足所述预设优化条件，并将满足所述预设优化条件时对应的卷积神经网络确定为目标卷积神经网络。

这里，将满足所述预设优化条件时对应的卷积神经网络确定为目标卷积神经网络，包括：

也就是，计算一个局部决策网络的各参数的梯度dθ后，将全局决策网络的参数更新为：θ'＝θ'+1/K*dθ，直至全部K个局部决策网络的策略梯度全部更新到全局决策网络中。

也就是说，在该实现方式中，目标卷积神经网络为一个全局决策网络。这样，在一个全局决策网络下，能够实现不同时刻任一用户分布的天线参数优化。

下面就两示例具体说明本发明方法的实施过程。

示例一参考图3

S31：优化区域栅格化；

具体的，对第一地理区域进行栅格化，得到所述第一地理区域经栅格化后的所有地理栅格。

S32：观察用户分布；

观察用户分布即获取每个地理栅格内的第一三维终端分布。

S33：初始化决策网络；

S34：获取每个小区的天线配置；

S35：天线配置下发；

S36：获取新配置下无线网络质量；

S37：计算目标函数；

S38：根据目标函数，判断优化效果是否达成；

若是，则流程结束；若否，则执行S39；

这里，计算的目标函数C大于门限值TH1，或迭代次数大于门限值TH2，则认为优化效果达成，判断为真，否则判断为假，继续迭代。

S39：计算奖励值；

S3A：计算策略梯度；

S3B：更新决策网络。

示例二参考图4

S41：优化区域栅格化；

S42：初始化全局决策网络和局部决策网络；

S43：模拟K类用户分布；

S44：获取各局部决策网络各类用户分布下每个小区的天线配置；

S45：天线配置下发；

S46：获取新配置下无线网络质量；

S47：计算各局部决策网络的目标函数；

S48：根据目标函数，判断优化效果是否达成；

若是，则执行S4D；若否，则执行S49；

S49：计算每个局部决策网络的奖励值；

S4A：计算每个局部决策网络的策略梯度；

S4B：以每个局部决策网络的平均值更新全局决策网络；

S4C：全局决策网络的参数值同步给局部决策网络；

S4D：观察用户分布；

S4E：基于全局决策网络，获得每个小区的天线配置；

S4F：下发每个小区的天线配置。

如图5所示，本发明实施例还提供一种天线参数优化装置，该装置包括：

获取模块501，用于获取第一地理区域经栅格化后的所有地理栅格的第一三维终端分布；

第一处理模块502，用于将所述所有地理栅格的第一三维终端分布作为目标卷积神经网络的输入，得到所述第一地理区域内每个小区对应的候选波束的概率；

第一天线配置模块503，用于根据所述候选波束的概率，得到所述第一地理区域内每个小区的天线配置；

配置下发模块504，用于下发所述第一地理区域内每个小区的天线配置。

可选地，所述目标卷积神经网络的输出层包括N个子输出层，每个子输出层内包括一个子神经网络；每个子神经网络用于表示一个小区，N的取值为所述第一地理区域内的小区的个数。

可选地，所述第一天线配置模块503，可包括：

第一天线配置单元，用于在按照合成波束配置的情况下，从每个小区对应的候选波束的概率中选择概率最大的合成波束作为对应小区的天线配置；

第二天线配置单元，用于在按照子波束配置的情况下，从每个小区对应的候选波束的概率中选择M个子波束作为对应小区的天线配置，所述M个子波束为候选波束中概率由大到小排序排在前M位的子波束。

可选地，天线参数优化装置还可包括：

第二处理模块，用于根据所述第一地理区域内的地理栅格数，初始化第一卷积神经网络；

第三处理模块，用于将所述所有地理栅格的第二三维终端分布作为第一卷积神经网络的初始输入，得到所述第一地理区域内每个小区对应的初始候选波束的概率，所述第二三维终端分布为所述第一三维终端分布，或者，所述第二三维终端分布包括K类三维终端分布，K≥1，且K为正整数；

第二天线配置模块，用于根据所述初始候选波束的概率，得到所述第一地理区域内每个小区的初始天线配置；

第一质量评估模块，用于根据所述第一地理区域内每个小区的初始天线配置，进行无线网络质量评估，得到评估结果；

第一神经网络确定模块，用于在所述评估结果满足预设优化条件的情况下，确定所述第一卷积神经网络为目标卷积神经网络。

可选地，所述第一质量评估模块，可包括：

第一处理单元，用于基于所述第一地理区域内每个小区的初始天线配置，得到用于评估无线网络质量的网络参数；

第一质量评估单元，用于根据所述网络参数以及目标函数，计算得到评估结果。

可选地，天线参数优化装置还可包括：

更新模块，用于在所述评估结果不满足所述预设优化条件的情况下，更新所述第一卷积神经网络的参数值，得到更新后的卷积神经网络；

第四处理模块，用于将所述所有地理格栅的第二三维终端分布作为更新后的卷积神经网络的中间输入，得到所述第一地理区域内每个小区对应的中间候选波束的概率；

第三天线配置模块，用于根据所述中间候选波束的概率，得到所述第一地理区域内每个小区的中间天线配置；

第二质量评估模块，用于根据所述第一地理区域内每个小区的中间天线配置，进行无线网络质量评估，得到评估结果，在所述评估结果满足所述预设优化条件的情况下，将满足所述预设优化条件时对应的卷积神经网络确定为目标卷积神经网络。

可选地，所述更新模块，可包括：

第一计算单元，用于根据所述初始评估结果，计算奖励值；

第一更新单元，用于根据所述奖励值以及预设策略梯度算法，更新所述第一卷积神经网络的参数值，得到更新后的卷积神经网络。

可选地，所述第二三维终端分布包括K类三维终端分布的情况下，所述第一卷积神经网络包括K个第二卷积神经网络和1个第三卷积神经网络，其中，所述第二卷积神经网络作为局部决策网络，所述第三卷积神经网络作为全局决策网络；相应的，所述第二处理模块，包括：

第二处理单元，用于初始化K个第二卷积神经网络的网络结构和1个第三卷积神经网络的网络结构；

第三处理单元，用于初始化所述第三卷积神经网络中各参数的值；

第四处理单元，用于将所述第三卷积神经网络中各参数的值赋值给K个第二卷积神经网络。

相应的，所述第三处理模块，可包括：

第五处理单元，用于将所述K类三维终端分布分别作为K个所述第二卷积神经网络的初始输入，得到各类三维终端分布对应的所述第一地理区域内每个小区对应的初始候选波束的概率；

相应的，所述第一神经网络确定模块，可包括：

第一神经网络确定单元，用于在各类三维终端分布对应的各评估结果均满足预设优化条件的情况下，确定所述第三卷积神经网络为目标卷积神经网络。

可选地，所述更新模块，可包括：

第二更新单元，用于更新K个所述第二卷积神经网络的参数值，得到更新后的K个第二卷积神经网络；

所述第四处理模块，可包括：

第六处理单元，用于将所述K类三维终端分布分别作为更新后的K个第二卷积神经网络的中间输入，得到各类三维终端分布对应的所述第一地理区域内每个小区对应的中间候选波束的概率；

所述第二质量评估模块，可包括：

第二神经网络确定单元，用于将满足所述预设优化条件时对应的更新后的K个第二卷积神经网络的参数值的平均值赋值给所述第三卷积神经网络，并将所述第三卷积神经网络确定为目标卷积神经网络。

本发明实施例的天线参数优化装置，通过获取第一地理区域经栅格化后的所有地理栅格的第一三维终端分布；将所有地理栅格的第一三维终端分布作为目标卷积神经网络的输入，得到第一地理区域内每个小区对应的候选波束的概率；根据候选波束的概率，得到第一地理区域内每个小区的天线配置；下发第一地理区域内每个小区的天线配置，如此，能够对不同用户分布进行针对性优化，对多小区联合优化，且有利于子波束的精细化调整，利于实际使用。

在此需要说明的是，本发明实施例提供的上述装置，能够实现上述终端侧方法实施例所实现的所有方法步骤，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

为了更好的实现上述目的，如图6所示，本发明实施例还提供一种网络侧设备，包括处理器600和收发器610，所述收发器610在处理器600的控制下接收和发送数据，所述处理器600用于执行如下过程：

下发所述第一地理区域内每个小区的天线配置。

可选地，所述处理器600还用于：

根据所述网络参数以及目标函数，计算得到评估结果。

可选地，所述处理器600还用于：

根据所述初始评估结果，计算奖励值；

可选地，所述第二三维终端分布包括K类三维终端分布的情况下，所述第一卷积神经网络包括K个第二卷积神经网络和1个第三卷积神经网络，其中，所述第二卷积神经网络作为局部决策网络，所述第三卷积神经网络作为全局决策网络；

所述处理器600还用于：

初始化所述第三卷积神经网络中各参数的值；

可选地，所述处理器600还用于：

本发明实施例的网络侧设备，通过获取第一地理区域经栅格化后的所有地理栅格的第一三维终端分布；将所有地理栅格的第一三维终端分布作为目标卷积神经网络的输入，得到第一地理区域内每个小区对应的候选波束的概率；根据候选波束的概率，得到第一地理区域内每个小区的天线配置；下发第一地理区域内每个小区的天线配置，如此，能够对不同用户分布进行针对性优化，对多小区联合优化，且有利于子波束的精细化调整，利于实际使用。

本发明实施例还提供一种网络侧设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序；所述处理器执行所述程序时实现如上述所述的天线参数优化方法实施例中的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的天线参数优化方法实施例中的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储介质中，使得存储在该计算机可读存储介质中的指令产生包括指令装置的纸制品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上，使得计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他科编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种天线参数优化方法，其特征在于，包括：

下发所述第一地理区域内每个小区的天线配置。

2.根据权利要求1所述的方法，其特征在于，所述目标卷积神经网络的输出层包括N个子输出层，每个子输出层内包括一个子神经网络；每个子神经网络用于表示一个小区，N的取值为所述第一地理区域内的小区的个数。

3.根据权利要求1所述的方法，其特征在于，所述根据所述候选波束的概率，得到所述第一地理区域内每个小区的天线配置，包括：

4.根据权利要求1所述的方法，其特征在于，将所述所有地理栅格的第一三维终端分布作为目标卷积神经网络的输入，得到所述第一地理区域内每个小区对应的候选波束的概率之前，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述第一地理区域内每个小区的初始天线配置，进行无线网络质量评估，得到评估结果，包括：

根据所述网络参数以及目标函数，计算得到评估结果。

6.根据权利要求4所述的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述更新所述第一卷积神经网络的参数值，得到更新后的卷积神经网络，包括：

根据所述初始评估结果，计算奖励值；

8.根据权利要求6所述的方法，其特征在于，所述第二三维终端分布包括K类三维终端分布的情况下，所述第一卷积神经网络包括K个第二卷积神经网络和1个第三卷积神经网络，其中，所述第二卷积神经网络作为局部决策网络，所述第三卷积神经网络作为全局决策网络；

所述初始化第一卷积神经网络，包括：

初始化所述第三卷积神经网络中各参数的值；

9.根据权利要求8所述的方法，其特征在于，所述将所述所有地理栅格的第二三维终端分布作为第一卷积神经网络的初始输入，得到所述第一地理区域内每个小区对应的初始候选波束的概率，包括：

10.根据权利要求8所述的方法，其特征在于，所述更新所述第一卷积神经网络的参数值，得到更新后的卷积神经网络，包括：

11.一种天线参数优化装置，其特征在于，包括：

12.一种网络侧设备，包括处理器和收发器，所述收发器在处理器的控制下接收和发送数据，其特征在于，所述处理器用于执行以下操作：

下发所述第一地理区域内每个小区的天线配置。

13.根据权利要求12所述的网络侧设备，其特征在于，所述目标卷积神经网络的输出层包括N个子输出层，每个子输出层内包括一个子神经网络；每个子神经网络用于表示一个小区，N的取值为所述第一地理区域内的小区的个数。

14.根据权利要求12所述的网络侧设备，其特征在于，所述处理器还用于：

15.根据权利要求12所述的网络侧设备，其特征在于，所述处理器还用于：

16.根据权利要求15所述的网络侧设备，其特征在于，所述处理器还用于：

根据所述网络参数以及目标函数，计算得到评估结果。

17.根据权利要求15所述的网络侧设备，其特征在于，所述处理器还用于：

18.根据权利要求17所述的网络侧设备，其特征在于，所述处理器还用于：

根据所述初始评估结果，计算奖励值；

19.根据权利要求17所述的网络侧设备，其特征在于，所述第二三维终端分布包括K类三维终端分布的情况下，所述第一卷积神经网络包括K个第二卷积神经网络和1个第三卷积神经网络，其中，所述第二卷积神经网络作为局部决策网络，所述第三卷积神经网络作为全局决策网络；

所述处理器还用于：

初始化所述第三卷积神经网络中各参数的值；

20.根据权利要求19所述的网络侧设备，其特征在于，所述处理器还用于：

21.根据权利要求19所述的网络侧设备，其特征在于，所述处理器还用于：

22.一种网络侧设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序；其特征在于，所述处理器执行所述程序时实现如权利要求1至10任一项所述的天线参数优化方法。

23.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至10任一项所述的天线参数优化方法中的步骤。