CN112703682B

CN112703682B - 用于使用机器学习来设计波束网格的装置和方法

Info

Publication number: CN112703682B
Application number: CN201880097501.2A
Authority: CN
Inventors: D·纳亚卡; C·蒂贾斯韦; S·卡尔亚纳森达拉姆; R·阿格拉沃尔; 徐华; A·贝德卡; V·卡普德维埃尔勒; C·弥海勒素; B·科瓦西; A·费基
Original assignee: Nokia Solutions and Networks Oy
Current assignee: Nokia Solutions and Networks Oy
Priority date: 2018-09-13
Filing date: 2018-09-13
Publication date: 2024-08-09
Anticipated expiration: 2038-09-13
Also published as: CN112703682A; JP2022500921A; JP7193621B2; US20210320709A1; EP3850762A1; US11546040B2; WO2020055408A1

Abstract

用于确定波束网格(GoB)的系统、方法、装置和计算机程序产品被提供。一种方法可以包括：收集用于训练神经网络的网络数据，使用所收集的数据来训练神经网络以学习评估将给定波束包括到波束网格(GoB)中的收益的非折扣累积奖励Q，迭代地应用经训练的神经网络来选择至少一个最优波束以包括在波束网格(GoB)中，以及从波束网格(GoB)中选择一个或多个波束以向用户设备进行发射或从用户设备接收传输。

Description

用于使用机器学习来设计波束网格的装置和方法

技术领域

一些示例实施例总体上可以涉及移动或无线电信系统，诸如长期演进(LTE)或第五代(5G)无线电接入技术或新无线电(NR)接入技术、或其他通信系统。例如，某些实施例可以涉及大规模多输入多输出(MIMO)和通过机器学习被优化的波束网格(GoB)。

背景技术

移动或无线电信系统的示例可以包括通用移动电信系统(UMTS)地面无线电接入网(UTRAN)、长期演进(LTE)演进型UTRAN(E-UTRAN)、高级LTE(LTE-A)、MulteFire、LTE-APro、和/或第五代(5G)无线电接入技术或新无线电(NR)接入技术。第五代(5G)无线系统是指下一代(NG)无线电系统和网络架构。5G主要构建在新无线电(NR)上，但是5G(或NG)网络也可以构建在E-UTRA无线电上。据估计，NR将提供10-20Gbit/s或更高量级的比特率，并且将至少支持增强型移动宽带(eMBB)和超可靠低时延通信(URLLC)以及大规模机器类型通信(mMTC)。NR被预期为实现极度宽带和超鲁棒低时延连接性和大规模联网，以支持物联网(IoT)。随着IoT和机器到机器(M2M)通信变得更加普遍，将存在对于如下网络的增长的需求，这些网络满足更低功率、低数据速率和长电池寿命的需求。要指出的是，在5G中，可以向用户设备提供无线电接入功能的节点(也即，类似于E-UTRAN中的节点B或LTE中的eNB)当构建在NR无线电上时可以被命名为gNB，并且当构建在E-UTRA无线电上时可以被命名为NG-eNB。

发明内容

一种实施例针对一种装置，该装置可以包括至少一个处理器和包括计算机程序代码的至少一个存储器。至少一个存储器和计算机程序代码被配置为，与至少一个处理器一起，使该装置至少：收集用于训练神经网络的网络数据；使用所收集的数据来训练神经网络以学习非折扣累积奖励(Q)，非折扣累积奖励(Q)评估将给定波束包括到波束网格(GoB)中的收益；应用经训练的神经网络来选择至少一个波束以包括在波束网格(GoB)中以优化性能度量，其中经训练的神经网络被重复应用，直到用于波束网格的所需要的数目的波束被选择；以及从波束网格(GoB)中选择一个或多个波束，以向用户设备进行发射或从用户设备接收传输。

另一实施例针对一种方法，该方法可以包括：收集用于训练神经网络的网络数据；使用所收集的数据来训练神经网络以学习非折扣累积奖励(Q)，非折扣累积奖励(Q)评估将给定波束包括到波束网格(GoB)中的收益；应用经训练的神经网络来选择至少一个波束以包括在波束网格(GoB)中以优化性能度量，其中经训练的神经网络被重复应用，直到用于波束网格的所需要的数目的波束被选择；以及从波束网格(GoB)中选择一个或多个波束，以向用户设备进行发射或从用户设备接收传输。

另一实施例针对一种装置，该装置可以包括：收集部件，用于收集用于训练神经网络的网络数据；训练部件，用于使用所收集的数据来训练神经网络以学习非折扣累积奖励(Q)，非折扣累积奖励(Q)评估将给定波束包括到波束网格(GoB)中的收益；应用部件，用于应用经训练的神经网络来选择至少一个波束以包括在波束网格(GoB)中以优化性能度量，其中经训练的神经网络被重复应用，直到用于波束网格的所需要的数目的波束被选择；以及选择部件，用于从波束网格(GoB)中选择一个或多个波束，以向用户设备进行发射或从用户设备接收传输。

另一实施例针对一种计算机可读介质，该计算机可读介质包括程序指令，这些程序指令用于使装置至少执行以下：收集用于训练神经网络的网络数据；使用所收集的数据来训练神经网络以学习非折扣累积奖励(Q)，非折扣累积奖励(Q)评估将给定波束包括到波束网格(GoB)中的收益；应用经训练的神经网络来选择至少一个波束以包括在波束网格(GoB)中以优化性能度量，其中经训练的神经网络被重复应用，直到用于波束网格的所需要的数目的波束被选择；以及从波束网格(GoB)中选择一个或多个波束，以向用户设备进行发射或从用户设备接收传输。

另一实施例针对一种计算机程序，该计算机程序包括指令，这些指令用于使装置至少执行以下：收集用于训练神经网络的网络数据；使用所收集的数据来训练神经网络以学习非折扣累积奖励(Q)，非折扣累积奖励(Q)评估将给定波束包括到波束网格(GoB)中的收益；应用经训练的神经网络来选择至少一个波束以包括在波束网格(GoB)中以优化性能度量，其中经训练的神经网络被重复应用，直到用于波束网格的所需要的数目的波束被选择；以及从波束网格(GoB)中选择一个或多个波束，以向用户设备进行发射或从用户设备接收传输。

附图说明

为了正确地理解示例实施例，应当参考附图，在附图中：

图1图示了根据一种实施例的示例系统；

图2图示了根据一种实施例的方法的示例流程图；

图3a图示了根据一种实施例的装置的框图；以及

图3b图示了根据一种实施例的装置的框图。

具体实施方式

将容易理解，如本文的附图中一般地描述和图示的某些示例实施例的组件可以按照各种不同的配置来布置和设计。因此，对用于确定波束网格(GoB)的系统、方法、装置和计算机程序产品的一些示例实施例的以下详细描述并非旨在限制某些实施例的范围，而是表示所选择的示例实施例。

贯穿本说明书描述的示例实施例的特征、结构或特性可以在一个或多个示例实施例中以任何合适的方式组合。例如，贯穿本说明书，短语“某些实施例”、“一些实施例”、或其他类似语言的使用是指以下事实：关于一种实施例描述的特定特征、结构或特性可以被包括在至少一个实施例中。因此，贯穿本说明书，短语“在某些实施例中”、“在一些实施例中”、“在其他实施例中”、或其他类似语言的出现不一定全都是指同一组实施例，并且在一个或多个示例实施例中，所描述的特征、结构或特性可以按照任何合适的方式组合。

另外，如果需要，下文论述的不同功能或步骤可以按照不同的顺序和/或彼此并发地被执行。此外，如果需要，所描述的功能或步骤中的一个或多个可以是可选的或可以组合。这样，以下描述应当被认为仅说明了某些示例实施例的原理和教导，而不是对其的限制。

一种实现大规模MIMO的增益的方式是通过创建所谓的波束网格(GoB)。该GoB表示波束集合，从该波束集合中，一个或多个波束将被选择以在下行链路(DL)中向UE进行发射，或在上行链路(UL)上接收UE的传输。(多个)最佳波束通常使用UE反馈来确定，或通过在假定DL与UL射频(RF)链之间的校准的时分双工(TDD)系统中使用UL探测来确定。

当与其他更复杂的波束赋形技术(诸如本征波束赋形方案、迫零方案、或最大信号与泄漏加噪声比方案)相比，GoB解决方案可能更易于实现。假如足够数目的波束被选择并且波束通过控制参数(诸如波束指向方向、波束宽度、旁瓣增益等)而被良好地设计，GoB解决方案可以被使得接近更复杂的波束赋形技术的性能。

出现的一个问题涉及如何确定将被包括在GoB中的波束，以使得适当的性能度量被优化。例如，这样的性能度量可以包括但不限于信干噪比(SINR)、吞吐量、波束赋形增益等。特别地，可能可取的是，将GoB中的波束适配于空间业务分布、基站(BS)高度、站点间距离、传播条件、杂波等。这证明是非常困难的问题，因为存在许多相互关联的参数要被优化。波束具有某个波束宽度并且可能具有强旁瓣。如下文论述的，即使当优化问题被确切表达时，归因于可以被选择的大数目的可能的波束选择，其也难以准确地解出。因此，某些实施例可以使用动态编程和机器学习(ML)技术和/或人工智能(AI)技术的组合，这些技术非常适合于解决优化GoB中的波束的问题。

注意，由于UE处的附加开销和增加的扫描/搜索时间，GoB中的波束以缓慢的时间尺度被改变。因此，根据一些实施例，最优GoB选择模块可以被放置在无线电接入网络(RAN)外部，其中针对ML应用而被优化的一些专用硬件可以被使用。在一种实施例中，ML模型，一旦被训练，在被给予新业务分布和传播场景作为输入时，可以被用于推断。

本文中描述的某些实施例提供了一种方法和/或装置，该方法和/或装置用于确定和适配将被包括在GoB中的波束以优化适当目标，诸如实现一个或多个性能度量。一些实施例可以利用机器学习(ML)和近似动态编程技术来选择最佳或最优波束(例如，在(多个)性能度量方面)以包括在GoB中。使用示例实施例可以解决和克服的问题类型的一些示例可以包括：(1)用以改进覆盖的SSB波束设计，和/或(2)用以改进容量和/或吞吐量性能的精细业务波束设计。对于用以改进覆盖的SSB波束设计，目标函数可以是使小区中的最小参考信号接收功率(RSRP)最大化，或者使由业务密度加权的小区的RSRP的几何平均值最大化，或者使5-百分位数最差RSRP最大化，等等。对于用以改进容量和/或吞吐量性能的精细/业务波束设计，目标可以是使业务密度加权的平均波束赋形增益最大化，或者使波束赋形增益、信噪比(SNR)、SINR、吞吐量等的业务密度加权的几何平均值最大化。应当注意，尽管本文中参考这些问题来描述示例实施例，但是某些实施例不限于这些示例并且将等同地适用于其他变体。

如本文中描述的，U可以表示波束全集，波束全集包含可以被包括在GoB中的所有潜在波束。这样，波束全集U可以包含波束的大汇集或词典。这些波束的特性可以是方位/高程转向方向、以及方位平面和高程平面中的波束宽度。例如，U可以包括离散傅立叶变换(DFT)波束、用于适当调节方向的移位DFT波束、过采样DFT波束、用于适当调节波束宽度的合并波束、用于以波束宽度减小为代价的波束间干扰减小(旁瓣减少)的锥形波束等。另外，根据一些实施例，可以假定存在如下约束：仅N_B个波束的子集可以从U中被选择以构造GoB。因此，某些实施例被配置为选择U的最佳N_B大小的子集，该子集使适当性能度量优化。例如，性能度量可以包括但不限于使业务密度加权的平均波束赋形增益、或者波束赋形增益的业务密度加权的几何平均值最大化，使业务密度加权的平均SNR/SINR/吞吐量等最大化，和/或使小区中的最小RSRP最大化(覆盖问题)，或者使由业务密度加权的小区的RSRP的几何平均值最大化，或者使5-百分位数(或x-百分位数)最差RSRP最大化，或者任何其他适当的性能度量。

图1图示了根据一种实施例的系统的示例功能框图。如图1的示例中图示的，系统可以包括训练阶段110和推断阶段120，这将在下文更详细地论述。下面的表1定义了图1中描绘的并且以其他方式在本文中使用的符号或变量。

表1

如图1的示例中图示的，训练可以首先在训练阶段110处被执行。在一种实施例中，训练可以使用来自仿真的数据来执行。根据一些实施例，仿真数据可以来自统计模型(诸如3GPP 3D信道模型)，或者来自用于大数目的实际部署的射线跟踪数据。如图1的示例中描绘的，训练阶段110可以包括例如在多个小区场景上收集和/或存储长期准静态数据。

根据一些实施例，如果被用于训练的(仿真)数据不足以表示场景，则在线收集的数据可以被用于训练阶段110的细化。在这种情况下，新训练操作可以被应用，该新训练操作可以利用在线数据或预定义GoB上的在线测量来丰富或扩充。

一个实施例可以利用或应用近似动态编程(DP)方法来确定要包括在GoB中的最佳N_B个波束，以使得适当的目标函数被优化。由于即使在合理大小的波束全集和GoB集的情况下也会发生状态空间的爆炸，所以某些实施例可以使用“近似”动态编程方法。例如，如果|U|是100并且N_B是32，则状态的数目是2.59E26。因此，或许不可能使用精确的动态编程技术(诸如值迭代和策略迭代)来解决这个问题。因此，一种实施例可以使用例如深度Q神经网络(DQN)方法来应用近似方法。

根据DQN方法，Q函数Q(s，a)给出在状态s中选择动作a的立即奖励与从下一状态s’向前的最优奖励之和：Q(s，a)＝r(s，a)+max_a′Q(s′，a′)，其中s’是当动作a被选择时由系统从状态s所访问的下一状态。注意，对于某些实施例，当在状态s中动作a被选择时，下一状态s’是确定性的。然而，归因于上文论述的状态和动作空间爆炸，或许不可能使用精确的动态编程方法来确定Q(s，a)。因此，根据某些实施例，Q(s，a)可以由来近似，可以例如来自深度神经网络(DNN)并且由权重向量w来参数化。

在一个实施例中，特征集合v可以被选择，并且DNN可以根据这些特征而不是根据状态和动作来近似Q函数。这是因为，如所定义的状态和动作可能未按照符合要求的形式以作为向DNN的输入，以能够近似Q函数。例如，一些状态可能对应于临界采样的DFT波束，而其他状态可能对应于宽波束。在不实际访问那些状态的情况下，DNN可能难以在这样的状态之间进行区分。特征向量v可以是从的映射，并且Q函数可以被近似为以替代根据一些实施例，例如，对于给定状态s和动作a，以下中的一个或多个可以被选择作为特征向量：DFT波束的数目、合并波束的数目、锥形波束的数目、这些波束的波束指向方向、这些波束的波束宽度、和/或这些波束的最大波束赋形增益等。

根据一种实施例，DQN方法可以被用于尝试基于观察来获得Q函数的尽可能好的函数近似。这样，一些实施例可以同时执行迭代以执行动态程序(DP)贝尔曼方程的“动作-值”迭代，并且训练NN以更好地近似Q函数。利用DQN，卷积神经网络(CNN)或深度神经网络(DNN)可以用来建模/近似“Q-函数”，该“Q-函数”表示当在状态s中动作a被执行时的无折扣累积奖励，并且迭代地继续该近似直到收敛。因此，CNN/DNN可以使用状态s作为输入(或对应特征向量v)，并且可以输出针对该状态的每个可能动作a的Q值。

例如，在某些实施例中，DQN迭代可以包括以下：(1)针对所有状态和动作来初始化权重w和Q函数(例如，它们可以被初始化为0)；以及(2)选择(s，a)对并根据下式进行更新：其中是以权重向量w针对状态动作对(s，a)而计算的函数的梯度。该过程可以被重复，直到w向量或近似函数在迭代之间没有足够地改变。在某些实施例中，w^-可以仅周期性地被更新，或者w^-可以在每次w被更新时被更新。

一旦函数已经收敛，要包括在GoB中的最优波束集可以被确定。为了这样做，一个实施例可以利用全零状态开始，并且通过确定最大Q值来确定要包括的最优波束。系统然后将转变到下一状态s’，该下一状态s’对应于在状态s中选择动作a*。与给出的最大值的最佳动作相对应的在状态s’中的最佳动作可以被选择，以此类推。

在一种实施例中，当被应用到GoB选择时，DQN可以确定Q(s，a)，Q(s，a)为“非”折扣累积奖励，因为针对所有波束的非折扣(相等权重)奖励需要被添加到GoB中。对于Q(s，a)，状态s是GoB的状态(在构造中GoB中的被选择的波束和未被选择的波束)，并且动作a对应于从U(波束全集)中对一个附加波束的选择，并且针对动作a的Q函数反映了来自于在已更新的GoB中添加这样的波束的收益。

如在图1的示例中图示并且在上文介绍的，某些实施例可以包括推断阶段120，推断阶段120被配置为将经训练的GoB策略应用到操作小区。如图1的示例中描绘的，推断阶段120可以将训练阶段110的输出作为输入，并且可选地将针对所考虑的小区的长期准静态数据作为输入。因此，在一种实施例中，在训练阶段110期间，CNN/DNN已经被训练以学习非折扣累积奖励Q，该非折扣累积奖励Q评估将任何新的给定波束包括到GoB中的全局收益。推断阶段120然后可以迭代地将经训练的CNN/DNN应用与GoB的波束的所需要的数目一样多的次数。

一个实施例可以寻求使作为性能度量的业务密度加权的波束赋形增益最大化。如此，目标是设立将{ρ，G}个输入特征映射到最优GoB的策略。如上文提到的，根据示例实施例，迭代过程被执行，其中GoB逐波束地被构建直到GoB中的波束(从波束全集中选择)的最大数目。在该实施例中，每迭代地，B_S标示到目前为止被包括在构造中的GoB中的波束集合，并且被添加到构造中的GoB的波束“a”产生以下奖励：

类似地，根据该实施例，与不具有新候选波束的GoB相比，如果该新候选波束确保了在整个感兴趣区域上BF增益方面的最佳产出/效率，则该波束可以被添加到GoB。在该过程的结束时的目标是使预期的非折扣累积奖励(N_B-步骤累积奖励)最大化：

因此，上述解决方案可以使业务密度加权的波束赋形增益最大化。

为了覆盖范围优化，另一实施例可以使用如下目标：使小区的所意图的覆盖区域中的任何地方的最小RSRP最大化。在这种情况下，将被选择的波束的数目可以更小，因为目标只是确定SSB波束。量化的长方体/图块(x，y，z)中的RSRP由RSRPb_i(x，y，z)标示，假定波束b_i正在服务于该图块(tile)。因此，在该实施例中，奖励在下面由r(s，a)给出：

在另一实施例中，代替使波束赋形增益(或最小RSRP)的加权和最大化，导致跨小区的波束赋形增益的公平分配的另一目标是使波束赋形增益的几何平均值最大化。因此，在该实施例中，优化问题是使最大化。该目标可以导致波束赋形增益的更加公平的分配，因为波束赋形增益的过小的值将会使乘积减少得比算术平均值多得多。为了将这一点确切表达为仅准入加性奖励的动态程序(DP)，一种实施例可以使该几何平均值的对数最大化，因为对数是其自变量的单调递增函数。因此，示例实施例使最大化使最大化。在该实施例中，奖励r(s，a)可以被修改以使波束赋形增益的几何平均值最大化，如下：

因为对数是单调递增函数，所以一种实施例可以将对数带进来。因此，奖励将由下式给出：

这是对早先的总和奖励最大化问题的简单直接的修改，其中增益被替换为波束赋形增益的对数。

图2图出了根据示例实施例的用于确定要包括在GoB中以使网络性能度量最大化的一个或多个波束的方法的示例流程图。在某些示例实施例中，图2的流程图可以由3GPP通信系统(诸如LTE或5G NR)中的网络实体或网络节点执行。例如，在一些示例实施例中，图2的方法可以由LTE、5G或NR系统中的基站、eNB、gNB、或接入节点等执行。

在一个实施例中，图2的方法可以包括：在200处，收集用于训练神经网络(NN)的网络数据。根据一些实施例，NN可以是例如CNN、DNN和/或DQN。所收集的数据可以包括从统计模型(诸如3GPP 3D信道模型)收集的仿真数据、或者从用于多个实际部署的射线跟踪数据中收集的仿真数据、和/或从在预定义GoB上的测量中收集的在线数据。

根据一种实施例，图2的方法还可以包括：在210处，使用所收集的数据来训练NN以学习非折扣累积奖励Q，该非折扣累积奖励Q评估将给定波束包括到GoB中的收益。在一个实施例中，该方法可以包括：将Q近似为其中v是特征向量并且w是权重向量。在某些实施例中，特征向量v可以包括以下一项或多项：离散傅立叶变换(DFT)波束的数目；合并波束的数目；锥形波束的数目；波束的波束指向方向；波束的波束宽度；和/或波束的最大波束赋形增益。

在一种实施例中，该方法可以包括：迭代地应用NN的训练，直到权重向量w或近似函数在迭代之间没有足够地改变。根据一些实施例，NN的训练可以包括：(a)针对所有状态和动作来初始化权重向量w和Q函数；以及(b)选择(s，a)对并且根据下式更新w：其中是以权重向量w针对状态动作对(s，a)而计算的函数的梯度。步骤(b)然后可以被重复，直到w向量或近似函数在迭代之间没有足够地改变。

根据一个实施例，图2的方法还可以包括：在220处，应用经训练的NN用于选择一个或多个波束以包括在GoB中，以优化性能度量。经训练的NN可以重复地被应用，直到针对GoB所需要的数目的波束被选择。在一种实施例中，该方法然后可以包括：在230处，从波束网格(GoB)中选择一个或多个波束，以向用户设备进行发射或从用户设备接收传输。

在某些实施例中，对用于包括在GoB中的(多个)波束的选择可以包括：选择具有最大Q值的(多个)波束以包括在波束网格(GoB)中，由此优化性能度量。根据一个实施例，性能量度可以是业务密度加权的波束赋形增益，并且应用220可以包括：应用经训练的NN来选择如下的(多个)波束以包括在GoB中，该(多个)波束根据以下奖励而使业务密度加权的波束赋形增益最大化：

在另一实施例中，性能度量可以是覆盖优化，并且应用220可以包括：应用经训练的NN来选择如下的(多个)波束以包括在GoB中，该(多个)波束根据以下奖励而使最小RSRP最大化：

在又另一实施例中，性能度量可以是波束赋形增益的几何平均值，并且应用220可以包括：应用经训练的NN来选择如下的(多个)波束以包括在GoB中，该(多个)波束根据以下奖励而使波束赋形增益的几何平均值最大化：

图3a图示了根据一种实施例的装置10的示例。在一种实施例中，装置10可以是通信网络中或服务于这样的网络的节点、主机或服务器。例如，装置10可以是与无线电接入网络(诸如GSM网络、LTE网络、5G或NR)相关联的基站、节点B、演进型节点B(eNB)、5G节点B或接入点、下一代节点B(NG-NB或gNB)、WLAN接入点、移动性管理实体(MME)、和/或订阅服务器。

应当理解，在一些示例实施例中，装置10可以包括作为分布式计算系统的边缘云服务器，在分布式计算系统中，服务器和无线电节点可以是经由无线电路径或经由有线连接而彼此通信的独立装置，或者它们可以位于同一实体中经由有线连接进行通信。例如，在装置10表示gNB的某些示例实施例中，它可以被配置在划分gNB功能的中央单元(CU)和分布式单元(DU)架构中。在这样的架构中，CU可以是包括gNB功能的逻辑节点，gNB功能诸如用户数据的传送、移动性控制、无线电接入网络共享、定位和/或会话管理等。CU可以通过前传接口来控制(多个)DU的操作。取决于功能划分选项，DU可以是包括gNB功能的子集的逻辑节点。应当注意，本领域的普通技术人员将理解，装置10可以包括图3a中未示出的组件或特征。

如图3a的示例中图示的，装置10可以包括用于处理信息并且执行指令或操作的处理器12。处理器12可以是任何类型的通用或专用处理器。实际上，作为示例，处理器12可以包括以下一者或多者：通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、以及基于多核处理器架构的处理器。虽然在图3a中示出了单个处理器12，但是根据其他实施例，多个处理器可以被利用。例如，应当理解，在某些实施例中，装置10可以包括可以形成多处理器系统的两个或更多处理器(例如，在这种情况下，处理器12可以表示多处理器)，多处理器系统可以支持多处理。在某些实施例中，多处理器系统可以紧密耦合或松散耦合(例如，以形成计算机集群)。

处理器12可以执行与装置10的操作相关联的功能，其可以包括例如天线增益/相位参数的预编码、对形成通信消息的各个比特的编码和解码、信息的格式化、以及对装置10的整体控制，包括与通信资源的管理相关的过程。

装置10可以进一步包括或耦合到用于存储信息和可以由处理器12执行的指令的存储器14(内部或外部)，存储器14可以耦合到处理器12。存储器14可以是一个或多个存储器并且具有适合于本地应用环境的任何类型，并且可以使用任何合适的易失性或非易失性数据存储技术来实现，诸如基于半导体的存储器设备、磁存储器设备和系统、光学存储器设备和系统、固定存储器、和/或可移除存储器。例如，存储器14可以包括随机存取存储器(RAM)、只读存储器(ROM)、静态存储装置(诸如磁盘或光盘)、硬盘驱动器(HDD)、或任何其他类型的非瞬态机器或计算机可读介质的任何组合。存储器14中存储的指令可以包括程序指令或计算机程序代码，其在由处理器12执行时使得装置10能够执行本文中描述的任务。

在一种实施例中，装置10可以进一步包括或耦合到(内部或外部)驱动器或端口，该驱动器或端口被配置为接受和读取外部计算机可读存储介质，诸如光盘、USB驱动器、闪存驱动器、或任何其他存储介质。例如，外部计算机可读存储介质可以存储用于由处理器12和/或装置10执行的计算机程序或软件。

在一些实施例中，装置10还可以包括或耦合到一个或多个天线15，用于向装置10发射信号和/或数据以及从装置10接收信号和/或数据。装置10可以进一步包括或耦合到被配置为发射和接收信息的收发器18。收发器18可以包括例如可以耦合到(多个)天线15的多个无线电接口。无线电接口可以对应于多种无线电接入技术，包括以下一种或多种：GSM、NB-IoT、LTE、5G、WLAN、蓝牙、BT-LE、NFC、射频标识符(RFID)、超宽带(UWB)、MulteFire等。无线电接口可以包括诸如滤波器、转换器(例如，数模转换器等)、映射器、快速傅立叶变换(FFT)模块等组件，以生成用于经由一个或多个下行链路的传输的符号并且接收符号(例如，经由上行链路)。

这样，收发器18可以被配置为将信息调制到载波波形上以用于由(多个)天线15传输，并且解调经由(多个)天线15接收的信息以用于由装置10的其他元件进一步处理。在其他实施例中，收发器18可以能够直接发射和接收信号或数据。另外地或替代地，在一些实施例中，装置10可以包括输入和/或输出设备(I/O设备)。

在一种实施例中，存储器14可以存储当由处理器12执行时提供功能的软件模块。这些模块可以包括例如提供用于装置10的操作系统功能的操作系统。存储器还可以存储用以提供用于装置10的附加功能的一个或多个功能模块，诸如应用或程序。装置10的组件可以用硬件来实现，或实现为硬件和软件的任何合适的组合。

根据一些实施例，处理器12和存储器14可以被包括在处理电路系统或控制电路系统中，或者可以形成处理电路系统或控制电路系统的一部分。另外，在一些实施例中，收发器18可以被包括在收发电路系统中，或者可以形成收发电路系统的一部分。

如本文中使用的，术语“电路系统”可以是指仅硬件电路系统实现(例如，模拟和/或数字电路系统)、硬件电路和软件的组合、模拟和/或数字硬件电路与软件/固件的组合、一起工作以使装置(例如，装置10)执行各种功能的具有软件的(多个)硬件处理器(包括数字信号处理器)的任何部分、和/或(多个)硬件电路和/或(多个)处理器、或它们的部分，其使用软件用于操作，但是其中软件在它不需要用于操作时可以不存在。作为另外的示例，如本文中使用的，术语“电路系统”还可以覆盖仅硬件电路或处理器(或多个处理器)、或硬件电路或处理器的一部分、及其随附的软件和/或固件的实现。术语电路系统还可以覆盖例如服务器、蜂窝网络节点或设备、或其他计算或网络设备中的基带集成电路。

如上文介绍的，在某些实施例中，装置10可以是网络节点或RAN节点，诸如基站、接入点、节点B、eNB、gNB、WLAN接入点等。根据某些实施例，装置10可以由存储器14和处理器12控制为执行与本文中描述的实施例中的任何实施例相关联的功能，实施例诸如是图1中图示的那些或图2中图示的流程图。在一些实施例中，装置10可以被配置为执行用于设计或选择GoB的过程，以使得一个或多个性能度量被优化。

例如，在一个实施例中，装置10可以由存储器14和处理器12控制为：收集用于训练NN的网络数据。根据一些实施例，NN可以是例如CNN、DNN和/或DQN。所收集的数据可以包括从统计模型(诸如3GPP 3D信道模型)收集的仿真数据、或者从用于多个实际部署的射线跟踪数据中收集的仿真数据、和/或从预定义GoB上的测量中收集的在线数据。

根据一种实施例，装置10还可以由存储器14和处理器12控制为：使用所收集的数据来训练NN以学习非折扣累积奖励Q，该非折扣累积奖励Q评估将给定波束包括到GoB中的收益。在一个实施例中，装置10可以由存储器14和处理器12控制为：将Q近似为其中v是特征向量并且w是权重向量。在某些实施例中，特征向量v可以包括以下一项或多项：离散傅立叶变换(DFT)波束的数目；合并波束的数目；锥形波束的数目；波束的波束指向方向；波束的波束宽度；和/或波束的最大波束赋形增益。

在一种实施例中，装置10可以由存储器14和处理器12控制为：迭代地应用NN的训练，直到权重向量w或近似函数在迭代之间没有足够地改变。根据一些实施例，NN的训练可以包括：(a)针对所有状态和动作来初始化权重向量w和Q函数；以及(b)选择(s，a)对并且根据下式更新w：其中是以权重向量w针对状态动作对(s，a)而计算的函数的梯度。步骤(b)然后可以被重复，直到w向量或近似函数在迭代之间没有足够地改变。

根据一个实施例，装置10可以由存储器14和处理器12控制为：应用经训练的NN来选择一个或多个波束以包括在GoB中，以优化性能度量。在一种实施例中，装置10可以由存储器14和处理器12控制为：重复地应用经训练的NN，直到用于GoB的所需要的数目的波束被选择。在一种实施例中，装置10可以由存储器14和处理器12控制为：从波束网格(GoB)中选择一个或多个波束，以向用户设备进行发射或从用户设备接收传输。

在某些实施例中，装置10可以由存储器14和处理器12控制为：选择具有最大Q值的(多个)波束以包括在波束网格(GoB)中，由此优化性能度量。根据一个实施例，性能度量可以是业务密度加权的波束赋形增益，并且装置10可以由存储器14和处理器12控制为：应用经训练的NN来选择如下的(多个)波束以包括在GoB中，该(多个)波束根据以下奖励而使业务密度加权的波束赋形增益最大化：

在另一实施例中，性能度量可以是覆盖优化，并且装置10可以由存储器14和处理器12控制为：应用经训练的NN来选择如下的(多个)波束以包括在GoB中，该(多个)波束根据以下奖励而使最小RSRP最大化：

在又另一实施例中，性能度量可以是波束赋形增益的几何平均值，并且装置10可以由存储器14和处理器12控制为：应用经训练的NN来选择如下的(多个)波束以包括在GoB中，该(多个)波束根据以下奖励而使波束赋形增益的几何平均值最大化：

图3b图示了根据另一实施例的装置20的示例。在一种实施例中，装置20可以是通信网络中或与这样的网络相关联的节点或元件，诸如UE、移动装备(ME)、移动台、移动设备、固定设备、IoT设备、或其他设备。如本文中描述的，UE可以替代地称为例如移动台、移动装备、移动单元、移动设备、用户设备、订户站、无线终端、平板、智能电话、IoT设备或NB-IoT设备等。作为一个示例，装置20可以被实现在例如无线手持设备、无线插入附件等中。

在一些示例实施例中，装置20可以包括一个或多个处理器、一个或多个计算机可读存储介质(例如，存储器、存储装置等)、一个或多个无线电接入组件(例如，调制解调器、收发器等)、和/或用户接口。在一些实施例中，装置20可以被配置为使用一种或多种无线电接入技术进行操作，诸如GSM、LTE、LTE-A、NR、5G、WLAN、WiFi、NB-IoT、蓝牙、NFC、MulteFire、和/或任何其他无线电接入技术。应当注意，本领域的普通技术人员将理解，装置20可以包括图3b中未示出的组件或特征。

如图3b的示例中图示的，装置20可以包括或耦合到用于处理信息并且执行指令或操作的处理器22。处理器22可以是任何类型的通用或专用处理器。实际上，作为示例，处理器22可以包括以下一者或多者：通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、以及基于多核处理器架构的处理器。尽管在图3b中示出了单个处理器22，但是根据其他实施例，多个处理器可以被利用。例如，应当理解，在某些实施例中，装置20可以包括可以形成多处理器系统的两个或更多处理器(例如，在这种情况下，处理器22可以表示多处理器)，多处理器系统可以支持多处理。在某些实施例中，多处理器系统可以紧密耦合或松散耦合(例如，以形成计算机集群)。

处理器22可以执行与装置20的操作相关联的功能，作为一些示例，包括天线增益/相位参数的预编码、对形成通信消息的个体比特的编码和解码、信息的格式化、以及对装置20的整体控制，包括与通信资源的管理相关的过程。

装置20可以进一步包括或耦合到用于存储信息和可以由处理器22执行的指令的存储器24(内部或外部)，存储器24可以耦合到处理器22。存储器24可以是一个或多个存储器并且具有适合于本地应用环境的任何类型，并且可以使用任何合适的易失性或非易失性数据存储技术来实现，诸如基于半导体的存储器设备、磁存储器设备和系统、光学存储器设备和系统、固定存储器、和/或可移除存储器。例如，存储器24可以包括随机存取存储器(RAM)、只读存储器(ROM)、静态存储装置(诸如磁盘或光盘)、硬盘驱动器(HDD)、或任何其他类型的非瞬态机器或计算机可读介质的任何组合。存储器24中存储的指令可以包括程序指令或计算机程序代码，其在由处理器22执行时使得装置20能够执行本文中描述的任务。

在一种实施例中，装置20可以进一步包括或耦合到(内部或外部)驱动器或端口，该驱动器或端口被配置为接受和读取外部计算机可读存储介质，诸如光盘、USB驱动器、闪存驱动器、或任何其他存储介质。例如，外部计算机可读存储介质可以存储用于由处理器22和/或装置20执行的计算机程序或软件。

在一些实施例中，装置20还可以包括或耦合到一个或多个天线25，以用于接收下行链路信号并且用于经由上行链路从装置20进行发射。装置20可以进一步包括被配置为发射和接收信息的收发器28。收发器28还可以包括耦合到天线25的无线电接口(例如，调制解调器)。无线电接口可以对应于多种无线电接入技术，包括以下一种或多种：GSM、LTE、LTE-A、5G、NR、WLAN、NB-IoT、蓝牙、BT-LE、NFC、RFID、UWB等。无线电接口可以包括其他组件，诸如滤波器、转换器(例如，数模转换器等)、符号解映射器、信号整形组件、快速傅立叶逆变换(IFFT)模块等，以处理由下行链路或上行链路承载的符号，诸如OFDMA符号。

例如，收发器28可以被配置为将信息调制到载波波形上以用于由(多个)天线25传输，并且解调经由(多个)天线25接收的信息以用于由装置20的其他元件进一步处理。在其他实施例中，收发器28可以能够直接发射和接收信号或数据。另外地或替代地，在一些实施例中，装置10可以包括输入和/或输出设备(I/O设备)。在某些实施例中，装置20可以进一步包括用户接口，诸如图形用户界面或触摸屏。

在一种实施例中，存储器24存储当由处理器22执行时提供功能的软件模块。这些模块可以包括例如提供用于装置20的操作系统功能的操作系统。存储器还可以存储用以提供用于装置20的附加功能的一个或多个功能模块，诸如应用或程序。装置20的组件可以用硬件来实现，或实现为硬件和软件的任何合适的组合。根据示例实施例，装置20可以可选地被配置为根据任何无线电接入技术(诸如NR)，经由无线或有线通信链路70与装置10通信。

根据一些实施例，处理器22和存储器24可以被包括在处理电路系统或控制电路系统中，或者可以形成处理电路系统或控制电路系统的一部分。另外，在一些实施例中，收发器28可以被包括在收发电路系统中，或者可以形成收发电路系统的一部分。

如上文论述的，根据一些实施例，装置20可以是例如UE、移动设备、移动台、ME、IoT设备和/或NB-IoT设备。根据某些实施例，装置20可以由存储器24和处理器22控制为执行与本文中描述的示例实施例相关联的功能。例如，在一些实施例中，装置20可以被配置为执行本文中描述的任何流程图或信令图中描绘的一个或多个过程。例如，在某些实施例中，装置20可以被配置为执行用于在从GoB中选择的波束上从网络接收或向网络发射的过程，以优化性能度量。

因此，根据一些实施例，装置20可以由存储器24和处理器22控制为：在从GoB中选择的波束上从网络接收或传输数据，以优化性能度量。

因此，某些示例实施例提供了若干技术改进、增强和/或优点。例如，某些实施例提供了对波束赋形技术(诸如GoB的设计)的改进。

例如，如上文论述的，某些实施例可以使波束赋形增益的几何平均值最大化。在一些实施例中，基于ML的GoB设计可以在粗略统一基线上，在波束赋形增益的几何平均值上提供6dB增益，该粗略统一基线不考虑业务分布而被选择。例如，某些实施例可以在存在较少业务的区域中导致宽波束，并且存在高业务密度的区域可以具有指向该方向的较大数目的波束。在另一示例中，在UE稀疏地位于扇区的一个边缘处的情况下，大多数波束可以被定向在业务在此被集中的小区的其他区域，并且作为结果，在UE的波束赋形增益的几何平均值上，存在高达4.6dB的改进。因此，当与其他波束赋形技术相比时，示例实施例提供了显著的附加波束赋形增益。

这样，示例实施例可以改进网络和网络节点(包括例如接入点、基站/eNB/gNB、以及移动设备或UE)的功率效率、性能、时延和/或吞吐量。因此，某些示例实施例的使用导致通信网络和它们的节点的改进的运转。

在一些示例实施例中，本文中描述的任何方法、过程、信令图、算法或流程图的功能可以通过软件和/或计算机程序代码或代码的部分来实现，软件和/或计算机程序代码或代码的部分被存储在存储器或其他计算机可读或有形介质中，并且由处理器执行。

在一些示例实施例中，装置可以包括或与至少一个软件应用、模块、单元或实体相关联，该至少一个软件应用、模块、单元或实体被配置作为由至少一个操作处理器执行的(多个)算术运算，或作为其程序或部分(包括添加或更新的软件例程)。程序，也称为程序产品或计算机程序，包括软件例程、小应用和宏指令，可以被存储在任何装置可读数据存储介质中并且包括用以执行特定任务的程序指令。

计算机程序产品可以包括一个或多个计算机可执行组件，当程序被运行时，一个或多个计算机可执行组件被配置为执行一些示例实施例。一个或多个计算机可执行组件可以是至少一个软件代码或其部分。用于实现示例实施例的功能所需要的修改和配置可以作为(多个)例程来执行，(多个)例程可以作为添加或更新的(多个)软件例程来实现。(多个)软件例程可以被下载到装置中。

作为示例，软件或计算机程序代码或其部分可以是源代码形式、目标代码形式或某种中间形式，并且其可以被存储在某种载体、分发介质或计算机可读介质中，这些载体或介质可以是能够承载程序的任何实体或设备。这样的载体可以包括例如记录介质、计算机存储器、只读存储器、光电和/或电载波信号、电信信号、以及软件分发包。取决于所需要的处理能力，计算机程序可以在单个电子数字计算机中执行，或者其可以被分布在多个计算机之中。计算机可读介质或计算机可读存储介质可以是非瞬态介质。

在其他示例实施例中，功能可以由装置(例如，装置10或装置20)中包括的硬件或电路系统来执行，例如通过使用专用集成电路(ASIC)、可编程门阵列(PGA)、现场可编程门阵列(FPGA)、或硬件和软件的任何其他组合。在又另一实施例中，功能可以被实现为信号，一种可以由从互联网或其他网络下载的电磁信号来承载的无形手段。

根据示例实施例，装置(诸如节点、设备或对应组件)可以被配置作为电路系统、计算机或微处理器，诸如单芯片计算机元件，或作为芯片组，至少包括用于提供被用于算术运算的存储容量的存储器和用于执行算术运算的运算处理器。

本领域的普通技术人员将容易地理解，与所公开的那些相比，如上文论述的示例实施例可以利用按照不同顺序的步骤，和/或利用不同配置中的硬件元件来实践。因此，尽管已经基于这些示例性优选实施例描述了一些实施例，但是对本领域的技术人员将明显的是，某些修改、变化和替代构造将是明显的，同时仍然在示例实施例的精神和范围内。因此，为了确定示例实施例的界限和边界，应当参考所附权利要求。

Claims

1.一种用于通信的装置，包括：

至少一个处理器；以及

至少一个存储器，包括计算机程序代码，

所述至少一个存储器和所述计算机程序代码被配置为，与所述至少一个处理器一起，使所述装置至少：

收集用于训练神经网络的网络数据；

使用所收集的所述数据来训练所述神经网络以学习非折扣累积奖励函数Q，所述非折扣累积奖励函数Q评估将给定波束包括到波束网格GoB中的收益；

应用经训练的所述神经网络来选择至少一个波束以包括在所述波束网格GoB中以优化性能度量，其中经训练的所述神经网络被重复应用，直到用于所述波束网格的所需要的数目的波束被选择；以及

从所述波束网格GoB中选择一个或多个波束，以向用户设备进行发射或从所述用户设备接收传输。

2.根据权利要求1所述的装置，其中所收集的所述数据包括以下至少之一：

从统计模型或从用于多个实际部署的射线跟踪数据中收集的仿真数据；以及

从预定义波束网格GoB上的测量中收集的在线数据。

3.根据权利要求1所述的装置，其中所述至少一个存储器和所述计算机程序代码被配置为，与所述至少一个处理器一起，使所述装置至少：

将所述非折扣累积奖励函数Q近似为近似函数其中v是特征向量并且w是权重向量。

4.根据权利要求3所述的装置，其中所述特征向量v包括以下至少之一：

离散傅立叶变换DFT波束的数目；

合并波束的数目；

锥形波束的数目；

所述波束的波束指向方向；

所述波束的波束宽度；以及

所述波束的最大波束赋形增益。

5.根据权利要求3或4所述的装置，其中所述至少一个存储器和所述计算机程序代码被配置为，与所述至少一个处理器一起，使所述装置至少：

迭代地应用所述神经网络的所述训练，直到所述权重向量w或所述近似函数在迭代之间没有足够地改变。

6.根据权利要求3或4所述的装置，其中所述神经网络的所述训练包括：

(a)针对所有状态和动作来初始化所述权重向量w和所述非折扣累积奖励函数Q；以及

(b)选择状态动作对(s,a)并且根据下式更新所述权重向量w：

其中是以所述权重向量w针对所述状态动作对(s,a)而计算的所述非折扣累积奖励函数的所述近似函数的梯度；以及

重复步骤(b)，直到所述权重向量w或所述近似函数在迭代之间没有足够地改变，

其中α(·)表示用于更新所述权重向量w的函数，r(s,a)表示针对所述状态动作对(s,a)的奖励，s表示所述GoB的状态，a表示动作，s’表示所述GoB的下一状态，a’表示下一动作，w^-表示被用来计算在当前迭代时的目标的权重向量，并且w^new表示新权重向量。

7.根据权利要求1-4中任一项所述的装置，其中所述至少一个存储器和所述计算机程序代码被配置为，与所述至少一个处理器一起，使所述装置至少：

选择针对所述非折扣累积奖励函数Q具有最大值的所述至少一个波束，以包括在所述波束网格GoB中。

8.根据权利要求1-4中任一项所述的装置，

其中所述性能度量包括业务密度加权的波束赋形增益，并且

其中所述应用包括：应用经训练的所述神经网络来选择根据以下奖励而使所述业务密度加权的波束赋形增益最大化的所述至少一个波束，以包括在所述波束网格GoB中：

其中r(s,a)表示针对状态动作对(s,a)的奖励，s表示所述GoB的状态，a表示动作，ρ(x,y,z)表示针对量化长方体(x,y,z)的业务密度，x、y和z表示所述量化长方体的坐标，bi表示服务于所述量化长方体的波束，Bs表示目前为止被包括在构建中的所述GoB中的波束集合，并且G_bi表示与服务于所述量化长方体的所述波束相关联的波束赋形增益。

9.根据权利要求1-4中任一项所述的装置，

其中所述性能度量包括覆盖优化，并且

其中所述应用包括：应用经训练的所述神经网络来选择根据以下奖励而使最小参考信号接收功率RSRP最大化的所述至少一个波束，以包括在所述波束网格GoB中：

其中r(s,a)表示针对状态动作对(s,a)的奖励，s表示所述GoB的状态，a表示动作，x、y和z表示量化长方体的坐标，bi表示服务于所述量化长方体的波束，Bs表示目前为止被包括在构建中的所述GoB中的波束集合，并且表示与服务于所述量化长方体的所述波束相关联的最小参考信号接收功率。

10.根据权利要求1-4中任一项所述的装置，

其中所述性能度量包括波束赋形增益的几何平均值，并且

其中所述应用包括：应用经训练的所述神经网络来选择根据以下奖励而使所述波束赋形增益的所述几何平均值最大化的所述至少一个波束，以包括在所述波束网格GoB中：

其中r(s,a)表示针对状态动作对(s,a)的奖励，s表示所述GoB的状态，a表示动作，x、y和z表示量化长方体的坐标，bi表示服务于所述量化长方体的波束，Bs表示目前为止被包括在构建中的所述GoB中的波束集合，ρ(x,y,z)表示针对所述量化长方体(x,y,z)的业务密度，并且表示与服务于所述量化长方体的所述波束相关联的波束赋形增益的对数。

11.根据权利要求1-4中任一项所述的装置，其中所述神经网络包括卷积神经网络或深度神经网络中的至少一者。

12.一种用于通信的方法，包括：

收集用于训练神经网络的网络数据；

13.根据权利要求12所述的方法，其中所收集的所述数据包括以下至少之一：

从预定义波束网格GoB上的测量中收集的在线数据。

14.根据权利要求12所述的方法，其中所述方法还包括：

15.根据权利要求14所述的方法，其中所述特征向量v包括以下至少之一：

离散傅立叶变换DFT波束的数目；

合并波束的数目；

锥形波束的数目；

所述波束的波束指向方向；

所述波束的波束宽度；以及

所述波束的最大波束赋形增益。

16.根据权利要求14或15所述的方法，其中所述方法还包括：

17.根据权利要求14或15所述的方法，其中所述神经网络的所述训练包括：

(b)选择状态动作对(s,a)，并且根据下式更新所述权重向量w：

其中是以所述权重向量w针对所述状态动作对(s,a)而计算的所述非折扣累积奖励函数Q的所述近似函数的梯度；以及

18.根据权利要求12-15中任一项所述的方法，其中所述方法还包括：

19.根据权利要求12-15中任一项所述的方法，

其中所述性能度量包括业务密度加权的波束赋形增益，并且

20.根据权利要求12-15中任一项所述的方法，

其中所述性能度量包括覆盖优化，并且

21.根据权利要求12-15中任一项所述的方法，

其中所述性能度量包括波束赋形增益的几何平均值，并且

22.根据权利要求12-15中任一项所述的方法，其中所述神经网络包括卷积神经网络或深度神经网络中的至少一者。

23.一种用于通信的装置，包括：

收集部件，用于收集用于训练神经网络的网络数据；

训练部件，用于使用所收集的所述数据来训练所述神经网络以学习非折扣累积奖励函数Q，所述非折扣累积奖励函数Q评估将给定波束包括到波束网格GoB中的收益；

应用部件，用于应用经训练的所述神经网络来选择至少一个波束以包括在所述波束网格GoB中以优化性能度量，其中经训练的所述神经网络被重复应用，直到用于所述波束网格的所需要的数目的波束被选择；以及

选择部件，用于从所述波束网格GoB中选择一个或多个波束，以向用户设备进行发射或从所述用户设备接收传输。

24.一种计算机可读介质，包括程序指令，所述程序指令用于使装置至少执行以下：

收集用于训练神经网络的网络数据；

25.一种计算机程序产品，包括指令，所述指令用于使装置至少执行以下：

收集用于训练神经网络的网络数据；