CN116137544B

CN116137544B - 用于通信的方法和装置

Info

Publication number: CN116137544B
Application number: CN202211460187.4A
Authority: CN
Inventors: A·卡亚; H·维斯瓦纳坦
Original assignee: Nokia Solutions and Networks Oy
Current assignee: Nokia Solutions and Networks Oy
Priority date: 2021-11-17
Filing date: 2022-11-16
Publication date: 2024-04-09
Anticipated expiration: 2042-11-16
Also published as: CN116137544A; EP4184804A1; US20230156765A1; US11647532B1

Abstract

根据一个方面，提供了一种用于执行以下操作的装置。该装置针对至少一个下行链路波束单独地实现强化学习模型，其中状态定义多个上行链路波束中的哪些上行链路波束属于与下行链路波束相对应的上行链路接收的优先波束集合，动作被定义为新上行链路波束到优先波束集合的添加、上行链路波束从优先波束集合中的移除、或不做任何事情，并且奖励基于上行链路信噪比的变化来计算，该变化是由动作引起，该动作随着用于采取动作的成本而调节。该装置基于上行链路信噪比统计和用于到上述多个终端设备的传输的多个最优下行链路波束，使用至少一个增强学习模型，来迭代地计算至少一个最优状态。

Description

用于通信的方法和装置

技术领域

各种示例实施例涉及无线通信。

背景技术

5G-NR接入节点(或gNodeB、gNB)基于从终端设备接收的反馈来确定特定5G-NR终端设备(或用户设备UE)的最佳下行链路(DL)和上行链路(UL)波束。具体地，5G-NR终端设备测量由接入节点形成的波束，并且将最佳波束报告为UL传输。在终端设备处，通常通过对终端设备的所有天线上的来自每个接入节点传输波束的接收功率进行平均来确定接收波束功率。具有最高接收功率的波束作为最佳DL波束反馈给接入节点。默认情况下，该波束也被指定为最佳UL波束(当终端设备在UL中传输时，接入节点用于接收的波束)。然而，大多数终端设备使用单个天线进行UL传输。UL使用哪个天线的选择由终端设备的制造商决定并且在标准中没有定义。终端设备的天线的取向和位置可能导致通过每个天线的传输的接收功率统计不同。因此，尽管UL和DL信道是互易的，但基于由终端设备反馈的平均功率统计而导出的最佳波束可能与单天线统计显著不同。

发明内容

根据一个方面，提供了独立权利要求的主题。实施例在从属权利要求中定义。各种实施例所寻求的保护范围由独立权利要求规定。

在本说明书中描述的不属于独立权利要求的范围的实施例和特征(如果有的话)应当被解释为对理解各种实施例有用的示例。

附图说明

在下文中，将参考附图更详细地描述示例实施例，在附图中：

图1示出了示例无线通信系统；

图2至图6示出了根据实施例的示例性过程；

图7和图8示出了与其他上行链路波束选择方法相比根据实施例的上行链路波束选择过程的性能；

图9和图10分别示出了具有一个隐藏层和计算节点的神经网络。可以在一些实施例中使用的人工神经网络；以及

图11和图12示出了根据实施例的装置。

具体实施方式

在下文中，将使用基于高级长期演进(高级LTE(LTE-A))或新无线电(NR，5G)的无线电接入架构作为可以应用实施例的接入架构的示例来描述不同的示例性实施例，而没有将实施例限制为这种架构。通过适当地调节参数和过程，实施例也可以应用于具有合适的模块的其他种类的通信网络。适用于系统的其他选项的一些示例是通用移动电信系统(UMTS)无线电接入网(UTRAN或E-UTRAN)、长期演进(LTE，与E-UTRA相同)、无线局域网(WLAN或WiFi)、全球微波接入互操作性(WiMAX)、个人通信服务(PCS)、/>宽带码分多址(WCDMA)、使用超宽带(UWB)技术的系统、传感器网络、移动自组织网络(MANET)和网际协议多媒体子系统(IMS)或其任何组合。

图1描绘了简化的系统架构的示例，其仅示出了一些元件和功能实体，它们都是逻辑单元，其实现可以与所示出的有所不同。图1所示的连接是逻辑连接；实际的物理连接可以有所不同。对于本领域技术人员来说很清楚的是，该系统通常还包括除图1所示的功能和结构之外的其他功能和结构。

然而，实施例不限于作为示例给出的系统，而是本领域技术人员可以将该解决方案应用于具有必要特性的其他通信系统。

图1的示例示出了示例性无线电接入网的一部分。

图1示出了设备100和102。例如，设备100和设备102可以是用户设备。设备100和102被配置为在一个或多个通信信道上与节点104处于无线连接状态。节点104还连接到核心网110。在一个示例中，节点104可以是在小区中提供或服务于设备的接入节点(诸如(e/g)NodeB)。在一个示例中，节点104可以是非3GPP接入节点。从设备到(e/g)NodeB的物理链路称为上行链路或反向链路，而从(e/g)NodeB到设备的物理链路称为下行链路或前向链路。应当理解，(e/g)NodeB或其功能可以通过使用适合于这样的用途的任何节点、主机、服务器或接入点等实体来实现。

通信系统通常包括多于一个(e/g)NodeB，在这种情况下，(e/g)NodeB也可以被配置为通过为此目的而设计的有线或无线链路彼此通信。这些链路可以用于信令目的。(e/g)NodeB是被配置为控制其耦合到的通信系统的无线电资源的计算设备。NodeB也可以称为基站、接入点、或包括能够在无线环境中操作的中继站的任何其他类型的接口设备。(e/g)NodeB包括或耦合到收发器。从(e/g)NodeB的收发器，向天线单元提供连接，该连接建立到设备的双向无线电链路。天线单元可以包括多个天线或天线元件。(e/g)NodeB进一步连接到核心网110(CN或下一代核心NGC)。取决于系统，CN侧的对方可以是服务网关(S-GW，路由和转发用户数据分组)、分组数据网络网关(P-GW，用于提供设备(UE)与外部分组数据网络的连接)、或移动管理实体(MME)等。

该设备(也称为用户设备(user device)、UE、用户设备(user equipment)、用户终端、终端设备等)示出了空中接口上的资源被分配和指派给其的一种类型的设备，并且因此本文中描述的用户设备的任何特征可以用对应装置(诸如中继节点)来实现。这样的中继节点的一个示例是朝向基站的第3层中继(自回程中继)。

该设备通常是指包括在具有或没有订户标识模块(SIM)的情况下操作的无线移动通信设备的设备(例如，便携式或非便携式计算设备)，包括但不限于以下类型的设备：移动台(移动电话)、智能电话、个人数字助理(PDA)、听筒、使用无线调制解调器的设备(警报或测量设备等)、便携式计算机和/或触摸屏计算机、平板电脑、游戏机、笔记本和多媒体设备。应当理解，设备也可以是几乎排他的仅上行链路设备，其示例是将图像或视频剪辑加载到网络的相机或摄像机。设备也可以是具有在物联网(IoT)网络中进行操作的能力的设备，在该场景中，为对象提供了通过网络传输数据的能力，而无需人与人或人与计算机交互，例如以用于智能电网或连接车辆中。该设备也可以利用云。在一些应用中，设备可以包括带有无线电部件的用户便携式设备(诸如手表、耳机或眼镜)，并且计算在云中执行。该设备(或在一些实施例中为第3层中继节点)被配置为执行用户设备功能中的一个或多个。该设备也可以称为订户单元、移动台、远程终端、接入终端、用户终端或用户设备(UE)，仅提及几个名称或装置。

本文中描述的各种技术也可以应用于网络物理系统(CPS)(协作控制物理实体的计算元件的系统)。CPS可以实现和利用嵌入在物理对象中的不同位置的大量互连ICT设备(传感器、致动器、处理器微控制器等)。所讨论的物理系统在其中具有固有移动性的移动网络物理系统是网络物理系统的子类别。移动物理系统的示例包括由人类或动物运输的移动机器人和电子器件。

另外，尽管将装置描绘为单个实体，但是可以实现不同的单元、处理器和/或存储器单元(图1中未全部示出)。

5G支持使用多输入多输出(MIMO)天线，比LTE(所谓的小型蜂窝概念)多得多的基站或节点，包括与较小基站协作并且采用多种无线电技术的宏站点，这取决于服务需求、用例和/或可用频谱。5G移动通信支持各种用例和相关应用，包括视频流、增强现实、不同的数据共享方式和各种形式的机器类型应用(诸如(大规模)机器类型通信(mMTC))，包括车辆安全、不同传感器和实时控制。5G有望具有多个无线电接口，即，6GHz以下、cmWave和mmWave，并且与诸如LTE等现有传统无线电接入技术可集成。与LTE的集成可以至少在早期阶段实现为系统，在该系统中，由LTE提供宏覆盖并且5G无线电接口接入通过聚合到LTE而来自小小区。换言之，计划5G同时支持RAT间可操作性(诸如LTE-5G)和RI间可操作性(无线电接口间可操作性，诸如6GHz以下-cmWave、6GHz以上-mmWave)。被认为在5G网络中使用的概念之一是网络切片，其中可以在同一基础设施中创建多个独立且专用的虚拟子网(网络实例)以运行对延迟、可靠性、吞吐量和移动性具有不同要求的服务。

LTE网络中的当前架构在无线电中完全分布而在核心网中完全集中。5G中的低延迟应用和服务需要使内容靠近无线电，从而导致局部爆发和多址边缘计算(MEC)。5G使得分析和知识生成可以在数据源处进行。这种方法需要利用可能无法连续地连接到网络的资源，诸如笔记本电脑、智能电话、平板电脑和传感器。MEC为应用和服务托管提供分布式计算环境。它还具有在蜂窝订户附近存储和处理内容以加快响应时间的能力。边缘计算涵盖了广泛的技术，诸如无线传感器网络、移动数据采集、移动签名分析、协作式分布式对等自组织网络和处理(也可分类为本地云/雾计算和网格/网状计算)、露水计算、移动边缘计算、cloudlet、分布式数据存储和检索、自主自我修复网络、远程云服务、增强和虚拟现实、数据高速缓存、物联网(大规模连接和/或延迟关键)、关键通信(自动驾驶汽车、交通安全、实时分析、时间关键控制、医疗保健应用)。

通信系统还能够与其他网络通信，诸如公共交换电话网络或互联网112，或者利用由它们提供的服务。通信网络也可以能够支持云服务的使用，例如，核心网操作的至少一部分可以作为云服务(这在图1中由“云”114描绘)来执行。通信系统还可以包括为不同运营商的网络提供用于例如在频谱共享中进行协作的设施的中央控制实体等。

边缘云技术可以通过利用网络功能虚拟化(NVF)和软件定义网络(SDN)被引入无线电接入网(RAN)中。使用边缘云技术可以表示将至少部分在操作耦合到包括无线电部分的远程无线电头端或基站的服务器、主机或节点中执行接入节点操作。节点操作也可以分布在多个服务器、节点或主机之间。cloudRAN架构的应用使得RAN实时功能能够在RAN侧(在分布式单元DU 104中)执行并且非实时功能能够以集中式方式(在集中式单元CU 108中)执行。

还应当理解，核心网操作与基站操作之间的工作分配可以不同于LTE的工作分配，或者甚至不存在。可能会使用的一些其他技术进步是大数据和全IP，这可能会改变网络的构建和管理方式。5G(或新无线电NR)网络被设计为支持多个层次结构，其中MEC服务器可以放置在核心与基站或nodeB(gNB)之间。应当理解，MEC也可以应用于4G网络。

5G还可以利用卫星通信来增强或补充5G服务的覆盖范围，例如通过提供回程。可能的用例是为机器对机器(M2M)或物联网(IoT)设备或为车上乘客提供服务连续性，或者确保关键通信以及未来的铁路/海事/航空通信的服务可用性。卫星通信可以利用对地静止地球轨道(GEO)卫星系统，也可以利用低地球轨道(LEO)卫星系统、特别是巨型星座(其中部署有数百个(纳米)卫星的系统)。巨型星座中的每个卫星106可以覆盖创建地面小区的若干启用卫星的网络实体。地面小区可以通过地面中继节点104或位于地面或卫星中的gNB来创建。

对于本领域技术人员来说很清楚的是，所描绘的系统仅是无线电接入系统的一部分的示例，并且在实践中，该系统可以包括多个(e/g)NodeB，设备可以接入多个无线电小区，并且该系统还可以包括其他装置，诸如物理层中继节点或其他网络元件等。(e/g)NodeB中的至少一个可以是家庭(e/g)NodeB。另外，在无线电通信系统的地理区域中，可以提供有多个不同种类的无线电小区以及多个无线电小区。无线电小区可以是宏小区(或伞形小区)，它们是直径通常长达数十公里的大型小区、或者是诸如微、毫微微或微微小区等较小小区。图1的(e/g)NodeB可以提供任何种类的这些小区。蜂窝无线电系统可以实现为包括几种小区的多层网络。通常，在多层网络中，一个接入节点提供一种一个或多个小区，并且因此提供这样的网络结构需要多个(e/g)NodeB。

为了满足改善通信系统的部署和性能的需要，引入了“即插即用”(e/g)NodeB的概念。通常，除了家庭(e/g)NodeB(H(e/g)nodeB)，能够使用“即插即用”(e/g)NodeB的网络还包括家庭nodeB网关或HNB-GW(图1中未示出)。通常安装在运营商网络内的HNB网关(HNB-GW)可以将业务从大量HNB聚合回核心网。

5G-NR接入节点(或gNodeB、gNB)基于从终端设备接收的反馈来确定特定5G-NR终端设备(或用户设备UE)的最佳下行链路(DL)和上行链路(UL)波束。具体地，5G-NR终端设备测量由接入节点形成的波束，并且将最佳波束报告为UL传输。在终端设备处，通常通过对终端设备的所有天线上来自每个接入节点传输波束的接收功率进行平均来确定接收波束功率。具有最高接收功率的波束作为最佳DL波束反馈给接入节点。默认情况下，该波束也被指定为最佳UL波束(当终端设备在UL中发送时，接入节点用于接收的波束)。然而，大多数终端设备使用单个天线进行UL传输。UL使用哪个天线的选择由终端设备的制造商决定并且在标准中没有定义。终端设备的天线的取向和位置可能导致通过每个天线的传输的接收功率统计不同。因此，尽管UL和DL信道是互易的，但基于由终端设备反馈的平均功率统计而导出的最佳波束可能与单天线统计显著不同。

用于在传输/接收点(TRP)处(即，在网络可用的并且位于特定地理位置的接入节点的天线阵列处)确定UL和DL波束的条件按常规定义如下。如果以下中的至少一项满足，则TRP处的Tx/Rx波束对应关系(即，DL/UL波束对应关系)成立：

-TRP能够基于在终端设备处对TRP的一个或多个Tx波束的DL测量来确定用于UL接收的TRP Rx波束。

-TRP能够基于在TRP处对TRP的一个或多个Rx波束的UL测量来确定用于DL传输的TRP Tx波束。

使用上述波束对应关系进行操作会导致如上所述的失配问题。如果TRP(即，接入节点)扫描所有波束以确定用于(UL)接收的最佳波束，则可能不会出现问题。然而，由于资源限制或信道衰落统计，这可能不可行。例如，最佳波束可能会在波束的完全扫描完成之前发生变化。

在大多数情况下，通过对终端设备的所有天线上的接收功率进行平均而确定的最优DL波束与最佳UL波束相同。然而，当最优DL波束和UL波束不同时，由于这种失配，使用与最优DL波束相对应的UL波束的终端设备可能会经历较差的UL链路质量。在现场，这甚至可能导致通话中断。接入节点可能需要扫描所有可能的UL接收波束，直到发现良好的UL波束。这需要附加的开销和延迟。由于多径，最优UL波束可能与最优DL波束的相邻波束不同。因此，需要更复杂的算法。

要讨论的实施例试图通过提供用于确定最有可能是最优的一个或多个UL波束的部件来克服上述问题。因此，在DL-UL失配的情况下，可以高效地找到最优UL波束，而不必经过所有可能的波束。上述一个或多个最可能的UL波束在下面被归入优先波束集合中，而不在优先波束集合中的接入节点的零个或多个UL波束(通常是多个UL波束)在下面被归入辅波束集合中。因此，优先波束集合和辅波束集合是不相交的集合(即，没有公共元素的集合)。

图2示出了根据实施例的用于定义和训练基于增强训练的模型的过程，该模型用于确定给定DL波束的最有可能的UL波束。图3的过程可以由装置(例如，计算设备)执行。该装置可以是接入节点(例如，图1的接入节点104)、被包括在该接入节点中、或通信连接到该接入节点。

参考图2，在框201中，该装置可以首先将信号的UL参考信号接收功率(RSRP)统计维护在至少一个存储器中，所述信号使用来自多个终端设备的接入节点的多个UL波束和到上述多个终端设备的传输的接入节点的多个最优DL波束而测量。这里，上述至少一个存储器可以包括该装置的至少一个(内部)存储器和/或至少一个外部存储器(即，不形成该装置的固有部分的存储器)，诸如外部存储设备的存储器或基于云的存储器或存储装置。上述多个最优DL波束可以具体地是先前由多个终端设备分别向接入节点(并且进一步向该装置)报告为针对给定终端设备处的DL接收是最优的波束。因此，上述至少一个存储器可以包括在给定接入节点的多个DL波束中的DL波束的情况下用于标识所述DL波束针对其是最优的一组一个或多个终端设备(稍后称为源终端设备)的信息。

存储在上述至少一个存储器中的RSRP统计可以已经由该装置或接入节点(或其他实体)基于接入节点处的多个物理上行链路控制信道(PUCCH)、物理上行链路共享信道(PUSCH)和/或探测参考信号(SRS)测量来确定。

关于多个最优DL波束的RSRP统计和信息可以例如存储在表T中。可能不需要在上述表中保存关于从其接收报告的多个终端设备的身份的信息。响应于新的RSRP测量变得可用，该装置将表的新条目添加到表中。随着时间的推移，服务于很多用户的波束可以在表中有多个条目。例如，该表的单个条目可以至少包括(多个)测量的UL波束的RSRP信息和最优DL波束的波束索引(或某个其他标识符)。例如，波束索引可以具有与接入节点的多个DL波束中的特定DL波束相对应的整数值。

在一些实施例中，在框201中，代替或补充将上述上行链路参考信号接收功率统计维护在上述的至少一个存储器中，该装置最初可以将从上述上行链路参考信号接收功率统计中导出或可导出的上行链路信噪比统计维护在上述至少一个存储器中。

在其他实施例中，可以省略框201(例如，当需要用于计算(诸如用于框203的计算)时，可以从另一设备或外部存储器获取或检索上述信息，而不是将其维护在上述至少一个存储器中)。

在框202中，该装置针对接入节点的多个DL波束中的至少一个DL波束(或针对每个DL波束)单独地定义(或生成或建立)强化学习模型。

通常，强化学习模型的特征是为其而定义的状态、动作和奖励。这里，与特定DL波束相对应的强化学习模型的状态、动作和奖励定义如下。

强化学习模型的状态定义接入节点的多个UL波束中的哪些UL波束属于来自一个或多个源终端设备的UL接收的优先波束集合，上述一个或多个源终端将上述特定DL波束报告为最优DL波束。换言之，该状态定义多个UL波束中的哪些被认为可能对应于上述一个或多个源终端设备的最优UL波束，而哪些不可能对应于最优UL波束。

例如，接入节点的多个DL波束中的第n DL波束的状态可以被定义为具有长度N的二进制向量bⁿ，该长度N对应于接入节点的多个UL波束的数目(或者等于接入节点的多个DL波束的数目)。二进制向量bⁿ的元素对应于第i UL波束(i具有整数值，例如，从1到N或等于从0到N-1)。具有第一值的每个元素可以对应于主波束集合，而具有第二值的每个元素可以对应于辅波束集合，其中第一值和第二值分别为0和1或1和0。显然，对应功能可以使用实值或整数值向量同等地实现，其中优先波束集合和辅波束集合中的每个用(多个)特定预定义值来指示。

给定状态下的动作被定义为接入节点的多个UL波束中的新UL波束到优先波束集合的添加、UL波束从优先波束集合中的移除、或不做任何事情。应当注意，新UL波束到优先波束集合的添加表示UL波束从辅波束集合移动到优先波束集合，而UL波束的移除表示UL波束从优先波束集合移动到辅波束集合。这里，包括了不做任何事情的选项，以便能够确定何时最优解决方案被找到(即，不做任何事情在何时是可以采取的最有益的动作)。

例如，动作可以通过以下方式更正式地定义。针对每个DL波束n和被定义为二进制向量bⁿ的对应状态，接入节点的多个UL波束中的第i UL波束的动作可以被定义为值满足的整数/>可以定义以下动作：

将UL波束i包括在优先波束集合中：

从优先波束集合中排除UL波束i：

不做任何事情：

当采取动作时，定义与第n DL波束相对应的优先波束集合的二进制向量从bⁿ转变为b′ⁿ。二进制向量bⁿ和b′ⁿ可以只相差一个元素(即，b′ⁿ对应于值为零或一个元素从0变为1或从1变为0的bⁿ)。修改后的二进制向量可以定义如下：

其中是第i元素设置为1的单位向量，并且假定i具有从1到n的值。

在给定状态下采取动作的奖励基于一个或多个源终端设备的UL信噪比(SNR)统计的变化来计算，上述变化是由于动作引起的，该动作随着用于采取该动作的成本而调节。这里，一个或多个源终端设备是与特定强化学习模型相关联的DL波束是其最优DL波束的终端设备(如上所述)。

该成本可以对应于正成本、负成本或零成本，具体取决于该动作分别与向优先波束集合中添加UL波束、从优先波束中移除UL波束还是不做任何事情有关。

附加地或替代地，UL SNR统计的变化(在下文中称为SNR度量)被定义为在采取动作之后和之前第A百分位信噪比之间的dB差，或者被定义为在采取动作之前和之后针对不同百分位而计算的信噪比之间的多个dB差的总和或加权和。这里，A是小于或等于100的正实数。

例如，奖励可以通过以下(确定性)方式更正式地定义。用于向优先波束集合中添加UL波束的奖励可以针对第n强化学习模型(即，对应于第n DL波束)定义为

其中ΔSNR_A％是采取动作之后和之前第A百分位信噪比之间的dB差，ΔSNR_B％是采取动作之后和之前第B百分位信号噪比之间dB差，δ是等于或小于1的正缩放(或加权)因子，γ是用于采取动作的成本，单位为dB，A小于B(A＜B)。项ΔSNR_A％和ΔSNR_A％可以对应于与从状态b到修改后的状态b′(如上所述)的变化相关的差异。参数A和B是小于或等于100的正实数。参数A和参数B的值不同。A可以具有选自范围0-50的值，和/或B可以具有选自范围50-100的值。例如，A可以具有值5，和/或B可以具有值50。成本参数γ_add被定义为零或正(即，向优先波束集合中添加UL波束与正成本相关联)。

尽管等式(2)中未明确示出，但针对不同强化学习模型(即，针对不同n)，项δ和/或γ_add可以可选地定义为不同。

由于添加波束将始终改善或不改变SNR值，因此添加由SNR度量定义的UL波束所导致的边际改善始终为正或零。成本项γ_i定义用于在优先波束集合中包括波束i的上述SNR度量的最小所需改善。成本项γ_n也可以被视为将波束i移动到优先波束集合的边际固定成本。想法是，如果相关奖励是增量的(即，太小而不能产生SNR的很大差异)，则我们不希望向优先波束集合中添加UL波束。同样，如果UL波束的移除仅略微改变SNR，则我们不希望将UL波束保留在优先波束集合中。

具体地，项ΔSNR_A％和ΔSNR_B％可以定义为

其中和/>分别对应于在采取将状态从bⁿ改变为b′ⁿ的动作之前和之后第A百分位信噪比，并且/>和/>分别对应于在采取将状态从bⁿ改变为b′ⁿ的动作之前和之后第B百分位信噪比。应当注意，给定上述定义，向优先波束集合中添加UL波束将总是改善或不改变SNR，而从优先波束集合中的移除UL波束将总是降低或不改变信噪比。

相应地，用于从优先波束集合中移除UL波束的奖励可以针对第n强化学习模型(即，对应于第n DL波束)定义为

这里，等式(5)中的项可以如上面针对等式(2)所述的那样定义。等式(2)与(5)之间的唯一区别是成本参数的不同定义。这里，假定成本参数γ_remove为零或负(即，向优先波束集合中添加UL波束与负成本或正增益相关联)。由于从优先波束集合中移除UL波束将始终降低或不改变SNR值，因此SNR度量ΔSNR_A％+δΔSNR_B％(并且这两项中的每一项都在其中)为负或零。只有当这种劣化被正项-γ_remove完全补偿时，用于移除UL波束的奖励才是正的。如果上述奖励是负的，则希望将该UL波束保持在优先波束集合中。例如，如果我们不想移除将导致上述SNR度量劣化超过0.25dB的波束i，则可以将损失参数γ_remove定义为具有-0.25dB的值(即，项γ_remove可以定义为具有0.25dB的值)。

不做任何事情的奖励R₀(表示状态从bⁿ变为b′ⁿ＝bⁿ)可以简单地定义为(针对所有n)

R₀＝0 (6)

应当注意，这与等式(2)和(5)一致，因为在不做任何事情的情况下，SNR度量ΔSNR_A％+δΔSNR_B％为零，并且不将任何成本归因于保持相同状态也是有意义的。

总之，奖励也可以写为

Rⁿ＝(ΔSNR_A％[dB]+δΔSNR_B％[dB])-γ[dB] (7)

其中

如上所述，在其他实施例中，可以使用在采取动作之后和之前针对不同百分位而计算的信噪比之间的多个dB差的不同加权和来定义奖励。因此，更一般地，奖励可以定义为

其中

此外，J是定义不同dB差项的数目的正整数，δ_j是预定义的正缩放(或加权)因子，ΔSNR_j是在采取动作之后和之前某个预定义(不同)百分位信噪比之间的dB差。例如，J可以等于2或至少2。注意，δ₁＝1的情况J＝2对应于等式(7)。

在框203中，该装置基于从上述至少一个存储器中维护的UL RSRP统计中导出的(相关)UL SNR统计并且还基于用于到上述多个终端设备的传输的多个最优DL波束(或其至少一部分)使用至少一个(相应)强化学习模型迭代地计算至少一个最优状态(分别定义至少一个最优优先波束集合)。换言之，在框203中，学习至少一个最优状态。

最优状态对应于强化学习模型的收敛之后的结束状态，并且定义为当传输使用特定DL波束来执行时，在UL接收中要优先处理的一个或多个UL波束的集合。应当注意，在(最终)优先波束集合中定义的UL波束的数目(即，最优状态)取决于相关SNR(或RSRP)统计(即，上述数目不是预定义的)。

在框203中，关于到上述多个终端设备的传输的多个最优DL波束的信息被具体地用于确定与给定强化学习模型相关联的DL波束相对应的上述一个或多个源终端设备。上述一个或多个源终端设备的定义进而与当前状态一起定义哪些UL RSRP统计与用于计算SNR统计并且基于此来计算奖励相关。

使用与给定DL波束相关联的给定强化学习模型进行的计算可以从定义为随机状态或使用一个或多个预定义标准定义的初始状态开始。例如，上述一个或多个预定义标准可以将初始状态定义为其中仅与上述DL波束匹配的UL波束被包括在优先波束集合中的状态、或者被定义为其中与上述UL波束匹配并且另外与上述UE波束相邻的一个或多个波束被包括在上述优先波束集合中的状态。

使用(多个)强化学习模型进行的计算在这里可以采用所谓的暴力方法，因为在大多数实际情况下，给定状态的可能动作的数目相对有限，并且因为计算可以离线进行。换言之，来自给定状态的所有可能动作的奖励可以在计算过程的每个迭代步骤中计算，如下面将结合图3详细描述的。

在该装置不形成接入节点的一部分但通信连接到接入节点(例如，经由一个或多个有线和/或无线通信链路和/或一个或多个有线和/或无线通信网络)的一些实施例中，该装置可能导致向接入节点传输关于在框203中计算的一个或多个优化状态的信息(定义与一个或多个相应DL波束相关联的优先波束集合和辅波束集合)。在该装置形成接入节点的一部分的一些其他实施例中，该装置可以将上述信息存储到接入节点的至少一个存储器(或接入节点至少可访问)。在任何一种情况下，接入节点(或其一部分)随后可以使用上述信息来优化波束扫描的执行，如下面将详细描述的。

图3更详细地示出了根据实施例的示例性过程，该过程用于使用强化学习模型来确定针对共享相同最优DL波束的给定一组源终端设备最有可能是最优的UL波束。图3的过程可以由装置(例如，计算设备)执行。该装置可以是接入节点(例如，图1的接入节点104)、被包括在该接入节点中、或通信连接到该接入节点。图3的过程可以对应于针对单个强化学习模型的图2的框203的更详细视图。因此，与图2相结合提供的任何定义也适用于此。

首先，应当注意，为了简单起见，图3示出了单个强化学习模型的过程。如上所述，可以为接入节点的多个DL波束中的每个(或至少一些)提供单独的强化学习模型。该计算针对所有强化学习模型是相同的，唯一的区别是所使用的RSRP(或SNR)统计(仅与将特定DL波束视为最优DL波束的一个或多个源终端设备相关的RSRP统计被用于使用与上述DL波束相关联的强化学习模型进行的计算)。因此，针对与多个DL波束相关联的多个强化学习模型，可以并行和/或连续地执行所示过程。

参考图3，如上所述，在框301中，该装置将初始状态定义为随机状态或使用一个或多个预定义标准。

然后，在框302中，针对来自上述初始状态的多个动作，该装置基于一个或多个源终端设备的UL SNR统计使用强化学习模型计算多个奖励，与强化学习模型相关联的DL波束是针对该一个或多个源终端设备的最优DL波束。多个奖励可以对应于与以下动作相关联的奖励：向优先波束集合中添加辅波束集合中的每个UL波束、从优先波束集合中移除每个UL波束(并且将它们添加到辅波束集合中)以及不做任何事情。

在框302中，针对强化学习模型的给定状态和给定动作(或针对给定DL波束)的多个奖励中的奖励的计算可以分两步执行。首先，该装置基于相关UL RSRP统计来确定当前状态和由于执行动作而产生的新状态的SNR统计。当前状态的相关UL RSRP统计在这里是与与上述DL波束相关联的一个或多个源终端设备以及由当前状态定义的(多个)UL波束(即，当前优先波束集合)相关的UL RSSP统计。类似地，新状态的相关UL RSRP统计在这里是与与上述DL波束相关联的一个或多个源终端设备以及由新状态定义的(多个)UL波束(即，新优先波束集合)相关的UL RSSP统计。换言之，上述至少一个存储器中维护的UL RSRP统计基于关于一个或多个源终端设备(与特定最优DL波束相关联)的信息以及当前和新状态被有效地过滤。然后，当前状态和新状态的SNR的累积分布函数(CDF)可以在所有相关UL RSRP统计上计算。根据CDF，可以确定不同SNR统计，诸如第5百分位SNR和中值SNR。第二，该装置基于当前状态与新状态之间UL SNR统计的变化来计算奖励，该变化随着用于采取动作的成本进行调节。该计算可以例如使用等式(2)、(5)和(6)中的任何一个来执行。针对来自上述给定状态的多个可以动作中的每个，重复该两步过程，但显然，当前状态的SNR统计仅需要导出一次就可以计算多个奖励。

在框303中，该装置确定在框302中计算的多个奖励中的最高奖励是否大于零。换言之，在框303中，确定不做任何事情的动作(具有零奖励)是否对应于最高奖励(表示所有其他动作都与零或负奖励相关联)。如果最高奖励等于零，则该装置确定其已经找到最优状态，并且因此在框305中，终止计算过程。

如果最高奖励不等于零，则在框304中，该装置执行与最高奖励相关联的多个动作中的动作，以便定义新状态。换言之，在框304中，该装置向优先波束集合中添加新UL波束，或者从优先波束集合中移除UL波束，从而导致新状态。基于当前状态bⁿ和与最高奖励相对应的动作a_i(和索引i)的新状态b′ⁿ的计算可以例如根据等式(1)来执行。随后，重复与框302至304相关的过程，直到在框303中多个计算出的奖励中的最高奖励为零。

图4示出了根据实施例的过程，该过程用于使用优先波束集合(和辅波束集合)和相关联的DL波束在接入节点处使用波束扫描(或同等地使用探测)来执行UL波束选择。如上所述，最优DL波束不一定对应于最优UL波束，并且因此，最优UL波束的选择不是一项简单的任务。图4的过程可以由装置(例如，计算设备)执行。该装置可以是接入节点(例如，图1的接入节点104)、被包括在该接入节点中、或通信连接到该接入节点。与被配置为执行图3或图4的过程的装置相比，执行图4的过程的装置可以是相同或不同的装置。

参考图4，在框401中，该装置将关于接入节点的一个或多个UL波束的优先波束集合和关于接入节点的一个或多个UL波束的辅波束集合的信息维护在至少一个存储器中。这里，上述至少一个存储器可以包括该装置的至少一个(内部)存储器和/或至少一个外部存储器(即，不形成该装置的固有部分的存储器)，诸如外部存储设备的存储器或基于云的存储器或存储装置。优先波束集合和辅波束集合与接入节点的特定DL波束相关联。优先波束集合可以包括与接入节点的特定DL波束相关联的接入节点的多个UL波束的适当或严格子集(即，并非所有可能的UL波束都在优先波束集合中)。如上所述，由接入节点提供的每个UL波束可以属于优先波束集合和辅波束集合中的一个(并且因此，假定接入节点可产生的多个UL波束是已知的，则只需要明确定义优先波束集合与辅波束集合中的一个)。关于优先波束集合和辅波束集合的上述信息可以例如以二进制向量bⁿ的形式提供(n具有与上述DL波束匹配的范围1-N内的整数值，其中N是由接入节点提供的多个DL波束的数目)，如结合以上实施例所述。

通常，该装置可以将关于一个或多个UL波束的多个优先波束集合和关于一个或多个UL波束的对应多个辅波束集合的信息维护在至少一个存储器中，其中每对优先波束集合和辅波束集合与接入节点的特定DL波束相关联。在这种情况下，关于多个优先波束集合和多个辅波束集合的上述信息可以例如以二进制向量集b¹，b²，...，b^N(或其子集)的形式提供，如结合以上实施例所述。为了简单起见，以下讨论仅限于与单个DL波束相关联的波束扫描，尽管显然，通常可以针对与接入节点的相应多个DL波束相关联的多个优先波束集合和多个辅波束集合分别执行所讨论的过程。

基于维护在上述至少一个存储器中的上述信息，在框402至410中，上述装置通过执行以下操作来确定来自一个或多个终端设备的UL接收的最优波束，上述DL波束用于到该一个或多个终端设备的传输。最初，在框402中，该装置引起在接入节点处使用优先波束集合与一个或多个终端设备执行波束扫描(即，依次使用其中的上述一个或多个UL波束中的每个)。在该过程进行到框403之前，可以扫描优先波束集合中的所有UL波束。

波束扫描可以使用用于使用不同UL波束在接入节点处评估接收功率的任何常规波束扫描方案来执行。例如，波束扫描可以包括调度与上述DL波束相关联的上述一个或多个终端设备中的至少一个的一个或多个SRS传输。在接入节点处，分别使用优先波束集合中的一个或多个不同UL波束来测量一个或多个SRS。替代地，波束扫描可以包括改变用于每个PUCCH或PUSCH传输的接收的UL波束，以依次匹配优先波束集合中的每个UL波束。

在框403中，该装置确定在优先波束集合的波束扫描完成之后，针对优先波束集合而测量的最大接收功率是否高于第一预定义功率阈值。第一预定义功率阈值在图4中表示为P_th，1。如果第一预定义功率阈值被超过，则在框404中，该装置选择与针对优先波束集合而测量的最大接收功率相对应的UL波束作为UL接收的最优波束。

响应于在框403中针对优先波束集合而测量的最大接收功率未超过第一预定义功率阈值，在框405中，该装置引起在接入节点处使用辅波束集合(一次一个波束)与一个或多个终端设备执行波束扫描。换言之，在框405中，该装置引起最初对辅波束集合中的第一UL波束执行波束扫描。

响应于在框406中针对辅波束集合中的(初始)UL波束而测量的最大接收功率超过第一预定义功率阈值，在框407中，该装置选择辅波束集合中的上述UL波束作为最优波束。因此，辅波束集合的波束扫描(以及通常的UL波束选择过程)被有效地终止或停止(在通过所有辅波束之前)。

响应于在框406中针对辅波束集合中的(初始)UL波束而测量的最大接收功率未超过第一预定义功率阈值，在框408中，该装置检查辅波束集合中是否所有UL波束都已经被覆盖。如果不是这种情况，则在框409中，该装置从辅波束集合中选择下一UL波束以进行波束扫描。然后，该装置针对新UL波束重复与框405至408相关的动作。

一旦在框408中确定辅波束集合中的所有UL波束都已经被该过程覆盖(并且没有找到满足所需要的标准的UL波束)，则在框410中，该装置可以终止UL波束选择过程，而不选择用于UL接收的最优波束。在这种情况下，由接入节点提供的任何UL波束都不能向与给定下行链路波束相关联的一个或多个源终端设备提供足够高质量的连接。

结合图4所述的波束选择具有减少资源开销和延迟的优点，因为优先波束集合可以保持相对较小(相对于由接入节点提供的UL波束的总数)，因此快速并且易于探测。换言之，使用根据实施例的波束选择方案，在大多数情况下，该装置(或接入节点)仅须探测接入节点的UL波束的一小部分。优先(和辅)波束集也可以容易地定期或周期性更新。

在一些实施例中，接入节点当前使用的UL波束可以从框402或405中的波束扫描中省略(取决于上述UL波束属于优先波束集合还是辅波束集合)，因为针对上述当前UL波束，最大接收功率可能已经是已知的。

在一些实施例中，波束选择过程可以限于从优先波束集合中进行选择。换言之，该过程可以包括框401至404(可选地，在框401中仅维护优先波束集合信息)。

虽然在图4中，扫描辅波束集合(框405)，并且检查结果是否满足功率条件(框406)，一次一个UL波束，以加快找到新的令人满意的UL波束。但在其他实施例中，可以首先扫描辅波束集合中的所有UL波束，然后才评估功率条件的满足情况，类似于针对优先波束集合所述的。

图5示出了根据实施例的另一过程，该过程用于使用优先波束集合(和辅波束集合)在接入节点处使用波束扫描(或同等地使用探测)来执行UL波束选择。图5的过程可以由装置(例如，计算设备)执行。该装置可以是接入节点(例如，图1的接入节点104)、被包括在该接入节点中、或通信连接到该接入节点。与被配置为执行图3或图4的过程的装置相比，执行图5的过程的装置可以是相同或不同的装置。

图5的过程在很大程度上对应于图4的过程。也就是说，框501、507、508可以完全对应于图4的框401、403、404。此外，基于辅波束集合的波束扫描和波束选择可以在框509中执行，如上面结合图4的框405至410所述。为了简洁起见，这些框在这里不再讨论。

图4与图5的过程之间的区别在于图5的框504、505中包括的附加UL波束选择检查。也就是说，与上面针对辅波束集合所述的类似，在优先波束集合的整个波束扫描完成之后，除了上述评估之外，还针对每个UL波束对优先波束集合进行评估。

最初，在框502中，该装置引起在接入节点处使用优先波束集合(一次一个波束)与一个或多个终端设备执行波束扫描。换言之，在框502中，该装置引起最初对优先波束集合中的第一UL波束执行波束扫描。

响应于在框503中针对优先波束集合中的(初始)UL波束而测量的最大接收功率超过第二预定义功率阈值，在框504中，该装置选择辅波束集合中的上述UL波束作为最优波束。这里，第二预定义功率阈值可以被定义为高于第一预定义功率阈值(即，在这种情况下功率要求更严格)。第二预定义功率阈值可以被定义为使得即使在优先波束集合或辅波束集合中存在比基于第二预定义功率阈值而选择的波束更好的UL波束，上述更好的UL波束也将能够提供与所选择的UL束相比仅边际益处(即，边际更好的增益)。换言之，满足第二预定义功率阈值指示所讨论的UL波束是特别合适的波束。在框504中选择UL波束可以有效地终止或停止优先波束集合的波束扫描(在通过其中的所有波束之前)。

响应于在框503中针对优先波束集合中的(初始)UL波束而测量的最大接收功率未超过第二预定义功率阈值，在框505中，该装置检查优先波束集合中是否所有UL波束都已经被覆盖。如果不是这种情况，则在框506中，该装置从优先波束集合中选择下一UL波束以进行波束扫描。然后，该装置针对新UL波束重复与框502至506相关的动作。

一旦在框505中确定优先波束集合中的所有UL波束都已经被该过程覆盖(并且在框503中没有找到满足所需要的标准的UL波束)，则该装置基于优先波束集合执行UL波束选择，如结合图4的框403、404所述。

因此，在框507中，该装置确定在优先波束集合的波束扫描完成之后，针对优先波束集合(作为整体)而测量的最大接收功率是否高于第一预定义功率阈值(定义为低于第二预定义功率阈值)。应当注意，在框507中确定的针对优先波束集合中的一个或多个UL波束而测量的最大接收功率必然不能超过第二预定义功率阈值，因为否则框503、504中的UL波束选择将被触发。如果第一预定义功率阈值被超过，则在框508中，装置选择与针对优先波束而测量的最大接收功率相对应的UL波束作为UL接收的最优波束。

响应于在框507中针对优先波束集合而测量的最大接收功率未超过第一预定义功率阈值，在框509中，该装置基于辅波束集合执行波束扫描和波束选择，如上面结合图4所述。

图6示出了根据实施例的另一替代过程，该过程用于在接入节点处使用优先波束集合(和辅波束集合)使用波束扫描(或同等地使用探测)来执行UL波束选择。图6的过程可以由装置(例如，计算设备)执行。该装置可以是接入节点(例如，图1的接入节点104)、被包括在该接入节点中、或通信连接到该接入节点。与被配置为执行图3或图4的过程的装置相比，执行图6的过程的装置可以是相同或不同的装置。

参考图6，在框601中，该装置最初引起接入节点使用在优先波束集合中或辅波束集合中定义的UL波束中的一个进行操作。在上述操作期间，在框602中，该装置确定一个或多个预定义波束扫描条件(即，用于发起UL波束扫描的一个或多个预定义条件)当前是否满足。

上述一个或多个预定义波束扫描条件可以包括以下中的一项或多项：

用于执行波束扫描的预定义时间表，

使用当前UL波束而接收的功率的第三预定义功率阈值，和/或

用于检测两个UL波束之间的过快切换的一个或多个预定义标准。

例如，预定义时间表可以定义用于执行波束扫描的周期。例如，第三预定义功率阈值可以对应于结合以上实施例而定义的第一预定义功率阈值或第二预定义功率阈值。例如，用于检测两个UL波束之间的过快切换(所谓的乒乓)的一个或多个预定义标准可以包括：停止特定UL波束的使用与随后切换回使用上述UL波束之间的时间的预定义阈值、和/或接入节点被允许在一行中的两个UL波束之间直接切换的次数的预定义阈值。

响应于一个或多个预定义波束扫描条件中的至少一个满足，在框603中，该装置使用波束扫描来执行UL波束选择，如以上结合图4或图5所述。例如，在框602中，如果波束扫描根据上述预定时间表被调度为在当前时间进行，则一个或多个预定义波束扫描条件的至少一个可以满足。如果多个波束扫描条件被定义，则可能只需要其中一个条件满足即可触发波束扫描。

如果在框601中一个或多个预定义波束扫描条件都不满足，则该装置可以继续使用当前UL波束(即，该过程返回框601)。

以上通过图2至图6描述的框、相关功能和信息交换没有绝对的时间顺序，其中一些可以同时执行或以与给定顺序不同的顺序执行。还可以在它们之间或在它们内部执行其他功能，并且可以发送和/或接收其他信息和/或应用其他映射规则。一些框或部分框或一条或多条信息也可以被省去或替换为对应的框或框的一部分或一条或多条信息。

使用基于光线跟踪的模拟和真实的天线方向图，根据实施例的UL波束选择的性能在沿着街道的650m×150m的曼哈顿状城市区域中进行了测试，该区域具有非视线(NLOS)和视线(LOS)位置两者。在16％的位置处，观察到最优DL波束与最优UL波束之间的失配。图7示出了与选择UL波束的五种不同方式相对应的累积分布函数(CDF)的比较(按图7的图例中所示的顺序列出)：

1)选择与最优DL波束相对应的UL波束，

2)根据实施例选择UL波束作为优先波束集合中的最佳波束(即，如结合图5所讨论的)，

3)选择UL波束作为四个随机选择的UL波束中的最佳波束，

4)选择UL波束作为三个随机选择的UL波束中的最佳波束，

5)选择UL波束作为两个随机选择的UL波束中的最佳波束，以及

6)随机选择UL波束。

根据实施例的解决方案明显优于每个替代选择方案。在高SNR下，不使用最佳UL波束的功率损耗可能很高，但不一定高到显著降低链路质量。平均而言，在使用根据实施例的解决方案扫描与最优DL波束相对应的UL波束之后，仅需要扫描1.34个附加波束。

图8示出了与每10dB SNR仓(bin)不使用最佳UL波束相比的功率损耗。即使在低SNR下，根据实施例的解决方案也产生小于5dB的功率损耗。如果最优DL波束也用作接收中的UL波束，则可能导致高达15dB的损耗，这甚至可能足以导致中断。

如本领域已知的，一些强化学习模型可以采用神经网络，例如，以在状态和动作与奖励之间的确切相关性在分析上不知道时能够计算奖励。在一些实施例中，这里也可以使用神经网络代替分析解决方案用于计算给定状态和动作的奖励。在这样的实施例中，奖励可以使用已经用训练数据训练的神经网络来定义，该训练数据包括状态/动作对集合和表现出期望行为的对应奖励集合。强化学习的目标可以是学习一种策略，该策略最大化预期奖励或预期累积奖励。即使在这些实施例中，也可以采用暴力方法(即，可以计算从给定状态开始的每个动作的每个奖励，而不是使用例如状态值函数进行更智能的探索)。

图9示出了具有一个隐藏层的神经网络的实施例，图10示出了计算节点的实施例。

深度学习(也称为深度结构化学习或分层学习)是基于在人工神经网络中使用的层的更广泛的机器学习方法家族的一部分。使用深度神经网络(而不是明确定义状态空间)的强化学习通常被称为深度强化学习。

人工神经网络(ANN)930包括被设计为执行诸如回归、分类、聚类和模式识别等任务的一组规则。ANN通过学习过程实现这样的目标，其中示出了输入数据以及期望输出的各种示例。通过这一点，它们学习标识训练数据流形中任何输入的正确输出。使用标签进行学习称为有监督学习，而没有标签的学习称为无监督学习。深度(强化)学习通常需要大量的输入数据。

深度神经网络(DNN)930是一种人工神经网络，其包括在输入层900与输出层914之间的多个隐藏层902。DNN的训练允许它找到正确的数学操作，以将输入转换为正确的输出，即使当关系高度非线性和/或复杂时。

每个隐藏层902包括计算在其中进行的节点904、906、908、910、912。如图10所示，每个节点904将输入数据900与一组系数或权重1000组合，该组系数或权重放大或衰减输入900，从而为输入900分配与算法试图学习的任务相关的重要性。将输入权重乘积相加1002，并且将总和传递给激活函数1004，以确定该信号是否以及在多大程度上应当进一步通过网络930以影响最终结果，诸如分类动作。在这个过程中，神经网络学习识别某些相关特征与最优结果之间的相关性。

在分类的情况下，深度学习网络930的输出可以被认为是特定结果的可能性，诸如在这种情况下，数据分组的解码成功的概率。在这种情况下，层902的数目可以与所使用的输入数据900的数目成比例地变化。然而，当输入数据900数目较高时，结果914的准确性更可靠。另一方面，当存在较少的层902时，计算可能花费更少的时间，并且从而减少延迟。然而，这高度依赖于特定DNN架构和/或计算资源。

模型的初始权重1000可以以各种替代方式设置。在训练阶段，它们基于决策过程中对误差的分析来改进过程的准确性。模型的训练基本上是一种试错活动。原则上，神经网络930的每个节点904、906、908、910、912做出决定(输入*权重)，并且然后将该决定与所收集的数据进行比较，以找出与所收集的数据的差异。换言之，它确定误差，权重1000基于该误差被调节。因此，模型的训练可以被认为是校正反馈回路。

通常，神经网络模型使用随机梯度下降优化算法来训练，该算法的梯度使用反向传播算法来计算。梯度下降算法试图改变权重1000，使得下一评估减少误差，这表示优化算法正在沿着误差的梯度(或斜率)向下导航。也可以使用能够提供足够准确的权重1000的任何其他合适的优化算法。因此，神经网络330的训练参数可以包括权重1000。

在优化算法的上下文中，用于评估候选解决方案(即，一组权重)的函数称为目标函数。通常，针对目标是最小化误差的神经网络，目标函数通常被称为成本函数或损失函数。在调节权重1000时，可以使用任何合适的方法作为损失函数，一些示例是均方误差(MSE)、最大似然(MLE)和交叉熵。

关于节点904的激活函数1004，它在给定输入或一组输入900的情况下定义节点904的输出914。节点904计算加权输入和，可能添加偏置，并且然后基于作为二进制激活的决策阈值或使用给出非线性决策函数的激活函数1004来做出“激活”或“不激活”决策。可以使用任何合适的激活函数1004，例如S形、整流线性单元(ReLU)、归一化指数函数(softmax)、sotfplus、tanh等。在深度学习中，激活函数1002通常在层级别设置，并且应用于该层中的所有神经元。然后，将输出914用作下一节点的输入，以此类推，直到找到原始问题的期望解决方案。

图11提供了根据一些实施例的装置1101(例如，计算设备)。图11可以说明一种装置，该装置被配置为至少执行以上与使用强化学习模型导出接入节点的优先波束集合相结合描述的功能。装置1101可以包括一个或多个通信控制电路系统1120(诸如至少一个处理器)和至少一个存储器1130，存储器1130包括一个或多个算法1131，诸如计算机程序代码(软件)，其中至少一个存储器和计算机程序代码(软件)被配置为与至少一个处理器一起分别引起该装置执行如上所述的与使用强化学习模型导出接入节点的优先波束集合相关的示例性功能中的任何一个。

参考图11，装置1101的通信控制电路系统1120至少包括强化学习电路系统1121。强化学习电路系统1121可以被配置为使用一个或多个个体电路系统以图2、图3、图9和图10中的任何一个的方式来执行上述功能中的至少一些。

至少一个存储器1130可以包括至少一个数据库1132，例如，该数据库1132可以包括使用来自多个终端设备的接入节点的多个UL波束而测量的信号的至少UL RSRP统计、以及关于用于到上述多个终端设备的传输的接入节点的最优DL波束的信息。每个存储器1130可以包括软件和至少一个数据库。存储器1130还可以包括其他数据库，该数据库可以与根据任何所呈现的实施例的装置的功能无关。至少一个存储器1130可以使用任何合适的数据存储技术来实现，诸如基于半导体的存储器设备、闪存、磁存储器设备和系统、光学存储器设备和系统、固定存储器和可移动存储器。

参考图11，装置1101还可以包括不同接口1110，诸如一个或多个通信接口(TX/RX)，该接口包括用于根据一个或多个通信协议在一个或多个通信网络之上实现通信连接的硬件和/或软件。具体地，一个或多个通信接口1110可以向该装置提供通信能力，以在一个或多个移动网络中进行通信，并且启用与一个或多个接入节点、一个或多个终端设备(可能经由上述多个接入节点)和/或一个或多个其他网络节点或元件的通信。一个或多个通信接口1110可以包括由对应控制单元控制的标准公知组件(诸如放大器、滤波器、频率转换器、模数转换器、(解调)调制器和编码器/解码器电路系统)、以及一个或多个天线。

图12提供了根据一些实施例的装置1201。装置1201可以是接入节点(例如，图1的接入节点104)或其一部分。装置1201可以被配置为至少执行以上与基于优先波束集合和辅波束集合的UL波束选择以及可选地使用增强学习模型导出接入节点的优先波束集合结合而描述的功能。装置1201可以包括一个或多个通信控制电路系统1220(诸如至少一个处理器)和至少一个存储器1230，存储器1230包括一个或多个算法1231，诸如计算机程序代码(软件)，其中至少一个存储器和计算机程序代码(软件)被配置为与至少一个处理器一起分别引起该装置执行上述接入节点的示例性功能中的任何一个。

参考图12，该装置的通信控制电路系统1220至少包括波束扫描电路系统1221。波束扫描电路系统1221可以被配置为根据实施例使用波束扫描来执行UL波束选择，并且为此，使用一个或多个个体电路系统以图4至图6中的任何一个的方式来执行上述功能中的至少一些。装置1201的通信控制电路系统1220还可以可选地包括强化学习电路系统1221。强化学习电路系统1221可以被配置为使用一个或多个个体电路系统以图2、图3、图9和图10中的任何一个的方式来执行上述功能中的至少一些。

至少一个存储器1230可以包括至少一个数据库1232，例如，该数据库1232可以包括关于与多个下行链路波束相关联的多个优先波束集合的信息。每个存储器1230可以包括软件和至少一个数据库。至少一个存储器1230还可以包括其他数据库，该数据库可以与根据任何呈现的实施例的装置的功能无关。至少一个存储器1230可以使用任何合适的数据存储技术来实现，诸如基于半导体的存储器设备、闪存、磁存储器设备和系统、光学存储器设备和系统、固定存储器和可移动存储器。

参考图12，该装置还可以包括不同接口1210，诸如一个或多个通信接口(TX/RX)，该接口包括用于根据一个或多个通信协议在一个或多个通信网络之上实现通信连接的硬件和/或软件。具体地，一个或多个通信接口1210可以向该装置提供通信能力，以启用与图11的一个或多个终端设备、一个或多个核心网节点、一个或多个其他接入节点和/或装置1101的通信。一个或多个通信接口1210可以包括由对应控制单元控制的(多个)标准公知组件(诸如放大器、滤波器、频率转换器、模数转换器、(解调)调制器和编码器/解码器电路系统)、以及一个或多个天线。

在本申请中，术语“电路系统”可以是指以下中的一项或多项或全部：(a)纯硬件电路实现(诸如仅在模拟和/或数字电路系统中的实现)，以及(b)硬件电路和软件(和/或固件)的组合，诸如(如适用)：(i)具有软件/固件的(多个)模拟和/或数字硬件电路的组合，以及(ii)具有软件的(多个)硬件处理器(包括(多个)数字信号处理器)、软件和存储器的任何部分，它们一起工作以引起装置(诸如终端设备或接入节点)执行各种功能，以及(c)需要软件(例如，固件)才能运行的(多个)硬件电路和/或(多个)处理器，诸如(多个)微处理器或(多个)微处理器的一部分，但在操作不需要时该软件可能不存在。该电路系统的定义适用于该术语在本申请中的所有使用，包括在任何权利要求中。作为另一示例，如本申请中使用的，术语电路系统还涵盖仅硬件电路或处理器(或多个处理器)或硬件电路或处理器的一部分及其(或它们的)伴随软件和/或固件的实现。例如，如果适用于特定权利要求元素，则术语“电路系统”还涵盖用于接入节点或终端设备或其他计算或网络设备的基带集成电路。

在实施例中，至少一个处理器、存储器和计算机程序代码形成处理部件或包括一个或多个计算机程序代码部分，用于执行根据图2至图6、图9和图10或其操作的实施例中的任何一个的一个或多个操作。

在一个实施例中，结合图2至图6、图9和图10描述的过程中的至少一些可以由包括用于执行至少一些所描述的过程的相应模块的装置来执行。用于执行过程的一些示例性部件可以包括以下至少之一：检测器、处理器(包括双核和多核处理器)、数字信号处理器、控制器、接收器、发射器、编码器、解码器、存储器、RAM、ROM、软件、固件、显示器、用户接口、显示电路系统、用户接口电路系统、用户接口软件、显示软件、电路、天线、天线电路系统、和电路系统。在一个实施例中，至少一个处理器、存储器和计算机程序代码形成处理部件，或者包括用于执行根据图2至图6、图9和图10中任一实施例的一个或多个操作或其操作的一个或多个计算机程序代码部分。

根据一个方面，提供了一种装置(例如，终端设备或其一部分)，该装置包括用于执行以下操作的部件：

将关于接入节点的一个或多个上行链路波束的优先波束集合的信息维护在至少一个存储器或外部存储器中，其中优先波束集合与接入节点的下行链路波束相关联；

通过执行以下操作来确定来自一个或多个终端设备的上行链路接收的最优波束，上述下行链路波束用于针对该一个或多个终端设备的传输：

引起在接入节点处使用优先波束集合与一个或多个终端设备执行波束扫描；以及

响应于在优先波束集合的波束扫描的完成之后针对优先波束集合而测量的最大接收功率超过第一预定义功率阈值，选择与针对优先波束集合而测量的最大接收功率相对应的上行链路波束作为最优波束。

根据一个方面，提供了一种装置(例如，计算设备)，该装置包括用于执行以下操作的部件：

针对接入节点的多个下行链路波束中的至少一个下行链路波束单独地实现强化学习模型，其中针对下行链路波束的强化学习模型的状态、动作和奖励定义如下：

-状态定义多个上行链路波束中的哪些上行链路波束属于来自一个或多个源终端设备的上行链路接收的优先波束集合，上述下行链路波束是针对该一个或多个源终端设备的最优下行链路波束，

-给定状态下的动作被定义为多个上行链路波束中的新上行链路波束到优先波束集合的添加、上行链路波束从优先波束集合中的移除、或不做任何事情，以及

-在给定状态下采取给定动作的奖励基于一个或多个源终端设备的上行链路信噪比统计的变化来计算，该变化由动作引起，该动作随着用于采取动作的成本而调节；以及

基于上行链路信噪比统计，并且基于用于到多个终端设备的传输的接入节点的多个最优下行链路波束，使用至少一个强化学习模型，来迭代地计算定义至少一个优先波束集合的至少一个最优状态，所述上行链路信噪比统计从信号的上行链路参考信号接收功率统计中导出或可导出，所述信号使用来自上述多个终端设备的接入节点的多个上行链路波束来测量。

本文中描述的技术和方法可以通过各种手段来实现。例如，这些技术可以用硬件(一个或多个设备)、固件(一个或多个设备)、软件(一个或多个模块)或其组合来实现。针对硬件实现，实施例的(多个)装置可以在一个或多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字数据处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、被设计为执行本文中描述的功能的其他电子单元或其组合内实现。针对固件或软件，该实现可以通过执行本文中描述的功能的至少一个芯片组的模块(过程、功能等)来执行。软件代码可以存储在存储器单元中并且由处理器执行。存储器单元可以在处理器内部或处理器外部实现。在后一种情况下，如本领域已知的，存储器单元可以通过各种手段通信地耦合到处理器。此外，本文中描述的系统的组件可以被重新布置和/或由附加组件补充，以便于实现关于其而描述的各个方面等，并且它们不限于给定附图中所阐述的精确配置，如本领域技术人员将理解的。

如所描述的实施例也可以以由计算机程序或其部分定义的计算机进程的形式来执行。结合图2至图6、图9和图10描述的方法的实施例可以通过执行包括对应指令的计算机程序的至少一部分来执行。计算机程序可以作为包括存储在其上的程序指令的计算机可读介质或者作为包括存储在其上的程序指令的非暂态计算机可读介质来提供。计算机程序可以是源代码形式、目标代码形式或某种中间形式，并且可以存储在某种载体中，该载体可以是能够承载该程序的任何实体或设备。例如，计算机程序可以存储在计算机或处理器可读的计算机程序分发介质上。计算机程序介质可以是例如但不限于记录介质、计算机存储器、只读存储器、电载波信号、电信信号和软件分发包。例如，计算机程序介质可以是非暂态介质。用于执行所示出和所描述的实施例的软件的编码完全在本领域普通技术人员的范围内。

一种存储在计算机可读存储介质中的计算机程序，该程序包括用于执行以下步骤的软件代码：

通过执行以下操作来确定来自一个或多个终端设备的上行链路接收的最优波束，接入节点的下行链路波束用于针对该一个或多个终端设备的传输：

引起在上述接入节点处使用接入节点的一个或多个上行链路波束的优先波束集合与上述一个或多个终端设备执行波束扫描，其中优先波束集合与下行链路波束相关联；以及

一种计算机可读存储介质包括计算机程序，其中计算机程序由处理器可执行以引起处理器执行一种方法，该方法包括：

一种体现在计算机可读的分发介质上的计算机程序产品，包括程序指令，该程序指令在加载到装置中时执行一种方法，该方法包括：

基于上行链路信噪比统计，并且基于用于到多个终端设备的传输的接入节点的多个最优下行链路波束，使用至少一个强化学习模型，来迭代地计算定义至少一个优先波束集合的至少一个最优状态，所述上行链路信噪比统计从信号的上行链路参考信号接收功率统计中导出或可导出的，所述信号使用来自上述多个终端设备的接入节点的多个上行链路波束来测量。

-在给定状态下采取给定动作的奖励基于一个或多个源终端设备的上行链路信噪比统计的变化来计算，该变化是由动作引起，该动作随着用于采取动作的成本而调节；以及

基于上行链路信噪比统计，并且基于用于到多个终端设备的传输的接入节点的多个最优下行链路波束，使用至少一个强化学习模型，来迭代地计算定义至少一个优先波束集合的至少一个最优状态，所述上行链路信噪比统计从信号的上行链路参考信号接收功率统计中导出或可导出，所述信号使用来自所述多个终端设备的接入节点的多个上行链路波束来测量。

尽管上面已经根据附图参考示例描述了本发明，但很明显，本发明不限于此，而是可以在所附权利要求的范围内以多种方式进行修改。因此，所有词语和表达都应当被广义地解释并且它们旨在说明而不是限制实施例。对于本领域技术人员来说很清楚的是，随着技术的进步，本发明的概念可以以各种方式实现。此外，本领域技术人员清楚，所描述的实施例可以，但不必须，以各种方式与其他实施例组合。

Claims

1.一种用于通信的装置，包括：

至少一个处理器，以及

至少一个存储器，用于存储要由所述处理器执行的指令，其中所述至少一个存储器和所述指令被配置为与所述至少一个处理器一起引起所述装置至少执行：

针对接入节点的多个下行链路波束中的至少一个下行链路波束，单独地实现强化学习模型，其中针对下行链路波束的所述强化学习模型的状态、动作和奖励被定义如下：

-所述状态定义多个上行链路波束中的哪些上行链路波束属于来自一个或多个源终端设备的、上行链路接收的优先波束集合，所述下行链路波束是针对所述一个或多个源终端设备的最优下行链路波束，

-给定状态下的所述动作被定义为所述多个上行链路波束中的新上行链路波束到所述优先波束集合的添加、上行链路波束从所述优先波束集合中的移除、或不做任何事情，以及

-在给定状态下采取给定动作的所述奖励基于所述一个或多个源终端设备的上行链路信噪比统计的变化来计算，所述变化由动作引起，所述动作随着用于采取所述动作的成本而调节；以及

基于上行链路信噪比统计，并且基于用于到多个终端设备的传输的、所述接入节点的多个最优下行链路波束，使用至少一个强化学习模型来迭代地计算定义至少一个优先波束集合的至少一个最优状态，所述上行链路信噪比统计从信号的上行链路参考信号接收功率统计中导出或可导出，所述信号使用来自所述多个终端设备的、所述接入节点的多个上行链路波束来测量。

2.根据权利要求1所述的装置，其中所述至少一个存储器和所述指令被配置为与所述至少一个处理器一起引起所述装置在所述至少一个优先波束集合的生成之后执行：

将关于所述接入节点的一个或多个上行链路波束的优先波束集合的信息维护在所述至少一个存储器或外部存储器中，其中所述优先波束集合与所述接入节点的下行链路波束相关联，所述优先波束集合是所述至少一个优先波束集合中的一个；

通过执行以下操作来确定来自一个或多个终端设备的上行链路接收的最优波束，所述下行链路波束被用于针对所述一个或多个终端设备的传输：

引起在所述接入节点处，使用所述优先波束集合来与所述一个或多个终端设备执行波束扫描；以及

响应于在所述优先波束集合的所述波束扫描的完成之后、针对所述优先波束集合而测量的最大接收功率超过第一预定义功率阈值，选择与针对所述优先波束集合而测量的所述最大接收功率相对应的上行链路波束作为所述最优波束。

3.根据权利要求2所述的装置，其中所述至少一个存储器和所述指令被配置为与所述至少一个处理器一起引起所述装置执行：

将关于所述接入节点的一个或多个上行链路波束的辅波束集合的信息维护在所述至少一个存储器或所述外部存储器中，其中所述辅波束集合与所述接入节点的所述下行链路波束相关联；以及

进一步通过以下方式来执行用于上行链路接收的所述最优波束的所述确定：

响应于针对所述优先波束集合而测量的所述最大接收功率未能超过所述第一预定义功率阈值，引起在所述接入节点处，使用所述辅波束集合来与所述一个或多个终端设备执行波束扫描；以及

响应于针对所述辅波束集合中的上行链路波束而测量的最大接收功率超过所述第一预定义功率阈值，选择所述辅波束集合中的、与所述测量的最大接收功率相对应的所述上行链路波束作为所述最优波束。

4.根据权利要求3所述的装置，其中用于上行链路接收的所述最优波束的所述确定还包括：

响应于在所述优先波束集合的所述波束扫描期间、针对所述优先波束集合中的上行链路波束而测量的最大接收功率超过第二预定义功率阈值，停止所述优先波束集合的所述波束扫描，并且选择所述优先波束集合中的所述上行链路波束作为所述最优波束，其中所述第二预定义功率阈值高于所述第一预定义功率阈值；以及

响应于在所述优先波束集合的所述波束扫描的所述完成之后、针对所述优先波束集合而测量的所述最大接收功率未能超过所述第二预定义功率阈值但超过所述第一预定义功率阈值，执行与针对所述优先波束集合而测量的所述最大接收功率相对应的所述上行链路波束作为所述最优波束的所述选择。

5.根据权利要求3或4所述的装置，其中所述至少一个存储器和所述指令被配置为与所述至少一个处理器一起引起所述装置执行：

响应于在辅波束集合的所述波束扫描期间检测到针对所述辅波束集合中的所述上行链路波束而测量的所述最大接收功率超过所述第一预定义功率阈值，停止所述辅波束集合的所述波束扫描，并且执行与针对所述辅波束集合而测量的所述最大接收功率相对应的所述辅波束集合中的所述上行链路波束作为所述最优波束的所述选择。

6.根据权利要求3或4所述的装置，其中所述至少一个存储器和所述指令被配置为与所述至少一个处理器一起引起所述装置执行：

将关于所述接入节点的一个或多个上行链路波束的多个优先波束集合和一个或多个上行链路波束的多个辅波束集合的信息维护在所述至少一个存储器或所述外部存储器中，其中所述多个优先波束集合和所述多个辅波束集合与相应多个下行链路波束相关联；以及

基于所述多个优先波束集合和所述多个辅波束集合，单独地执行对针对多个下行链路波束的用于上行链路接收的所述最优波束的所述确定。

7.根据权利要求2至4中任一项所述的装置，其中所述至少一个存储器和所述指令被配置为与所述至少一个处理器一起引起所述装置执行：

确定用于发起上行链路波束扫描的一个或多个预定义波束扫描条件是否被满足；以及

响应于所述一个或多个预定义波束扫描条件中的至少一个预定义波束扫描条件被满足，引起所述最优波束的所述确定。

8.根据权利要求7所述的装置，其中所述一个或多个预定义波束扫描条件定义用于执行波束扫描的预定义时间表、使用当前上行链路波束而接收的功率的第三预定义功率阈值、和/或用于检测两个上行链路波束之间的过快切换的一个或多个预定义标准。

9.根据权利要求1所述的装置，其中所述至少一个存储器和所述指令被配置为与所述至少一个处理器一起引起所述装置执行：

引起关于所述至少一个最优状态的信息到所述接入节点的传输。

10.根据权利要求1至4中任一项所述的装置，其中所述至少一个存储器和所述指令被配置为与所述至少一个处理器一起引起所述装置执行：

将信号的所述上行链路参考信号接收功率统计或所述上行链路信噪比统计、以及关于用于到所述多个终端设备的传输的所述接入节点的所述多个最优下行链路波束的信息维护在所述至少一个存储器或外部存储器中，所述信号使用来自所述多个终端设备的、所述接入节点的所述多个上行链路波束来测量，所述上行链路信噪比统计从所述上行链路参考信号接收功率统计中可导出。

11.根据权利要求1至4中任一项所述的装置，其中在所述至少一个强化学习模型中，定义所述多个上行链路波束中的新上行链路波束到所述优先波束集合的添加的动作与正成本相关联，定义上行链路波束从所述优先波束集合中的移除的动作与负成本相关联，并且定义不做任何事情的动作与零成本相关联。

12.根据权利要求1至4中任一项所述的装置，其中在所述至少一个强化学习模型中，所述上行链路信噪比统计的所述变化被定义为在采取所述动作之后和之前第A百分位信噪比之间的dB差，或者被定义为在采取所述动作之后和之前针对不同百分位而计算的信噪比之间的多个dB差的总和或加权和，A是正实数。

13.根据权利要求1至4中任一项所述的装置，其中所述至少一个强化学习模型中的强化学习模型的所述计算包括执行以下操作：

将初始状态定义为随机状态、或使用一个或多个预定义标准，

从所述初始状态开始重复以下操作，直到多个计算出的奖励中的最高奖励为零：

针对来自状态的多个动作，基于一个或多个源终端设备的上行链路信噪比统计，使用针对给定下行链路波束的所述强化学习模型来计算所述多个奖励，所述给定下行链路波束是从所述参考信号接收功率统计中导出的针对所述一个或多个源终端设备的最优下行链路波束，并且

响应于所述多个奖励中的最高奖励为正，执行所述多个动作中与所述最高奖励相关联的动作，以定义新状态。

14.根据权利要求13所述的装置，其中所述多个奖励的所述计算包括：

基于所述状态和多个新状态的上行链路参考信号接收功率统计，来确定所述状态和所述多个新状态的上行链路信噪比统计，所述多个新状态由所述多个动作的执行而产生，其中所述状态和所述多个新状态的所述上行链路参考信号接收功率统计限于与所述一个或多个源终端设备相关的统计；以及

基于所述当前状态与所述多个新状态之间所述上行链路信噪比统计的变化来计算所述多个奖励，所述多个新状态随着用于采取所述动作的所述成本而调节。

15.根据权利要求1至4中任一项所述的装置，其中在所述至少一个强化学习模型中，所述状态被定义为二进制向量，所述二进制向量的长度等于所述接入节点可产生的所述多个上行链路波束的数目。

16.根据权利要求1至4中任一项所述的装置，其中用于添加上行链路波束、用于移除上行链路波束、以及用于不做任何事情的所述奖励被定义为

其中

并且J是正整数，δ_j是预定义正缩放因子，ΔSNR_j定义针对所述上行链路信噪比统计的不同百分位在采取所述动作之后和之前信噪比的dB差，γ是用于采取所述动作的所述成本。

17.根据权利要求16所述的装置，其中J等于2。

18.一种用于通信的方法，包括：

-所述状态定义多个上行链路波束中的哪些上行链路波束属于来自一个或多个源终端设备的上行链路接收的优先波束集合，所述下行链路波束是针对所述一个或多个源终端设备的最优下行链路波束，

-在给定状态下采取给定动作的所述奖励基于所述一个或多个源终端设备的上行链路信噪比统计的变化来计算，所述变化由动作引起，所述动作随着用于采取动作的成本而调节；以及

基于上行链路信噪比统计，并且基于用于到多个终端设备的传输的所述接入节点的多个最优下行链路波束，使用至少一个强化学习模型来迭代地计算定义至少一个优先波束集合的至少一个最优状态，所述上行链路信噪比统计从信号的上行链路参考信号接收功率统计中导出或可导出，所述信号使用来自所述多个终端设备的、所述接入节点的多个上行链路波束来测量。

19.一种用于通信的装置，包括：

用于针对接入节点的多个下行链路波束中的至少一个下行链路波束，单独地实现强化学习模型的部件，其中针对下行链路波束的所述强化学习模型的状态、动作和奖励被定义如下：

-给定状态下的所述动作被定义为所述多个上行链路波束中的新上行链路波束到所述优先波束集合的添加、上行链路波束从所述优先波束集合中的移除或不做任何事情，以及

用于基于上行链路信噪比统计，并且基于用于到多个终端设备的传输的所述接入节点的多个最优下行链路波束，使用至少一个强化学习模型来迭代地计算定义至少一个优先波束集合的至少一个最优状态的部件，所述上行链路信噪比统计从信号的上行链路参考信号接收功率统计中导出或可导出，所述信号使用来自所述多个终端设备的、所述接入节点的多个上行链路波束来测量。