CN113875294A

CN113875294A - 使用深度q学习的上行链路功率控制

Info

Publication number: CN113875294A
Application number: CN202080040021.XA
Authority: CN
Inventors: R·古普塔; S·卡尔亚纳森达拉姆
Original assignee: Nokia Solutions and Networks Oy
Current assignee: Nokia Solutions and Networks Oy
Priority date: 2019-06-03
Filing date: 2020-05-15
Publication date: 2021-12-31
Anticipated expiration: 2040-05-15
Also published as: WO2020244906A1; EP3977783B1; US20220217645A1; CN113875294B; US11463961B2; EP3977783A1

Abstract

根据一方面，提供了一种用于控制终端设备上行链路传输功率的计算设备。每个终端设备被配置为基于两个功率控制参数确定上行链路传输功率：针对全路径损耗补偿的目标接收功率和路径损耗补偿系数。计算设备包括用于执行以下操作的部件。关于多个小区中的数据业务的信息被维护在数据库中。计算设备初始化深度Q学习网络，在深度Q学习网络中，状态被定义为功率控制参数的小区特定对，动作被定义为选择小区的功率控制参数的有效值，并且奖励基于关于数据业务的信息而被计算。计算设备训练深度Q学习网络以逼近Q值函数，基于此确定最优功率控制参数，并且引起将它们传输到接入节点。

Description

使用深度Q学习的上行链路功率控制

技术领域

各种示例实施例涉及无线通信。

背景技术

无线蜂窝网络的上行链路(UL)性能取决于每个用户使用的发送功率。每个用户用于上行链路传输的功率由服务小区控制。在5G NR和LTE中，使用开环和闭环功率控制的组合来调节终端设备(UE)的发送功率，以实现良好的整体上行链路性能。如果发送功率太高，则对相邻小区的干扰就会成为问题。另一方面，如果发送功率太低，则平均吞吐量和/或峰值吞吐量会降低，并且可能会发生覆盖丢失。服务小区向终端设备发送各种参数的值以用于控制上行链路传输功率。网络级别的挑战是决定这些参数的值使得小区中的用户实现最佳整体性能，而不会对相邻小区中的其他用户造成显著干扰。

发明内容

根据一方面，提供了独立权利要求的主题。实施例在从属权利要求中定义。本发明的各种实施例所寻求的保护范围由独立权利要求规定。

本发明还可以涉及一种用于控制多个小区中的多个终端设备的上行链路传输功率的计算设备，其中每个终端设备被配置为至少基于针对全路径损耗补偿的每物理资源块PRB的目标接收功率和路径损耗补偿系数来确定其上行链路传输功率，计算设备包括用于执行以下操作的部件：

在数据库中维护关于多个小区中的涉及多个终端设备的数据业务的信息；

初始化深度Q学习网络，其中

-状态被定义为针对全路径损耗补偿的每PRB的目标接收功率和路径损耗补偿系数的对的集合，其中每个对对应于多个小区中的一个小区，

-给定状态下的动作被定义为针对有效值已经被设置的对，选择针对全路径损耗补偿的每PRB的目标接收功率和路径损耗补偿系数的有效值，以及

-采取动作的奖励基于关于多个小区中的数据业务的信息而被计算，以优化在多个小区中的所有小区上的整体上行链路性能；

利用多个随机状态和多个随机动作来训练深度Q学习网络以逼近Q值函数，其中每个随机状态最初包括具有随机有效值的针对全路径损耗补偿的每PRB的目标接收功率和路径损耗补偿系数的预定义数目的对，其中每个随机状态下的对中的其余对具有无效值；

针对每个小区，基于Q值函数确定针对全路径损耗补偿的每PRB的最优目标接收功率和最优路径损耗补偿系数；以及

引起向多个接入节点传输针对全路径损耗补偿的每PRB的目标接收功率和路径损耗补偿系数的优化值以用于向多个终端设备的进一步传输。该部件可以包括：

至少一个处理器；以及

包括计算机程序代码的至少一个存储器，至少一个存储器和计算机程序代码被配置为与至少一个处理器一起引起计算设备的执行。

本说明书中描述的不属于独立权利要求的范围的实施例和特征(如果有)应当被解释为对理解本发明的各种实施例有用的示例。

附图说明

在下文中，将参考附图更详细地描述示例实施例，在附图中

图1示出了示例性无线通信系统；

图3A、图3B、图4、图5和图6示出了根据实施例的示例性过程；以及

图7和图8示出了根据实施例的装置。

具体实施方式

在下文中，将使用基于高级长期演进(高级LTE，LTE-A)或新无线电(NR，5G)的无线电接入架构作为实施例可以应用于的接入架构的示例来描述不同的示例性实施例，但是不将实施例限制为这样的架构。对于本领域技术人员来说很清楚的是，通过适当地调节参数和过程，本实施例也可以应用于具有合适手段的其他类型的通信网络。适用系统的其他选项的一些示例是通用移动电信系统(UMTS)无线电接入网(UTRAN或E-UTRAN)、长期演进(LTE，与E-UTRA相同)、无线局域网(WLAN或WiFi)、全球微波接入互操作性(WiMAX)、

个人通信服务(PCS)、

宽带码分多址(WCDMA)、使用超宽带(UWB)技术的系统、传感器网络、移动自组织网络(MANET)和互联网协议多媒体子系统(IMS)或其任何组合。

图1描绘了简化系统架构的示例，仅示出了一些元素和功能实体，所有这些都是逻辑单元，其实现可以与所示的不同。图1所示的连接是逻辑连接；实际的物理连接可以有所不同。对于本领域技术人员来说很清楚的是，该系统通常还包括除图1所示的功能和结构之外的其他功能和结构。

然而，实施例不限于作为示例给出的系统，而是本领域技术人员可以将解决方案应用于具有必要特性的其他通信系统。

图1的示例示出了示例无线电接入网的一部分。

图1示出了被配置为在小区中的一个或多个通信信道上与提供小区的接入节点(诸如(e/g)NodeB)104无线连接的用户设备100和102(同样称为终端设备)。从用户设备到(e/g)NodeB的物理链路称为上行链路或反向链路，从(e/g)NodeB到用户设备的物理链路称为下行链路或前向链路。应当理解，(e/g)NodeB或其功能可以通过使用适合于这种用途的任何节点、主机、服务器或接入点等实体来实现。

通信系统通常包括一个以上的(e/g)NodeB，在这种情况下，(e/g)NodeB也可以被配置为通过为此目的而设计的有线或无线链路彼此通信。这些链路可以用于信令目的。(e/g)NodeB是被配置为控制其耦合到的通信系统的无线电资源的计算设备。NodeB也可以称为基站、接入点或任何其他类型的接口设备，该接口设备包括能够在无线环境中操作的中继站。(e/g)NodeB包括或耦合到收发器。从(e/g)NodeB的收发器，提供有与天线单元的连接，该天线单元建立与用户设备的双向无线电链路。天线单元可以包括多个天线或天线元件。(e/g)NodeB还连接到核心网110(CN或下一代核心NGC)。取决于系统，CN侧的对应方可以是服务网关(S-GW，路由和转发用户数据分组)、用于提供用户设备(UE)与外部分组数据网络的连接的分组数据网络网关(P-GW)、或移动管理实体(MME)等。

用户设备(也称为UE、用户装备、用户终端或终端设备)示出了一种类型的设备，空中接口上的资源被分配和指派给该设备，因此本文中描述的用户设备的任何特征都可以用对应装置实现，诸如中继节点。这样的中继节点的示例是朝向基站的第3层中继(自回程中继)。

用户设备通常是指便携式计算设备，包括使用或不使用订户标识模块(SIM)进行操作的无线移动通信设备，包括但不限于以下类型的设备：移动台(移动电话)、智能电话、个人数字助理(PDA)、手机、使用无线调制解调器的设备(警报或测量设备等)、笔记本电脑和/或触摸屏计算机、平板电脑、游戏机、笔记本电脑和多媒体设备。应当理解，用户设备也可以是几乎独占的仅上行链路设备，其示例是将图像或视频剪辑加载到网络的相机或摄像机。用户设备也可以是具有在物联网(IoT)网络中操作的能力的设备，该IoT网络是其中对象被提供有通过网络传输数据而无需人与人或人与计算机交互的能力的场景。用户设备(或在一些实施例中为第3层中继节点)被配置为执行用户设备功能中的一个或多个。用户设备也可以称为订户单元、移动台、远程终端、接入终端、用户终端或用户设备(UE)，仅举几个名称或装置。

本文中描述的各种技术也可以应用于网络物理系统(CPS)(控制物理实体的协作计算元素的系统)。CPS可以实现和利用在不同位置嵌入在物理对象中的大量互连ICT设备(传感器、执行器、处理器微控制器等)。其中所讨论的物理系统具有固有移动性的移动网络物理系统是网络物理系统的一个子类别。移动物理系统的示例包括由人类或动物运输的移动机器人和电子器件。

应当理解，在图1中，仅仅为了清楚起见，用户设备被描绘为包括2个天线。接收和/或传输天线的数目自然可以根据当前实现而变化。

此外，虽然该装置被描绘为单个实体，但是可以实现不同单元、处理器和/或存储器单元(未全部在图1中示出)。

5G支持使用多输入多输出(MIMO)天线，即比LTE多得多的基站或节点(所谓的小蜂窝概念)，包括与较小基站协作操作并且取决于服务需求、用例和/或可用频谱而采用各种无线电技术的宏站点。5G移动通信支持各种用例和相关应用，包括视频流、增强现实、不同数据共享方式、和各种形式的机器类型应用，包括车辆安全、不同传感器和实时控制。5G预期将有多个无线电接口，即6GHz以下、cmWave和mmWave，并且还可以与现有传统无线电接入技术(诸如LTE)集成。与LTE的集成可以至少在早期阶段实现为一个系统，其中宏覆盖由LTE提供，并且5G无线接口接入通过聚合到LTE而来自小型小区。换言之，5G计划同时支持RAT间可操作性(诸如LTE-5G)和RI间可操作性(无线电接口间可操作性，诸如6GHz以下-cmWave、6GHz以下-cmWave-mmWave)。5G网络中考虑使用的概念之一是网络切片，其中可以在同一基础设施内创建多个独立和专用虚拟子网(网络实例)来运行对延迟、可靠性、吞吐量和移动性具有不同要求的服务。

LTE网络中的当前架构完全分布在无线电中并且完全集中在核心网中。5G中的低延迟应用和服务需要使内容靠近无线电，从而导致本地突发和多接入边缘计算(MEC)。5G使得分析和知识生成能够在数据源处发生。这种方法需要利用可能无法持续连接到网络的资源，诸如笔记本电脑、智能电话、平板电脑和传感器。MEC为应用和服务托管提供分布式计算环境。它还能够在靠近蜂窝订户的地方存储和处理内容，从而缩短响应时间。边缘计算涵盖各种技术，诸如无线传感器网络、移动数据采集、移动签名分析、协作分布式点对点自组织网络和处理也可归类为本地云/雾计算和网格/网格计算、露计算、移动边缘计算、cloudlet、分布式数据存储和检索、自主自愈网络、远程云服务、增强和虚拟现实、数据高速缓存、物联网(大规模连接和/或延迟关键)、关键通信(自动驾驶汽车、业务安全、实时分析、时间关键控制、医疗保健应用)。

通信系统还能够与其他网络通信，诸如公共交换电话网络或互联网112，或者利用由它们提供的服务。通信网络还能够支持云服务的使用，例如核心网操作的至少一部分可以作为云服务来执行(这在图1中由“云”114描绘)。通信系统还可以包括中央控制实体等，以为不同运营商的网络提供设施以例如在频谱共享中进行协作。

边缘云可以通过利用网络功能虚拟化(NVF)和软件定义网络(SDN)被引入无线接入网(RAN)。使用边缘云可以表示接入节点操作需要至少部分在操作耦合到远程无线电头端或包括无线电部件的基站的服务器、主机或节点中执行。节点操作也可能分布在多个服务器、节点或主机之间。云RAN架构的应用使得RAN实时功能能够在RAN侧(在分布式单元DU104中)执行并且非实时功能能够以集中方式(在集中单元CU 108中)执行。

还应当理解，核心网操作与基站操作之间的功能分配可以与LTE不同，甚至不存在。可能要使用的其他一些技术进步是大数据和全IP，该技术可以改变网络的构建和管理方式。5G(或新无线电NR)网络旨在支持多个层次结构，其中MEC服务器可以放置在核心与基站或nodeB(gNB)之间。应当理解，MEC也可以应用于4G网络。

5G还可以利用卫星通信来增强或补充5G服务的覆盖范围，例如通过提供回程。可能的用例包括为机器对机器(M2M)或物联网(IoT)设备或车辆乘客提供服务连续性，或者确保关键通信以及未来铁路/海事/航空通信的服务可用性。卫星通信可以利用对地静止地球轨道(GEO)卫星系统，也可以利用近地轨道(LEO)卫星系统，特别是巨型星座(其中部署有数百个(纳米)卫星的系统)。巨型星座中的每个卫星106可以覆盖创建地面小区的若干启用卫星的网络实体。地面小区可以通过地面中继节点104或由位于地面或卫星中的gNB创建。

对于本领域技术人员来说很清楚的是，所描绘的系统只是无线电接入系统的一部分的示例，并且在实践中，该系统可以包括多个(e/g)NodeB，用户设备可以能够接入多个无线电小区，并且该系统还可以包括其他装置，诸如物理层中继节点或其他网络元件等。(e/g)NodeB中的至少一个可以是归属(e/g)节点B。另外，在无线电通信系统的地理区域中，可以提供多个不同种类的无线电小区以及多个无线电小区。无线电小区可以是宏小区(或伞状小区)，宏小区(或伞状小区)是大型小区，通常具有高达数十公里的直径，或者无线电小区可以是较小小区，诸如微小区、毫微微小区或微微小区。图1的(e/g)NodeB可以提供这些小区中的任何种类的小区。蜂窝无线电系统可以实现为包括若干种类的小区的多层网络。通常，在多层网络中，一个接入节点提供一种或多种小区，因此需要多个(e/g)NodeB来提供这样的网络结构。

为了满足对改进通信系统的部署和性能的需要，引入了“即插即用”(e/g)NodeB的概念。通常，除了归属(e/g)NodeB(H(e/g)nodeBs)之外，能够使用“即插即用”(e/g)NodeB的网络还包括归属节点B网关或HNB-GW(图1中未示出)。通常安装在运营商的网络内的HNB网关(HNB-GW)可以将来自大量HNB的业务聚合回核心网。

下面要讨论的实施例具体涉及诸如图1所示的系统等无线通信系统中的上行链路(UL)功率控制。无线通信网络(或无线蜂窝网络)的无线性能中的上行链路通信取决于每个终端设备使用的发送功率。每个终端设备用于上行链路传输的功率通常由服务小区(即，由提供服务小区的接入节点)控制。例如，在5G NR和LTE中，使用开环和闭环功率控制的组合来调节每个终端设备的发送功率，以实现上行链路通信的整体良好性能。如果发送功率太高，则对相邻小区的干扰就会成为问题。另一方面，如果发送功率太低，则平均吞吐量和/或峰值吞吐量会降低，并且可能会发生覆盖丢失。服务小区向终端设备发送各种参数的值以执行开环上行链路传输功率计算。此外，服务小区还传输闭环功率控制命令以进一步细化计算出的开环发送功率。考虑到终端设备传输的功率不应当对相邻小区中的其他终端设备造成显著干扰的这一要求，网络面临的挑战是决定这些参数的值使得小区中的用户实现最佳整体性能。必须在每个接入节点的每个小区处设置的开环功率控制参数优选地应当动态地适配例如业务密度、用户分布和信道特性的变化。

根据一些实施例，假定无线通信网络中的每个终端设备根据以下等式在PUSCH传输时机i中使用具有索引j的参数集配置来确定其物理上行链路共享信道(PUSCH)传输功率(以dBm为单位)：

P_PUSCH(i，j)＝min{P_CMAX，10log₁₀(2^μM_PUSCH(i))+P_0，PUSCH(j)+α(j)PL+Δ_TF(i)+f(i)}， (1)

其中

·P_CMAX是为终端设备而配置的最大传输功率，以dBm为单位，

·μ表示在NR数字方案符号之后的所选择的子载波间隔，其中每个子帧包括2^μ个时隙(μ是大于或等于零的整数)，

·M_PUSCH(i)是分配给终端设备的物理资源块(PRB)的数目，

·P_0，PUSCH(j)是服务小区设置的功率参数，对应于针对全路径损耗补偿的每物理资源块的目标接收功率，包括

知P_{0，UE PUSCH}(j)的总和，

·α(j)是服务小区以小区范围的方式设置的路径损耗补偿系数，

·PL是终端设备计算的下行链路路径损耗，以dB为单位，

·Δ_TF(i)在Ks＝0时为0(Ks是基于终端设备的配置的参数)，而在Ks＝1.25时等于

(MPR是最大功率降低)，以及

·f(i)表示闭环功率控制校正，以dB为单位，其中f(i)＝f(i-1)+δ_PUSCH(i-K_PUSCH)，其中δ_PUSCH是在时隙中接收的上/下功率的传输功率控制命令。

具体地，上述等式可以为特定活动UL带宽部分(BWP)、特定载波(频率)和特定服务小区提供PUSCH传输功率。带宽部分是给定载波上的连续物理资源块(PRB)的集合。在其他实施例中，可以采用另一等式来确定终端设备的上行链路传输功率。然而，以下假定由终端设备进行的对上行链路传输功率的计算至少基于针对全路径损耗补偿的每物理资源块(PRB)的目标接收功率(P₀或P_0，PUSCH)和路径损耗补偿系数(α)。另外地或备选地，应用实施例的信道可以是PUSCH以外的信道。PUSCH传输功率可以如3GPP TS 38.213中描述的那样定义。

根据一些更一般的实施例，无线通信网络中的多个终端设备中的每个终端设备被配置为将其上行链路传输功率确定为以下两者中的最小一者：以分贝为单位的针对所述终端设备配置的最大传输功率和以分贝为单位的两个或更多个项的总和，该两个或更多个项至少包括以分贝为单位的针对全路径损耗补偿的每物理资源块的目标接收功率和路径损耗补偿系数乘以以分贝为单位的由所述终端设备计算的下行链路路径损耗。该两个或更多个项中的至少一项可以涉及分配给终端设备的PRB的数目。

实施例具体涉及确定功率控制参数P₀和α的最优值，其可以按每个小区为单位来决定以改进(或最大化)所有小区上的整体系统性能。上述功率控制等式中的其他参数可以基于(多个)所分配的资源和基于接收数据的解码的混合自动重传请求(HARQ)反馈每个时隙来确定。

根据LTE和/或5G NR，参数P₀和α可以具有多种不同的值组合。不同允许组合的数目非常多，尤其是在5G NR中，并且因此对感兴趣优化区域中的每个小区的所有的允许值进行详尽搜索是一个非常苛刻的组合优化问题，该问题由于指数计算复杂度而无法精确求解。如果P₀的可能值有N个，α的可能值有M个，并且在感兴趣优化区域中有C个小区，则要搜索以确定最优解的组合数为(NNM)^C。因此，即使有5个可能P₀和α值以及涉及10个小区的优化区域，可能组合数也约为9.5×10¹³，即，太大而无法计算。此外，由于业务的时变特性，需要随着时间而动态地重新优化这些参数的设置。

下面将详细讨论的实施例基于训练深度Q学习网络(DQN)来为网络布局中的多个小区中的每个小区找到参数P₀和α的最优值，使得所述多个小区上的整体上行链路系统性能得到优化。这些实施例甚至可以应用于大量小区并且假定大量允许P₀和α值。

为了促进下面基于使用深度Q学习网络的实施例的讨论，这里对深度Q学习进行了简要的概括讨论。深度Q学习是Q学习的一种高级形式，它是一种无模型强化学习。具体地，Q学习涉及代理、状态(状态空间)的集合S和每状态的动作的集合(动作空间)A_S。通过在第一状态s₁∈S下执行动作a∈A_s1，发生从第一状态s₁到第二状态s₂∈S的转变(即，从第一状态s₁到第二状态s₂的代理转变)。当代理在特定状态下执行动作时，它会获取奖励(数值)。奖励的量或值确定了为解决给定问题而采取的动作的质量。代理的目标(即，Q学习算法的目标)是学习在任何给定情况下采取哪些动作以随着时间最大化累积奖励。因此，在Q学习中，代理从其动作的结果中学习(而不是从明确教导中学习)。换言之，Q学习的目标是找到一种最优策略，即，从当前状态开始，在任何和所有后续步骤中，该策略最大化总(未来)奖励的预期值。这个目标是通过将所有未来状态可获取的最大奖励添加到实现其当前状态的(即时)奖励中来实现的，从而通过潜在未来奖励有效地影响当前动作。这个潜在奖励是从当前状态开始的所有未来步骤的奖励的预期值的加权和。

Q学习的目标通常被表述为目标或最优Q值(下一状态的最大可能值)与当前预测Q值之间的最小化问题。这里，Q值由所谓的Q值函数(也称为动作值函数)Q(s，a)给出。Q值函数Q(s，a)给出了通过从状态s开始，采取动作a并且然后遵循预定策略π而获取的预期回报(或预期质量值)。在Q学习的情况下，预先确定的策略π专门对应于所谓的贪婪策略，其中总是采取产生最高Q值的动作。在(常规)Q学习的情况下，这个函数是使用神经网络专门评估的。另一方面，深度Q学习是Q学习的一种特殊情况，其中最优或目标Q值和当前预测Q值使用两个不同迭代过程分别估计和收敛。具体地，最优或目标Q值可以通过使用深度学习神经网络(对于一些所需要的计算)评估所谓的用于Q值迭代的贝尔曼(Bellman)等式来计算，并且当前预测Q值可以直接使用相同的深度学习神经网络来计算。结合特定实施例讨论深度Q学习的其他细节。

图2示出了根据实施例的用于找到参数P₀和α的最优值并且通过分配所述最优值来控制多个小区中的多个终端设备的上行链路传输功率的过程。所示过程可以在一个接入节点(或多个接入节点)的计算平台中执行，例如由至少一个(云)服务器计算机、至少一个(云)计算设备和/或核心网中的至少一个网络元件或节点(或核心网中的网络元件或节点的子元件或子单元)来执行。具体地，所示过程可以由图1的元件108、112、114中的任何一个或图1的元件108、110、112、114中的任何一个内的(子)元件来执行。在一些实施例中，根据实施例的过程中的至少一些过程可以由接入节点(例如，图1的元件104)和/或终端设备(图1的元件100、102)执行。在下文中，执行图2的过程(以及以下所示过程)的实体被简称为计算设备。假定所述计算设备直接或经由一个或多个其他设备和/或网络连接到多个接入节点。图2的流程图提供了优化过程的更一般视图，下面的图3A、图3B和图4更详细地示出了优化过程的某些示例性方面。

参考图2，最初假定多个小区中的多个终端设备中的每个终端设备被配置为至少基于针对全路径损耗补偿的每物理资源块的目标接收功率和路径损耗补偿系数(即，至少基于P₀和α)来确定其上行链路传输功率。在框201中，在数据库中维护关于与多个小区中的多个终端设备相关联的数据业务的信息。该信息可以基于在多个小区中进行的测量(可能由多个终端设备进行)。针对多个小区中的每个小区，所述信息可以包括关于以下中的一项或多项的信息：业务密度、用户分布、所述小区内的终端设备的配置、信道特性(例如，所述小区内的信道增益)、所述小区中的小区内干扰和所述小区中的小区间干扰。所述信息可以基于由多个终端设备或其他(终端)设备和/或系统级模拟执行的测量。

在框202中，计算设备初始化深度Q学习网络。初始化可以包括设置用于在深度Q学习网络中的深度Q学习期间估计Q值函数的深度Q学习网络的权重的初始值。初始值可以是随机值，或者它们可以对应于值的预定义集合。在一些实施例中，所有权重可以被设置为相同的初始值(例如，零)。在初始化中可以采用任何已知的初始化技术(例如，He初始化或Xavier初始化)。

框202中初始化的深度Q学习网络的状态空间、动作空间和奖励可以定义如下。

状态可以定义为目标接收功率(P₀)和路径损耗补偿系数(α)的对的集合，其中每个对对应于多个小区中的一个小区。每个状态可以包括针对多个小区中的每个小区的针对全路径损耗补偿的每PRB的目标接收功率(P₀)和路径损耗补偿系数(α)的值。更具体地，状态s可以定义为P₀和α值的对的C元组(P_0，1，α₁)，(P_0，2，α₂)，...........，(P_0，C，α_C)，表示多个小区1到C(C是大于零或实际上大于一的整数)中的每个小区的这两个参数的所选择的值。小区的顺序可以是任意的。因此，状态空间S可以定义为所有的允许状态s的集合，即，S＝{(P_0，1，α₁)，(P_0，2，α₂)，...........，(P_0，C，α_C)}，其中P_0，i∈{P_0，min，P_0，min+1，.....，P_0，max}并且α_i∈{α_min，α_min+1，....，α_max}。这里，P_0，min、P_0，max、α_min和α_max分别是P₀和α的最小和最大允许值。例如，P₀和α的允许或有效值的范围可以是-218到39dBm，P₀的步长为1dBm，0.4到1.0，α的步长为0.1，另外还包括值0。可能值尚未被设置的那些小区可以被赋予无效的临时值P₀＝-∞dBm和α＝空值。最初，每个初始状态可以包括预定义数目的小区的有效P₀和α值，而其余小区具有所述P₀和α的无效临时值。

给定状态下的动作可以定义为针对有效值尚未被设置的(小区特定)对，选择针对全路径损耗补偿的每PRB的目标接收功率P₀和路径损耗补偿系数α的有效值。更具体地，在给定状态s∈S下的动作a被定义为选择P₀和α的允许值还没有设置的下一小区(c+1)的P₀和α，即，(c+1)是处于状态s的第一小区，其中P_0，c+1＝-∞并且α_c+1＝空值。动作空间A_s是在状态s下的所有的允许动作的集合，在这种情况下，将下一小区(c+1)的P₀和α值设置为除P₀＝-∞dBm和α＝空值之外的允许值中的一个，即，A_s＝{(P₀，c+₁，α_c+1)}，其中P_0，c+1∈{P_0，min，....，P_0，max｝并且α_c+1∈{α_min，.....，α_max}。

在特定状态下采取特定动作的奖励基于关于多个小区中的数据业务的信息来计算，以优化在多个小区中的所有小区上的整体上行链路性能。更具体地，奖励r(s，a)可以是在状态s下采取动作a的(增量)奖励(即，设置小区中的一个小区的P₀和α值，同时保持其他小区的P₀和α值不变)。奖励r(s，a)可以由多个小区中有效P₀和α值已经被设置的包括新小区的所有小区(即，通过采取动作而为其设置了值的小区)的总和效用减去有效P₀和α值已经被设置的不包括新小区的所有小区的总和效用来给出。总和效用可以定义为有效值已经被设置的(多个)小区中的终端设备的终端设备吞吐量的几何均值或总和。备选地，总和效用可以定义为有效值已经被设置的(多个)小区中的终端设备的信干噪比(SINR)的总和。应当注意，在实践中，总和效用可能不是基于布置在有效值已经被设置的一个或多个小区中的终端设备的任何实际集合及其个体吞吐量或SINR而计算的，而是基于所述一个或多个小区中的统计业务密度或SINR分布而计算的，如将在以下段落中结合特定示例性实施例讨论的。

在一些示例性实施例中，(增量)奖励r(s，a)可以使用以下等式基于所有小区的总和效用(SU)来计算(即，作为P₀和α值已经被设置的那些小区中的多个终端设备的终端设备吞吐量的几何均值)：

其中

P_i，dB(x，y，z)＝min(P_max，P_0，i+α_i*PL_i(x，y，z))并且

其中ρ_j(x，y，z)是小区j的给定(x，y，z)坐标点的业务密度，σ²是热噪声方差，G_i(x，y，z)是到小区i中的点(x，y，z)处的假定终端设备到服务小区i的信道增益(以线性值给出)，P_i，dB(x，y，z)是由小区i服务的点(x，y，z)处的(假定)终端设备的发送功率(以分贝为单位)，其使用小区i的P_0，i(以分贝为单位)和α_i的所选择的值来计算，P_i(x，y，z)是P_i，dB(x，y，z)写为线性值

P_max是为(假定)终端设备而配置的最大传输功率(以分贝为单位)，并且PL_i(x，y，z)是由小区i服务的(假定)终端设备在点(x，y，z)处的路径损耗(以分贝为单位)。P_i(x，y，z)可以使用等式(1)来计算。

在等式(2)中，总和效用计算为P₀和α值已经被设置的所有小区i中的所有(x，y，z)位置处的吞吐量的业务密度加权几何均值。在计算干扰(即，q(x′，y′，z′)项中的双和)时，假定每个小区的单个终端设备被调度，但取平均值在所有可能位置(x′，y′，z′)上获取，其中业务密度ρ_j(x′，y′，z′)作为每个位置的权重。隐含的假定是，每个位置的调度与其业务密度成比例。项G_i(x′，y′，z′)是受害小区i在小区j中的位置(x′，y′，z′)的信道增益。

然后，立即奖励r(s，a)可以计算为当新小区包括SU_c+1和不包括SU_c时的总和效用之间的差异。在计算SU_c+1时，考虑了为新小区(c+1)设置P₀和α对P₀和α的有效值已经被设置的所有先前小区1，2，...，C的影响。

最后，框202中深度Q学习网络的Q值函数可以定义如下。如上所述，深度Q学习中的Q值函数

给出了在状态s∈S下选择动作a的立即奖励和从下一状态开始的最优(未来)奖励的总和。这个原理可以写为：

其中s′是动作者在动作a被采取时从状态s访问的下一状态，而a′是在状态s′下采取的下一动作。等式(3)可以用作递归更新规则来估计动作值函数Q(s，a)。应当注意，等式(3)对应于所谓的贝尔曼等式。然而，没有折扣因子或比率乘以最大预期未来奖励

因为该过程的每一步确定序列中的下一小区的P₀和α值(即，不是针对下一时间索引)。

在框202中深度Q学习网络已经被初始化之后，计算机设备在框203中针对每个状态利用多个随机状态和多个随机动作来训练深度Q学习网络以逼近Q值函数。每个随机状态最初包括具有无效值的针对全路径损耗补偿的目标接收功率(P₀)和路径损耗补偿系数(α)的预定义数目的对。如上所述，每个动作都需要添加与特定小区相对应的一对新的有效P₀和α值。深度Q学习网络的训练的基本思想是同时逼近Q值函数并且执行贝尔曼等式迭代(即，根据等式(3)进行迭代)，以使Q值函数的逼近收敛到精确的Q值函数。这是通过为深度神经网络(DNN)使用两个优化循环来实现的：一个优化循环以快速时间尺度进行操作并且更新深度神经网络的权重以逼近用于在给定状态和动作的情况下直接评估Q值的Q值函数Q(s，a)的当前最佳估计，另一优化循环用于通过应用等式(3)的右侧而确定的Q值函数(或目标Q值函数)的当前最佳估计的缓慢时间尺度更新。可以考虑用于评估Q值函数的两个基于DNN的优化循环的这个组合以形成深度Q学习网络。关于图3A和图3B更详细地描述训练。

在框303中训练结束之后(即，在找到Q值函数之后)，计算设备在框304中针对每个小区基于(经训练的)Q值函数确定针对全路径损耗补偿的每物理资源块的最优目标接收功率(P₀)和最优路径损耗补偿系数(a)。框304中的确定可以包括从仅包括无效值的状态开始确定连续动作的集合，其中每个动作最大化当前状态的Q值函数。所述集合中的每个动作对应于特定小区的针对全路径损耗补偿的每物理资源块的最优目标接收功率(P₀)和最优路径损耗补偿系数(a)。关于如何确定P₀和α的最优值将在图4中进行更详细的描述。

一旦在框204中确定了每个小区的P₀和α的最优值，计算设备在框205中引起向多个接入节点传输针对全路径损耗补偿的每物理资源块的目标接收功率和路径损耗补偿系数的优化值以用于向多个终端设备的进一步传输。具体地，传输到接入节点的每个消息可以包括仅针对由接入节点提供的一个或多个小区的优化值。根据架构设计，优化值可以具体地被传送到多个接入节点(即，eNB或gNB)的无线电资源控制(RRC)或媒体接入控制(MAC)。优化值的传送可以使用无线电接入网(RAN)的应用程序编程接口(API)来实现。接入节点的RRC/MAC层经由诸如系统信息消息和/或RRC重新配置消息等适当消息将优化值传送到多个小区中的多个终端设备。具体地，由接入节点向由接入节点提供的特定小区传输的每个消息可以包括仅针对由接入节点提供的该特定小区的优化值。根据执行图2的过程的计算设备的性质，计算设备可以在框205中传输优化值本身，或者它可以在框205中引起一个或多个其他计算设备或网络节点传输优化值。

图3A和图3B示出了训练深度Q学习网络的过程。具体地，图3A以流程图的形式示出了训练过程，而图3B示出了相同的训练过程(或根据实施例的其中的至少一些方面)，重点是不同的数学或逻辑实体如何连接和更新。这里，深度Q学习网络可以是关于图2定义的深度Q学习网络。关于图3A和/或图3B讨论的操作和过程可以由如关于图2描述的任何(计算)设备执行，例如，被示出为具有图1的元件108、114或112中的任何一个或者图1的元件108、112、114中的任何一个内的(子)元件的计算设备。

参考图3A，计算设备最初在框301中执行关于图2的框201、202描述的动作(即，维护关于数据业务的信息并且初始化深度Q学习网络)。此后，实际训练过程开始。如上所述，深度Q学习网络的训练的基本思想是同时逼近Q值函数并且执行贝尔曼等式的(一步)迭代(即，根据等式(3)进行迭代)，以将Q值函数的逼近收敛到精确的Q值函数。这两个任务是使用两个优化循环来执行的。在第一优化循环中(至少包括元素320到323)，在元素321中在给定状态和动作的情况下使用深度神经网络直接预测Q值(即，用于评估Q值函数Q(s，a))并且在元素323中以快速时间尺度更新深度神经网络。在第二优化循环中(有效地包含所有元素320到329)，在元素325中使用深度神经网络来评估从下一状态开始的最优(未来)奖励(即，用于评估在等式(3)的右侧的Q(s′，a′))，并且在元素329中以缓慢时间尺度更新深度神经网络(即，与元素323中的更新相比，频率较低)。换言之，尽管所得到的Q值函数估计用于不同的目的，但两个优化循环都用于评估Q值函数。此外，深度神经网络的神经元权重在两个优化循环中更新，但以不同间隔更新。训练的目标是有效学习深度神经网络中神经元的最优权重，使得直接用深度神经网络计算的Q值函数收敛到由贝尔曼等式的1步迭代给出的Q值函数。应当注意，虽然深度神经网络在图3B中被示出为具有两个元件321、325以阐明上述第一和第二优化循环的功能，但这两个元件321、325对应于相同的深度神经网络。

在第一训练步骤中，计算设备在框302中生成随机状态的集合(或一批随机状态)和在随机状态的集合中的每个随机状态下的可能(随机)动作的集合。该过程对应于图3B的框320。一种状态下的可能动作的集合可以包括所述状态下的所有可能动作。备选地，一种状态下的可能动作的集合可以包括在所述状态下的随机选择的可能动作的集合、给出最大Q值的动作的集合或其任何组合。每个随机状态包括具有无效值的针对全路径损耗补偿的目标接收功率(P₀)和路径损耗补偿系数(a)的预定义数目的对。换言之，每个生成的状态包括初始x个小区1，2，...，x的一组有效的P₀和α值、以及按照顺序x+1，x+2，...，C的所有剩余小区的值P₀＝-∞dBm和α＝空值，其中x是正整数。多个小区的顺序可以是任意的，但如上所述是固定的。有效P₀和α值的每个集合中的每个值(处于初始生成状态和执行动作产生的后续状态)可以从允许值的预定义集合(分别为P₀和α而定义)中选择。允许值的预定义集合可以通过预定义值范围和连续值之间的预定义间距来定义。在下文中，我们将状态空间S中的第n状态表示为S_n，将第n状态在动作空间

中的第k动作表示为

在框302中生成的随机状态的集合可以表示为s₁，s₂，...，s_N，其中N是一组(状态)中的预定义状态数目。框302中生成的该组动作可以表示为

其中K是一组(动作)中的预先定义动作数目。在一些实施例中，对于不同状态s₁，s₂，...，S_N，K可以被定义为不同。

此外，计算设备使用随机状态的集合和每个随机状态下的可能随机动作的集合作为输入，计算目标Q值函数作为贝尔曼等式的一步迭代

这里，

是目标Q值函数，s_n+1是在动作

被采取时在初始状态s_n之后的状态，

是在状态s_n+1下执行的动作，

是包括所有动作

的动作空间，其中k＝1，...，K。(立即)奖励

可以使用数据库中维护的查找表(框324)或使用在线计算来计算。奖励可以按照与图2的框202相关的任何定义来定义。

与计算立即奖励相比，计算最大预期累积奖励

的近似要复杂得多。这个计算是通过使用深度神经网络评估所有可能Q值

而执行的，其中

具体地，计算设备可以首先针对初始状态s_n和在初始状态下执行的动作

的每个组合生成后续状态s_n+1和在所述后续状态s_n+1下的所有的允许动作

(框325)，将所述后续状态和所有所述允许动作馈送到深度神经网络326并且取所产生的Q值中的最大Q值作为神经网络的输出。最后，将两次计算的结果相加以产生目标Q值函数

(框327、328)。

在框304中，计算设备将随机状态的集合和可能随机动作的集合(在框302或320中生成)馈送到深度神经网络以产生近似Q值函数Q(s，α)。与较早的实施例类似，s是初始状态并且a是在初始状态下执行的动作。

然后，由计算设备比较在第一优化循环中作为深度神经网络的输出而给出的近似Q值函数

和在第二优化循环中使用深度神经网络而计算的目标Q值函数

具体地，计算设备在框305(和框322)中评估近似Q值函数与目标Q值函数之间的均方误差。计算设备在框306(和框323)中更新深度神经网络的权重以最小化均方误差。这就是所谓的深度Q学习网络的快速时间尺度更新。

框304到306描述的过程可以利用随机状态的相同的集合重复预定次数。换言之，可以使用预定数目的时期。具体地，在图3A中，计算设备在框307中检查是否已经达到所述预定义的重复次数(或所述预定义时期数)，并且如果不是，则执行框304至307。计算设备可以维护用于跟踪这些重复的计数器。

一旦计算设备在框307中确定已经达到所述第一预定义的重复次数，则深度Q学习网络的所谓的缓慢时间尺度更新329就已经完成。每个缓慢时间尺度更新可以称为一个情节或迭代。此后，计算设备在框308中根据预定义标准确定深度神经网络是否已经收敛。例如，预定义标准可以定义均方误差的最大允许值和/或均方误差的两个或更多个连续计算之间的差异的最大允许值。预定义标准可以定义均方误差应当小于或等于对于均方误差的预定义数目的连续计算或预定义数目的连续情节的所述最大允许值。当均方误差的计算值不再下降时，可以认为深度神经网络中所有神经元的权重已经收敛。另外地或备选地，预定义标准可以定义针对状态和动作的结合在两个或更多个连续情节上的近似Q值函数的变化的最大允许值。

如果计算设备在框308中确定没有发生收敛，则计算设备重复与框302到308有关的动作(即，开始新的训练情节)。换言之，计算设备在框302中生成随机状态的新的集合和每个随机状态下的可能动作的新的集合，并且在框303中使用随机状态的所述新的集合和可能动作的所述新的集合作为输入计算贝尔曼等式的1步迭代以产生如上所述的新目标Q值函数，尽管现在使用具有更新的神经元权重(即，在框306的最新迭代期间更新)的深度神经网络。随后，如上所述重复与框304到308有关的动作(尽管现在使用新的随机状态和动作、新的目标Q值函数和当前的深度神经网络)。如果计算设备在框308中确定收敛已经发生，则计算设备执行与图2的框204、205相关的动作(即，确定最优P₀和α值并且引起将它们传输到多个接入节点)。

图4示出了用于基于完全训练的深度神经网络来确定所有小区的最优功率控制参数(P₀和α)的基于我们的DQN的过程的推理部分。图4中采用的深度神经网络402可能已经如关于图3A和图3B所讨论的那样被训练。具体地，图4中的深度神经网络402可以是在收敛之后关于图3A和图3B所讨论的深度神经网络。图4所示的过程可以对应于图2的框204。图4的过程可以由执行结合图2、图3A和图3B讨论的实施例的任何(计算)设备来执行。

参考图4，计算设备首先在元件401中生成零状态S₀，在零状态S₀下，所有多个小区的P₀和α分别为-∞和空值。然后，计算设备在元件402中将零状态S₀以及在所述零状态S₀下的所有可能动作

输入完全训练的深度Q学习网络(即，如关于图3A和图3B讨论的经过训练的深度神经网络)以产生零状态的多个Q值

作为输出403。这里，K是所有可能动作的数目。

从零状态的多个Q值中，计算设备在框404中找到最优动作

最优动作是当在零状态中下采取时产生多个Q值中的最大Q值的动作。换言之，计算设备使用以下等式确定最优动作：

该最优动作为序列中的第一单元定义P₀和α的最优值。因此，在框404中，计算设备为序列中的第一小区(或通常为有效值尚未定义的序列中的下一小区)设置P₀和α的所述最优值。此外，计算设备在元件405中将在零状态下的最优动作

之后的状态设置为当前状态，并且在元件406中重复该过程(即，关于元件402至406所描述的过程)以依次为所有多个小区生成P₀和α的最优值。最终结果是为所有多个小区定义P₀和α的最优值(或最优设置)的状态，而没有任何无效(-∞或空)值。应当注意，与图4中的元件405相关的符号仅适用于该过程的第一次重复或迭代。

在确定了P₀和α的最优值并且将其传送给多个终端设备之后，多个终端设备使用接收到的P₀和α值来配置它们的上行链路功率。根据实施例的基于深度Q学习的方案可以具体地根据到业务/终端设备的负载和空间分布来调节P₀和α，使得

-重负载的小区具有较大的P₀和α值，而其轻负载的相邻小区具有较小的P₀和α值，

-小区边缘终端设备的比例较大的小区具有较大的P₀和α值，而小区边缘终端设备的较少的相邻小区具有较小的P₀和α值。

通常，可以优化系统范围的吞吐量指标。

然而，多个小区中的业务状况可能随着时间而改变。因此，需要随着时间动态地重新优化多个小区的P₀和α参数的设置。图5示出了根据实施例的用于执行这种重新优化的过程。所示过程可以由关于图2描述的任何计算设备执行。

参考图5，框501到505(至少在最初执行时)可以对应于图2的框201到205。此外，关于图3A、图3B和图4讨论的任何实施例也可以应用于这里，即，框503中的训练可以如关于图3A和/或图3B的框302至309所描述的那样执行，并且框504中的确定可以如关于图4所描述的那样执行。在经过一段时间之后，由于最优P₀和α设置从计算设备传输到多个终端设备(经由多个接入节点)，计算设备在框506中接收关于多个小区中的(涉及多个终端设备的)数据业务的另外的信息(或新信息)。所述另外的信息可以对应于在特定时间帧内发生在多个小区中的(最新)数据业务，该时间帧可以是在最优P₀和α设置被传输之后的时间帧。可以周期性地(例如，由多个接入节点)向计算设备传输关于数据业务的新信息。

响应于在框506中接收到关于数据业务的新信息，计算设备将关于数据业务的另外的信息存储到数据库中，以便补充或更新已经在数据库中维护的关于数据业务的信息。例如，计算设备可以更新数据库中维护的业务密度和/或SINR分布以更好地对应于当前数据业务状况。然后，计算设备重复与框503至505有关的动作。与Q值函数的初始生成相比的不同之处在于，现在，先前优化可以作为重新优化的起点。鉴于图3A和图3B，在重新优化开始时，深度神经网络可能具有基于关于数据业务的原始(或先前)信息而得出的收敛权重。如果多个小区中的数据业务没有发生显著变化，则先前得出的Q值函数可能需要非常少的微调或甚至根本不需要调节。

虽然以上假定重新优化由新数据业务信息的接收触发，但在其他实施例中，计算设备可以不断地或连续地以高速率从多个接入节点接收关于数据业务的信息。在这种情况下，连续运行重新优化循环(即，框503到506)可能是不可行的。取而代之，重新优化可以在预定义时间段和/或一旦已经收集到预定义量的新数据业务信息而自动触发。在一些实施例中，如果在与多个小区相关联的数据业务中检测到显著变化(例如，由接入节点、计算设备或其他网络节点)，则可以另外地或备选地触发重新优化。

图6是示出根据实施例的如何从计算设备向终端设备分发最优功率控制参数P₀和α以及如何基于此来配置终端设备的上行链路传输功率的信令图。虽然为了讨论的简单，图6仅示出了服务于单个终端设备的单个接入节点，但是下面要讨论的过程也以类似的方式适用于包括多个接入节点的无线通信网络，每个接入节点服务于多个终端设备(或一个或多个终端设备)。图6可以对应于图1的通信系统或其一部分。具体地，图6中的终端设备可以对应于图1中的UE 100、102中的任何一个，接入节点可以对应于图1的元件104并且计算设备可以对应于图1中的元件108、112、114中的任何一个或图1的元件108、110、112、114中的任何一个内的(子)元件。通常，计算设备可以是核心网中的网络元件或节点。

参见图6，计算设备首先在框601中执行图2的框201至204，即，计算设备初始化和训练深度Q学习网络，并且使用经训练的深度Q学习网络为多个小区确定针对全路径损耗补偿的每PRB的最优目标接收功率(P₀)和最优路径损耗补偿系数(a)。训练(即，框203)可以如关于图3A和图3B所描述的那样执行，和/或最优值的确定(即，框204)可以如关于图4所描述的那样执行。

然后，计算设备在消息602中向所述接入节点传输由接入节点服务的小区的P₀和α的最优值。在一些实施例中，消息602还可以包括由所述接入节点服务和/或由其他接入节点服务的其他小区的P₀和α的最优值。在一些实施例中，消息602可以包括深度Q学习中涉及的所有多个小区的P₀和α的最优值的完整集合。总之，计算设备可以向服务于多个小区的多个接入节点传输P₀和α的最优值(尽管为了简单起见，图6中明确示出了所述传输中的仅一个)。如关于上述实施例所述，优化值可以具体地被传送到接入节点的RRC或MAC。优化值的传送可以使用接入节点的无线电接入网(RAN)的API来实现。

接入节点在框603中接收(至少)由所述接入节点服务的所述小区的P₀和α的最优值，并且因此(或随后)在消息604中向位于小区内的多个终端设备传输所述小区的P₀和α的最优值。在图6中，为了简单起见，示出了多个终端设备中的仅一个。具体地，接入节点的RRC或MAC层可以将优化值传送给终端设备，例如，作为系统信息消息和/或RRC重新配置消息。

在框605中，终端设备从接入节点接收终端设备所在的小区的至少P₀和α的最优值。响应于接收，终端设备基于针对全路径损耗补偿的每PRB的最优目标接收功率和最优路径损耗补偿系数来配置其上行链路传输功率。上行链路传输功率可以根据等式(1)或根据在等式(1)以下讨论的任何更一般的实施例来配置。例如，框605中的上行链路传输功率的配置可以包括将上行链路传输功率选择为以下两者中的最小一者：以分贝为单位的为所述终端设备而配置的最大传输功率和以分贝为单位的两个或更多个项的总和，其中该两个或更多个项至少包括以分贝为单位的针对全路径损耗补偿的每PRB的目标接收功率和路径损耗补偿系数乘以以分贝为单位的由所述终端设备计算的下行链路路径损耗。在一些实施例中，上行链路传输功率(其可以对应于PUSCH传输功率)的配置可以根据等式(1)来执行。

上面通过图2、图3A、图3B、图4、图5和图6描述的框、相关功能和信息交换没有绝对的时间顺序，并且其中一些可以同时或以不同于给定顺序的顺序执行。也可以在它们之间或在它们内部执行其他功能，并且可以发送和/或接收其他信息，和/或应用其他映射规则。一些框或部分框或一条或多条信息也可以被省略或替换为对应的框或框的一部分或一条或多条信息。

图7提供了根据一些实施例的计算设备701(或者备选地是设备或网络元件或节点)。图7可以示出计算设备，该计算设备被配置为至少执行上文结合使用深度Q学习优化多个小区中的上行链路功率控制所描述的功能。计算设备可以对应于图1的元件108、112、114中的任何一个或者图1的元件108、110、112、114中的任何一个内的(子)元件。计算设备701可以包括一个或多个控制电路系统720(诸如至少一个处理器)和至少一个存储器730，存储器730包括一个或多个算法731，诸如计算机程序代码(软件)，其中至少一个存储器和计算机程序代码(软件)被配置为与至少一个处理器一起分别引起计算设备执行上述计算设备的示例性功能中的任何一个。

参考图7，计算设备的控制电路系统720至少包括学习电路系统721。学习电路系统721可以被配置为根据实施例基于深度Q学习网络执行上行链路功率控制优化，并且为此，使用一个或多个个体电路系统通过图2、图3A、图3B、图4和图5(以及关于计算设备的功能的图6)中的任何一个来执行上述功能中的至少一些功能。

存储器730可以包括数据库732，数据库732可以至少包括关于多个小区中的数据业务的信息，如先前实施例中所述。根据任何呈现的实施例，存储器730还可以包括可能与计算设备的功能无关的其他数据库。存储器730可以使用任何合适的数据存储技术来实现，诸如基于半导体的存储器设备、闪存、磁存储器设备和系统、光存储器设备和系统、固定存储器和可移动存储器。

参考图7，计算设备还可以包括不同接口710，诸如一个或多个通信接口(TX/RX)，接口710包括用于根据一种或多种通信协议通过介质实现通信连接的硬件和/或软件。具体地，用于计算设备(例如，核心网中的网络元件)的通信接口710可以为计算设备提供通信能力以在无线通信系统中进行通信并且使得能够在多个接入节点之间、在多个终端设备之间(可能经由所述多个接入节点)和与一个或多个其他网络节点或元件(例如，与一个或多个核心网络元件)进行通信。通信接口可以包括标准的众所周知的组件，诸如放大器、滤波器、变频器、(解)调制器和编码器/解码器电路系统，该组件由对应的控制单元和一个或多个天线控制。计算设备还可以包括不同的用户接口。

图8提供了根据一些实施例的终端设备801。图8可以示出被配置为至少执行上述与基于最优功率控制参数P₀和α(使用深度Q学习优化)配置上行链路功率控制相关的功能的终端设备。终端设备801可以对应于图1的UE 100、102中的任何一个。每个终端设备可以包括一个或多个控制电路系统820(诸如至少一个处理器)和至少一个存储器830，存储器830包括一个或多个算法831，诸如计算机程序代码(软件)，其中至少一个存储器和计算机程序代码(软件)被配置为与至少一个处理器一起分别引起终端设备执行上述终端设备的示例性功能中的任何一个。存储器830还可以包括至少一个数据库832。

参考图8，终端设备的控制电路系统820至少包括上行链路功率控制电路系统821。上行链路功率控制821可以被配置为执行根据实施例的上行链路功率控制配置，并且为此，使用一个或多个个体电路系统通过图6的框605、606来实现上述功能中的至少一些功能。

存储器830可以使用任何合适的数据存储技术来实现，诸如基于半导体的存储器设备、闪存、磁存储器设备和系统、光存储器设备和系统、固定存储器和可移动存储器。

参考图8，终端设备还可以包括不同接口810，诸如一个或多个通信接口(TX/RX)，接口810包括用于根据一种或多种通信协议实现介质上的通信连接的硬件和/或软件。具体地，用于终端设备的通信接口810可以为终端设备提供通信能力以在无线通信系统中进行通信并且使得能够与接入节点中的一个或多个、多个终端设备(可能经由所述多个接入节点)和/或一个或多个其他网络节点或元件进行通信。通信接口可以包括标准的众所周知的组件，诸如放大器、滤波器、变频器、(解)调制器和编码器/解码器电路系统，该组件由对应的控制单元和一个或多个天线控制。终端设备还可以包括不同的用户接口。

本申请中使用的术语“电路系统”可以是指以下中的一项或多项或全部：(a)纯硬件电路实现，诸如仅在模拟和/或数字电路系统中的实现，以及(b)硬件电路和软件(和/或固件)的组合，诸如(如果适用)：(i)模拟和/或数字硬件电路与软件/固件的组合，以及(ii)具有软件的硬件处理器的任何部分，包括数字信号处理器、软件和存储器，其一起工作以引起装置(诸如终端设备或接入节点)执行各种功能，以及(c)硬件电路和处理器，诸如微处理器或微处理器的一部分，其需要软件(例如，固件)进行操作，但是当操作不需要时，该软件可以不存在。该电路系统的定义适用于该术语在本申请中的所有使用，包括在任何权利要求中。作为另一示例，如本申请中使用的，术语电路系统还涵盖仅硬件电路或处理器(或多个处理器)或硬件电路或处理器的一部分及其(或它们的)伴随软件和/或固件的实现。术语“电路系统”还涵盖(例如，如果适用于特定的权利要求要素)用于接入节点或终端设备或其他计算或网络设备的基带集成电路。

在实施例中，至少一个处理器、存储器和计算机程序代码形成处理部件，或者包括用于执行根据图2、图3A、图3B、图4、图5和图6的实施例中的任何一个实施例的一个或多个操作的一个或多个计算机程序代码部分、或其操作。

在一个实施例中，结合图2、图3A、图3B、图4、图5和图6描述的过程中的至少一些可以通过包括用于执行所描述的过程中的至少一些过程的对应部件的装置来进行。用于执行过程的一些示例部件可以包括以下中的至少一种：检测器、处理器(包括双核和多核处理器)、数字信号处理器、控制器、接收器、发射器、编码器、解码器、存储器、RAM、ROM、软件、固件、显示器、用户界面、显示电路系统、用户界面电路系统、用户界面软件、显示软件、电路、天线、天线电路系统和电路系统。在一个实施例中，至少一个处理器、存储器和计算机程序代码形成处理部件，或者包括用于执行根据图2、图3A、图3B、图4、图5和图6的实施例中的任何一个实施例的一个或多个操作的一个或多个计算机程序代码部分、或其操作。

本文中描述的技术和方法可以通过各种方式来实现。例如，这些技术可以在硬件(一个或多个设备)、固件(一个或多个设备)、软件(一个或多个模块)或其组合中实现。对于硬件实现，实施例的(多个)装置可以在一个或多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、被设计为执行本文中描述的功能的其他电子单元、或其组合内实现。对于固件或软件，实现可以通过执行本文中描述的功能的至少一个芯片组(例如，程序、功能等)的模块来进行。软件代码可以存储在存储器单元中并且由处理器执行。存储器单元可以在处理器内或在处理器外部实现。在后一种情况下，它可以通过本领域已知的各种方式与处理器通信耦合。此外，本文中描述的系统的组件可以通过附加组件重新布置和/或补充以促进关于其描述的各个方面等的实现，并且它们不限于在给定附图中阐述的精确配置，如本领域技术人员将理解的。

所描述的实施例也可以以由计算机程序或其部分限定的计算机过程的形式来进行。结合图2、图3A、图3B、图4、图5和图6描述的方法的实施例可以通过执行包括对应指令的计算机程序的至少一部分来执行。计算机程序可以被提供作为包括存储在其上的程序指令的计算机可读介质或作为包括存储在其上的程序指令的非暂态计算机可读介质。计算机程序可以是源代码形式、目标代码形式或某种中间形式，并且可以存储在某种载体中，该载体可以是能够承载该程序的任何实体或设备。例如，计算机程序可以存储在由计算机或处理器可读的计算机程序分发介质上。例如，计算机程序介质可以是例如但不限于记录介质、计算机存储器、只读存储器、电载波信号、电信信号和软件分发包。计算机程序介质可以是非暂态介质。用于执行所示出和描述的实施例的软件编码完全在本领域普通技术人员的范围内。

尽管上面已经参考根据附图的示例描述了本发明，但是显然本发明不限于此，而是可以在所附权利要求的范围内以多种方式进行修改。因此，所有词语和表达都应当被广义地解释并且它们旨在说明而不是限制实施例。对于本领域技术人员来说很清楚的是，随着技术的进步，本发明构思可以以各种方式实现。此外，本领域技术人员清楚，所描述的实施例可以但不必须以各种方式与其他实施例组合。

Claims

1.一种用于控制多个小区中的多个终端设备的上行链路传输功率的计算设备，其中每个终端设备被配置为至少基于针对全路径损耗补偿的每物理资源块PRB的目标接收功率和路径损耗补偿系数来确定其上行链路传输功率，所述计算设备包括至少一个处理器；以及包括计算机程序代码的至少一个存储器，所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述计算设备执行：

在数据库中维护关于所述多个小区中涉及所述多个终端设备的数据业务的信息；

初始化深度Q学习网络，其中

-状态被定义为针对全路径损耗补偿的每PRB的所述目标接收功率和所述路径损耗补偿系数的对的集合，其中每个对对应于所述多个小区中的一个小区，

-给定状态下的动作被定义为针对当前具有无效值的对，选择针对全路径损耗补偿的每PRB的所述目标接收功率和所述路径损耗补偿系数的有效值，以及

-采取动作的奖励基于关于所述多个小区中的所述数据业务的所述信息而被计算，以优化在所述多个小区中的所有小区上的整体上行链路性能；

利用多个随机状态和多个随机动作来训练所述深度Q学习网络以逼近Q值函数，其中每个随机状态最初包括具有随机有效值的针对全路径损耗补偿的每PRB的所述目标接收功率和所述路径损耗补偿系数的预定义数目的对，其中每个随机状态下的所述对中的其余对具有无效值，所述对中的所述其余对包括至少一个对；

针对每个小区，基于所述Q值函数确定针对全路径损耗补偿的每PRB的最优目标接收功率和最优路径损耗补偿系数；以及

引起向所述多个接入节点发送针对全路径损耗补偿的每PRB的所述目标接收功率和所述路径损耗补偿系数的优化值以用于向所述多个终端设备的进一步传输。

2.根据权利要求1所述的计算设备，其中关于数据业务的所述信息可以包括针对所述多个小区中的每个小区的关于以下一项或多项的信息：业务密度、用户分布、所述小区内的终端设备的配置、信道特性、小区内干扰和小区间干扰。

3.根据权利要求1或2所述的计算设备，其中所述至少一个存储器和所述计算机程序代码还被配置为与所述至少一个处理器一起使所述计算设备执行：

接收关于所述多个小区中涉及所述多个终端设备的的数据业务的另外的信息；

将关于数据业务的所述另外的信息存储到所述数据库，以补充或更新在所述数据库中维护的关于数据业务的所述信息；以及

通过重复所述训练、所述确定和所述引起发送，来重新优化所述深度Q学习网络以考虑所述另外的信息。

4.根据前述权利要求中任一项所述的计算设备，其中针对所述深度Q学习网络中的状态和动作的所述Q值函数被定义为针对所述状态和动作的所述奖励与在所述动作被执行时在所述状态之后的所有状态和动作的最大累积奖励的总和。

5.根据前述权利要求中任一项所述的计算设备，其中所述深度Q学习网络的所述训练包括：

a)生成随机状态的集合和在所述随机状态的集合中的每个随机状态下的可能随机动作的集合；

b)使用所述随机状态的集合和所述可能动作的集合作为输入，将目标Q值函数计算为贝尔曼等式的1步迭代

其中

是所述目标Q值函数，s_n+1是在动作

被采取时在初始状态s_n之后的状态，

是在所述状态s_n+1下执行的动作，

是在所述状态s_n下采取所述动作

得到的奖励，

是包括所有可能动作

的动作空间，以及

是通过使用深度神经网络评估所有可能Q值

而被计算的，其中

c)将所述随机状态的集合和所述可能随机动作的集合馈送到所述深度神经网络以产生近似Q值函数Q(s，a)，其中s是初始状态，并且α是在所述初始状态下被执行的动作；

d)评估所述近似Q值函数与所述目标Q值函数之间的均方误差；

e)更新所述深度神经网络的权重以最小化所述均方误差；

f)利用相同的随机状态的集合和相同的可能随机动作的集合来重复步骤c)和e)，直到预定义的重复次数被达到(307)；以及

g)利用不同的随机状态的集合和每次生成的对应的可能随机动作的集合来重复步骤a)到f)，直到所述近似Q值函数与所述目标Q值函数之间的所述均方误差被检测为收敛。

6.根据权利要求5所述的计算设备，其中所述贝尔曼等式的所述1步迭代的所述计算包括：

使用所述数据库中维护的查找表或使用在线计算来计算所述奖励

通过如下来计算

针对初始状态s_n和在所述初始状态下被执行的动作

将所述后续状态和所有的所述允许动作馈送到所述神经网络并且取所产生的Q值中的最大Q值作为所述神经网络的输出；以及

计算

和

的总和。

7.根据前述权利要求中任一项所述的计算设备，其中针对全路径损耗补偿的每PRB的所述最优目标接收功率和所述最优路径损耗补偿系数的所述确定包括：

1)生成零状态，在所述零状态下，针对所述多个小区中的所有小区的针对全路径损耗补偿的每PRB的所述目标接收功率和所述路径损耗补偿系数具有无效值，其中所述零状态被定义为当前状态；

2)将所述当前状态连同在所述当前状态下的所有可能动作输入到所述深度Q学习网络中，以产生针对所述当前状态的多个Q值作为输出；

3)从针对所述当前状态的所述多个Q值中找到最优动作，所述最优动作是当在所述当前状态下被采取时产生所述多个Q值中的最大Q值以及针对全路径损耗补偿的每PRB的所述目标接收功率和所述路径损耗补偿系数的相关联的最优值的动作；

4)依次针对有效值尚未被定义的下一小区设置所述最优值；

5)将在所述当前状态下采取的所述最优动作之后的所述状态设置为所述当前状态；以及

6)重复步骤2)到5)，直到针对所述多个小区中的所有小区的最优值已经被确定。

8.根据前述权利要求中任一项所述的计算设备，其中针对全路径损耗补偿的每PRB的所述目标接收功率和所述路径损耗补偿系数的有效值被限制为预定义值范围中的具有预定义间距的值，所述预定义间距针对全路径损耗补偿的每PRB的所述目标接收功率和所述路径损耗补偿系数被分别定义，针对全路径损耗补偿的每PRB的所述目标接收功率的无效值被定义为-∞dBm并且所述路径损耗补偿系数的无效值被定义为空值。

9.根据前述权利要求中任一项所述的计算设备，其中所述奖励被定义为所述多个小区中的有效值已经被设置的、包括新小区的所有小区的总和效用与所述多个小区中的有效值已经被设置的、不包括所述新小区的所有小区的总和效用之间的差值，所述总和效用被定义为有效值已经被设置的一个或多个小区中的终端设备的终端设备吞吐量的几何均值或总和，或者被定义为有效值已经被设置的一个或多个小区中的终端设备的信干噪比的总和。

10.根据权利要求9所述的计算设备，其中所述总和效用被计算为：

其中，

ρ_j(x，y，z)是针对小区j的给定(x，y，z)坐标点的业务密度，σ²是热噪声方差，G_i(x，y，z)是对小区i中的所述点(x，y，z)处的假定终端设备到服务小区i的信道增益，P_i(x，y，z)是由所述小区i服务的所述点(x，y，z)处的终端设备的发送功率，所述发送功率取决于针对所述小区i的针对全路径损耗补偿的每PRB的所述目标接收功率P_0，i和所述路径损耗补偿系数α_i的值，并且-∞和空值分别是针对全路径损耗补偿的每PRB的所述目标接收功率和所述路径损耗补偿系数的无效值。

11.根据前述权利要求中任一项所述的计算设备，其中所述多个终端设备中的每个终端设备被配置为将其上行链路传输功率确定为以下两者中的最小一者：以分贝为单位的针对所述终端设备配置的最大传输功率和以分贝为单位的两个或更多个项的总和，所述两个或更多个项至少包括以分贝为单位的针对全路径损耗补偿的每PRB的所述目标接收功率和所述路径损耗补偿系数乘以以分贝为单位的由所述终端设备计算的下行链路路径损耗。

12.根据前述权利要求中任一项所述的计算设备，其中所述计算设备是用于核心网的网络元件。

13.一种用于控制多个小区中的多个终端设备的上行链路传输功率的方法，其中每个终端设备被配置为至少基于针对全路径损耗补偿的每物理资源块PRB的目标接收功率和路径损耗补偿系数来确定其上行链路传输功率，所述方法包括：

初始化深度Q学习网络，其中

14.一种计算机程序，包括存储在其上的指令，所述指令用于至少执行以下操作：

初始化深度Q学习网络，其中

-状态被定义为针对全路径损耗补偿的每物理资源块PRB的目标接收功率和路径损耗补偿系数的对的集合，其中每个对对应于多个小区中的一个小区，

-采取动作的奖励由多个终端设备基于关于所述多个小区中的数据业务的信息而被计算，以优化在所述多个小区中的所有小区上的整体上行链路性能，关于数据业务的所述信息被维护在数据库中；

引起向所述多个接入节点发送针对全路径损耗补偿的每PRB的所述目标接收功率和所述路径损耗补偿系数的优化值以用于向多个终端设备的进一步传输，其中每个终端设备被配置为至少基于针对全路径损耗补偿的每PRB的所述目标接收功率和所述路径损耗补偿系数来确定其上行链路传输功率。