CN115866610A

CN115866610A - 基于强化学习（rl）和图神经网络（gnn）的无线接入网资源管理

Info

Publication number: CN115866610A
Application number: CN202210857784.4A
Authority: CN
Inventors: V·纳拉西玛斯沃米; H·尼科普尔; O·奥尔汗; S·塔瓦尔
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2021-09-23
Filing date: 2022-07-20
Publication date: 2023-03-28
Also published as: EP4156631A1; US20230093673A1

Abstract

一种在NG无线网络中实现RL管理实体的计算节点包括NIC和耦合到NIC的处理电路。处理电路被配置为：为对应的多个网络功能生成多个网络测量。这些功能被配置为形成多级层次结构的多个ML模型。对来自多个ML模型中的ML模型的控制信令进行解码，该ML模型在层次结构中处于预定层级(例如，最低层级)。控制信令响应于对应的网络测量和来自处于比预定层级高的层级的第二ML模型的至少第二控制信令。基于来自多级层次结构中处于预定层级的ML模型的控制信令，生成多个奖励函数以用于训练ML模型。

Description

基于强化学习(RL)和图神经网络(GNN)的无线接入网资源管理

技术领域

各种实施例总体可以涉及无线网络管理领域，包括基于强化学习(RL)和图神经网络(GNN)的无线接入网资源管理。

背景技术

移动通信已经从早期的语音系统显著演进到当今的高度复杂的集成通信平台。随着与各种网络设备通信的不同类型的设备增加，3GPP LTE系统的使用也增加了。移动设备(用户设备或UE)在现代社会中的渗透继续推动在许多不同环境中对各种联网设备的需求。第五代(5G)无线系统即将问世，并且有望实现更高的速度、连接性和可用性。下一代5G网络(或NR网络)有望提高吞吐量、覆盖和鲁棒性，并减少时延以及运营和资本支出。5G-NR网络将基于3GPP LTE-Advanced继续演进，添加潜在的新无线接入技术(RAT)，以通过无缝的无线连接解决方案丰富人们的生活，交付快速、丰富的内容和服务。由于当前的蜂窝网络频率已饱和，更高的频率(例如，毫米波(mmWave)频率)因其高带宽而会是有益的。

在未来的版本和更高代的系统(例如，5G、6G等)中可以期待无线接入网的进一步增强的操作，包括在授权和免授权频谱中操作的基于LTE和NR的接入网。这种增强的操作可以包括用于基于RL和GNN的无线接入网资源管理的技术。

附图说明

在附图中(附图不一定按比例绘制)，相似的数字在不同的视图中可以描述相似的组件。具有不同字母后缀的相似数字可以表示相似组件的不同实例。附图通过示例而非限制的方式大致示出了本文档中讨论的各个方面。

图1示出了根据一些示例实施例的具有由资源管理节点(RMN)执行的基于RL和GNN的资源管理的示例性无线接入网。

图2是示出根据一些示例实施例的使用DL训练架构训练深度学习(DL)程序的框图。

图3是示出根据一些示例实施例的使用在DL训练架构内训练的神经网络模型来生成训练后的DL程序的图示。

图4示出了根据一些示例实施例的下一代无线网络的图形抽象。

图5示出了根据一些实施例的可以使用所公开的资源管理技术的无线接入网中的示例层次结构。

图6示出了根据一些实施例的被配置为形成多级层次结构的多个机器学习模型的多个网络功能。

图7示出了根据一些实施例的示例RL模型。

图8示出了根据一些实施例的多级(例如，两级)分层时间抽象。

图9示出了根据一些实施例的优化单个优化度量的具有用于无线网络的时间抽象的分层强化学习。

图10示出了根据一些实施例的策略上的示例层次结构。

图11示出了根据一些实施例的用于无线网络的原始策略上的示例层次结构。

图12示出了根据一些实施例的具有自适应终止条件的无线网络的分层时间抽象。

图13示出了根据一些实施例的网络功能到具有终止条件的无线网络的分层时间抽象的映射。

图14示出了根据一些实施例的具有最优策略指导的分层模型发现。

图15和图16示出了根据一些实施例的用于无线网络的分层模型发现。

图17示出了根据一些实施例的具有评论网络的分层时间抽象。

图18示出了根据一些实施例的具有用于无线网络的评论网络的分层时间抽象。

图19示出了根据一些实施例的分层生成模型。

图20示出了根据一些实施例的用于无线网络的分层生成模型。

图21示出了根据一些实施例的具有随机神经网络的分层强化学习模型。

图22和图23示出了根据一些实施例的具有随机神经网络的无线网络的分层抽象。

图24示出了根据一些实施例的用于无线网络的GNN架构。

图25示出了根据一些实施例的用于基于RL和GNN的资源管理的方法的流程图。

图26示出了在其上可以执行本文讨论的任何一种或多种操作/技术(例如，方法)的示例机器的框图。

具体实施方式

以下详细描述参照附图。在不同附图中可以使用相同的附图标记来识别相同或相似的元件。在以下描述中，出于解释而非限制的目的，阐述了具体细节，例如特定结构、架构、接口、技术等，以提供对各种实施例的各个方面的透彻理解。然而，对于受益于本公开的本领域技术人员将显而易见的是，可以在背离这些具体细节的其他示例中实践各种实施例的各个方面。在某些情况下，省略了对众所周知的设备、电路和方法的描述，以免因不必要的细节而掩盖对各种实施例的描述。

下面的描述和附图充分示出了具体实施例，以使得本领域技术人员能够实践它们。其他实施例可以结合结构、逻辑、电气、过程和其他变化。一些实施例的部分和特征可以包括于或替代以其他实施例的部分和特征。权利要求中概述的实施例涵盖那些权利要求的所有可用等同物。

下一代(NG)无线网络架构被设想为由至少三个主要控制环路组成：使用非实时无线接入网(RAN)智能控制器(Non-RT RIC)的控制环路(其中，关联的时延>1s)，使用近实时RAN智能控制器(near-RT RIC)的控制环路(其中，关联的时延为10ms-1s)，以及使用实时智能控制器(RIC)的控制环路(其中，关联的时延<10ms)。在一些方面中，控制环路并行运行，并且取决于用例，可以彼此交互。在一些方面中，控制环路会彼此冲突，从而导致网络管理欠优或不稳定。虽然之前已经研究过网络资源的联合优化和管理，但是人工智能(AI)和机器学习(ML)方法会潜在地带来更低复杂度的解决方案以及更好的性能。所公开的技术可以用于管理具有不同时间尺度的网络功能。换言之，网络功能可以被配置为在多个时间尺度上以层次结构操作。按照所公开的技术，可以在多个时间尺度上使用分层强化学习，并在网络功能上进行联合优化。所提出的技术可以包括从较高层次代理为较低层次代理定义内在目标和奖励。此外，所公开的技术可以包括组合多个代理(例如，基站或小区)的技能(或策略)以实现更好的网络性能。

此外，所公开的技术还定义了考虑包括设备和基站在内的整个网络节点之间的协作的神经网络架构。在一些方面中，图神经网络(GNN)框架可以用于捕获无线网络。所公开的技术结合具有(例如，在中央单元(CU)、分布式单元(DU)和无线电单元(Ru)处的)多种类型节点的异构无线式无线接入网进行讨论。这些功能可以与在它们之间定义的接口进行交互。无线网络的每个逻辑功能可以被表示为图中的节点，并且每个接口可以表示为图中的边。将无线网络表示为图允许使用GNN工具(例如，图卷积神经网络、时空神经网络等)从网络逻辑实体中提取相关特征。这些工具可以学习具有不同尺度和配置的无线网络的隐藏空间和时间特征，而与最优解决方案相比，没有显著性能损失。此外，GNN可以用于对整个(超大规模)异构和/或不规则网络进行建模，并且使得可缩放的本地处理成为可能。在一些方面中，所公开的技术使用GNN架构作为合适的工具来(a)提供可缩放的优化/自适应解决方案；(b)对建模不准确或不可用的基础设施进行建模；(c)促进多层和多时间尺度接入网的联合优化。

在一些方面中，无线网络具有多个时间尺度控制环路。这些环路目前独立操作，并且具有不同的目标函数，这会导致网络操作不稳定和低效。所公开的技术可以用于为多时间尺度无线网络定义统一的控制框架，具有公共的多维目标函数。当存在包括多个时间尺度和控制环路的多级层次结构时，所公开的技术可以用于优化和设计弹性网络。所公开的技术还识别信令和架构要求。另外，所公开的技术还描述如何将网络节点映射到图，如何使用RAN信息与不同类型的节点形成图邻接矩阵，以及可以使用何种类型的RAN信息来配置无线网络以用于目标优化问题。

新兴的垂直应用，例如工业物联网(IIoT)、扩展现实(XR)和自主系统，对服务于它们的基础设施提出了严格的通信和计算要求，以向用户交付无缝的实时的体验。云计算(与本地的设备上的计算不同)通常用于支持这些应用的大量计算要求。然而，至计算云服务器的通信时延潜在地会是非常大的，从而导致负面的用户体验。为了全面解决这个问题，支持用户终端设备与云服务器之间的连接的网络需要是可靠的，高吞吐量(数据速率)，低时延和对环境动态的弹性。因此，可以与计算和通信资源并行地或联合地增强无线电网络，以满足新兴应用的新要求。此外，下一代蜂窝网络正在从不灵活的硬连线网络过渡到分散式架构，再到支持软件和虚拟化的开放网络。例如，典型地是，前端和后端设备供应商和运营商密切合作以确保兼容性。这种工作模型的另一面是难以与其他设备即插即用，这限制了网络改进。在一些方面中，为了解决这个问题并促进每个层级的开放性和互操作性，可以引入RAN分解。

在一些方面中，宏基站可以为设备提供蜂窝无线电连接。宏基站网络的一些典型问题包括覆盖盲区、掉话、抖动、高时延和视频缓冲延迟。这些问题对于弹性网络应用来说是不期望的。为了解决此类连接性问题，可以使用智能的网络级方法来优化和管理网络资源，以代替分散的和欠优的解决方案。在所公开的技术中，可以使用基于人工智能的框架来配置网络级优化框架。这些框架将无线网络的结构整合到基于分层强化学习和空间图的神经网络中。

图1示出了根据一些示例实施例的具有由资源管理节点(RMN)执行的基于RL和GNN的资源管理的无线接入网100。参照图1，无线接入网100包括与不同时延的不同控制环路关联的网络实体(例如，网络节点)。例如，无线接入网包括与大约100ms的云时延关联的云网络实体102。云网络实体102与网络时延大约为10ms的多接入边缘计算(MEC)/RIC网络实体104和106通信。MEC/RIC网络实体104和106与网络时延大约<1ms的网络实体108、110、112、114和116通信。云网络实体102可以使用与非RT RIC关联的控制环路。网络实体104和106可以使用与近RT RIC关联的控制环路。网络实体108、110、112、114和116可以使用与RIC关联的控制环路。

在一些实施例中，无线接入网100包括基于RL GNN的一个或多个资源管理节点(RMN)，例如RMN 118。RMN 118可以被配置为执行与无线接入网100内的资源管理关联的一个或多个所公开的功能和技术。

在一些方面中，无线接入网100的控制环路可以并行运行，并且取决于用例，可以具有一些彼此交互。在一些情况下，这些环路会彼此冲突，从而导致网络管理欠优或不稳定。例如，非实时网络控制可以负责对网络进行切片，近实时网络控制可以负责连接管理和载波聚合，而实时控制器可以负责用户调度、HARQ和波束跟踪，如下表1所示。在该示例中，波束跟踪失败将对网络切片产生影响，这在传统的网络管理中潜在地会被忽视，从而导致解决方案欠优。然而，当(例如，使用所公开的技术)联合地优化和训练每个控制环路中的网络功能时，通信系统对故障和不可预见的事件变得更有弹性。因此，在分层强化学习框架中，可以使用优化框架来联合管理无线接入网的闭环控制环路。无线网络中的闭环控制环路可以概括如下：

(a)非实时控制环路：非实时控制环路在至少一秒的时间尺度上操作。该控制环路管理基础设施级的无线电和网络资源的编排。该控制环路还负责做出决策和应用策略，这些决策和策略影响数千台设备。

(b)近实时控制环路：近实时控制环路在10ms和1s之间的时间尺度上操作。它们在下一代节点基站的两个组件(即，中央单元(CU)和分布式单元(DU))之间运行。该控制环路可以利用介质接入控制(MAC)/物理层(PHY)关键性能指标(KPI)做出影响成百上千个UE的决策。

(c)实时控制环路：实时控制环路在小于10ms的时间尺度上操作。这样的环路可以在DU与无线电单元(RU)之间，或者在UE处操作。

/>

表1

图2是示出根据一些示例实施例的使用DL训练架构来训练深度学习(DL)程序210的框图200。在一些示例实施例中，机器学习程序(MLP)，包括深度学习程序或强化学习(RL)程序(也统称为机器学习技术或工具)，用于执行与关联数据或其他基于人工智能(AI)的功能的操作。在一些实施例中，所公开的机器学习技术可以由一个或多个资源管理网络实体(例如，RMN 118)结合用于无线接入网络的资源管理来执行。虽然图2和图3讨论了与深度学习关联的技术，但是也可以使用RL或其他技术。

如图2所示，可以基于训练数据202在深度学习训练架构(DLTA)206内执行DL程序训练208。在DL程序训练208期间，可以评估来自训练数据202的特征，以用于进一步训练DL程序。DL程序训练208得到训练后的DL程序210，DL程序210可以包括一个或多个分类器212，分类器212可以用于基于新数据214提供评估216。

深度学习是机器学习的一部分，机器学习是赋予计算机学习能力而无需明确编程的研究领域。机器学习探索算法(本文也称为工具)的研究和构造，算法可以从现有数据中学习，可以关联数据，并且可以关于新数据进行预测。这样的机器学习工具通过以下方式操作：从示例训练数据(例如，202)构建模型，以做出表达为输出或评估216的数据驱动的预测或决策。虽然示例实施例是关于一些机器学习工具(例如，深度学习训练架构)呈现的，但是本文呈现的原理可以应用于其他机器学习工具。

在一些示例实施例中，可以使用不同的机器学习工具。例如，在DL程序训练208期间(例如，用于关联训练数据202)可以使用逻辑回归(LR)、朴素Bayes、随机森林(RF)、神经网络(NN)、矩阵分解和支持向量机(SVM)工具。

机器学习中两种常见类型的问题是分类问题和回归问题。分类问题，也称为归类问题，旨在将项目分类为若干类别值之一(例如，这个对象是苹果还是橙子？)。回归算法旨在(例如，通过提供实数值)量化某些项目。在一些实施例中，DLTA206可以被配置为使用以下机器学习算法，该算法利用训练数据202来找到所识别的影响结果的特征之间的相关性。

机器学习算法利用来自训练数据202的特征分析新数据214，以生成评估216。这些特征包括被观察并用于训练ML程序的现象的各个可测量属性。特征的概念与诸如线性回归的统计技术中使用的解释变量的概念有关。选择信息丰富的、可区分的且独立的特征对于MLP在模式识别、分类和回归中的有效操作而言很重要。特征可以是不同的类型，例如数字特征、字符串和图形。在一些方面中，训练数据可以是不同类型的，其中，特征是数字的以供计算设备使用。

在一些方面中，在DL程序训练208期间使用的特征可以包括以下中的一个或多个：来自多个传感器(例如，音频、运动、图像传感器)的传感器数据；来自多个致动器(例如，无线开关或其他致动器)的致动器事件数据；来自多个外部源的外部信息源；与传感器状态数据(例如，获得传感器数据的时间)、致动器事件数据或外部信息源数据关联的定时器数据；用户通信信息；用户数据；用户行为数据等。

机器学习算法利用训练数据202找到所识别的影响评估216的结果的特征之间的相关性。在一些示例实施例中，训练数据202包括标记数据或其他网络数据，其对于通信网络内的一个或多个所识别的特征和一个或多个结果而言是已知数据。借助训练数据202(其可以包括所识别的特征)，在DLTA206内使用DL程序训练208训练DL程序。训练的结果是训练后的DL程序210。当DL程序210用于执行评估时，提供新数据214作为输入给训练后的DL程序210，并且DL程序210生成评估216作为输出。

图3是示出根据一些示例实施例的使用在DLTA206内训练的神经网络模型304生成训练后的DL程序306的图示300。参照图3，可以由神经网络模型304(或另一种类型的机器学习算法或技术)分析源数据302，以生成训练后的DL程序306(其可以与图2中的训练后的DL程序210相同)。源数据302可以包括训练数据集，例如202，包括由一个或多个特征识别的数据。如本文所使用的，术语“神经网络”和“神经网络模型”是可互换的。

机器学习技术训练模型，以准确地对输入模型的数据进行预测(例如，用户在给定话语中说了什么；名词是人、地点还是事物；明天天气将如何)。在学习阶段期间，模型是针对输入的训练数据集开发的，以优化模型以正确预测对于给定输入的输出。一般来说，学习阶段可以是有监督的、半监督的或无监督的；指示对应于训练输入提供“正确”输出的降低水平。在有监督的学习阶段，将所有输出提供给模型，并且指导模型开发将输入映射到输出的通用规则或算法。与之相比，在无监督的学习阶段，对于输入不提供期望的输出，使得模型可以开发其自己的规则来发现训练数据集内的关系。在半监督的学习阶段，提供不完全标记的训练集，其中，对于训练数据集，一些输出是已知的，而一些输出是未知的。

可以针对训练数据集运行模型若干时期，在这些时期中，将训练数据集重复地馈送到模型中以改进其结果(即，在一个时期期间处理整个数据集)。在迭代期间，针对整个数据集的小批量(或一部分)运行模型(例如，神经网络模型或另一类型的机器学习模型)。在有监督的学习阶段，开发模型以预测对于一组给定输入(例如，源数据302)的输出，并在若干时期上进行评估，以针对训练数据集的最大数量的输入，更可靠地提供指定为对应于给定输入的输出。在另一示例中，对于无监督的学习阶段，开发模型以将数据集聚类到n个组中，并在若干时期上评估它将给定输入放入给定组的一致性如何以及它在每个时期上产生n个期望聚类的可靠性如何。

一旦运行了一个时期，就对模型进行评估，并调整它们的变量值(例如，权重、偏置或其他参数)以尝试迭代地更好地改进模型。如本文所使用的，术语“权重”用于指代机器学习模型使用的参数。在后向计算期间，模型可以输出梯度，梯度可以用于更新与前向计算关联的权重。

在各个方面中，评估是针对假阴性偏置的，针对假阳性偏置的，或关于模型的整体准确度均匀偏置的。取决于所使用的机器学习技术，可以通过多种方式调整这些值。例如，在遗传或进化算法中，最成功地预测期望输出的模型的值被用于开发模型的值，以在后续时期期间使用，这可以包括随机变化/突变以提供附加的数据点。本领域技术人员将熟悉可以与本公开一起应用的若干其他机器学习算法，包括线性回归、随机森林、决策树学习、神经网络、深度神经网络等。

每个模型通过改变影响输入的一个或多个变量的值以更接近地映射到期望的结果，来在若干时期上开发规则或算法，但是由于训练数据集会变化，并且优选地非常大，因此完美的准确度和精确度可能无法实现。因此，构成学习阶段的若干时期可以被设置为给定的试验次数或固定的时间/计算预算，或者可以在给定模型的准确度足够高，或足够低，或已经达到准确度台阶时，在达到该数量/预算之前终止若干时期。例如，如果训练阶段被设计为运行n个时期并产生至少95％准确率的模型，并且这样的模型是在第n个时期之前产生的，则学习阶段会提前结束并使用所产生的满足终端目标准确度阈值的模型。类似地，如果给定模型不够准确，以至于无法满足随机机会阈值(例如，该模型在确定对于给定输入的真/假输出方面的准确度仅为55％)，则用于该模型的学习阶段可以被提前终止，尽管在学习阶段中的其他模型可以继续训练。类似地，当给定模型在多个时期上继续提供相似的准确度或其结果摇摆不定时——已经达到性能台阶——用于给定模型的学习阶段可以在达到时期数/计算预算之前终止。

一旦学习阶段完成，模型就最终确定了。在一些示例实施例中，针对测试准则评估最终确定的模型。在第一示例中，将包括对于其输入已知的输出的测试数据集馈送到最终确定的模型中，以确定模型在处理尚未训练的数据时的准确度。在第二示例中，可以使用假阳性率或假阴性率来评估最终确定后的模型。在第三示例中，每个模型中数据集群之间的描述用于选择为其数据集群产生最清晰的边界的模型。

在一些示例实施例中，DL程序306由神经网络模型304(例如，深度学习、深度卷积或循环神经网络)来训练，神经网络模型304包括一系列“神经元”(例如，长短期记忆(LSTM)节点)，它们被布置成网络。神经元是用于数据处理和人工智能(尤其是机器学习)的架构元素，它包括存储器，存储器可以基于提供到给定输入的权重来确定何时“记住”以及何时“忘记”保存在存储器中的值。本文使用的每个神经元被配置为接受来自网络中的其他神经元的预定义数量的输入，以为正在分析的帧的内容提供关系和子关系输出。各个神经元可以链接在一起和/或组织成神经网络的各种配置中的树结构，以针对话语中的每个帧如何相互关联提供交互和关系学习建模。

例如，用作神经元的LSTM包括若干门来处理输入向量(例如，来自话语的音素)、存储单元和输出向量(例如，上下文表示)。输入门和输出门分别控制流入和流出存储单元的信息，而遗忘门可以基于来自神经网络中早期的链接单元的输入，可选地从存储单元中移除信息。在整个训练阶段调整各个门的权重和偏置向量，一旦训练阶段完成，这些权重和偏置就被最终确定以用于正常操作。本领域技术人员将理解，神经元和神经网络可以以编程方式(例如，经由软件指令)或经由链接每个神经元以形成神经网络的专用硬件来构造。

神经网络利用用于分析数据以生成评估(例如，识别语音的单元)的特征。特征是被观察现象的单独可测量属性。特征的概念与统计技术(例如，线性回归)中使用的解释变量的概念有关。此外，深度特征表示深度神经网络的隐藏层中的节点的输出。

神经网络(例如，神经网络模型304)(有时称为人工神经网络或神经网络模型)是基于对动物大脑的生物神经网络的考虑的计算系统。这样的系统逐渐提高性能(这被称为学习)，以执行任务，通常没有任务特定的编程。例如，在图像识别中，可以教导神经网络通过分析已标记有对象名称的示例图像来识别包含对象的图像，并且在学习了对象和名称后，可以使用分析结果来识别未标记图像中的对象。神经网络基于称为神经元的连接单元的集合，其中，神经元之间的每个连接(称为突触)可以传输单向信号，其激活强度随连接强度而变化。接收神经元可以激活信号并将信号传播到与它相连的下游神经元，这通常基于来自潜在的许多传输神经元的组合进入信号是否具有足够的强度，其中，强度是参数。

图神经网络(GNN)是一类用于处理由图数据结构表示的数据的神经网络。

深度神经网络(DNN)是由多个层组成的堆栈式神经网络。这些层由节点组成，节点是发生计算的位置，松散地分布在人脑中的神经元上，当它遇到足够的刺激时会触发。节点将来自数据的输入与一组系数或权重组合起来，这些系数或权重可以放大或抑制该输入，这为算法尝试学习的任务的输入分派重要性。这些输入权重积被求和，并且该和被传递通过所谓的节点的激活函数，以确定该信号是否以及在多大程度上进一步通过网络传播以影响结果。DNN使用多个层的非线性处理单元的级联进行特征提取和转换。每个连续的层都使用来自前一层的输出作为输入。较高层级特征是从较低层级特征导出的，以形成分层表示。输入层之后的层可以是产生特征图的卷积层，这些特征图是过滤输入的结果并由下一个卷积层使用。

在DNN架构的训练中，回归可以包括最小化成本函数，回归被构造为用于估计变量之间的关系的一组统计过程。成本函数可以被实现为返回数字的函数，该数字表示神经网络在将训练示例映射到正确输出时执行得有多好。在训练中，如果成本函数值不在预定范围内，则基于已知的训练图像，使用反向传播，其中，反向传播是训练与优化方法(例如，随机梯度下降(SGD)方法)一起使用的人工神经网络的常用方法。

反向传播的使用可以包括传播和权重更新。当输入被呈现给神经网络时，它向前传播通过神经网络，一层接一层，直到它到达输出层。然后，使用成本函数将神经网络的输出与期望的输出进行比较，并为输出层中的每个节点计算误差值。误差值从输出开始向后传播，直到每个节点都有关联的误差值，该值粗略地表示其对原始输出的贡献。反向传播可以使用这些误差值来计算成本函数关于神经网络中权重的梯度。计算出的梯度被馈送到选定的优化方法以更新权重，从而尝试最小化成本函数。

虽然训练架构206被称为使用神经网络模型的深度学习训练架构(并且所训练的程序被称为训练的深度学习程序，例如210或306)，但是本公开在这方面不受限制，使用本文公开的技术，其他类型的机器学习训练架构也可以用于模型训练。

图4示出了根据一些示例实施例的下一代无线网络的图抽象400。参照图4，图抽象400包括云网络层402(其可以与非RT RIC关联)、MEC/RIC层404(其可以与一个或多个近RTRIC关联)和实时网络层406(其可以与一个或多个RIC关联)。实时网络层406可以包括由CU功能、一个或多个DU功能、一个或多个无线电单元(RU)和用户设备(UE)形成的网络集群408、410、412、414、416和418。

神经网络可以用于图像和视频分析。神经网络的这种应用利用规则的Euclidian数据结构，使用卷积神经网络处理从图像中提取特征。然而，无线网络中的数据结构是非Euclidian且不规则的，如图4所示。因此，在一些实施例中，可以使用图神经网络对无线网络进行建模。例如，所公开的技术可以用于对具有多种类型的节点(例如，CU、DU和RU)的异构无线式无线接入网进行建模。这些功能可以与它们之间定义的接口进行交互。无线网络的每个逻辑功能可以表示为节点，并且每个接口可以表示为图中的边。将无线网络表示为图形允许使用图形神经网络工具(例如，图卷积神经网络或时空神经网络)从网络逻辑实体中提取相关特征。这些工具可以学习具有不同尺度和配置的网络的隐藏的空间和时间特征，而没有显著的性能损失。此外，GNN可以对整个(例如，超大规模)异构和/或不规则网络进行建模，并支持可缩放的本地处理。所公开的GNN架构可以用于提供可缩放的优化/自适应解决方案，对建模不准确或不可用的基础设施进行建模，以及促进多层和多时间尺度接入网的联合优化。

所公开的技术可以用于设计和开发可缩放的、智能的和自主的基础设施，以实现(小)小区的弹性和自组织网络(SON)以及数据驱动的无线网络管理。所公开的技术还考虑了无线网络的基本架构和底层结构，并为下一代通信系统提供了若干解决方案。

所公开的技术在不同实施例中提供了分层和空间优化框架的细节以及强化学习和图神经网络架构的细节。此外，所公开的技术还提供了载波聚合上的示例架构，其影响如图5所示的网络堆栈的多个层。

图5示出了根据一些实施例的具有基站502的无线接入网中的示例网络堆栈层次结构500，其中，网络堆栈层次结构500使用所公开的资源管理技术。参照图5，网络堆栈层次结构500包括无线资源控制(RRC)层504、分组数据汇聚协议层506、无线链路控制(RLC)层508、介质接入控制(MAC)层510和物理层(PHY)512。

如图5所示，可以层次结构中的操作在近实时控制中的最高层级(例如，RRC层504)处考虑连接管理和切换问题。该层观察较广泛的网络节点(例如，CU、DU和RU)，并获得关于网络状态的见解。该层还可以向较低层提供输入，较低层负责根据为较高层代理定义的度量(例如，QoS目标)选择用于双连接(DC)或单连接的基站。在一些方面中，在基站和UE关联之后，双连接或单连接的选择可能以更快的时间尺度发生，这取决于网络负载和信道条件。另外，根据对应UE的数据业务，可以考虑在同一层内(在双连接选择的层处)的分量载波(CC)选择。如果UE要求有更多的数据业务或更高的可靠性，则可以选择多个分量载波。在一些方面中，在控制层的最后一层(例如，MAC层510)处，可以根据所定义的度量(例如，基于QoS目标)在分量载波和多个DRB上执行UE的调度(选择活动用户的子集)，如上面所提到的。总之，无线网络中定义的功能可以是彼此独立地设计和优化的，而没有考虑故障情况下相互的影响。结果，当前的无线系统导致非弹性和欠优的网络管理。

图6示出了根据一些实施例的被配置为形成多级层次结构600的多个机器学习模型的多个网络功能。

在一些实施例中，所公开的技术用于在图6所示的每一层处设计智能代理，它们针对相同的度量(例如，QoS目标)进行联合优化。每一层都可以向其不同时间尺度中的较低层提供输入。如上所述，较高层智能代理操作在较慢的时间尺度中，并且向操作在较快的时间尺度中的较低层提供控制输入。在一些方面中，可以将每个功能划分为较小功能的层次结构，以实现更好的优化。

图6中提供了用于使用这些功能的示例架构，图6示出了将每个网络功能分派给具体控制环路的配置。作为示例，图6示出了与6个不同网络任务相关的功能利用：部署优化602、QoS优化604、载波聚合(CA)606、双连接和多连接(DC/MC)608、连接管理和切换(CM/HO)610、和干扰管理(IM)612。

在图6中示出了每个控制环路层614、616、618和620处的功能。如图所示，每个网络任务可能需要来自单个或多个控制环路的功能，并且在每个控制环路上，它也可能具有多个功能。例如，干扰管理任务定义了两个控制环路，非实时的和仅实时的。在非实时处，可以使用小区小区间干扰协调(ICIC)和增强小区间协调(eICC)配置以及小区波束协调。在一些实施例中，可以定义两个智能代理，它们在同一控制环路中在彼此之上具有层次结构，或者它们在为较低层提供控制输入的同一层次结构上。在较低层处，在实时控制中，可以使用协调和分布式MAC调度和UE波束/功率分配。总之，所公开的技术可以用于设计在多个控制环路或具有多个功能块的单个环路上分层操作的智能代理。在一些实施例中，所公开的技术还可以包括将功能划分为多个控制环路，例如QoS管理，其在控制环路的每一层中划分为6个功能。

分层强化学习

图7示出了根据一些实施例的示例RL模型700。

强化学习(RL)是训练机器学习模型(或代理)以最大化累积的奖励。在一些方面中，机器学习模型可以是任何多层感知器架构、循环神经网络或卷积神经网络架构。在一些实施例中，RL可以用于学习实现目标或在复杂环境中表现的策略。在RL框架中，代理704(例如，机器学习模型)采取对网络环境706有一些影响的动作702，并且环境返回奖励710以指导算法。强化学习可以包括以下四个主要组件：

(a)状态708，其可以包括信道测量或另一类型的网络测量(例如，如表1中所示)。

(b)动作702，其可以包括网络功能所需的控制动作或信令(例如，如表1中所示)。

(c)奖励710，其可以包括在采取动作之后的性能测量。

(d)网络环境706，其可以包括具有一个或多个通信信道的无线网络。在一些方面中，网络环境706包括RMN 118，RMN 118可以被配置为执行与基于RL和GNN的资源管理相关的一个或多个所公开的功能。

可以以任何形式定义代理，但是所公开的方面考虑了以相对小的动作和/或状态空间在区域中良好执行(例如，独立的用户调度和连接管理)的深度神经网络架构。然而，具有多个控制环路的大型网络具有较大的动作和状态空间。当动作空间和状态空间都很大时，使用传统的强化学习模型学习良好的代理变得具有挑战性。作为解决方案，所公开的技术可以使用分层强化学习，在其中，以协调方式学习多个层的策略。在较慢时间尺度(在层次结构中位于较高层级)中运行的策略控制在较快时间尺度(在层次结构中位于较低层级)中的策略。本文公开的分层强化学习框架可以用于提供无线网络的简化控制和设计、网络的时间和行为抽象以及神经网络架构的更快且鲁棒的训练。

图8-23示出了用于弹性无线网络优化的分层强化学习方法的若干示例，它们可以使用RMN 118来实现。

无线网络功能的分层时间抽象

在一些方面中，所公开的技术可以用于将无线网络功能建模为由多级分层代理组成的强化学习代理。在该模型中，较慢时间尺度的网络功能为较快时间尺度的网络功能提供控制信令，使得同一分层流内的所有功能联合优化给定的无线网络性能。与并行和独立代理不同，所提出的框架可以提供更好的控制、性能和对故障事件的弹性，因为较高层级代理关于网络状态可以具有更多的可见性，并且它对最终目标(例如，性能任务)有更多的控制。

在一些方面中，强化学习框架可以基于两级或更多级的分层学习代理。作为示例，图8中提供了两级时间抽象。

图8示出了根据一些实施例的多级(例如，两级)分层时间抽象800。更具体地，较高层级代理806作用于较低层级代理808。在一些实施例中，代理可以被定义为策略函数

或值函数/>

其中，/>

是输入状态，/>

是较高层级代理806在时间索引t处的动作。可以类似地定义较低层级代理。

在图8的框架中，较高层级代理806在每N个时间步长t处从环境810(例如，从RMN118)获取其(例如，状态814的)状态输入，为较低层级代理808选择动作(目标)802。较低层级代理查看其来自环境810的状态输入(例如，状态816)以及由其较高层级代理806定义的目标802，然后选择动作804以作用于环境810达N个时间步长。作为回报，这些代理从环境810接收奖励818和812，以在训练期间更新它们的策略和值函数。总之，较高层级代理学习如何管理和控制较低层级代理，并基于其状态(信道和网络观察/测量)为较低层级代理选取目标。较低层级代理808负责采取原子动作，并且如果实现了由较高层级代理806定义的目标，则接收奖励818。在一些方面中，上述公式可以通过添加更多代理层级来扩展到多个层级的时间抽象。在强化学习推理期间，每个代理基于它们的网络观察/测量，在优化的神经网络参数下决定它们的动作。

在一些实施例中，较高层级代理可以被配置为表1中定义的任何非实时功能或近实时功能，而较低层级代理可以被配置为表1中定义的近实时功能或实时功能。在这方面，为问题定义了单个优化度量。换句话说，所有代理的设计目标是优化单个网络度量。例如，较低层级代理可以是在每个传输时间间隔(TTI)中操作以在同一基站调度多个用户的MAC调度器。较高层级代理负责基站之间的用户的切换管理。此外，可以考虑单个功能(例如，MAC调度器)并将其拆分为层次结构的多个层，以便更好地管理。奖励函数可以定义为对感兴趣的具体任务的任何性能度量，例如用户的服务质量。图9给出了用于无线网络的更一般化的分层强化学习模型。

图9示出了根据一些实施例的优化单个优化度量的具有用于无线网络的时间抽象的分层强化学习900。在一些实施例中，可以在多个控制环路上定义层次结构，或者可以将单个控制环路划分为多个层次结构。参照图9，分层强化学习900可以由无线环境908的RMN118配置，并且可以包括在层次结构中处于不同层级的代理902、904和906。观察和奖励(统称为910)由无线环境908传递到代理，并且动作912、914和916从较高层级代理传递到较低层级代理(以及环境)。

在图9中，每个代理的角色可以是表1中给出的任何网络功能。由于层级3代理902位于网络的更中心部分，因此它连接到许多基站和用户。因此，层级3代理902关于环境具有更多的可见性，并且可以向连接到较少数量的基站和用户的层级2代理904提供更好的指导。结果，(例如，由RMN 118配置的)分层强化学习基础网络操作将是更有弹性的。

无线网络的原始策略上的层次结构

用于无线网络的强化学习模型对于网络操作可以一次考虑一个原始策略。例如，标准模型通过在一些条件下仅查看网络的一部分来考虑用于干扰管理的强化学习。然而，无线网络可能具有更复杂的结构，该结构可能难以用单个策略来表征。例如，网络可能具有不同的服务质量要求，例如超低时延、高吞吐量、海量连接等。另外，部分网络可能有各种不可预见的情况，例如基站故障、中断等。在一些实施例中，所公开的技术可以用于学习用于各种情况的多个原始策略，并通过组合这些策略来设计新的代理策略以解决更复杂的情况。

在一些实施例中，RL框架可以基于每强化学习代理使用两个或更多个原始策略来完成具体任务，如图10所示。

图10示出了根据一些实施例的策略上的示例层次结构1000。参照图10，包括多个策略1012的代理1004为环境1006生成动作1002。动作1002可以基于由例如环境1006中的RMN 118传递的状态1008来生成。RMN 118还基于动作1002传递奖励1010。

在一些实施例中，(例如，策略1012中的)策略π_i(a_t|s_t),i＝1,…,M被定义为在时间t为策略i的给定状态s_t选择动作a_t的概率。状态被认为是强化学习代理从信道或网络接收到的任何网络状态报告/测量。

在一些实施例中，强化学习代理1004知道最优的(或接近最优的)M个原始策略，这些策略被设计为在网络中实现不同的任务(例如，服务质量、中断场景下的吞吐量最大化)。然而，在一些场景或用例中，可能使用网络中更复杂的服务要求，或者可能需要针对故障事件的更高弹性。在这些场景中，组合原始策略会给网络带来更复杂的行为策略。可以通过以下示例公式所示地获得新的组合策略：

或/>

其中，/>

利用这些组合策略，强化学习代理1004可以基于所公开的技术学习新场景或任务的权重w_i(s_t)。

对于无线网络，组合任务可以用于控制环路的每一层。每个原始策略可以针对具体的网络功能和事件进行优化。在一些实施例中，可以使用每网络功能多个策略，如图11所示。

图11示出了根据一些实施例的用于无线网络的原始策略上的示例层次结构。参照图11，层次结构1100可以由无线环境1108的RMN 118配置，并且可以包括与对应的控制环路1112的不同时延关联的网络功能(或代理)1102、1104和1106(每个包括一个或多个策略)。在一些方面中，网络功能1102、1104和1106可以与不同网络大小1110的网络关联。无线环境1108可以将网络测量/数据1114传递到网络功能，并且对应的动作基于与控制环路1112关联的对应时延，从网络功能传递到无线环境1108(例如，传递到RMN 118)。

在一些实施例中，每个层级的控制对于不同的网络功能可以具有多组策略。对于给定的网络事件，无线网络将现有策略与所学习的权重w_i(s_t)组合，以向较慢的控制环路或信道提供动作。在一些实施例中，通过组合一个或多个网络功能的多个策略，无线网络对更复杂的环境可以是更鲁棒和有弹性的。取决于新的应用或信道条件，强化学习代理可以在线学习新的权重以获得更好的服务质量策略。由于权重的维度比原始神经网络策略小得多，因此对于新的网络条件，调整可以更快。例如，对于图6中给出的连接管理和切换事件，可以针对所学习的用于UE连接和移动性管理、UE载波聚合(CA)配置和辅分量载波(SCC)集分配和切换(HO)以及UE多连接配置功能的策略定义组合策略。

具有自适应终止条件的无线网络的分层时间抽象

在无线网络中，每个网络操作的粒度和周期性可能是固定的和预定义的。然而，取决于环境和网络用例，调整网络操作的时间尺度可以通过在故障事件之前及时动作，来为网络带来弹性。在一些方面中，所公开的技术可以用于将分层时间抽象模型扩展到控制动作的可学习的终止条件。例如，所公开的技术可以使用深度神经网络对终止条件进行建模，并使用分层强化学习模型来训练神经网络。

图12示出了根据一些实施例的具有自适应终止条件的无线网络的分层时间抽象1200。参照图12，较高层级代理1206基于从环境1210(例如，从RMN 118)接收的状态1214，为较低层级代理1208生成目标(例如，动作)1202。较低层级代理1208基于状态1216和目标1202，为环境1210生成动作1204。作为响应，环境1210(例如，RMN 118)分别为较高层级代理1206和较低层级代理1208生成奖励1212和1218。

如图12所示，可以对高层级代理1206在时间t采取的动作定义可学习的终止条件β_t(s_t,a_t)。在一些方面中，β_t(s_t,a_t)∈[0,1]可以定义为终止动作

的概率。分层强化代理的目标可以是学习用于给定状态的控制动作/>

和终止条件β_t，使得较低层级代理采取更好的动作/>

以从环境中获得更高的奖励。在一些方面中，较低层级代理1208可以运行预定义的N个循环。在N个循环的每一个中，较高层级代理1206根据β_t(s_t,a_t)给出的得分决定是否继续动作/>

类似于之前的分层时间模型，在一些实施例中，该强化学习模型可以用于非实时、近实时和实时网络功能。每个网络功能根据控制顺序，可以属于强化学习模型中的对应层次结构，如图13所示。

图13示出了根据一些实施例的网络功能到具有终止条件的无线网络的分层时间抽象1300的映射。参照图13，分层强化学习可以由无线环境1308的RMN 118配置，其中，分层时间抽象1300可以包括层次结构中处于不同层级的代理1302、1304和1306。观察和奖励(统称为1312)由无线环境1308传递到代理，并且与不同的控制环路1310关联的动作从高层级代理传递到低层级代理(以及环境)。

与之前的模型不同，在图13的实施例中，可能没有定义固定的控制环路周期。更具体地说，每个代理可以根据其从网络或信道的观察，自适应地决定它们的控制环路。在这方面，智能自适应控制环路通过对故障快速动作、对变化的动态做出快速反应等，为无线网络带来弹性。在一些实施例中，也可以使用可变大小的自适应控制环路。

具有最优策略指导的无线网络的分层模型发现

在一些无线网络操作中，可以从一些优化问题获得最优行为策略，或者可以有可用的关于如何操作这些功能的直接专家知识。然而，获得这种专家数据可能成本高昂且具有挑战性，并且通常可能不足以将数据应用于新的和不可预见的场景。因此，所公开的技术可以包括从无线网络的展示动作中学习分层策略。更具体地说，该模型可以用于从展示场景中克隆最优行为，并训练神经网络以推广到意外情况。

在一些实施例中，强化学习框架可以基于图14所示的模型。

图14示出了根据一些实施例的具有最优策略指导的分层模型发现1400。参照图14，高层级代理1408基于从环境1414(例如，从RMN118)接收的状态1416，为低层级代理1410生成动作1402。低层级代理1410基于从环境1414接收的状态1418和动作1402，为较低层级代理1412生成动作1404。较低层级代理1412基于状态1420和动作1404，为环境1414生成动作1406。

在图14的模型中，可以使用多个分层强化代理，如本文所述的。在图14中，使用了三个代理，即高层级代理1408、低层级代理1410和较低层级代理1412。高层级代理1408为低层级代理1410做出决策，低层级代理1410为较低层级代理1412做出决策，而较低层级代理1412直接作用于无线网络(例如，环境1414)。与之前的分层强化学习建模不同，在这种情况下，用于较低层级代理的最优状态-动作对

可以是可用的(例如，最优

是已知的)。在一些实施例中，强化学习代理的目标是学习用于较高层级代理的控制策略，使得给定的状态-动作对的对数似然性最大化。通过这样做，可以为较高层级代理学习行为模型。使用神经网络的一般化益处，所学习的模型可以用于在新的和意外情况下更好地指导较低层级的代理。

在一些实施例中，可以配置两种模型的分层强化学习代理，如图15-16所示。

图15和图16示出了根据一些实施例的用于无线网络的分层模型发现。参照图15，分层模型1500可以由无线环境1508的RMN 118配置，并且可以包括在层次结构中处于不同层级的代理1502、1504和1506。网络测量和数据1510由无线环境1508传递给代理，并且动作从较高层级代理传递到较低层级代理(以及环境)。

参照图16，分层模型1600可以由无线环境1608的RMN 118配置，并且可以包括在层次结构中处于不同层级的代理1602、1604和1606。网络测量和数据1610由无线环境1608传递到代理，并且与控制环路1612之一关联的动作从每个代理传递到环境1608。

在图15所示的第一种模型中，多层分层代理分布在控制环路上，如先前定义的。换句话说，每个较高层级代理向其以更快的时间尺度操作的较低层级代理提供控制动作。

在图16所示的第二种模型中，每个层级的代理在同一控制环路中实现。在这种情况下，每个代理向其同一时间尺度的较低层级提供控制动作。例如，对于本实施例，可以考虑图16中的载波聚合任务。在载波聚合任务中，可以使用小区CA配置CC分配功能、UE CA配置和SCC集分配和HO功能、以及CA感知UE调度和每UE功能的SCC分配。可以通过收集部署场景中的最优载波聚合数据来设计模型发现问题。通过使用未来神经网络的函数逼近，所学习的模型可以用于改进新场景中的网络管理。

具有智能评论网络的无线网络的分层时间抽象

在一些方面中，无线网络功能可以被建模为强化学习代理，强化学习代理是多级分层代理的组合，如上文所讨论的。在该模型中，较慢时间尺度上的网络功能为较快时间尺度中的网络功能提供控制信令，使得同一分层流内的所有功能联合优化给定的无线网络性能。然而，无线环境可能是动态的，这在信道和网络测量中可能具有较大值摆动。这种摆动在分层强化学习框架中带来了不稳定和欠优的行为。例如，高层级代理的错误决策可能误导低层级代理，并且其对环境的策略导致灾难性故障。

在一些实施例中，为了使网络更鲁棒，可以使用评论神经网络来规范强化学习，如图17所示。

图17示出了根据一些实施例的具有评论神经网络的分层时间抽象1700。参照图17，高层级代理(例如，策略)1706基于从环境1710(例如，从RMN 118)接收的状态1714以及来自评论神经网络1712的输入，为低层级代理(例如，多个低层级策略)1708生成目标1702。低层级代理1708基于状态1716、目标1702和来自评论神经网络1712的输入，为环境1710生成动作1704。

在一些实施例中，可以对高层级代理1706在时间t采取的动作定义可学习终止条件β_t(s_t,a_t)1718。在一些方面中，β_t(s_t,a_t)∈[0,1]可以被定义为终止动作

的概率。分层强化代理的目标是学习给定状态的控制动作/>

和终止条件β_t，使得较低层级代理采取更好的动作/>

以从环境中获得更高的奖励。此外，可以使用评论神经网络1712，它向高层级和低层级策略(例如，1706和1708)提供得分值/>

与策略神经网络一样，值函数/>

也是由单独的神经网络组成。在一些实施例中，可以用来自环境的奖励同时训练值函数和策略函数。在训练之后，可以考虑策略函数来采取控制动作。

在一些实施例中，可以将分层强化学习模型用于无线网络，如图18所示。图18示出了根据一些实施例的具有用于无线网络的评论网络的分层时间抽象1800。分层时间抽象1800包括非RT网络功能1816、近RT网络功能1818和实时网络功能1820，它们都在无线环境1814中与RMN 118通信。

非RT网络功能1816包括向层级3代理(或较高层级代理)1808提供评论反馈的层级3评论功能1802。近RT网络功能1818包括向层级2代理1810提供评论反馈的层级2评论功能1804。实时网络功能1820包括向层级1代理(或较低层级代理)1812提供评论反馈的层级1评论功能1806。

在图18的实施例中，每个层级的控制环路1822中的任何网络功能都具有专用的评论神经网络，评论神经网提供基于来自信道和无线网络的观察和测量的值。这些值用于引导代理进行更快的训练和更好的性能，从而使无线网络对异常更加鲁棒。在训练之后，可以禁用评论神经网络，并且可以考虑分层方式的策略功能。在一些方面中，评论神经网络的输入可以不同于策略神经网络。此外，相同的评论神经网络可以用于多个网络功能，包括处于层次结构的不同层级的网络功能。在一些实施例中，可以将评论网络添加到MAC调度和切换管理功能两者。

无线网络的分层生成模型

在一些无线网络操作中，可以从优化问题获得最优行为策略，或者也可以使用关于如何操作这些功能的直接专家知识。然而，获得专家数据可能是成本高昂且具有挑战性的，并且通常可能不足以将这种数据应用于新的和不可预见的场景。因此，所公开的技术可以使用具有生成神经网络的分层策略学习。该模型通过神经网络捕获无线网络的行为/功能。然后，将学习到的生成神经网络用于通过强化学习来学习新的网络功能。由于新的网络功能是通过合并现有的行为策略生成的，因此新的网络功能可以对新的和不可预见的情况更具弹性。

图19中给出了示例模型描述。图19示出了根据一些实施例的分层生成模型1900。参照图19，新的RL策略1908基于从环境1910(例如，从RMN 118)接收的状态1912为生成网络模型1904生成噪声/RL动作1902。生成网络模型1904基于状态1912和噪声/RL动作1902为环境1910生成动作1906。

在图19的模型中，使用了生成网络模型1904，生成网络模型1904采用系统中的各种任务的最优或接近最优状态-动作对

作为输入(例如，最优

是已知的)。生成神经网络训练的第一目标是找到从非常高维的潜在空间到最优动作的映射。换句话说，生成网络经过训练，使得观察到的动作的对数似然性最大化。然后，使用生成模型与强化学习代理连接，如图19所示。新的强化学习代理(例如，1908)观察新的环境状态，并学习生成网络的高维输入向量作为动作。

图20示出了根据一些实施例的用于无线网络的分层生成模型2000。参照图20，分层生成模型2000可以由无线环境2014的RMN 118来配置，并且可以包括RL策略(例如，新的非RT RL策略)2002、2006和2010，以及生成模型2004、2008和2012。RL策略2002、2006和2010以及生成模型2004、2008和2012可以与网络大小2016关联且与对应的控制环路2018的不同时延关联。无线环境2014可以将网络测量/数据2020传递到RL策略和生成模型，并且对应的动作基于与控制环路2018关联的对应时延从生成模型传递到无线环境2014(例如，传递到RMN 118)。

在一些实施例中，上述分层强化学习模型可以用作无线网络模型。在无线网络中，信道/网络测量被用作生成网络模型的状态输入，对应的控制信令被用作训练生成神经网络的动作。在一些方面中，噪声输入可以被认为是高斯噪声。在训练生成模型，使得它最大化控制信号给出的似然性之后，针对可能无法获得最优控制信号和动作的新任务训练新策略。由于新任务利用经过测试和设计的生成模型，因此用于新任务的新RL策略会使得网络操作更鲁棒和有弹性。图20中提供了所提出的无线网络的图示。在这种情况下，可以考虑图6中给出的单个网络功能，并且每个功能可以用RL策略和生成网络模型来表示，如图20所示。因此，与之前的实施例不同，图20中的层次结构没有在多个时间尺度上定义。相反，层次结构是在同一网络功能中定义的。然而，可以组合多个分层生成模型以形成多时间尺度解决方案。

具有随机神经网络的无线网络的分层抽象

在一些方面中，无线网络功能可以被建模为由两级分层代理组成的强化学习代理。在该模型中，较高层级的网络功能为较低层级的网络功能提供控制信令，使得同一分层流内的所有功能联合优化给定的无线网络性能。高层级代理的目的是学习低层级代理的控制选项。与具有网络功能的单个或固定控制选项的现有模型不同，所提出的模型为网络的相同功能带来了不同的且新的控制选项。在一些方面中，所提出的框架提供了改进的控制、性能和针对故障事件的弹性，因为较高层级代理可以具有关于网络状态的更多可见性，以及对最终目标(性能任务)的更多控制。

在一些实施例中，可以使用两级分层学习代理，如图21所示。图21示出了根据一些实施例的具有随机神经网络的分层强化学习模型2100。参照图21，随机神经网络2104基于从环境2106(例如，从RMN118)接收的状态2114和由高层级代理2110基于状态2112生成的选项2108，为环境2106生成动作2102。

如图21所示，较高层级代理作用于较低层级代理。在一些方面中，代理可以被定义为策略函数π(a_t|s_agent)或值函数Q(s_agent,a_t)，其中，s_agent是随机神经网络2104的输入状态，a_t是时间索引t处的环境2106的动作。在这个框架中，高层级代理在每N个时间步长t从环境中获取其状态输入s_agent和任何其他状态输入s_rest，然后为较低层级代理选择选项。较低层级代理查看其来自环境的状态输入以及由其较高层级代理定义的选项2108，然后选择动作2102在接下来的N个时间步长作用于环境2106。在一些方面中，低层级代理的结构是随机神经网络，它是通过将随机变化引入网络中来构建的一种类型的人工神经网络。换句话说，高层级代理选择的选项表征了神经网络输入或中间层级处的一些分布函数。在强化学习设置的训练阶段期间，高层级代理和基于随机神经网络的低层级代理都基于它们从环境中接收到的奖励进行调整。总之，较高层级代理学习如何控制较低层级代理，并基于其状态(信道和网络观察/测量)为较低层级代理选择选项。在一些方面中，较低层级代理负责在环境中采取原子动作。

图22和图23示出了根据一些实施例的具有随机神经网络的无线网络的分层抽象2200和2300。

在一些实施例中，可以用随机神经网络以两种方式建模分层强化学习。基于图22所示的第一种方式，高层级代理被认为是较慢控制环路处的网络功能，而基于低层级(随机神经网络)SNN的代理被认为是较快控制环路处的网络功能。基于图23所示的第二种方式，每个功能在任何控制环路中都被考虑，并且被表示为与无线环境2308通信的两级SNN代理(例如，2302、2304、2306)。在最后一种情况下，无线网络的任何功能都可以被替换为上述强化学习框架。如本文所讨论的，具有较高层级的可学习选项的随机神经网络代理提供对无线网络中的各种不想要的和极端的情况的更多控制和弹性。例如，对于本实施例，可以考虑图6中的载波聚合任务。在载波聚合任务中，可以考虑小区CA配置CC分配功能、UE CA配置和SCC集分配和HO功能、以及CA感知UE调度和每UE功能的SCC分配。在这方面，可以为上面给出的每个功能设计高层级代理模型，该模型控制随机神经网络为较低层提供控制输入，或者可以由高层级代理和随机神经网络两者同时表示每个功能(例如，如图22所示)。

上述七种不同的分层模型可以用于训练神经网络，并确定如何通过时间方式和分层方式表示无线网络功能。在一些实施例中，图24中所示的图神经网络架构可以用作上述强化学习模型的构建块。

图24示出了根据一些实施例的用于无线网络的GNN架构2400。参照图24，GNN架构2400可以被配置为使用图卷积2404和2408以及时间卷积2406来处理输入2402。

在一些实施例中，GNN架构2400可以用作经由节点之间传送的消息来捕获图中的节点的依赖性的框架。与深度神经网络不同，GNN可以直接对图进行操作，以表示来自其具有任意跳数的邻域的信息。这使得GNN成为适合用于具有无法以封闭形式捕获的复杂特征的无线网络的工具。所公开的技术可以通过结合图4所示的节点之间的关系来使用基于GNN的方法。为了实现智能且主动的无线网络管理，下一代网络可以被抽象为图，在其中，所有实体由节点来表示，无线链路的质量由边缘权重给出。上行链路和下行链路连接之间的差别可以通过定向链路来捕获。为了捕获网络感知，可以考虑反映诸如瞬时信道和网络测量、信道质量、平均UE速率等特征的边缘和节点标签，并应用所提出的联合GNN-RL框架来实现智能网络决策。在一些方面中，GNN公式允许经由架构的本地处理性质将现有网络处理扩展到网络的分布式控制。在这方面，网络控制器环路的部分是分布式的，而其他部分可以是分层的。

无线网络的时空图神经网络建模

在一些实施例中，下一代网络可以包括MEC/RIC、CU、DU和UE。在本公开中，包括N_ric个MEC/RIC、N_cu个CU、N_du个DU、N_ue个UE的无线网络可以被认为是图

节点集是

其中，边缘

其中，/>

的a∈{du,cu,ric,ue}、b∈{du,cu,ric,ue}是网络中的节点之间的无线链路。虽然一些节点通过树结构直接连接到较高层级节点，但是可以考虑节点之间的虚拟边缘，以传送关于它们的连接性和局部图结构的信息。例如，可以根据Euclidean距离来定义两个DU之间的虚拟边缘

使得如果两个DU之间的Euclidean距离小于d_max，则它们之间存在链路。相同的参数可以应用于其他节点。在另一实施例中，对于节点对

a∈{du,cu,ric,ue}的每个所报告的测量，我们将得分函数计算为

其中，f(a,b)＝1或/>

然后，可以基于阈值周期性地识别节点到节点的邻接。

基于上面定义的连接性图和虚拟图(图24所描绘的)，可以为网络的不同实体之间的图定义邻接矩阵A_a,b∈{0,1}^|V|×|V|,a∈{du,cu,ric,ue}，b∈{du,cu,ric,ue}如下：

初始节点特征可以定义为

其中，a∈{du,cu,ric,ue}。初始节点特征可以报告为表1中给出的信道/网络测量，或与感兴趣的网络问题有关的任何其他功能。L层GNN架构可以定义如下：/>

和/>

其中，K是网络/图上的扩散步长的数量，/>

是神经网络权重，σ(.)是激活函数。在一些方面中，上面定义的卷积操作落入空间操作。

在一些方面中，可以在图24中的GNN架构2400的层之间使用如下的时间操作。时间操作可以有助于提取无线网络的特征之间的时间相关性。时间神经网络卷积可以定义如下：

其中，f(.)是大小为U的滤波器。

图25示出了根据一些实施例的用于基于RL和GNN的资源管理的方法2500的流程图。参照图25，方法2500包括操作2502、2504和2506，它们可以由RMN 118或无线接入网的另一网络节点执行。

在操作2502，生成用于NG无线网络的对应多个网络功能的多个网络测量。例如并且关于图8，RMN 118将多个网络测量生成为状态814和816。多个网络功能可以被配置为形成多级层次结构的多个机器学习模型(例如，如图9所示)。

在操作2504，接收并解码来自多个机器学习模型中的、在多级层次结构中处于预定层级(例如，最低层级)的机器学习模型的控制信令。例如，无线环境908的RMN 118从在层次结构中处于预定层级的ML模型(例如，较低层级代理906或808)接收控制信令(例如，动作916或804)。在一些实施例中，控制信令(例如，动作804)响应于多个网络测量中的对应网络测量(例如，状态816)和来自处于比预定层级(例如，低层级代理808的层级)高的层级的第二机器学习模型(例如，高层级代理806)的至少第二控制信令(例如，目标802)。

在操作2506，生成用于训练多个机器学习模型的多个奖励函数。例如，RMN 118可以生成奖励818和812。多个奖励函数基于来自在多级层次结构中处于预定层级的机器学习模型的控制信令(例如，动作804)。

图26示出了在其上可以执行本文讨论的任何一种或多种技术(例如，方法)的示例机器2600的框图。在替换实施例中，机器2600可以作为独立设备操作，或者可以连接(例如，联网)到其他机器。在联网部署中，机器2600在服务器-客户端网络环境中可以以服务器机器、客户端机器或两者的角色操作。在示例中，机器2600在点对点(P2P)(或其他分布式)网络环境中可以充当对等机器。机器2600可以是个人计算机(PC)、平板PC、机顶盒(STB)、个人数字助理(PDA)、便携式通信设备、移动电话、智能手机、网络电器、网络路由器、交换机或网桥，或者能够(顺序或以其他方式)执行指定该机器要采取的动作的指令的任何机器。此外，虽然仅示出了单个机器，但术语“机器”也应当理解为包括单独地或联合地执行一组(或多组)指令以执行本文讨论的任何一种或多种方法的机器的任何集合，例如云计算、软件即服务(SaaS)、其他计算机集群配置。

机器(例如，计算机系统)2600可以包括硬件处理器2602(例如，中央处理单元(CPU)、图形处理单元(GPU)、硬件处理器核，或其任何组合)、主存储器2604和静态存储器2606，其中一些或全部可以经由互链路(例如，总线)2608彼此通信。

主存储器2604的具体示例包括随机存取存储器(RAM)和半导体存储器设备，在一些实施例中，半导体存储器设备可以包括半导体(例如，寄存器)中的存储位置。静态存储器2606的具体示例包括非易失性存储器，例如半导体存储器设备(例如，电可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM))和Flash存储器设备；磁盘，例如内部硬盘和可移除磁盘；磁光盘；RAM；和CD-ROM和DVD-ROM盘。

机器2600还可以包括显示设备2610、输入设备2612(例如，键盘)和用户界面(UI)导航设备2614(例如，鼠标)。在示例中，显示设备2610、输入设备2612和UI导航设备2614可以是触摸屏显示器。机器2600可以附加地包括存储设备(例如，驱动单元或另一大容量存储设备)2616、信号生成设备2618(例如，扬声器)、网络接口设备2620和一个或多个传感器2621(例如，全球定位系统(GPS)传感器、指南针、加速度计或其他传感器)。机器2600可以包括输出控制器2628，例如串行连接(例如，通用串行总线(USB))、并行连接或其他有线或无线连接(例如，红外线(IR)、近场通信(NFC)等)，以与一个或多个外围设备(例如，打印机、读卡器等)通信或控制它们。在一些实施例中，处理器2602和/或指令2624可以包括处理电路和/或收发机电路。

存储设备2616可以包括机器可读介质2622，其上存储体现本文描述的任何一种或多种技术或功能或者由其利用的一组或多组数据结构或指令2624(例如，软件)。在由机器2600执行指令期间，指令2624还可以完全地或至少部分地驻留在主存储器2604内、静态存储器2606内或硬件处理器2602内。在示例中，硬件处理器2602、主存储器2604、静态存储器2606或存储设备2616中的一个或任何组合可以构成机器可读介质。

机器可读介质的具体示例可以包括非易失性存储器，例如半导体存储器设备(例如，EPROM或EEPROM)和Flash存储器设备；磁盘，例如内部硬盘和可移除磁盘；磁光盘；RAM；和CD-ROM和DVD-ROM盘。

虽然机器可读介质2622被示为单个介质，但术语“机器可读介质”可以包括单个介质或多个介质(例如，集中式或分布式数据库，和/或关联的缓存和服务器)，它们被配置为存储一个或多个指令2624。

机器2600的装置可以是硬件处理器2602(例如，中央处理单元(CPU)、图形处理单元(GPU)、硬件处理器核或其任何组合)、主存储器2604和静态存储器2606、一个或多个传感器2621、网络接口设备2620、天线2660、显示设备2610、输入设备2612、UI导航设备2614、存储设备2616、指令2624、信号生成设备2618和输出控制器2628中的一个或多个。装置可以被配置为执行本文公开的一个或多个方法和/或操作。装置可以旨在作为机器2600的组件以执行本文公开的一个或多个方法和/或操作，和/或执行本文公开的一个或多个方法和/或操作的一部分。在一些实施例中，装置可以包括用于接收功率的引脚或其他手段。在一些实施例中，装置可以包括功率调节硬件。

术语“机器可读介质”可以包括能够存储、编码或携带用于由机器2600执行的指令并且使机器2600执行本公开的任何一种或多种技术的任何介质，或者能够存储、编码或携带由这种指令使用或与之关联的数据结构的任何介质。非限制性机器可读介质示例可以包括固态存储器以及光学和磁性介质。机器可读介质的具体示例可以包括非易失性存储器，例如半导体存储器设备(例如，电可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM))和Flash存储器设备；磁盘，例如内部硬盘和可移除磁盘；磁光盘；随机存取存储器(RAM)；和CD-ROM和DVD-ROM盘。在一些示例中，机器可读介质可以包括非瞬时性机器可读介质。在一些示例中，机器可读介质可以包括不是瞬时性传播信号的机器可读介质。

指令2624可以进一步利用多种传输协议(例如，帧中继、网际协议(IP)、传输控制协议(TCP)、用户数据报协议(UDP)、超文本传输协议(HTTP)等)中的任何一种，经由网络接口设备2620使用传输介质在通信网络2626上发送或接收。示例通信网络可以包括局域网(LAN)、广域网(WAN)、分组数据网络(例如，互联网)、移动电话网络(例如，蜂窝网络)、普通老式电话(POTS)网络和无线数据网络(例如，称为

的电气和电子工程师协会(IEEE)802.11系列标准、称为/>

的IEEE 802.16系列标准、IEEE 802.15.4系列标准、长期演进(LTE)系列标准、通用移动电信系统(UMTS)系列标准、点对点(P2P)网络等。

在示例中，网络接口设备2620可以包括一个或多个物理插孔(例如，以太网插孔、同轴插孔或电话插孔)或者一个或多个天线以连接到通信网络2626。在示例中，网络接口设备2620可以包括一个或多个天线2660，以使用至少一种单输入多输出(SIMO)、多输入多输出(MIMO)或多输入单输出(MISO)技术进行无线通信。在一些示例中，网络接口设备2620可以使用多用户MIMO技术进行无线通信。术语“传输介质”应当被理解为包括能够存储、编码或携带由机器2600执行的指令的任何无形介质，并且包括数字或模拟通信信号或其他无形介质以促进这种软件的通信。

如本文所述的示例可以包括逻辑或多个组件、模块或机构，或者可以操作在其上。模块是能够执行指定操作的有形实体(例如，硬件)，并且可以以某种方式配置或布置。在示例中，可以以指定方式将电路(例如，在内部，或涉及外部实体(例如，其他电路))布置为模块。在示例中，一个或多个计算机系统(例如，单机、客户端或服务器计算机系统)或者一个或多个硬件处理器的全部或部分可以由固件或软件(例如，指令、应用部分或应用)配置为操作以执行指定操作的模块。在示例中，软件可以驻留在机器可读介质上。在示例中，软件在由模块的底层硬件执行时，使硬件执行指定操作。

因此，术语“模块”被理解为涵盖有形实体，即物理上构造为、具体配置为(例如，硬连线)或临时(例如，瞬时)配置为(例如，编程为)以指定方式操作或执行本文描述的任何操作的部分或全部的实体。考虑模块是临时配置的示例，每个模块无需在任一时刻实例化。例如，在模块包括使用软件配置的通用硬件处理器的情况下，通用硬件处理器可以在不同时间被配置为各个不同的模块。软件可以相应地配置硬件处理器，例如以在一个时间实例处构成特定模块并且在不同时间实例处构成不同模块。

一些实施例可以完全地或部分地以软件和/或固件来实现。该软件和/或固件可以采取包含在非瞬时性计算机可读存储介质中或其上的指令的形式。然后，可以由一个或多个处理器读取和执行这些指令，以实现本文描述的操作的执行。指令可以是任何合适的形式，例如但不限于源代码、编译代码、解释代码、可执行代码、静态代码、动态代码等。这种计算机可读介质可以包括用于以一台或多台计算机可读的形式存储信息的任何有形的非瞬时性介质，例如但不限于只读存储器(ROM)；随机存取存储器(RAM)；磁盘存储介质；光存储介质；Flash存储器等。

上述详细描述包括对附图的引用，这些附图构成了详细描述的一部分。附图通过说明的方式示出了可以实施的具体实施例。这些实施例在本文中也称为“示例”。这样的示例可以包括除了所示或所描述的那些要素之外的要素。然而，也可以设想包括所示或所描述的要素的示例。此外，还可以设想使用关于特定示例(或其一个或多个方面)或关于本文所示或所描述的其他示例(或其一个或多个方面)所示或所描述的那些要素(或其一个或多个方面)的任何组合或排列的示例。

本文件中提及的出版物、专利和专利文件通过引用整体并入本文，如同单独通过引用并入一样。在本文件与以通过引用并入的那些文件之间的用法不一致的情况下，所并入的参考中的用法是对本文件的用法的补充；对于不可调和的不一致，以本文件中的用法为准。

在本文件中，如专利文件中常见的那样，使用术语“一”或“一个”以包括一个或多于一个，而与“至少一个”或“一个或多个”的任何其他实例或用法无关。在本文件中，术语“或”用于指代非排他性的“或”，使得“A或B”包括“A但不是B”、“B但不是A”以及“A和B”，除非另有说明。在所附权利要求中，术语“包括”和“其中”用作相应术语“包含”和“在其中”的简单英语等同物。此外，在以下权利要求中，术语“包括”和“包含”是开放式的，也就是说，包括除了在权利要求中这种术语之后列出的要素之外的要素的系统、设备、物品或过程仍然视为落入该权利要求的范围。此外，在以下权利要求中，术语“第一”、“第二”和“第三”等仅用作标签，并不旨在暗示它们的对象的数字顺序。

如上所述的实施例可以在各种硬件配置中实现，硬件配置可以包括用于执行指令的处理器，指令执行所描述的技术。这样的指令可以包含在机器可读介质中，例如合适的存储介质或存储器或其他处理器可执行介质。

如本文所述的实施例可以在多个环境中实现，例如无线局域网(WLAN)、第三代合作伙伴项目(3GPP)通用陆地无线接入网(UTRAN)或长期演进(LTE)或长期演进(LTE)通信系统的一部分，但是本公开的范围在这方面不受限制。

本文提及的天线可以包括一个或多个定向或全向天线，包括例如偶极天线、单极天线、贴片天线、环形天线、微带天线，或者适合于传输RF信号的其他类型的天线。在一些实施例中，代替两个或更多个天线，可以使用具有多个孔径的单个天线。在这些实施例中，每个孔径可以被认为是单独的天线。在一些多输入多输出(MIMO)实施例中，可以有效地分离天线，以利用空间分集和可能在每个天线与发射站的天线之间产生的不同信道特性。在一些MIMO实施例中，天线可以分开高达1/10波长以上。

附加说明和示例：

示例1是一种在下一代(NG)无线网络中实现强化学习管理实体的计算节点，所述节点包括：网络接口卡(NIC)；和处理电路，耦合到所述NIC，所述处理电路被配置为：为所述NG无线网络的对应多个网络功能生成多个网络测量，所述多个网络功能被配置为形成多级层次结构的多个机器学习模型；对来自所述多个机器学习模型中的、在所述多级层次结构中处于最低层级的机器学习模型的控制信令进行解码，所述控制信令响应于所述多个网络测量中的对应网络测量和来自处于比所述最低层级高的层级的第二机器学习模型的至少第二控制信令；以及生成多个奖励函数以用于训练所述多个机器学习模型，所述多个奖励函数基于来自所述多级层次结构中处于所述最低层级的机器学习模型的控制信令。

在示例2中，示例1的主题包括，其中，所述多个网络功能中的每一个与多个控制环路中的控制环路关联。

在示例3中，示例2的主题包括，其中，所述多个控制环路包括：与非实时无线接入网(RAN)智能控制器(非RT RIC)关联的非实时控制环路；与近实时(近RT)RIC关联的近实时控制环路；和与RIC关联的实时(RT)控制环路。

在示例4中，示例3的主题包括，其中，所述多个网络功能包括：与所述非RT RIC关联的至少一个非RT网络功能，所述至少一个非RT网络功能包括：小区波束协调网络功能；干扰协调网络功能；载波聚合配置网络功能；数据无线承载(DRB)配置和映射网络功能；或小区决策和网络拓扑配置网络功能。

在示例5中，示例4的主题包括，其中，所述多个网络功能包括：与所述近RT RIC关联的至少一个近RT网络功能，所述至少一个近RT网络功能包括：服务质量(QoS)优先级处理网络功能；连接和移动性管理网络功能；载波聚合配置网络功能；多连接配置网络功能；分组复制网络功能；分组引导网络功能；或半永久性调度配置网络功能。

在示例6中，示例5的主题包括，其中，所述多个网络功能包括：与所述RIC关联的至少一个RT网络功能，所述至少一个RT网络功能包括：介质接入控制(MAC)调度网络功能；波束或功率分配网络功能；或用户设备(UE)调度网络功能。

在示例7中，示例3-6的主题包括，其中，所述多个机器学习模型基于与所述多个控制环路中的每一个关联的时间尺度布置在所述多级层次结构中。

在示例8中，示例1-7的主题包括，其中，所述多个机器学习模型中的、在所述多级层次结构中处于最高层级与所述最低层级之间的每个机器学习模型被配置为：为在所述多级层次结构中处于较低层级的相邻机器学习模型生成控制信令目标。

在示例9中，示例1-8的主题包括，其中，所述多个机器学习模型中的每一个被配置有多个网络策略，并且其中，所述处理电路被配置为：使用所述多个网络策略，基于至少一个组合的网络策略生成所述多个奖励函数。

在示例10中，示例1-9的主题包括，其中，所述处理电路被配置为：对来自所述多个机器学习模型中的、在所述多级层次结构中处于所述预定层级的机器学习模型的控制信令进行解码，所述控制信令还基于与所述至少第二控制信令对应的网络动作的概率。

在示例11中，示例1-10的主题包括，其中，所述多个机器学习模型中的每个机器学习模型还包括评论神经网络，并且其中，来自所述机器学习模型的控制信令还基于由所述评论神经网络生成的反馈，所述反馈指示对所述NG无线网络的通信信道的测量。

示例12是至少一种非瞬时性机器可读存储介质，其上存储有指令，所述指令当由可操作以在下一代(NG)无线网络中实现强化学习管理实体的计算节点的处理电路执行时，使所述处理电路执行以下操作，包括：为所述NG无线网络的对应多个网络功能生成多个网络测量，所述多个网络功能被配置为形成多级层次结构的多个机器学习模型；对来自所述多个机器学习模型中的、在所述多级层次结构中处于预定(例如，最低)层级的机器学习模型的控制信令进行解码，所述控制信令响应于所述多个网络测量中的对应网络测量和来自处于比所述预定层级高的层级的第二机器学习模型的至少第二控制信令；以及生成多个奖励函数以用于训练所述多个机器学习模型，所述多个奖励函数基于来自所述多级层次结构中处于所述预定层级的机器学习模型的控制信令。

在示例13中，示例12的主题包括，其中，所述多个网络功能中的每一个与多个控制环路中的控制环路关联，并且其中，所述多个控制环路包括：与非实时(非RT)无线接入网(RAN)智能控制器(RIC)关联的非实时控制环路；与近实时(近RT)RIC关联的近实时控制环路；和与RIC关联的实时(RT)控制环路。

在示例14中，示例13的主题包括，其中，所述多个机器学习模型基于与所述多个控制环路中的每一个关联的时间尺度布置在所述多级层次结构中。

在示例15中，示例12-14的主题包括，其中，所述多个机器学习模型中的、在所述多级层次结构中处于最高层级与所述预定层级之间的每个机器学习模型被配置为：为在所述多级层次结构中处于较低层级的相邻机器学习模型生成控制信令目标。

在示例16中，示例12-15的主题包括，其中，所述多个机器学习模型中的每一个被配置有多个网络策略，并且其中，所述处理电路还执行以下操作，包括：使用所述多个网络策略，基于至少一个组合的网络策略生成所述多个奖励函数。

在示例17中，示例12-16的主题包括，其中，所述处理电路还执行以下操作，包括：对来自所述多个机器学习模型中的、在所述多级层次结构中处于所述预定(例如，最低)层级的机器学习模型的控制信令进行解码，所述控制信令还基于与所述至少第二控制信令对应的网络动作的概率。

在示例18中，示例12-17的主题包括，其中，所述多个机器学习模型中的每个机器学习模型还包括评论神经网络，并且其中，来自所述机器学习模型的控制信令还基于由所述评论神经网络生成的反馈，所述反馈指示对所述NG无线网络的通信信道的测量。

示例19是一种在下一代(NG)无线网络中实现强化学习管理实体的计算节点，所述节点包括：用于为所述NG无线网络的对应多个网络功能生成多个网络测量的模块，所述多个网络功能被配置为形成多级层次结构的多个机器学习模型；用于对来自所述多个机器学习模型中的、在所述多级层次结构中处于预定层级(例如，最低层级)的机器学习模型的控制信令进行解码的模块，所述控制信令响应于所述多个网络测量中的对应网络测量和来自处于比所述预定层级高的层级的第二机器学习模型的至少第二控制信令；以及用于生成多个奖励函数以用于训练所述多个机器学习模型的模块，所述多个奖励函数基于来自所述多级层次结构中处于所述预定层级的机器学习模型的控制信令。

在示例20中，示例19的主题包括，其中，所述多个网络功能中的每一个与多个控制环路中的控制环路关联，并且其中，所述多个控制环路包括：与非实时(非RT)无线接入网(RAN)智能控制器(RIC)关联的非实时控制环路；与近实时(近RT)RIC关联的近实时控制环路；和与RIC关联的实时(RT)控制环路。

示例21是至少一种机器可读介质，包括指令，所述指令当由处理电路执行时，使所述处理电路执行操作以实现示例1-20中任一项。

示例22是一种装置，包括用于实现示例1-20中任一项的模块。

示例23是实现示例1-20中任一项的系统。

示例24是实现示例1-20中任一项的方法。

以上描述旨在是说明性的而非限制性的。例如，上述示例(或其一个或多个方面)可以与其他示例组合使用。可以使用其他实施例，例如本领域技术人员在阅读以上描述后。摘要是为了让读者能够快速确定技术公开的本质。提交时的理解是，它不会被用来解释或限制权利要求的范围或含义。此外，在以上具体实施方式中，可能对各种特征进行了组合以简化本公开。然而，权利要求可能并未阐述本文公开的每个特征，因为实施例可以以所述特征的子集为特征。此外，实施例可以包括比特定示例中公开的特征更少的特征。因此，以下权利要求在此并入具体实施方式中，权利要求自身代表单独的实施例。本文所公开的实施例的范围将根据所附权利要求以及这些权利要求所赋予的等同物的全部范围来确定。

Claims

1.一种在下一代(NG)无线网络中实现强化学习管理实体的计算节点，所述节点包括：

网络接口卡(NIC)；和

处理电路，耦合到所述NIC，所述处理电路被配置为：

为所述NG无线网络的对应多个网络功能生成多个网络测量，所述多个网络功能被配置为形成多级层次结构的多个机器学习模型；

对来自所述多个机器学习模型中的、在所述多级层次结构中处于最低层级的机器学习模型的控制信令进行解码，所述控制信令响应于所述多个网络测量中的对应网络测量和来自处于比所述最低层级高的层级的第二机器学习模型的至少第二控制信令；以及

生成多个奖励函数以用于训练所述多个机器学习模型，所述多个奖励函数基于来自所述多级层次结构中处于所述最低层级的机器学习模型的控制信令。

2.根据权利要求1所述的计算节点，其中，所述多个网络功能中的每一个与多个控制环路中的控制环路关联。

3.根据权利要求2所述的计算节点，其中，所述多个控制环路包括：

与非实时无线接入网(RAN)智能控制器(非RT RIC)关联的非实时控制环路；

与近实时(近RT)RIC关联的近实时控制环路；和

与RIC关联的实时(RT)控制环路。

4.根据权利要求3所述的计算节点，其中，所述多个网络功能包括：

与所述非RT RIC关联的至少一个非RT网络功能，所述至少一个非RT网络功能包括：

小区波束协调网络功能；

干扰协调网络功能；

载波聚合配置网络功能；

数据无线承载(DRB)配置和映射网络功能；或

小区决策和网络拓扑配置网络功能。

5.根据权利要求4所述的计算节点，其中，所述多个网络功能包括：

与所述近RT RIC关联的至少一个近RT网络功能，所述至少一个近RT网络功能包括：

服务质量(QoS)优先级处理网络功能；

连接和移动性管理网络功能；

载波聚合配置网络功能；

多连接配置网络功能；

分组复制网络功能；

分组引导网络功能；或

半永久性调度配置网络功能。

6.根据权利要求5所述的计算节点，其中，所述多个网络功能包括：

与所述RIC关联的至少一个RT网络功能，所述至少一个RT网络功能包括：

介质接入控制(MAC)调度网络功能；

波束或功率分配网络功能；或

用户设备(UE)调度网络功能。

7.根据权利要求3所述的计算节点，其中，所述多个机器学习模型基于与所述多个控制环路中的每一个关联的时间尺度布置在所述多级层次结构中。

8.根据权利要求1-7中任一项所述的计算节点，其中，所述多个机器学习模型中的、在所述多级层次结构中处于最高层级与所述最低层级之间的每个机器学习模型被配置为：

为在所述多级层次结构中处于较低层级的相邻机器学习模型生成控制信令目标。

9.根据权利要求1-7中任一项所述的计算节点，其中，所述多个机器学习模型中的每一个被配置有多个网络策略，并且

其中，所述处理电路被配置为：

使用所述多个网络策略，基于至少一个组合的网络策略生成所述多个奖励函数。

10.根据权利要求1-7中任一项所述的计算节点，其中，所述处理电路被配置为：

对来自所述多个机器学习模型中的、在所述多级层次结构中处于所述最低层级的机器学习模型的控制信令进行解码，所述控制信令还基于与所述至少第二控制信令对应的网络动作的概率。

11.根据权利要求1-7中任一项所述的计算节点，其中，所述多个机器学习模型中的每个机器学习模型还包括评论神经网络，并且

其中，来自所述机器学习模型的控制信令还基于由所述评论神经网络生成的反馈，所述反馈指示对所述NG无线网络的通信信道的测量。

12.至少一种机器可读存储介质，其上存储有指令，所述指令当由可操作以在下一代(NG)无线网络中实现强化学习管理实体的计算节点的处理电路执行时，使所述处理电路执行以下操作，包括：

13.根据权利要求12所述的机器可读存储介质，其中，所述多个网络功能中的每一个与多个控制环路中的控制环路关联，并且

其中，所述多个控制环路包括：

与非实时(非RT)无线接入网(RAN)智能控制器(RIC)关联的非实时控制环路；

与近实时(近RT)RIC关联的近实时控制环路；和

与RIC关联的实时(RT)控制环路。

14.根据权利要求13所述的机器可读存储介质，其中，所述多个机器学习模型基于与所述多个控制环路中的每一个关联的时间尺度布置在所述多级层次结构中。

15.根据权利要求12-14中任一项所述的机器可读存储介质，其中，所述多个机器学习模型中的、在所述多级层次结构中处于最高层级与所述最低层级之间的每个机器学习模型被配置为：

16.根据权利要求12-14中任一项所述的机器可读存储介质，其中，所述多个机器学习模型中的每一个被配置有多个网络策略，并且

其中，所述处理电路还执行以下操作，包括：

17.根据权利要求12-14中任一项所述的机器可读存储介质，其中，所述处理电路还执行以下操作，包括：

18.根据权利要求12-14中任一项所述的机器可读存储介质，其中，所述多个机器学习模型中的每个机器学习模型还包括评论神经网络，并且

19.一种在下一代(NG)无线网络中实现强化学习管理实体的计算机系统，所述计算机系统包括：

至少一个硬件处理器；和

耦合到所述至少一个硬件处理器的存储器，用于存储指令，所述指令当由所述至少一个硬件处理器执行时，执行以下操作，包括：

20.根据权利要求19所述的计算机系统，其中，所述多个网络功能中的每一个与多个控制环路中的控制环路关联。

21.根据权利要求20所述的计算机系统，其中，所述多个控制环路包括：

与近实时(近RT)RIC关联的近实时控制环路；和

与RIC关联的实时(RT)控制环路。

22.根据权利要求21所述的计算机系统，其中，所述多个网络功能包括：

小区波束协调网络功能；

干扰协调网络功能；

载波聚合配置网络功能；

数据无线承载(DRB)配置和映射网络功能；或

小区决策和网络拓扑配置网络功能。

23.根据权利要求22所述的计算机系统，其中，所述多个网络功能包括：

服务质量(QoS)优先级处理网络功能；

连接和移动性管理网络功能；

载波聚合配置网络功能；

多连接配置网络功能；

分组复制网络功能；

分组引导网络功能；或

半永久性调度配置网络功能。

24.根据权利要求23所述的计算机系统，其中，所述多个网络功能包括：

介质接入控制(MAC)调度网络功能；

波束或功率分配网络功能；或

用户设备(UE)调度网络功能。