CN115812208A

CN115812208A - 用于无线系统中基于深度强化学习（drl）的调度的方法和系统

Info

Publication number: CN115812208A
Application number: CN202180049066.8A
Authority: CN
Inventors: V·萨克塞纳; J·斯蒂根贝格; S·泰亚蒙; E·加迪米
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2020-07-10
Filing date: 2021-07-07
Publication date: 2023-03-17
Also published as: US20230262683A1; EP4179824A1; WO2022010409A1

Abstract

本文公开了用于基于深度强化学习(DRL)的分组调度的系统和方法。在一个实施例中，一种由网络节点执行的用于基于DRB的调度的方法，包括：使用用于与多个期望网络性能行为中的一个期望网络性能行为相关的多个网络性能指标的偏好向量来执行基于DRL的调度过程，该偏好向量定义用于与该多个期望网络性能行为中的该一个期望网络性能行为相关的该多个网络性能指标的权重。以此方式，以其中联合优化多个性能指标的方式来提供基于DRL的调度。

Description

用于无线系统中基于深度强化学习(DRL)的调度的方法和系统

相关应用

本申请要求于2020年7月10日提交的临时专利申请序列号63/050,502的权益，其公开内容通过引用全部并入本文中。

技术领域

本公开涉及诸如蜂窝通信系统之类的无线系统中的调度。

背景技术

蜂窝基站(BS)同时服务于数十个或数百个用户设备(UE)。为了针对每个UE实现良好的服务质量(QoS)，BS需要在所服务的数据流之间有效地分发所共享的无线电资源。当前最先进的蜂窝网络通过在离散的时间跨度和频率切片上复用数据流来实现这一点，这些时间跨度和频率切片一起构成固定或可变大小的物理资源块(PRB)。

PRB通过在每个传输时间间隔(TTI)运行的调度算法而被分配给不同的数据流。因此，调度算法(也被称为调度器)是确保针对每个所服务的数据流的良好QoS的关键组分。在长期演进(LTE)网络中，调度主要使用启发式算法或针对不同的数据流的手动设定的优先级来完成。通用的调度算法包括轮询算法、比例公平算法、以及指数规则算法。轮询是基本调度算法之一。它基于UE的自从上次传输以来的时间对UE进行优先级排序，并因此在其决策制定中不考虑其他指标，诸如信道质量、公平性、或QoS要求。另一方面，比例公平尝试利用不同的信道质量以便向网络中的所有UE提供公平性。代替通过始终地调度具有最佳信道质量的UE来最大化网络性能，比例公平根据UE的预期数据速率与其平均数据速率的比率来对UE进行优先级排序。通过将UE的预期数据速率与其平均数据速率相关联，可以针对所有UE实现公平性。然而，在该方法中没有考虑QoS要求。指数规则算法尝试将QoS意识引入到比例公平算法中，从而提供QoS和信道质量意识。这通过将UE的优先级以指数方式增加其当前的队首延时(head-of-line delay)来完成。

然而，在新无线电(NR)中，与上一代蜂窝系统相比，可以更灵活地调度可用的时间和频率资源。因此，有效地调度可用资源已变得更加复杂。增加的复杂度导致设计可有效地处理跨数据流的多种QoS要求的“良好”启发式算法的难度增加，并且还使得难以在动态单元状态上保持良好的蜂窝性能。为了促进复杂的调度策略，最近已提出了基于深度强化学习(DRL)的方案以用于蜂窝网络中的调度。

在无线电资源管理(RRM)中使用DRL是一个相对较新的领域。在高层次上，基于DRL的调度旨在通过受控试验来探索调度策略的空间，并随后利用这些知识来向所服务的UE分配无线电资源。在该领域中的工作包括I.Comsa、A.De-Domenico和D.Ktenas的“5G无线电接入网络中的QoS驱动的调度——一种强化学习方法(QoS-Driven Scheduling in5G RadioAccess Networks-A Reinforcement Learning Approach)”(GLOBECOM 2017-2017IEEE全球通信会议，2017年，第1-7页，doi：10.1109/GLOCOM.2017.8254926)，其在下文中被称为“Comsa论文”。Comsa论文的作者考虑到在LTE中使用的一组流行的调度算法。进而，他们在每个TTI应用DRL算法，以决定要应用哪种调度算法。其他工作包括Chinchali,S.、P.Hu、T.Chu、M.Sharma、M.Bansal、R.Misra、M.Pavone和S.Katti的“利用深度强化学习的蜂窝网络业务调度(Cellular Network Traffic Scheduling With Deep ReinforcementLearning)”(AAAI人工智能会议论文集，第1期，第32卷，2018年4月，https://ojs.aaai.org/index.php/AAAI/article/view/11339)，在下文中被称为“Chinchali论文”。Chinchali论文的作者调查了高容量灵活时间(High-Volume-Flexible-Time，HVFT)业务。这是通常源自物联网(IoT)设备的业务。他们使用DRL算法来决定应在当前TTI中被调度的HVFT量。

发明内容

在一个实施例中，该方法进一步包括：分别获得用于多个期望网络性能行为的各网络性能指标集的多个偏好向量。

在一个实施例中，多个网络性能指标包括：(a)分组大小，(b)分组延时，(c)服务质量(QoS)要求，(d)小区状态，或者(e)(a)-(d)中的两项或更多项的组合。

在一个实施例中，进一步包括：分别从用于多个网络性能行为的各网络性能指标集的多个偏好向量中选择偏好向量。在一个实施例中，从多个偏好向量中选择偏好向量包括：基于一个或多个参数，从多个偏好向量中选择偏好向量。在一个实施例中，所选择的偏好向量随时间改变。在一个实施例中，一个或多个参数包括一天中的时间或者业务类型。

在一个实施例中，基于DRL的调度过程是深度Q学习网络(DQN)调度过程。

在一个实施例中，基于DRL的调度过程针对多个传输时间间隔(TTI)中的每个TTI执行分组的时域调度。

在一个实施例中，该方法进一步包括：在执行基于DRL的调度过程之前，确定用于期望网络性能行为的偏好向量。

在一个实施例中，该方法进一步包括：在执行基于DRL的调度过程之前，针对多个期望网络性能行为中的每个期望网络性能行为：针对用于与该期望网络性能行为相关的多个网络性能指标的多个候选偏好向量中的每个候选偏好向量，基于相应的复合奖励函数，训练基于DRL的策略，每个复合奖励函数基于与该期望网络性能行为相关的多个网络性能指标和多个候选偏好向量中的相应的候选偏好向量；基于该训练的结果，从用于与该期望网络性能行为相关的多个网络性能指标的多个候选偏好向量中选择用于与该期望网络性能行为相关的多个网络性能指标的偏好向量。

还公开了网络节点的对应实施例。在一个实施例中，一种用于基于DRB的调度的网络节点，适于：使用用于与多个期望网络性能行为中的一个期望网络性能行为相关的多个网络性能指标的偏好向量来执行基于DRL的调度过程，该偏好向量定义用于与该多个期望网络性能行为中的该一个期望网络性能行为相关的该多个网络性能指标的权重。

在一个实施例中，一种用于基于DRB的调度的网络节点，包括处理电路，该处理电路被配置为使该网络节点：使用用于与多个期望网络性能行为中的一个期望网络性能行为相关的多个网络性能指标的偏好向量来执行基于DRL的调度过程，该偏好向量定义用于与该多个期望网络性能行为中的该一个期望网络性能行为相关的该多个网络性能指标的权重。

在一个实施例中，一种训练基于DRL的调度过程的计算机实现的方法，包括：针对多个期望网络性能行为中的每个期望网络性能行为：针对用于与该期望网络性能行为相关的多个网络性能指标的多个候选偏好向量中的每个候选偏好向量，基于相应的复合奖励函数，训练基于DRL的策略，每个复合奖励函数基于与该期望网络性能行为相关的多个网络性能指标和多个候选偏好向量中的相应的候选偏好向量；以及基于该训练的结果，从用于与该期望网络性能行为相关的多个网络性能指标的多个候选偏好向量中选择用于与该期望网络性能行为相关的多个网络性能指标的偏好向量。

还公开了计算节点或网络节点的对应实施例。在一个实施例中，一种计算节点或网络节点，适于：针对多个期望网络性能行为中的每个期望网络性能行为：针对用于与该期望网络性能行为相关的多个网络性能指标的多个候选偏好向量中的每个候选偏好向量，基于相应的复合奖励函数，训练基于DRL的策略，每个复合奖励函数基于与该期望网络性能行为相关的多个网络性能指标和多个候选偏好向量中的相应的候选偏好向量；以及基于该训练的结果，从用于与该期望网络性能行为相关的多个网络性能指标的多个候选偏好向量中选择用于与该期望网络性能行为相关的多个网络性能指标的偏好向量。

在一个实施例中，一种由网络节点执行的用于基于深度DRL的调度的方法，包括：在使用偏好向量来优化从多个网络性能向量生成的复合奖励的基于DRL的调度过程的训练阶段期间，针对多个期望网络性能行为中的每个期望网络性能行为，确定该偏好向量以应用于与该期望网络性能行为相关的多个网络性能指标。该方法进一步包括：在基于DRL的调度过程的执行阶段期间，使用用于与多个期望网络性能行为中的一个期望网络性能行为相关的多个网络性能指标的所确定的偏好向量来执行基于DRL的调度过程。

在一个实施例中，针对多个期望网络性能行为中的每个期望网络性能行为，确定偏好向量包括：针对用于与该期望网络性能行为相关的多个网络性能指标的多个候选偏好向量中的每个候选偏好向量，基于相应的复合奖励函数，训练基于DRL的策略，每个复合奖励函数基于与该期望网络性能行为相关的多个网络性能指标和多个候选偏好向量中的相应的候选偏好向量；以及基于该训练的结果，从用于与该期望网络性能行为相关的多个网络性能指标的多个候选偏好向量中选择用于与该期望网络性能行为相关的多个网络性能指标的偏好向量。

还公开了网络节点的对应实施例。在一个实施例中，一种用于基于深度DRL的调度的网络节点，适于：在使用偏好向量来优化从多个网络性能向量生成的复合奖励的基于DRL的调度过程的训练阶段期间，针对多个期望网络性能行为中的每个期望网络性能行为，确定该偏好向量以应用于与该期望网络性能行为相关的多个网络性能指标。该网络节点进一步适于：在基于DRL的调度过程的执行阶段期间，使用用于与多个期望网络性能行为中的一个期望网络性能行为相关的多个网络性能指标的所确定的偏好向量来执行基于DRL的调度过程。

在一个实施例中，一种用于基于深度DRL的调度的网络节点，包括处理电路，该处理电路被配置为使该网络节点：在使用偏好向量来优化从多个网络性能向量生成的复合奖励的基于DRL的调度过程的训练阶段期间，针对多个期望网络性能行为中的每个期望网络性能行为，确定该偏好向量以应用于与该期望网络性能行为相关的多个网络性能指标。该处理电路进一步被配置为使该网络节点：在基于DRL的调度过程的执行阶段期间，使用用于与多个期望网络性能行为中的一个期望网络性能行为相关的多个网络性能指标的所确定的偏好向量来执行基于DRL的调度过程。

在一个实施例中，本文还公开了计算机程序产品的实施例。

在一个实施例中，一种由网络节点执行的用于基于DRL的调度的方法，包括：针对多个期望网络性能行为中的每个期望网络性能行为，确定用于与该期望网络性能行为相关的多个网络性能指标的偏好向量，该偏好向量定义用于与该期望网络性能行为相关的多个网络性能指标的权重。该方法进一步包括：使用用于与多个期望网络性能行为中的一个期望网络性能行为相关的多个网络性能指标的偏好向量来执行基于DRL的调度过程。

在一个实施例中，针对多个期望网络性能行为中的每个期望网络性能行为，确定用于与该期望网络性能行为相关的多个网络性能指标的偏好向量包括：针对用于与该期望网络性能行为相关的多个网络性能指标的多个候选偏好向量中的每个候选偏好向量，基于相应的复合奖励函数，训练基于DRL的策略，每个复合奖励函数基于与该期望网络性能行为相关的多个网络性能指标和多个候选偏好向量中的相应的候选偏好向量；以及基于该训练的结果，从用于与该期望网络性能行为相关的多个网络性能指标的多个候选偏好向量中选择用于与该期望网络性能行为相关的多个网络性能指标的偏好向量。

附图说明

包括在本说明书中并形成本说明书的一部分的附图图示了本公开的若干方面，并且与本说明书一起用于解释本公开的原理。

图1图示根据本公开的一些实施例的蜂窝通信系统的一个示例；

图2图示根据本公开的实施例的方法；

图3是图示根据本公开的实施例的用于蜂窝网络的基于深度强化学习(DRL)的调度过程的框图；

图4是图示根据本公开的实施例的其中最优偏好向量被确定的训练阶段和其中所确定的偏好向量被用于控制调度器的执行阶段的框图；

图5是图示根据本公开的实施例的通过针对给定期望网络性能行为所选择的偏好向量(例如，仅通过所选择的偏好向量)来控制调度器的框图；

图6是根据本公开的一些实施例的无线电接入节点的示意性框图；

图7是图示根据本公开的一些实施例的图6的无线电接入节点的虚拟化实施例的示意性框图；以及

图8是根据本公开的一些其他实施例的图6的无线电接入节点的示意性框图。

具体实施方式

下面阐述的实施例表示使本领域技术人员能够实践实施例的信息，并且说明了实践实施例的最佳模式。在按照附图阅读以下描述时，本领域技术人员将理解本公开的概念，并且将认识到本文中未特别解决的这些概念的应用。应当理解，这些概念和应用落入本公开的范围内。

无线电节点：如本文所使用的，“无线电节点”是无线电接入节点或无线通信设备。

无线电接入节点：如本文所使用的，“无线电接入节点”或“无线电网络节点”或“无线电接入网络节点”是蜂窝通信网络的无线电接入网络(RAN)中的任何节点，其操作以无线地发送和/或接收信号。无线电接入节点的一些示例包括但不限于基站(例如，第三代合作伙伴计划(3GPP)第五代(5G)NR网络中的新无线电(NR)基站(gNB)或3GPP长期演进(LTE)网络中的增强型或演进型节点B(eNB))、高功率或宏基站、低功率基站(例如，微基站、微微基站、家庭eNB等)、中继节点、实现基站的功能的部分的网络节点(例如，实现gNB中央单元(gNB-CU)的网络节点或实现gNB分布式单元(gNB-DU)的网络节点)、或者实现一些其他类型的无线电接入节点的功能的部分的网络节点。

核心网络节点：如本文所使用的，“核心网络节点”是核心网络中的任何类型的节点或者实现核心网络功能的任何节点。核心网络节点的一些示例例如包括移动性管理实体(MME)、分组数据网络网关(P-GW)、服务能力开放功能(SCEF)、归属订户服务器(HSS)等。核心网络节点的一些其他示例包括实现接入和移动性管理功能(AMF)、用户面功能(UPF)、会话管理功能(SMF)、认证服务器功能(AUSF)、网络切片选择功能(NSSF)、网络开放功能(NEF)、网络功能(NF)储存库功能(NRF)、策略控制功能(PCF)、统一数据管理(UDM)等的节点。

通信设备：如本文所使用的，“通信设备”是可以接入接入网络的任何类型的设备。通信设备的一些示例包括但不限于：移动电话、智能电话、传感器设备、仪表、车辆、家用电器、医疗设备、媒体播放器、相机、或任何类型的消费电子产品，例如但不限于电视机、收音机、照明装置、平板计算机、笔记本电脑、或个人计算机(PC)。通信设备可以是便携式的、手持式的、包括计算机的、或车载式移动设备，其使能经由无线或有线连接传送语音和/或数据。

无线通信设备：一种类型的通信设备是无线通信设备，其可以是可以接入(即，由其服务)无线网络(例如，蜂窝网络)的任何类型的无线设备。无线通信设备的一些示例包括但不限于：3GPP网络中的用户设备(UE)、机器类型通信(MTC)设备、以及物联网(IoT)设备。这种无线通信设备可以是或可以被集成到移动电话、智能电话、传感器设备、仪表、车辆、家用电器、医疗设备、媒体播放器、相机、或任何类型的消费电子产品中，该消费电子产品例如但不限于电视机、收音机、照明装置、平板计算机、笔记本电脑、或PC。无线通信设备可以是便携式的、手持式的、包括计算机的、或车载式移动设备，其使能经由无线连接传送语音和/或数据。

网络节点：如本文所使用的，“网络节点”是作为无线电接入网络的一部分的任何节点或蜂窝通信网络/系统的核心网络的任何节点。

期望网络性能行为：如本文所使用的，术语“期望网络性能行为”是指网络(例如，蜂窝通信网络)将要执行的方式。例如，一个期望网络性能行为是最大化整个小区业务的吞吐量。另一个示例是最大化移动宽带(MBB)业务的吞吐量。作为另一个示例，期望网络性能行为是优化各种服务质量(QoS)指标，诸如例如最大化语音满意度(通过最小化分组延时)、满足与高优先级用户相关联的数据流、减少抖动等。在一些情况下，期望网络性能行为由网络运营商定义。

基于深度强化学习的策略：如本文所使用的，基于DRL的策略是针对基于DRL的过程而训练的“策略”。该策略例如被表示为神经网络或权重，其定义针对基于DRL的过程的给定输入的输出。在用于蜂窝通信系统的调度方面，基于DRL的调度器的策略定义针对该调度器的给定输入的该调度器的输出。

网络性能指标：如本文所使用的，“网络性能指标”是指示网络的性能的任何指标或参数。一些示例包括网络吞吐量、公平性、传输延时、QoS满意度、分组丢失等。

注意，本文所给出的描述侧重于3GPP蜂窝通信系统，并因此经常使用3GPP术语或类似于3GPP术语的术语。然而，本文所公开的概念并不限于3GPP系统。

注意，在本文的描述中，可以参考术语“小区”；然而，特别是关于5G NR概念，可以使用波束来代替小区，并因此重要的是要注意，本文所描述的概念同样适用于小区和波束两者。

当前存在某些挑战。现代蜂窝基站(BS)中的调度器需要解决与蜂窝性能相关的多个目标。这些目标通常是冲突的，从而针对某个性能指标指定更高的重要性会导致一些其他指标降级。例如，调度器可以通过向数据流分配更多的无线电资源来增加其吞吐量。然而，这是以竞争同一组无线电资源的数据流的更高分组延时为代价的。因此，调度器需要在增加吞吐量与减少平均分组延时之间进行权衡。不利地，由于各种服务质量(QoS)要求和调度过程的动态性质，找到吞吐量与分组延时之间的最优平衡具有挑战性。

除了吞吐量和延时之外，可以存在与数据流相关的附加QoS要求，例如，分组错误率、保证比特率、最大重传尝试次数等，这进一步使调度过程复杂化，因为这些要求也需要被并入启发式算法(诸如在背景部分中讨论的算法)中。新的用例也可以引入新的这种要求，从而使启发式算法的维护成为一个大问题。

此外，蜂窝性能指标之间的最优权衡取决于运营商偏好、小区中的用户数量(即，UE数量)、所服务的数据流的特性(即，速率和持续时间)、以及附加的因素。使用现有方法难以有效地控制这些权衡，因为它们不是由启发式算法中的参数明确地控制。

先前的工作(包括使用深度强化学习(DRL))并没有使用它来完全控制调度过程；也就是说，在先前的工作中，DRL并没有被端到端地使用。相反，DRL算法通常被用于在更高级次上做出决策，例如，在特定传输时间间隔(TTI)要应用哪种调度算法或者应调度来自一些特定业务类型的业务量。另外，它们不允许运营商控制网络的行为，而理论上可以通过调整启发式算法来做到这一点。然而，如前所述，调整启发式算法是一个非常不切实际且耗时的过程。

本公开的某些方面及其实施例可以提供对前述或其他挑战的解决方案。在本文公开的解决方案中，公开了一种用于在DRL调度过程期间灵活地平衡各种蜂窝性能指标的方法。在一个实施例中，在性能指标集上应用权重值向量(即，偏好向量)。该偏好向量是基于若干因素(诸如例如QoS要求、与数据流和UE相关联的优先级值、以及动态小区状态)之一或其组合而指定的。该偏好向量被用于生成复合奖励函数，其随后被优化以获得DRL调度策略。

在一个实施例中，提供了一种用于向受蜂窝网络中的分组调度影响的一个或多个性能指标分配偏好向量的方法。在一个实施例中，该偏好向量包括标量权重值，其被应用于对应的性能指标以便生成复合奖励函数(其也可以被称为复合目标函数或复合效用函数)。在一个实施例中，该偏好向量是基于以下因素中的任何一个或者两个或更多个的任何组合而确定的：

·一个性能指标相对于其他性能指标的相对重要性；

·小区级信息，诸如小区负载、活动用户数量(即，活动UE数量)、关于数据流的统计信息等；

·用户级信息，包括每个用户(即，UE)的优先级水平、用于所服务的数据流的QoS要求、UE能力等；

·来自其他小区的关于与一个或多个小区状态相关的偏好向量的合适的值的信息；

·在DRL架构内使用的模型的选择，例如，深度Q网络、actor-critic等；

·通过优化方案优化的奖励函数的选择，例如，均方损失、交叉熵损失等；

·用于获得调度策略的优化算法的选择，例如，随机梯度下降、ADAM等。

某些实施例可以提供以下技术优势中的一个或多个。例如，与先前的工作相比，本文提出的解决方案的实施例：

·使用DRL来完全控制调度过程，即，DRL的端到端使用。具体地，提出了一种用于联合优化多个性能指标的方法。

·提供最优控制网络中的竞争性能目标/关键性能指标(KPI)之间的权衡并因此最优控制实时网络的行为的能力。

·允许更丰富的奖励函数的设计(例如，通过使用复合奖励函数和偏好向量来对相应的性能指标集进行加权)，例如，通过允许将外部附加因素(诸如个体用户和数据流的类型和优先级)包括在调度策略中。这增加了针对蜂窝网络的多种状态和性能目标的调度过程的设计的灵活性。

初步研究表明，在控制因特网协议语音(VoIP)用户的QoS与网络的聚合吞吐量之间的权衡方面很有前景。在用于初步研究的特殊场景中，与当前最先进的基于优先级的调度器相比，延迟的VoIP分组减少了30％，同时网络吞吐量提高了大约20％。

图1图示了其中可以实现本公开的实施例的蜂窝通信系统100的一个示例。在本文描述的实施例中，蜂窝通信系统100是包括下一代RAN(NG-RAN)和5G核心(5GC)的5G系统(5GS)，或者包括演进通用陆地RAN(E-UTRAN)和演进分组核心(EPC)的演进分组系统；然而，本文公开的实施例不限于此。在该示例中，RAN包括基站102-1和102-2，其在5GS中包括NR基站(gNB)并可选地包括下一代eNB(ng-eNB)(例如，被连接到5GC的LTE RAN节点)，并且在EPS中包括控制对应的(宏)小区104-1和104-2的eNB。基站102-1和102-2在本文中通常被统称为基站102并个体地被称为基站102。类似地，(宏)小区104-1和104-2在本文中通常被统称为(宏)小区104并个体地被称为(宏)小区104。RAN还可以包括控制对应的小小区108-1到108-4的多个低功率节点106-1到106-4。低功率节点106-1到106-4可以是小型基站(诸如微微或毫微微基站)或远程无线电头端(RRH)等。注意，虽然未图示，但是小小区108-1到108-4中的一个或多个可以可替代地由基站102提供。低功率节点106-1到106-4在本文中通常被统称为低功率节点106并个体地被称为低功率节点106。类似地，小小区108-1到108-4在本文中通常被统称为小小区108并个体地被称为小小区108。蜂窝通信系统100还包括核心网络110，其在5G系统(5GS)中被称为5GC。基站102(以及可选的低功率节点106)被连接到核心网络110。

基站102和低功率节点106向对应的小区104和108中的无线通信设备112-1到112-5提供服务。无线通信设备112-1到112-5在本文中通常被统称为无线通信设备112并个体地被称为无线通信设备112。在下面的描述中，无线通信设备112通常是UE，并因此有时在本文中被称为UE 112，但是本公开不限于此。

现在，提供对本文公开的解决方案的一些示例实施例的描述。在一个实施例中，提供了一种蜂窝网络中的基于DRL的分组调度的方法。在一个实施例中，期望网络性能行为集中的每个期望网络性能行为与蜂窝网络的相应的性能指标(例如，关键性能指标(KPI))集相关。此外，针对每个期望网络性能行为，权重值的相应的偏好向量(例如，标量权重值)被分配给相应的性能指标集并被用于生成用于期望网络性能行为的复合奖励函数。如图2中所示，其中可选步骤由虚线/框表示，在一个实施例中，该方法包括以下步骤：

·步骤200(可选)：定义期望网络性能行为集。该期望网络性能行为集可以可替代地以其他方式获得、预定义、或预配置。

·步骤202(可选)：针对每个期望网络性能行为，定义与该期望网络性能行为相关的蜂窝网络的性能指标(例如，KPI)集。该性能指标集可以可替代地以其他方式获得、预定义、或预配置。

·步骤204——训练阶段：针对每个期望网络性能行为，确定用于与该期望网络性能行为相关的性能指标的偏好向量(即，权重值)。在该实施例中，针对每个期望网络性能行为，该偏好向量是通过以下操作而确定的：基于使用用于基于DRL的调度过程的训练过程而生成的相应的复合奖励，从候选偏好向量集中选择该偏好向量，其中，该训练过程包括：

ο步骤204A：针对该期望网络性能行为集中的每个期望网络性能行为的性能指标集，训练基于DRL的调度过程的策略(例如，深度Q网络(DQN)的Q函数)。在一个实施例中，该训练包括：

-步骤204A0：针对每个期望网络性能行为的性能指标集，生成候选偏好向量集。该候选偏好向量集可以可替代地以其他方式获得、预定义、或预配置。

-步骤204A1：针对用于每个期望网络性能行为的性能指标集的每个候选偏好向量，通过将该候选偏好向量应用于相关联的性能指标来生成用于该候选偏好向量的复合奖励，以及

-步骤204A2：针对每个期望网络性能行为，优化用于每个候选偏好向量的复合奖励。该步骤通过基于DRL的调度过程来优化复合奖励，其中，该基于DRL的调度过程最大化针对每个候选偏好向量的期望网络性能行为。

ο步骤204B：针对每个期望网络性能行为，选择提供最佳网络性能(例如，在各个期望网络性能行为方面)的候选偏好向量。

·步骤206——执行阶段：使用用于与期望网络性能行为之一(选择的一个)相关的网络性能指标的所确定的偏好向量(以及例如相关联的经训练的策略)来执行基于DRL的调度过程(例如，用于时域调度)。基于对应的所确定的偏好向量(和相关联的经训练的策略)以提供上行链路和/或下行链路分组的时域调度。

注意，在一个实施例中，步骤204和206两者都由网络节点(例如，基站101)执行，其中，使用先前收集和/或实时的数据来执行训练。在另一个实施例中，步骤204被离线执行(例如，在计算机或计算机系统处)，其中，训练的结果被提供给网络节点(例如，基站102)并被该网络节点用于执行该执行阶段(即，步骤206)。

期望网络性能行为集可以例如在本文描述的解决方案中被确定，或者在本文公开的解决方案之外被确定(例如，由一些其他过程来确定并作为输入被提供给本文公开的解决方案)。在一个实施例中，留待由网络运营商的偏好来定义期望网络行为。例如，一个网络运营商可能更愿意最大化整个小区业务或移动宽带(MBB)业务的吞吐量。在另一个示例中，网络运营商可能旨在优化各种QoS指标，诸如最大化语音满意度(通过最小化分组延时)、满足与高优先级用户相关联的数据流、减少抖动等。期望网络性能行为可以被定义为上述或类似的目标中的两个或更多个的组合。

针对每个期望网络性能行为，相关的性能指标(例如，KPI)集例如可以包括以下指标中的任何一个或者其两个或更多个的任何组合：网络吞吐量、公平性、传输延时、一般QoS满意度(例如，VoIP用户的分组丢失)等。

图3是图示根据本公开的实施例的用于蜂窝网络(例如，用于蜂窝通信系统11的RAN的基站102)的基于DRL的调度过程的框图。特别地，图3概括地图示了上述过程的步骤204和206。在该示例中，该过程由包括DRL代理的调度器300执行，其中，在一个实施例中，调度器300在基站102内被实现。

如图所示，针对每个给定期望网络性能行为(来自步骤200)，通过将相应的偏好向量(即，标量权重集)应用于该给定期望网络性能行为的相应的KPI(来自步骤202)来构建复合奖励函数。关键的困难在于，无法在数学上从输入KPI中推导出最大化期望网络性能行为的最优偏好向量。相反，最优偏好向量必须凭经验找到。一种用于找到良好的偏好向量的方法是在可能的权重值的空间内进行搜索。如此，可以简单地用不同的偏好向量值进行试错以找出最佳偏好向量值。尽管这个想法看起来可行且易于实施，但以在线方式将其应用于实时通信网络实际上是不可行的。这是因为一旦新的偏好向量值被选择，DRL代理就需要再训练阶段，这通常需要很长时间。

在图4和图5图示了用于确定并使用用于特定期望网络性能行为的最优偏好向量的过程的一个示例实施例。特别地，图4图示了训练阶段(对应于步骤204，其中，最优偏好向量被确定)和执行阶段(对应于步骤206，其中，所确定的偏好向量被用于控制调度器300(例如，作为其输入))。关于训练，通过使用off-policy DRL算法(例如，深度Q网络)，可以使用从模拟或实时网络收集的数据以离线方式用偏好向量的不同候选(即，不同的候选偏好向量值)进行实验。以这种方式，可以选择偏好向量的不同的值(如图4中所示)，并且可以训练并评估对应的基于DRL的调度过程(即，基于DRL的调度过程的策略)，而无需中断实时网络功能或等待实时数据以训练该调度过程。进而，可以通过选择导致DRL调度过程的最佳性能的候选偏好向量来找到网络的最优行为。另外，在一些实施例中，还考虑到基于DRL的调度过程的不同变体，并且基于DRL的调度变体和候选偏好向量的最佳组合被选择。

更具体地，在一个实施例中，基于DRL的调度过程在TTI中执行分组的时域调度。针对每个TTI，基于DRL的调度过程接收需要被调度以用于发送的(未排序的)分组列表作为其输入，并输出经排序的分组列表。该分组列表和经排序的分组列表均包括一定数量(n)的分组。经排序的列表对被赋予每个分组的优先级进行编码，其进而被视为被分配的频域资源。关于训练基于DRL的调度过程的策略，以深度Q网络(DQN)为例，基于DRL的调度过程的策略(或Q函数)可以被表达为：

其中，S是状态空间，A是离散动作空间。在该示例中，状态空间S是基于DRL的调度过程的输入状态空间S_i和输出状态空间S_o的并集。输入状态空间S_i是输入分组列表的所有可能的状态，输出状态空间S_o是经排序的分组列表的所有可能的状态。在这些列表中，每个分组被表示为分组相关的变量的向量，诸如例如分组大小、QoS要求、延时等。关于动作空间A，在该动作空间中的动作是可被附加到输出排序列表的输入列表中的分组。因此，对于大小为x的输入列表，动作空间的维度为x。一个动作代表示接下来输入列表中的哪个元素应被附加到输出排序列表中(选择排序)。如机器学习(特别是DRL)领域的技术人员将理解的，在对应的时间t的训练过程的每次迭代期间，基于更新函数(也被称为更新规则)，更新策略、或者在该示例中的Q函数。该更新函数通常是奖励函数的函数，其中，该奖励函数是在时间t的状态S_t、在时间t的动作A_t和在时间t+1的状态S_t+1的函数。然而，在本解决方案的实施例中，该更新函数是通过针对与给定期望网络性能行为相关的每个性能指标应用偏好向量而生成的复合奖励的函数。因此，如图4中所示，针对每个期望网络性能行为，该训练过程包括针对迭代次数i＝1…Num_迭代中的每次迭代的以下操作：

1)获得与给定期望网络性能行为相关的性能指标集的值，其来自迭代i中的分组的发送；

2)针对所获得的性能指标值，计算个体奖励值；

a)注意：在一个实施例中，每分组地采取动作，因此，训练是逐个分组地进行的。然而，个体奖励(并因此复合奖励)是在每个TTI之后计算的。因此，训练的反馈是在TTI级别上给出的。

3)将候选偏好向量集中的每个候选偏好向量应用于所计算的个体奖励值以生成复合奖励值的集合；

4)针对每个候选偏好向量，基于相应的复合奖励值，更新单独的策略。这导致针对相应的候选偏好向量的多个经训练的策略(即，多个经训练的Q函数)。

5)一旦针对候选偏好向量的策略被训练，针对期望网络性能行为提供最佳性能的候选偏好向量就被选择为用于该期望网络性能行为的偏好向量。此外，对应的策略被选择为为用于该期望网络性能行为的策略。

在训练阶段之后，进而可以通过针对该给定期望网络性能行为所选择的偏好向量(例如，仅通过所选择的偏好向量)来控制调度器300，如图5中所示。

在实现中，可以考虑如图5中所示的控制器500。在一个实施例中，控制器500实现基于规则的方法，该方法接收期望网络性能行为的输入，并选择优化所选择的行为的对应的偏好向量(步骤502)。换句话说，控制器500从用于各个网络性能行为的各网络性能指标集的多个偏好向量中选择偏好向量，以使得所选择的偏好向量是优化所选择、或所期望的网络性能行为的偏好向量。关于基于规则的方法，控制器逻辑是固定的。然而，更高级的规则也是可能的。例如，期望网络性能行为可基于时间、业务类型等而改变。因此，由控制器500所选择的最终的最优偏好向量也将改变。一个示例是全天性能目标的发生变化，以允许夜间对高峰时间期间的不同的行为。

在一个实施例中，由控制器500做出的偏好向量的最终选择可取决于多个因素。例如，对将要使用的偏好向量的选择可以取决于关于一个或多个数据流的最大可容忍分组丢失的偏好。在另一个实施例中，所选择的偏好向量是数据流特性的函数，例如，中值负载大小或流到达率的均值。

在一个实施例中，控制器500被实现为查找表，其包含用于不同的网络性能行为的偏好向量或者用于给定不同的网络性能目标的偏好向量的可能的权重值的下限和上限。进而，通过挑选可能的值的允许范围内的任何值来计算实际的偏好向量。

在另一个实施例中，可以按以下方式来缩放对合适的偏好向量的搜索。可行的偏好向量值的集合被分布在多个BS之间。这些BS的测量性能与对应的小区状态一起在中央节点处被收集。随后，该信息被用于估计作为小区状态的函数的最优偏好向量。进而，以这种方式生成的偏好向量被应用于每个单独的BS中的调度(步骤504)。

在另一个实施例中，网络性能目标(并因此最优偏好向量)可以是运营商特定的、区域特定的、或者RAT特定的。

图6是根据本公开的一些实施例的无线电接入节点600的示意性框图。可选的特征由虚线框表示。无线电接入节点600例如可以是基站102或106或者实现本文所描述的基站102的全部或部分功能(例如，本文所描述的调度器300和/或控制器500的全部或部分功能)的网络节点。如图所示，无线电接入节点600包括控制系统602，其包括一个或多个处理器604(例如，中央处理单元(CPU)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)等)、存储器606、以及网络接口608。一个或多个处理器604在本文中也被称为处理电路。另外，无线电接入节点600可以包括一个或多个无线电单元610，每个无线电单元包括被耦接到一个或多个天线616的一个或多个发射机612和一个或多个接收机614。无线电单元610可以被称为无线电接口电路或者是无线电接口电路的一部分。在一些实施例中，无线电单元610在控制系统602外部并经由例如有线连接(例如，光缆)被连接到控制系统602。然而，在一些其他实施例中，无线电单元610和可能的天线616与控制系统602集成在一起。一个或多个处理器604操作以提供如本文所描述的无线电接入节点600的一个或多个功能(例如，本文所描述的调度器300和/或控制器500的全部或部分功能)。在一些实施例中，这些功能采用例如被存储在存储器606中并由一个或多个处理器604执行的软件来实现。

图7是图示根据本公开的一些实施例的无线电接入节点600的虚拟化实施例的示意性框图。此讨论同样适用于其他类型的网络节点。此外，其他类型的网络节点可以具有类似的虚拟化架构。同样地，可选的特征由虚线框表示。

如本文所使用的，“虚拟化”无线电接入节点是无线电接入节点600的实现，其中，无线电接入节点600的至少一部分功能被实现为虚拟组件(例如，经由在网络中的物理处理节点上执行的虚拟机)。如图所示，在该示例中，无线电接入节点600可以包括控制系统602和/或一个或多个无线电单元610，如上所述。控制系统602可以例如经由光缆等被连接到无线电单元610。无线电接入节点600包括被耦接到网络702或者被包括为网络702的一部分的一个或多个处理节点700。如果存在，则控制系统602或无线电单元经由网络702被连接到处理节点700。每个处理节点700包括一个或多个处理器704(例如，CPU、ASIC、FPGA等)、存储器706、以及网络接口708。

在该示例中，本文所描述的无线电接入节点600的功能710(例如，本文所描述的调度器300和/或控制器500的全部或部分功能)以任何所期望的方式在一个或多个处理节点700处被实现或者被分布在一个或多个处理节点700和控制系统602和/或无线电单元610之间。在一些特定实施例中，本文所描述的无线电接入节点600的一些或所有功能710被实现为由在处理节点700所托管的虚拟环境中实现的一个或多个虚拟机执行的虚拟组件。如本领域普通技术人员将理解的，处理节点700与控制系统602之间的附加信令或通信被使用，以便执行至少一些所期望的功能710。注意，在一些实施例中，可以不包括控制系统602，在这种情况下，无线电单元610经由合适的网络接口直接与处理节点700通信。

在一些实施例中，提供一种包括指令的计算机程序，这些指令在由至少一个处理器执行时使该至少一个处理器执行无线电接入节点600或者实现根据本文所描述的任何实施例的虚拟环境中的无线电接入节点600的功能710中的一个或多个的节点(例如，处理节点700)的功能。在一些实施例中，提供了一种包括上述计算机程序产品的载体。该载体是电子信号、光信号、无线电信号、或计算机可读存储介质(例如，诸如存储器之类的非暂时性计算机可读介质)之一。

图8是根据本公开的一些其他实施例的无线电接入节点600的示意性框图。无线电接入节点600包括一个或多个模块800，每个模块以软件实现。模块800提供本文所描述的无线电接入节点600的功能(例如，本文所描述的调度器300和/或控制器500的全部或部分功能)。此讨论同样适用于图7的处理节点700，其中，模块800可以在处理节点700之一处被实现，或者被分布在多个处理节点700之间和/或被分布在处理节点700和控制系统602之间。

注意，某些方面(例如，训练)可以在RAN外部(例如，在计算节点处)被执行。该计算节点可以是任何类型的计算机或计算机系统(例如，个人计算机或其他类型的计算机或计算机系统)。计算节点包括一个或多个处理电路(例如，CPU、ASIC、FPGA等)，其被配置为执行例如本文所描述的训练过程的至少一些方面。该计算节点可以包括附加的硬件(例如，诸如RAM、ROM等之类的存储器)、输入/输出设备(例如，监视器、键盘等)，并且还可以包括软件，该软件包括指令，这些指令在由该处理电路执行时使该计算节点执行本文公开的训练过程的至少一些方面。

本文所公开的任何合适的步骤、方法、特征、功能或益处可以通过一个或多个虚拟装置的一个或多个功能单元或模块来执行。每个虚拟装置可以包括多个这些功能单元。这些功能单元可以经由处理电路以及其他数字硬件来实现，其中处理电路可以包括一个或多个微处理器或微控制器，其他数字硬件可以包括数字信号处理器(DSP)、专用数字逻辑等。处理电路可以被配置为执行存储在存储器中的程序代码，存储器可以包括一种或几种类型的存储器，诸如只读存储器(ROM)、随机存取存储器(RAM)、缓冲存储器、闪存设备、光学存储器等。存储在存储器中的程序代码包括用于执行一个或多个电信和/或数据通信协议的程序指令，以及用于执行本文描述的一个或多个技术的指令。在一些实现中，根据本公开的一个或多个实施例，处理电路可以用于使相应的功能单元执行对应的功能。

虽然附图中的过程可示出由本公开的某些实施例执行的操作的特定顺序，但应理解，这种顺序是示例性的(例如，替代实施例可以以不同的顺序执行操作，组合某些操作，重叠某些操作等)。

一些示例实施例如下：

实施例1：一种由网络节点(102)执行的用于基于深度强化学习DRL的调度的方法，该方法包括：使用用于与多个期望网络性能行为中的一个期望网络性能行为相关的多个网络性能指标的偏好向量来执行(206)基于DRL的调度过程，该偏好向量定义用于与该多个期望网络性能行为中的该一个期望网络性能行为相关的多个网络性能指标的权重。

实施例2：根据实施例1所述的方法，进一步包括：分别获得用于多个期望网络性能行为的各网络性能指标集的多个偏好向量。

实施例3：根据实施例1或2所述的方法，其中，多个网络性能指标包括：(a)分组大小，(b)分组延时，(c)服务质量QoS要求，(d)小区状态，或者(e)(a)-(d)中的两项或更多项的组合。

实施例4：根据实施例1至3中任一项所述的方法，进一步包括：分别从用于多个网络性能行为的各网络性能指标集的多个偏好向量中选择偏好向量。

实施例5：根据实施例4所述的方法，其中，从多个偏好向量中选择偏好向量包括：基于一个或多个参数，从多个偏好向量中选择偏好向量。

实施例6：根据实施例5所述的方法，其中，所选择的偏好向量随时间改变。

实施例7：根据实施例5或6所述的方法，其中，一个或多个参数包括一天中的时间或者业务类型。

实施例8：根据实施例1至7中任一项所述的方法，其中，基于DRL的调度过程是深度Q学习网络DQN调度过程。

实施例9：根据实施例1至8中任一项所述的方法，其中，基于DRL的调度过程针对多个传输时间间隔TTI中的每个TTI执行分组的时域调度。

实施例10：根据实施例1至9中任一项所述的方法，进一步包括：在执行(206)基于DRL的调度过程之前，确定(204)用于期望网络性能行为的偏好向量。

实施例11：根据实施例1至9中任一项所述的方法，进一步包括：在执行(206)基于DRL的调度过程之前，针对多个期望网络性能行为中的每个期望网络性能行为：针对用于与该期望网络性能行为相关的多个网络性能指标的多个候选偏好向量中的每个候选偏好向量，基于相应的复合奖励函数，训练(204A)基于DRL的策略，每个复合奖励函数基于与该期望网络性能行为相关的多个网络性能指标和多个候选偏好向量中的相应的候选偏好向量；以及基于该训练的结果，从用于与该期望网络性能行为相关的多个网络性能指标的多个候选偏好向量中选择(204B)用于与该期望网络性能行为相关的多个网络性能指标的偏好向量。

实施例12：一种网络节点，适于执行根据实施例1至11中的任何一项所述的方法。

实施例13：一种训练基于深度强化学习DRL的调度过程的方法，该方法包括：针对多个期望网络性能行为中的每个期望网络性能行为：

·针对用于与该期望网络性能行为相关的多个网络性能指标的多个候选偏好向量中的每个候选偏好向量，基于相应的复合奖励函数，训练(204A)基于DRL的策略，每个复合奖励函数基于与该期望网络性能行为相关的多个网络性能指标和多个候选偏好向量中的相应的候选偏好向量；以及

·基于该训练的结果，从用于与该期望网络性能行为相关的多个网络性能指标的多个候选偏好向量中选择(204B)用于与该期望网络性能行为相关的多个网络性能指标的偏好向量。

实施例14：一种计算节点或网络节点，适于执行根据实施例13所述的方法。

实施例15：一种由网络节点(102)执行的用于基于深度强化学习DRL的调度的方法，该方法包括：在使用偏好向量来优化从多个网络性能向量生成的复合奖励的基于DRL的调度过程的训练阶段期间，针对多个期望网络性能行为中的每个期望网络性能行为，确定(204)该偏好向量以应用于与该期望网络性能行为相关的多个网络性能指标；以及在基于DRL的调度过程的执行阶段期间，使用用于与该多个期望网络性能行为中的一个期望网络性能行为相关的多个网络性能指标的所确定的偏好向量来执行(206)基于DRL的调度过程。

实施例16：根据实施例15所述的方法，其中，针对多个期望网络性能行为中的每个期望网络性能行为，确定(204)偏好向量包括：针对多个期望网络性能行为中的每个期望网络性能行为：

实施例17：一种网络节点，适于执行根据实施例16所述的方法。

实施例18：一种计算机程序产品，包括计算机可读介质，在该计算机可读介质中体现计算机可读代码，该计算机可读代码被配置以使得在由合适的计算机或处理器执行时使该计算机或处理器执行根据实施例1至11、13、15或16中的任何一项所述的方法。

实施例19：一种由网络节点(102)执行的用于基于深度强化学习DRL的调度的方法，该方法包括：

·针对多个期望网络性能行为中的每个期望网络性能行为：

ο确定(204)用于与该期望网络性能行为相关的多个网络性能指标的偏好向量，该偏好向量定义用于与该期望网络性能行为相关的多个网络性能指标的权重；以及

·使用用于与该多个期望网络性能行为中的一个期望网络性能行为相关的多个网络性能指标的偏好向量来执行(206)基于DRL的调度过程。

实施例20：根据实施例19所述的方法，其中，针对多个期望网络性能行为中的每个期望网络性能行为，确定(204)用于与该期望网络性能行为相关的多个网络性能指标的偏好向量包括：针对用于与该期望网络性能行为相关的多个网络性能指标的多个候选偏好向量中的每个候选偏好向量，基于相应的复合奖励函数，训练(204A)基于DRL的策略，每个复合奖励函数基于与该期望网络性能行为相关的多个网络性能指标和多个候选偏好向量中的相应的候选偏好向量；以及基于该训练的结果，从用于与该期望网络性能行为相关的多个网络性能指标的多个候选偏好向量中选择(204B)用于与该期望网络性能行为相关的多个网络性能指标的偏好向量。

本领域技术人员将认识到对本公开的实施例的改进和修改。所有这种改进和修改都被认为落入本文公开的概念的范围内。

Claims

1.一种由网络节点(102)执行的用于基于深度强化学习DRL的调度的方法，所述方法包括：

使用用于与多个期望网络性能行为中的一个期望网络性能行为相关的多个网络性能指标的偏好向量来执行(206)基于DRL的调度过程，所述偏好向量定义用于与所述多个期望网络性能行为中的所述一个期望网络性能行为相关的所述多个网络性能指标的权重。

2.根据权利要求1所述的方法，进一步包括：

分别获得用于所述多个期望网络性能行为的各网络性能指标集的多个偏好向量。

3.根据权利要求1或2所述的方法，其中，所述多个网络性能指标包括：(a)分组大小，(b)分组延时，(c)服务质量QoS要求，(d)小区状态，或者(e)(a)-(d)中的两项或更多项的组合。

4.根据权利要求1至3中任一项所述的方法，进一步包括：

分别从用于所述多个网络性能行为的各网络性能指标集的多个偏好向量中选择(502)所述偏好向量。

5.根据权利要求4所述的方法，其中，从所述多个偏好向量中选择(502)所述偏好向量包括：基于一个或多个参数，从所述多个偏好向量中选择(502)所述偏好向量。

6.根据权利要求5所述的方法，其中，所选择的偏好向量随时间改变。

7.根据权利要求5或6所述的方法，其中，所述一个或多个参数包括一天中的时间或者业务类型。

8.根据权利要求1至7中任一项所述的方法，其中，所述基于DRL的调度过程是深度Q学习网络DQN调度过程。

9.根据权利要求1至8中任一项所述的方法，其中，所述基于DRL的调度过程针对多个传输时间间隔TTI中的每个TTI执行分组的时域调度。

10.根据权利要求1至9中任一项所述的方法，进一步包括：

在执行(206)所述基于DRL的调度过程之前，确定(204)用于所述期望网络性能行为的所述偏好向量。

11.根据权利要求1至9中任一项所述的方法，进一步包括：

在执行(206)所述基于DRL的调度过程之前，针对所述多个期望网络性能行为中的每个期望网络性能行为：

针对用于与所述期望网络性能行为相关的多个网络性能指标的多个候选偏好向量中的每个候选偏好向量，基于相应的复合奖励函数，训练(204A)基于DRL的策略，每个复合奖励函数基于与所述期望网络性能行为相关的所述多个网络性能指标和所述多个候选偏好向量中的相应的候选偏好向量；

基于所述训练的结果，从用于与所述期望网络性能行为相关的所述多个网络性能指标的所述多个候选偏好向量中选择(204B)用于与所述期望网络性能行为相关的所述多个网络性能指标的所述偏好向量。

12.一种用于基于深度强化学习DRL的调度的网络节点(102)，所述网络节点(102)适于：

13.根据权利要求12所述的网络节点(102)，其中，所述网络节点(102)进一步适于执行根据权利要求2至11中的任何一项所述的方法。

14.一种用于基于深度强化学习DRL的调度的网络节点(102)，所述网络节点(102)包括处理电路，所述处理电路被配置为使所述网络节点(102)：

15.根据权利要求14所述的网络节点(102)，其中，所述处理电路进一步被配置为使所述网络节点(102)执行根据权利要求2至11中的任何一项所述的方法。

16.一种训练基于深度强化学习DRL的调度过程的计算机实现的方法，所述方法包括：

针对多个期望网络性能行为中的每个期望网络性能行为：

针对用于与所述期望网络性能行为相关的多个网络性能指标的多个候选偏好向量中的每个候选偏好向量，基于相应的复合奖励函数，训练(204A)基于DRL的策略，每个复合奖励函数基于与所述期望网络性能行为相关的所述多个网络性能指标和所述多个候选偏好向量中的相应的候选偏好向量；以及

基于所述训练的结果，从用于与所述期望网络性能行为相关的所述多个网络性能指标的所述多个候选偏好向量中选择(204B)用于与所述期望网络性能行为相关的所述多个网络性能指标的偏好向量。

17.一种用于训练基于深度强化学习DRL的调度过程的计算节点或网络节点，所述计算节点或网络节点适于：

针对多个期望网络性能行为中的每个期望网络性能行为：

18.一种用于训练基于深度强化学习DRL的调度过程的计算节点或网络节点，所述计算节点或网络节点包括处理电路，所述处理电路被配置为使所述计算节点或网络节点：

针对多个期望网络性能行为中的每个期望网络性能行为：

19.一种由网络节点(102)执行的用于基于深度强化学习DRL的调度的方法，所述方法包括：

在使用偏好向量来优化从多个网络性能向量生成的复合奖励的基于DRL的调度过程的训练阶段期间，针对多个期望网络性能行为中的每个期望网络性能行为，确定(204)所述偏好向量以应用于与所述期望网络性能行为相关的多个网络性能指标；以及

在所述基于DRL的调度过程的执行阶段期间，使用用于与所述多个期望网络性能行为中的一个期望网络性能行为相关的所述多个网络性能指标的所确定的偏好向量来执行(206)所述基于DRL的调度过程。

20.根据权利要求19所述的方法，其中，针对所述多个期望网络性能行为中的每个期望网络性能行为，确定(204)所述偏好向量包括：

针对所述多个期望网络性能行为中的每个期望网络性能行为：

针对用于与所述期望网络性能行为相关的所述多个网络性能指标的多个候选偏好向量中的每个候选偏好向量，基于相应的复合奖励函数，训练(204A)基于DRL的策略，每个复合奖励函数基于与所述期望网络性能行为相关的所述多个网络性能指标和所述多个候选偏好向量中的相应的候选偏好向量；以及

21.一种用于基于深度强化学习DRL的调度的网络节点(102)，所述网络节点(102)适于：

22.一种用于基于深度强化学习DRL的调度的网络节点(102)，所述网络节点(102)包括处理电路，所述处理电路被配置为使所述网络节点(102)：

23.一种计算机程序产品，包括计算机可读介质，在所述计算机可读介质中体现计算机可读代码，所述计算机可读代码被配置以使得在由合适的计算机或处理器执行时使所述计算机或处理器执行根据权利要求1至11、16、19或20中的任何一项所述的方法。

24.一种由网络节点(102)执行的用于基于深度强化学习DRL的调度的方法，所述方法包括：

·针对多个期望网络性能行为中的每个期望网络性能行为：

ο确定(204)用于与所述期望网络性能行为相关的多个网络性能指标的偏好向量，所述偏好向量定义用于与所述期望网络性能行为相关的所述多个网络性能指标的权重；以及

·使用用于与所述多个期望网络性能行为中的一个期望网络性能行为相关的所述多个网络性能指标的所述偏好向量来执行(206)基于DRL的调度过程。

25.根据权利要求24所述的方法，其中，针对所述多个期望网络性能行为中的每个期望网络性能行为，确定(204)用于与所述期望网络性能行为相关的所述多个网络性能指标的所述偏好向量包括：