CN117897986A

CN117897986A - 用于执行具有多教师强化学习的通信负载平衡的方法或装置

Info

Publication number: CN117897986A
Application number: CN202280056473.6A
Authority: CN
Inventors: 康计堃; 陈熙; 胡成明; 王举; 格雷戈里·路易斯·杜德克; 刘学
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2021-10-06
Filing date: 2022-10-06
Publication date: 2024-04-16
Also published as: US11750719B2; EP4342218A1; WO2023059105A1; US20230353659A1; US20230105719A1

Abstract

可以提供一种服务器以获得用于通信系统中的多个基站的负载平衡人工智能(AI)模型。服务器可以分别基于从基站收集的业务数据集来获得教师模型；执行策略预演过程，包括基于来自所述教师模型的知识提炼来获得学生模型，通过集成所述学生模型来获得集成学生模型，以及通过与所述集成学生模型进行交互来获得策略模型；向所述基站中的每个基站提供所述策略模型，以用于所述策略模型的策略评估；以及基于作为所述策略评估的结果从所述基站中的至少一个基站接收到训练继续信号，通过对所述学生模型执行所述策略预演过程来更新所述集成学生模型和所述策略模型。

Description

用于执行具有多教师强化学习的通信负载平衡的方法或装置

技术领域

本公开涉及一种用于经由多教师强化学习在通信系统中执行负载平衡的方法或装置。更具体地，本公开涉及一种用于使用多个教师网络和多个学生网络来创建广义控制策略并基于广义控制策略执行业务负载平衡的方法或装置。

背景技术

通信业务负载平衡对于移动通信系统(诸如第五代(5G)或第六代(6G)移动通信系统)的性能是必不可少的。在现实世界中，由于通信业务模式实时地动态变化并且每个基站具有有限的资源，因此尽可能接近实际需求地部署资源以维持系统性能并且还避免资源浪费是至关重要的。

强化学习(RL)(特别是深度RL)可以在不同的控制任务(诸如业务负载平衡任务)上实现足够的性能。RL旨在通过与通信系统的环境的交互来学习最优控制策略。深度RL将神经网络与RL组合，并进一步使RL代理能够处理更复杂的环境。

然而，针对现实世界问题部署RL算法可能是非常具有挑战性的。大多数在线RL算法需要与环境进行大量交互以学习可靠的控制策略。

由于安全问题、与交互相关的成本/不便，或者缺乏准确的模拟器以在现实世界中部署和训练之前在模拟中实现有效训练，这种与环境重复交互的可用性的假设不适用于许多现实世界应用。

因此，强化学习算法在现实世界中的实际应用受到其差的数据效率和其以离线方式学习的不灵活性的限制。

为了减少与环境交互的时间量并提高效率，基于模型的RL利用学习的系统模型来预测系统动态(即，状态或奖励)并相应地制定控制计划。然而，基于模型的方法存在模型偏差问题，其中某些模型空间不准确，导致不稳定的策略学习。

发明内容

技术方案

示例实施例至少解决了上述问题和/或缺点以及上面未描述的其他缺点。此外，示例实施例不需要克服上述缺点，并且可以克服上述任何问题。

根据本公开的一个方面，提供了一种用于获得通信系统中的多个基站的负载平衡人工智能(AI)模型的服务器。服务器可以包括：至少一个存储器，存储指令；以及至少一个处理器，被配置为执行指令以执行以下操作：分别基于从所述多个基站收集的多个业务数据集来获得多个教师模型；执行策略预演过程，包括：基于来自所述多个教师模型的知识提炼来获得多个学生模型；通过集成所述多个学生模型来获得集成学生模型；以及通过与所述集成学生模型进行交互来获得策略模型；向所述多个基站中的每个基站提供所述策略模型，以用于所述策略模型的策略评估；以及基于作为所述策略评估的结果从所述多个基站中的至少一个基站接收到训练继续信号，通过对所述多个学生模型执行所述策略预演过程来更新所述集成学生模型和所述策略模型。

所述至少一个处理器还可以被配置为执行指令以执行以下操作：通过从多个基站接收所述多个教师模型的模型参数，并且基于接收到的模型参数更新多个教师模型的初始化的模型参数，来获得多个教师模型。

所述至少一个处理器还可以被配置为执行指令以执行以下操作：通过从所述多个基站接收所述多个业务数据集来获得所述多个教师模型，以及分别基于所述多个业务数据集训练所述多个教师模型。

所述多个业务数据集可以包括状态-动作-奖励轨迹，所述状态-动作-奖励轨迹包括状态、动作和奖励。所述状态可以包括活动用户设备(UE)编号、带宽利用率、互联网协议(IP)吞吐量、小区物理资源使用和下载链路的速度中的至少一个。所述动作可以包括导致状态改变的负载平衡参数。所述奖励可以包括IP吞吐量的最小值、总IP吞吐量和死小区计数中的至少一个。

所述多个教师模型中的每个教师模型可以包括基于从多个基站收集的状态-动作-奖励轨迹而被训练的状态转移模型和奖励转移模型。所述状态转移模型可以被配置为基于在当前状态下采取的动作来输出预测的下一状态。所述奖励转移模型可以被配置为基于在所述当前状态下采取的所述动作来输出预测奖励。

所述基于来自所述多个教师模型的知识提炼来获得所述多个学生模型的操作可以包括：基于真实值与所述多个学生模型中的每个学生模型的预测之间的差异来计算真实损失；基于所述多个教师模型的教师预测与所述多个学生模型的学生预测之间的差异来计算知识提炼损失；计算组合所述真实损失和所述知识提炼损失的聚合损失；以及通过最小化或收敛所述聚合损失来训练所述多个学生模型。

所述获得策略模型的操作可以包括：从所述多个学生模型获得状态-奖励对；计算所述状态-奖励对的平均值；将所述状态-奖励对的所述平均值输入到所述策略模型，以获得作为所述策略模型的输出的动作；将时间步长增加1；基于增加的时间步长小于预定值，将所述动作输入到所述多个学生模型以继续所述策略预演过程；以及基于所述增加的时间步长等于所述预定值，终止所述策略预演过程并输出所述策略模型。

所述训练继续信号可以指示从所述集成学生模型获得的奖励比从现有负载平衡模型获得的奖励少预定余量或更多。

根据本公开的另一方面，提供了一种用于获得通信系统中的多个基站的负载平衡人工智能(AI)模型的方法。该方法可以包括：分别基于从多个基站收集的多个业务数据集来获得多个教师模型；通过以下方式执行策略预演过程：基于来自所述多个教师模型的知识提炼来获得多个学生模型；通过集成所述多个学生模型来获得集成学生模型；以及通过与所述集成学生模型进行交互来获得策略模型；向所述多个基站中的每个基站发送所述策略模型，以用于所述策略模型的策略评估；以及基于作为所述策略评估的结果从所述多个基站中的至少一个基站接收到训练继续信号，通过对所述多个学生模型执行所述策略预演过程来更新所述集成学生模型和所述策略模型。

所述获得多个教师模型的步骤可以包括：从所述多个基站接收所述多个教师模型的模型参数；以及基于接收到的模型参数来更新所述多个教师模型的初始化的模型参数。

所述获得多个教师模型的步骤可以包括：从所述多个基站接收所述多个业务数据集，以及分别基于所述多个业务数据集训练所述多个教师模型。

所述多个业务数据集可以包括状态-动作-奖励轨迹。所述状态-动作-奖励轨迹可以包括状态、动作和奖励。所述状态可以包括活动用户设备(UE)编号、带宽利用率、互联网协议(IP)吞吐量、小区物理资源使用和下载链路的速度中的至少一个。所述动作可以包括导致状态改变的负载平衡参数。所述奖励可以包括IP吞吐量的最小值、总IP吞吐量和死小区计数中的至少一个。

所述多个教师模型中的每个教师模型可以包括基于从所述多个基站收集的状态-动作-奖励轨迹而被训练的状态转移模型和奖励转移模型。所述状态转移模型可以被配置为基于在当前状态下采取的动作来输出预测的下一状态。所述奖励转移模型可以被配置为基于在所述当前状态下采取的所述动作来输出预测奖励。

所述基于来自所述多个教师模型的知识提炼来获得所述多个学生模型的步骤可以包括：基于真实值与所述多个学生模型中的每个学生模型的预测之间的差异来计算真实损失；基于所述多个教师模型的教师预测与所述多个学生模型的学生预测之间的差异来计算知识提炼损失；计算组合所述真实损失和所述知识提炼损失的聚合损失；以及通过最小化或收敛所述聚合损失来训练所述多个学生模型。

所述获得策略模型的步骤可以包括：从所述多个学生模型获得状态-奖励对；计算所述状态-奖励对的平均值；将所述状态-奖励对的所述平均值输入到所述策略模型，以获得作为所述策略模型的输出的动作；将时间步长增加1；基于增加的时间步长小于预定值，将所述动作输入到所述多个学生模型以继续所述策略预演过程；以及基于所述增加的时间步长等于所述预定值，终止所述策略预演过程并输出所述策略模型。

根据本公开的另一方面，提供了一种存储程序的非暂时性计算机可读存储介质，该程序可以由至少一个处理器执行以执行用于获得通信系统中的多个基站的负载平衡人工智能(AI)模型的方法。

另外的方面将部分地在下面的描述中阐述，并且部分地将从描述中显而易见，或者可以通过实现本公开的所呈现的实施例来学习。

附图说明

通过以下结合附图的描述，本公开的实施例的上述和其他方面、特征和方面将更加明显，其中：

图1是示出根据本公开的实施例的用于执行业务负载平衡的系统的概述的示图；

图2是示出根据本公开的实施例的用于生成用于执行业务负载平衡的控制策略的方法的示图；

图3A和图3B是示出根据本公开的各种实施例的教师模型的结构的示图，并且图3C是示出根据本公开的实施例的奖励与将知识转移给学生模型的教师模型的数量之间的关系的示图；

图4是示出根据本公开的实施例的训练学生模型的方法的示图；

图5是示出根据本公开的实施例的对学生模型进行组合以获得集成学生模型的方法的示图；

图6是示出根据本公开的实施例的评估策略模型的方法的示图；

图7是示出根据本公开的实施例的执行业务负载平衡的方法的流程图；

图8是示出根据本公开的实施例的执行业务负载平衡的另一方法的流程图；

图9是示出根据本公开的实施例的训练教师模型的方法的流程图；

图10是示出根据本公开的实施例的训练学生模型并获得集成学生模型的方法的流程图；

图11是示出根据本公开的实施例的执行策略预演的方法的流程图；

图12是示出根据本公开的实施例的执行策略评估的方法的流程图；

图13是根据本公开的实施例的电子装置的框图；

图14示出了根据本公开的实施例的服务器分配通信频谱的使用应用；

图15示出了根据本公开的实施例的服务器在不同通信小区之间执行业务负载平衡的使用应用；

图16示出了根据本公开实施例的小区重选过程；以及

图17是示出根据本公开的实施例的执行业务负载平衡的方法的流程图。

具体实施方式

实施本发明的最佳模式

根据本公开的一个方面，提供了一种服务器以获得用于通信系统中的多个基站的负载平衡人工智能(AI)模型。服务器可以包括存储指令的至少一个存储器；该至少一个处理器被配置为执行指令以执行以下操作：基于分别从多个基站收集的多个业务数据集获得多个教师模型；执行策略预演过程，包括：基于来自多个教师模型的知识提炼获得多个学生模型；通过集成该多个学生模型来获得集成学生模型；通过与集成学生模型进行交互来获得策略模型；向多个基站中的每个基站提供策略模型以用于策略模型的策略评估；基于作为策略评估的结果从该多个基站中的至少一个基站接收到训练继续信号，通过对该多个学生模型执行策略预演过程来更新集成学生模型和策略模型。

发明模式

下面参考附图更详细地描述示例实施例。

在下面的描述中，即使在不同的附图中，相同的附图标记也用于相同的元件。提供说明书中定义的内容，诸如详细的构造和元件，以帮助全面理解示例实施例。然而，显而易见的是，可以在没有那些具体限定的事项的情况下实现示例实施例。此外，没有详细描述公知的功能或结构，因为它们将以不必要的细节模糊描述。

诸如“……中的至少一个”的表述在元件列表之后时修饰整个元件列表，而不是修饰列表中的各个元件。例如，表述“a、b和c中的至少一个”应被理解为仅包括a、仅包括b、仅包括c、a和b两者、a和c两者、b和c两者、a、b和c中的全部或前述示例的任何变型。

虽然可以使用诸如“第一”、“第二”等的术语来描述各种元件，但是这些元件必须不限于上述术语。上述术语可以仅用于将一个元件与另一个元件区分开。

术语“组件”旨在被广义地解释为硬件、固件或硬件和软件的组合。

显而易见的是，本文描述的系统和/或方法可以以不同形式的硬件、固件或硬件和软件的组合来实现。用于实现这些系统和/或方法的实际专用控制硬件或软件代码不限制实现方式。因此，本文描述了系统和/或方法的操作和行为，而不参考特定的软件代码，应当理解，软件和硬件可以被设计为基于本文的描述来实现系统和/或方法。

尽管在权利要求书中叙述和/或在说明书中公开了特征的特定组合，但是这些组合并不旨在限制可能的实施方式的公开内容。事实上，这些特征中的许多可以以权利要求书中未具体叙述和/或说明书中未公开的方式组合。尽管下面列出的每个从属权利要求可以直接从属于仅一个权利要求，但是可能的实施方式的公开内容包括每个从属权利要求与权利要求集中的每个其他权利要求的组合。

除非明确描述如此，否则本文使用的元件、动作或指令不应被解释为关键或必要的。此外，如本文所使用的，术语“一”旨在包括一个或更多个项目，并且可以与“一个或更多个”互换使用。此外，如本文所使用的，术语“集合”旨在包括一个或更多个项目(例如，相关项目、不相关项目、相关和不相关项目的组合等)，并且可以与“一个或更多个”互换使用。在仅预期一个项目的情况下，使用术语“一个”或类似语言。此外，如本文所使用的，术语“具有(has)”、“具有(have)”、“具有(having)”等旨在是开放式术语。此外，除非另有明确说明，否则短语“基于”旨在表示“至少部分地基于”。

图1是示出根据本公开的实施例的用于执行业务负载平衡的系统100的概述的示图。系统100可以用于在由多个基站中的每个基站服务的多个小区之间平衡通信业务负载。然而，本公开的实施例不限于此，并且系统100可以应用于任何类型的负载平衡，例如，诸如电力负载、运输业务负载等的平衡。

系统100可以包括环境110和与环境110通信的服务器120。环境110可以包括通信系统，该通信系统提供多个基站和由多个基站中的每个基站管理的多个(通信)小区。服务器120可以获得通信系统的观察结果以执行基于多教师模型的强化学习(RL)算法(MOBA)，其利用多个教师人工智能(AI)模型(以下称为“教师模型”)来解决模型偏差问题。通信系统的观察结果可以包括状态、动作和奖励的轨迹。状态-动作-奖励轨迹可以指示作为随着对在某些状态下采取的动作的响应而改变的状态的时间序列，其中作为采取每个动作的结果接收奖励。在强化学习中，术语“轨迹”可以指一系列状态和动作，或者一系列状态、动作和奖励。这些状态可以包括活动用户设备(UE)编号、带宽利用率、互联网协议(IP)吞吐量、小区物理资源使用和下载链路的速度中的任何一个或任何组合。动作可以包括导致状态改变的负载平衡参数，并且奖励可以包括IP吞吐量的最小值、总IP吞吐量、死小区计数和其他系统度量中的任何一个或任何组合。

在根据本公开的实施例的MOBA中，不同的教师模型学习通信系统的各种实例，并将他们学习的知识转移到多个学生AI模型(以下称为“学生模型”)，使得学生模型学习覆盖状态空间的广义动态模型。为了克服多教师知识转移的不稳定性，服务器120可以利用多个学生模型并应用集成方法来组合多个学生模型。服务器120可以经由多个学生模型的集成来确定用于改变多个基站的负载平衡参数的控制动作。

根据本公开的实施例，教师模型和学生模型可以包括一个或更多个神经网络，并且模型参数可以指一个或更多个神经网络的参数，例如，诸如应用于神经元的权重和偏置、层数、每层中的神经元数、层之间的连接、神经元之间的连接等。

图2是示出根据本公开的实施例的用于生成用于执行业务负载平衡的控制策略的方法200的示图。

方法200可以包括操作210：获得从多个基站(例如，BS#1、BS#2、……、BS#N)收集的多个业务数据集(例如，业务数据#1、业务数据#2、……、业务数据#N)，并且将多个业务数据集存储在它们对应的重放缓冲器中。

多个业务数据集中的每个业务数据集可以包括M个数据点β＝{(st,a_t,r_t,s′_t)|t＝1,…,M}，以利用基于马尔可夫决策过程(MDP)的强化学习(RL)，其中，s表示当前状态，a表示动作，r表示奖励，并且s′表示在当前状态下采取动作时的预测的下一状态。术语“动作”可以指由通信系统或基站采取的控制动作，以在多个基站之间或由单个基站覆盖的多个小区之间执行业务负载平衡。例如，用于调整负载平衡特征的阈值的控制动作可以被设置为“动作”。术语“奖励”可以指响应于在当前状态下采取的“动作”而添加到当前状态的值。例如，在本公开的实施例中，每个小区的最小IP吞吐量可以被设置为“奖励”。

根据本公开的实施例，“状态”的输入可以表示为指示每个小区的活动用户设备(UE)的平均数量的第一向量、指示每个小区的平均带宽利用率值的第二向量和指示每个小区的平均吞吐量的第三向量的组合。当存在四个小区时，状态可以表示为[16.34、15.25、6.51、2.91、0.85、0.72、0.59、0.25、1.29、1.11、1.54、1.67]，其中“16.34、15.25、6.51”、“2.91、0.85、0.72”、“0.59、0.25、1.29”和“1.11、1.54、1.67”对应于四个小区中的每个小区的第一向量、第二向量和第三向量。用于调整基站的负载平衡参数的“动作”的输入可以表示为例如以dB标度表示的[2.3、3.6、5.1、0.5、1.0、0.0、…、5.5、5.6、3.1、8.1、9.9、10.0]。

方法200可以包括基于从多个基站收集的业务数据分别获得多个教师模型(例如，教师模型1、教师模型2、…、教师模型N)的操作220。

在操作220，可以经由基于离散时间有限马尔可夫决策过程(MDP)的RL使用其自己的本地业务数据来训练多个教师模型中的每个教师模型，其中策略代理模型旨在通过与通信系统的环境交互来学习最佳控制策略。RL问题可以被公式化为马尔可夫决策过程(MDP)，诸如元组(S,A,p,r)，其中S表示状态空间，A表示动作空间，p：表示状态转移函数，r：/>表示奖励函数。每个教师模型学习被配置为输出可以收集最大预期回报的状态和动作序列的代理策略。预期回报可以表示为/>其中T表示预设时间(例如，24小时)，并且γ表示折扣因子。在每个迭代步骤，教师模型可以更新它们的模型参数以最小化教师损失，从而最大化状态转移分布和奖励转移分布的对数似然。当损失达到预设最小值时，损失被认为是最小化的或收敛的，或者损失不再减少，因此达到一个恒定值(预设余量)。教师损失可以如等式(1)所示计算：

其中，表示状态转移模型，状态转移模型被配置为接收当前状态s_t和在当前状态s_t下要采取的动作a_t作为输入，并且输出预测的下一状态/>s_t+1表示真实的下一状态。表示奖励转移模型，奖励转移模型被配置为接收当前状态s_t和在当前状态s_t下要采取的动作a_t作为输入，并且输出作为在当前状态s_t下采取动作a_t的结果给出的预测奖励/>并且r_t是真实奖励。

将参考图3A-图3C更详细地描述操作220。

方法200可以包括获得多个学生模型(例如，学生模型1、学生模型2、…、学生模型K)的操作230。学生模型的数量可以与教师模型的数量相同或不同。每个学生模型可以具有与教师模型相同或基本相同的网络结构。例如，每个学生模型可以包括状态转移分布和奖励转移分布。可以用不同的模型参数初始化多个学生模型。例如，可以从用于初始化学生模型的多组模型参数中随机和/或均匀地采样不同组的模型参数。

在操作230，可以经由多教师知识提炼来聚合多个教师模型(而不是从基站收集的业务数据)，以训练提供用于控制其目标基站(例如，BS#1)的动作的学生模型(例如，学生模型1)。当存在多个学生模型时，多教师知识从多个教师模型(例如，教师模型1、教师模型2、…、教师模型N)转移到每个学生模型(例如，学生模型1、学生模型2、…、学生模型K)。根据实施例的模型聚合可以解决数据聚合的有限带宽问题。

在本公开的实施例中，从多个教师模型提炼的知识(例如，教师预测)被整合，并且整合的知识被提供给每个学生模型以提高每个学生模型的预测准确度。例如，可以将多个教师模型的预测的平均值作为整合的知识提供给每个学生模型。对于这些教师模型，通过知识提炼(KD)过程训练每个学生模型，以最小化或收敛学生损失，该学生损失组合了学生模型的预测和真实值之间的真实损失以及学生模型的预测和教师模型的预测之间的KD损失。例如，学生损失可以用等式(2)表示：

其中，表示学生模型，/>表示学生模型的预测状态，s_t+1表示真实状态，并且/>表示教师模型的预测状态(例如，教师模型的预测状态的平均值)。表示真实损失，/> 表示KD损失。

将参考图4更详细地描述操作230。

方法200可以包括获得用于策略预演的多个学生模型的集成的操作240。在每个迭代时间步长t处，学生模型计算预测状态s_t+1和奖励r_t，其反映了MDP模型的结构，该MDP模型计算具有给定状态和动作的预期奖励和状态的近似MDP模型。

在操作240，可以通过对学生模型的预测的下一状态求平均来计算状态集成，并且可以通过对学生模型的预测奖励求平均来计算奖励集成。例如，状态集成和奖励集成可以用等式(3)和(4)表示：

其中，K是学生模型的总数，是学生模型的状态转移模型，并且/>是学生模型的奖励转移模型。

状态集成和奖励集成可以被提供给代理策略模型(也称为“策略模型”)，该代理策略模型应用策略学习算法，诸如邻近策略优化(PPO)、深度确定性策略梯度(DDPG)、双延迟DDPG或软行为者-评论者(SAC)，以学习和更新控制策略。可以训练代理策略模型以使策略预演损失最小化或收敛，策略预演损失随着等式(5)中表示的预测回报增加而减小：

可以训练代理策略模型以最大化上述预测回报，从而最小化或收敛策略预演损失。

将参考图5更详细地描述操作240。

方法200可以包括利用与真实通信环境的交互来评估从多个学生模型的集成提供的策略动作的操作250。

在操作250，基于应用于代理策略模型的新控制策略来计算回报。代理策略模型可以基于新控制策略输出要在当前状态下采取的动作，并且可以收集作为采取动作的结果而给出的奖励。通过将所收集的奖励相加来计算新控制策略的预期回报。例如，可以使用等式(6)来计算预期回报：

其中，表示期望函数，并且T表示预定数量的迭代时间步长。

可以将新控制策略的回报与旧控制策略的回报进行比较。当新控制策略的回报比旧控制策略的回报少预定余量或更多时，确定新控制策略不再改进，因此终止策略学习。例如，当当前控制策略满足以下等式(7)时，策略学习终止：

其中，表示指示函数，如果等式成立，则输出值1，C表示预定余量，并且T表示预定数量的迭代时间步长。

将参考图6更详细地描述操作250。

图3A和图3B是示出根据本公开的各种实施例的教师模型的结构的示图。

如图3A所示，教师模型可以包括输入层、隐藏层、被配置为输出预测状态的第一输出层、以及被配置为输出预测奖励的第二输出层。为了训练教师模型，基于预测状态和真实状态之间的差异来计算状态转移模型损失，并且基于预测奖励和真实奖励之间的差异来计算奖励转移模型损失，并且将状态转移模型损失和奖励转移模型损失进行组合的总损失被反向传播以更新隐藏层的网络参数。

参考图3B，教师模型可以包括输入层、第一隐藏层、第二隐藏层、连接到第一隐藏层并被配置为输出预测状态的第一输出层、以及连接到第二隐藏层并被配置为输出预测奖励的第二输出层。与如图3A所示的具有共享隐藏层的网络结构不同，图3B所示的网络结构具有分别用于预测状态和奖励的两个单独的隐藏层。为了训练图3B的教师模型，基于预测状态和真实状态之间的差异来计算状态转移模型损失，并且反向传播状态转移模型损失以更新第一隐藏层的网络参数。另外，基于预测奖励和真实奖励之间的差异来计算奖励转移模型损失，并且奖励转移模型损失被反向传播以更新第二隐藏层的网络参数。尽管图3B示出了输入层与第一隐藏层和第二隐藏层共享，但是实施例不限于此，并且可以提供两个单独的输入层。此外，根据本公开的实施例的学生模型可以具有与图3A或图3B所示相同或基本相同的网络结构。

图3C是示出根据本公开的实施例的奖励与教师模型的数量之间的关系的示图。

如图3所示，随着教师模型数量的增加，奖励倾向于从某个点开始减少。基于实验，教师模型的数量可以被设置为具有在从四到八的范围内的数量。例如，可以使用六个教师模型将知识转移到学生模型以避免奖励的降低。

图4是示出根据本公开的实施例的训练学生模型的方法的示图。

如图4所示，服务器120可以利用多个教师模型1-N和多个学生模型1-K。可以对多个教师模型1-N的预测进行整合，然后将其转移到多个学生模型1-K中的每个学生模型。例如，可以将多个教师模型1-N的预测的平均值提供给多个学生模型1-K中的每个学生模型。

多个学生模型1-K中的每个学生模型可以计算组合了提炼损失和真实损失的学生损失。提炼损失可以表示教师预测(例如，多个教师模型1-N的预测的平均值)与学生模型的学生预测之间的差异。真实损失可以表示学生预测与真实值之间的差异。

当教师模型1-N和学生模型1-K由状态转移模型和奖励转移模型构成时，教师预测可以包括教师预测状态和教师预测奖励，并且学生预测可以包括学生预测状态和学生预测奖励。真实值可以包括真实状态和真实奖励。在这种情况下，提炼损失可以表示教师预测状态和学生预测状态之间的差异以及教师预测奖励和学生预测奖励之间的差异中的每个或组合。真实损失可以表示学生预测状态和真实状态之间的差异以及学生预测奖励和真实奖励之间的差异中的每个或组合。

在计算提炼损失时，可以使用Kullback-Leibler(KL)散度损失函数、负对数似然损失函数和均方误差损失函数中的任何一个或任何组合。

根据本公开的实施例，可以确定学生模型的数量以实现集成学生模型的性能与由学生模型的数量引起的计算成本之间的平衡。集成学生模型的性能与学生模型的数量成比例地增加。然而，当学生模型的数量达到一定数量时，性能改善变得微不足道，而计算成本继续与学生模型的数量成比例地增加。基于对不同数量的学生模型的评估，学生模型的数量可以被设置为具有在从二到六的范围内的数量。例如，可以使用三个学生模型来获得集成学生模型，但是实施例不限于此。

图5是示出根据本公开的实施例的对学生模型进行组合以获得用于策略预演的集成学生模型的方法的示图。

参考图5，一旦在图4的操作230训练了学生模型1-K，则在操作240分别从学生模型1-K获得第一中间状态-奖励对、第二中间状态-奖励对和第K中间状态-奖励对。进而，可以应用集成算法来将第一中间状态-奖励对、第二中间状态-奖励对和第k中间状态-奖励对进行组合。例如，可以将所有中间状态值的平均值和所有中间奖励值的平均值分别计算为状态集成和奖励集成。状态集成和奖励集成可以输入代理策略模型，该代理策略模型应用策略学习算法(诸如邻近策略优化(PPO)、深度确定性策略梯度(DDPG)、双延迟DDPG或软行为者-评论者(SAC))来学习和更新控制策略。可以训练代理策略模型以最小化或收敛策略预演损失，策略预演损失随着等式(5)中表达的预测回报增加而减小。

学生模型1-K与集成算法的组合可以被认为是集成学生模型。

图6是示出根据本公开的实施例的评估策略模型的方法的示图。

参考图6，一旦在图5的操作240经由策略预演完成代理策略模型的训练，则在操作250，代理策略模型可以向包括基站BS#1-BS#N的真实环境提供控制动作(例如，用于调整基站的业务负载参数的控制动作)，并且可以经由观察基站BS#1-BS#N来获得状态-奖励对(例如，指示每个小区的活动UE的平均数量、每个小区的平均带宽利用率、每个小区的平均IP吞吐量和指示最小IP吞吐量的奖励的通信系统状态)。

基于观察，服务器120可以确定应用于代理策略模型的新控制策略是否提供比旧控制策略更高的性能。例如，服务器120可以将新控制策略的回报与旧控制策略的回报进行比较，并且当新控制策略的回报比旧控制策略的回报少预定余量或更多时，可以确定新控制策略停止改进。当确定新的控制策略不再改进时，服务器120可以停止策略学习过程。

图7是示出根据本公开的实施例的执行业务负载平衡的方法的流程图。

在操作701，启动包括服务器和多个基站的系统。

在操作702，服务器根据现有的负载平衡模型或现有的控制策略初始化教师模型和学生模型，使得教师模型和学生模型可以用初始化的模型参数集来建立。

在操作703和705，每个基站可以收集其自己的本地业务数据集，从业务数据集中采样状态-动作-奖励轨迹，将采样的状态-动作-奖励轨迹添加到其本地中继缓冲器，并使用状态-动作-奖励轨迹训练教师模型。操作703和705可以对应于图2中所示的操作210和220。

在操作704和706，当每个基站完成训练其教师模型时，每个基站可以将教师模型的模型参数发送到服务器。

在操作707，服务器可以基于从基站发送的教师模型参数来更新初始化的教师模型，并且执行教师模型接口以获得教师的预测状态-奖励对作为教师模型的输出。

在操作708，服务器可以基于教师的预测状态-奖励对和从每个基站提供的状态-动作-奖励轨迹来训练学生模型。例如，服务器可以计算表示教师模型的预测与每个学生模型的预测之间的差异的提炼损失，以及表示每个学生模型的预测与真实值之间的差异的真实损失，并且可以训练每个学生模型以最小化或收敛提炼损失和真实损失的总和。服务器可以使用等式(2)来计算提炼损失和真实值。操作708可以对应于图2和图4中所示的操作230。

在操作709，服务器可以对学生模型的集成执行策略预演。可以通过计算学生模型的预测状态的平均值作为状态集成，计算学生模型的预测奖励的平均值作为奖励集成，并将状态集成和奖励集成奖励提供给代理策略模型以经由迭代过程获得更新的状态集成和更新的奖励集成，来获得学生模型的集成。例如，服务器可以使用等式(3)和(4)分别计算状态集成和奖励集成，并且执行迭代过程，直到代理策略模型的预测奖励最大化，例如使用等式(5)。操作709可以对应于图2和图5中所示的操作240。

在操作710，服务器可以执行策略评估以确定与旧控制策略的性能相比，由集成学生模型应用于代理策略模型的新控制策略是否继续改进。当新控制策略的回报比旧控制策略的回报少预定余量或更多时，确定新控制策略不再改进，因此终止策略学习。操作710可以对应于图2和图6中所示的操作250。

在操作711和712，在策略学习完成之后，服务器可以将新的控制策略发送到每个基站。

在操作713和714，每个基站可以基于新的控制策略来执行业务负载平衡操作。

图8是示出根据本公开的实施例的执行业务负载平衡的另一方法的流程图。

操作801和807-813可以以与操作701和708-714相同或基本相同的方式执行，因此为了简洁起见，将省略重复的描述。

在操作802和804，每个基站可以不训练其自己的教师模型，而是可以在操作803和805将从其重放缓冲器采样的状态-动作-奖励轨迹发送到服务器。

在操作806，服务器可以基于从每个基站接收的状态-动作-奖励轨迹来训练教师模型，以便将教师模型的知识转移到学生模型。

这样，教师模型的训练可以在如图7所示的每个基站中执行，或者可选地，可以在如图8所示的服务器中执行。

图9是示出根据本公开的实施例的训练教师模型的方法的流程图。图9示出了训练单个教师模型的方法，但是该方法可以以相同或基本相同的方式应用于多个教师模型中的每个教师模型。

在操作901，从重放缓冲器采样的状态-动作-奖励轨迹可以被输入到教师模型。

在操作902，可以训练教师模型以最小化或收敛教师损失。教师损失可以包括表示教师模型的预测的下一状态与真实的下一状态之间的差异的状态转移模型损失，以及表示教师模型的预测奖励与真实奖励之间的差异的奖励转移模型损失。可以使用等式(1)来计算教师损失、状态转移模型损失和奖励转移模型损失。

在操作903，通过最小化或收敛状态转移模型损失或教师损失来获得教师模型的状态转移模型。

在操作904，通过最小化或收敛奖励转移模型损失或教师损失来获得教师模型的奖励转移模型。

图10是示出根据本公开的实施例的训练学生模型并获得集成学生模型的方法的流程图。

在操作1001，从重放缓冲器采样的状态-动作-奖励轨迹(s_t,a_t,r_t)可以被输入到学生模型。

在操作1002，可以将从教师模型1-N的状态转移模型中的每个状态转移模型输出的教师预测状态输入到学生模型。

在操作1003，可以将从教师模型1-N的奖励转移模型中的每个奖励转移模型输出的教师预测奖励输入到学生模型。

在操作1004，可以使用从重放缓冲器采样的状态-动作对(s_t,a_t)和教师预测的状态来训练学生模型的状态转移模型，直到学生模型的状态转移模型损失最小化或收敛。可以使用等式(2)来计算状态转移模型损失。

在操作1005，可以使用从重放缓冲器采样的奖励(r_t)和教师预测奖励来训练学生模型的奖励转移模型，直到学生模型的奖励转移模型损失最小化或收敛。可以使用等式(2)来计算奖励转移模型损失。

可以经由操作1001-1005训练多个学生模型中的每个学生模型。操作1001-1005可以对应于图2和图3中所示的操作230。

在操作1006，从多个学生模型的状态转移模型获得中间状态。

在操作1007，从多个学生模型的奖励转移模型获得中间奖励。

在操作1008，可以通过对中间状态求平均来获得状态集成，并且可以通过对中间奖励求平均来获得奖励集成。

图11是示出根据本公开的实施例的执行策略预演的方法的流程图。

执行策略预演的方法可以包括操作1101-1107。

在操作1101和1102，经由知识提炼从多个教师模型获得多个学生模型1-K。

在操作1102，从多个学生模型1-K的输出获得中间状态-奖励对(和/> 和和/>)。

在操作1103，将所有中间状态组合为状态集成并且将所有中间奖励组合为奖励集成/>可以使用等式(3)和(4)来计算状态集成和奖励集成。

在操作1104，可以使用状态集成和奖励集成/>来训练代理策略模型，以经由策略梯度方法最大化预测回报。在每个迭代时间步长处，可以如下更新策略参数：

其中，θ_k+1表示迭代时间步长k+1处的更新参数，k表示迭代时间步长，π_θk表示由参数θ_k参数化的策略，π_θk+1表示由参数θ_k+1参数化的策略。换句话说，π_θk+1表示从当前控制策略π_θk更新的新控制策略。“min”表示在最小值函数的分量中选择最低值的最小值函数，并且“A”表示优势函数，其被表达为A^π(s_t,a_t)＝Q^π(s_t,a_t)-V^π(s_t)，其中，Q^π(s_t,a_t)是指当在特定状态s下采取动作a时示出预期回报的有效值函数，并且V^π(s_t)是指示出用于选择特定状态s的预期回报的状态值函数。g(∈,A)可以表示为等式(9)：

在代理策略模型的训练过程之后，在操作1105将迭代时间步长t增加1，并且在操作1106确定增加后的迭代时间t是否小于预定数量的迭代时间步长T。

在操作1106，当增加后的迭代时间t小于预定数量的迭代时间步长T时，将从代理策略模型输出的控制动作a_t提供给学生模型1-K中的每个学生模型，以重复操作1101-1106，直到迭代时间步长T达到预定数量的迭代时间步长T。

当迭代时间步长t教导预定数量的迭代时间步长T时，在操作1107终止策略预演并且输出代理策略模型。

操作1011-1107可以对应于图2和图5中所示的操作240。

图12是示出根据本公开的实施例的执行策略评估的方法的流程图。

执行策略评估的方法可以包括操作1201-1210。

在操作1201，服务器可以输入经由图2所示的操作240或图11所示的操作1011-1107训练的代理策略模型。

在操作1201和1203，服务器可以将代理策略模型的模型参数发送到多个基站中的每个基站。

在操作1204和1205，与旧控制策略相比，多个基站中的每个基站可以评估从代理策略模型提供的新控制策略。

在操作1206和1207，每个基站确定新控制策略的回报是否比旧控制策略的回报少预定余量C或更多。如果新控制策略的回报比旧控制策略的回报少预定余量C或更多，则基站发送训练继续信号，否则，发送训练停止信号或不发送任何信号。

在操作1208，当服务器从任何基站接收到训练继续信号时，在操作1209服务器执行策略预演过程。当服务器接收到训练停止信号或可选地未接收到训练继续信号时，在操作1210服务器停止策略预演过程。

操作1201-1209可以对应于图2和图6中所示的操作250。

图13是根据实施例的电子装置1300的框图。

图13仅用于说明，并且在不脱离本公开的范围的情况下，可以使用电子装置1300的其他实施例。例如，电子装置1300可以对应于服务器120。

电子装置1300包括总线1010、处理器1320、存储器1330、接口1340和显示器1350。

总线1010包括用于将组件1320至1350彼此连接的电路。总线1010用作在组件1320至1350之间或在电子装置之间传输数据的通信系统。

处理器1320包括中央处理单元(CPU)、图形处理器单元(GPU)、加速处理单元(APU)、集成众核(MIC)、现场可编程门阵列(FPGA)或数字信号处理器(DSP)中的一个或更多个。处理器1320能够执行对电子装置1300的其他组件中的任何一个或任何组合的控制，和/或执行与通信有关的操作或数据处理。例如，处理器1320执行图2中所示的操作210-250、以及图7中所示的操作702和707-712、图9中所示的操作901-904、图10中所示的操作1001-1008、图11中所示的操作1101-1107、以及图12中所示的操作1201-1203和1208-1210。处理器1320执行存储在存储器1330中的一个或更多个程序。

存储器1330可以包括易失性存储器和/或非易失性存储器。存储器1330存储与电子装置1300的至少一个其他组件相关并且用于驱动和控制电子装置1300的信息，诸如命令、数据、程序(一个或更多个指令)、应用1334等中的一个或更多个。例如，命令和/或数据可以制定操作系统(OS)1332。存储在存储器1330中的信息可以由处理器1320执行。

具体地，存储器1330存储用于通信系统110的基站的操作的数据、计算机可读指令、应用和设置信息。存储器1330可以存储关于分配给接入的UE的承载和从接入的UE报告的测量结果的信息。

应用1334包括上面讨论的实施例。这些功能可以由单个应用或多个应用执行，每个应用执行这些功能中的一个或更多个。例如，应用1334可以包括用于执行图2所示的操作210-250以及图7所示的操作702和707-712、图9所示的操作901-904、图10所示的操作1001-1008、图11所示的操作1101-1107以及图12所示的操作1201-1203和1208-1210的人工智能(AI)模型。具体地，根据本公开的实施例，应用1334可以包括教师模型1334、学生模型1336和代理策略模型1337。

显示器1350包括例如液晶显示器(LCD)、发光二极管(LED)显示器、有机发光二极管(OLED)显示器、量子点发光二极管(QLED)显示器、微机电系统(MEMS)显示器或电子纸显示器。

接口1340包括输入/输出(I/O)接口1342、通信接口1344和/或一个或更多个传感器1346。I/O接口1342用作可以例如在用户和/或其他外部装置与电子装置1300的其他组件之间传输命令和/或数据的接口。

通信接口1344可以包括收发器1345，以经由有线连接、无线连接或有线和无线连接的组合实现电子装置1300与其他外部装置(例如，多个基站和可以存储教师模型的其他服务器)之间的通信。通信接口1344可以允许电子装置1300从另一装置接收信息和/或向另一装置提供信息。例如，通信接口1344可以包括以太网接口、光接口、同轴接口、红外接口、射频(RF)接口、通用串行总线(USB)接口、Wi-Fi接口、蜂窝网络接口等。

通信接口1344的收发器1345可以包括射频(RF)电路1345A和基带电路1345B。

基带电路1345B可以通过无线信道发送和接收信号，并且可以对信号执行频带转换和放大。RF电路1345A可以将从基带电路1345B提供的基带信号上变频为RF频带信号，然后通过天线发送转换后的信号，并将通过天线接收的RF频带信号下变频为基带信号。例如，RF电路1345A可以包括发送滤波器、接收滤波器、放大器、混频器、振荡器、数模转换器(DAC)和模数转换器(ADC)。

收发器1345可以连接到一个或更多个天线。收发器1345的RF电路1345A可以包括多个RF链并且可以执行波束成形。对于波束成形，RF电路1345A可以控制通过多个天线或天线元件发送和接收的每个信号的相位和大小。RF电路1345A可以通过发送一个或更多个层来执行下行链路多输入和多输出(MIMO)操作。

基带电路1345A可以根据无线电接入技术的物理层标准执行基带信号和比特流之间的转换。例如，当发送数据时，基带电路1345B通过对传输比特流进行编码和调制来生成复符号。当接收到数据时，基带电路1345B通过对从RF电路1345A提供的基带信号进行解调和解码来重建接收比特流。

接口1340的传感器1346可以计量物理量或检测电子装置1300的激活状态，并将计量或检测到的信息转换为电信号。例如，传感器1346可以包括用于捕获场景的图像的一个或更多个相机或其他成像传感器。传感器1346还可以包括麦克风、键盘、鼠标和用于触摸输入的一个或更多个按钮中的任何一个或任何组合。传感器1346还可以包括惯性测量单元。另外，传感器1346可以包括用于控制本文包括的传感器中的至少一个的控制电路。这些传感器1346中的任何传感器可以位于电子装置1300内或耦合到电子装置1300。

返回参照处理器1320，处理器1320可以通过RF电路1345A和基带电路1345B发送和接收信号。处理器1320可以将数据(例如，业务数据和/或模型参数)记录在存储器1330中并从存储器1330读取数据。

例如，当电子装置1300对应于服务器120时，处理器1320可以从通信系统110接收业务数据，诸如关于由基站的每个小区服务的活动UE的数量、小区负载比和每个小区的互联网协议(IP)吞吐量的信息，并且可以将活动UE的数量、小区负载比和每个小区的PI吞吐量的信息存储在存储器1330中。处理器1320可以控制收发器1345向通信系统110发送对业务数据的请求，并且响应于来自业务数据的请求，从服务器120接收活动UE的数量、小区负载比和每个小区的IP吞吐量的信息。处理器1320可以基于通信系统状态信息来执行操作210-250，并且可以向通信系统110发送用于调整基站的负载平衡参数的控制动作。通信系统110可以根据从服务器120接收的控制动作将通信带宽或UE分配给通信系统110的多个基站或由每个基站服务的多个小区，使得业务负载在多个基站之间和/或在每个基站的多个小区之间相对均匀地分布。

图14示出了根据实施例的服务器在不同通信小区之间执行业务负载平衡的使用应用。

参考图14，根据示例实施例的用于执行业务负载平衡的系统包括服务器120、多个基站BS1-BS7和多个UE，其中，每个基站服务于具有不同小区重选优先级的多个小区，多个UE分别在多个小区中服务。

在示例实施例中，基站BS1可以服务于具有不同频带f₁-f₇和不同小区重选优先级的多个小区C₁-C₇。

服务器120可以与多个基站BS1-BS7进行通信以接收关于其服务小区中的UE的状态的信息，例如，UE处于空闲模式还是活动模式、活动UE的数量、以及每个小区的互联网协议(IP)吞吐量。

服务器120可以基于经由操作210-250从服务器120提供的控制动作来确定基站BS1的多个小区C₁-C₇中的每个小区的小区重选优先级。例如，服务器120可以向基站BS1发送调整每个小区的小区重选优先级和/或最小IP吞吐量的控制动作。基于控制动作，基站BS1可以将多个UE中的一些UE重新分配给另一小区，以在多个小区C₁-C₇之间分配业务负载。

图15示出了根据示例实施例的小区重选过程。

如图15所示，通信系统包括至少一个基站(BS)、通信网络和通过至少一个BS接入通信网络的多个用户设备(UE)。

至少一个BS可以对应于演进节点B(eNB)、下一代节点B(gNB)、6G节点。BS可以收集UE的状态信息，并且可以基于状态信息向UE提供对通信网络的接入。状态信息的示例可以包括UE处于活动模式还是空闲模式的信息，并且还可以包括每个UE的缓冲器状态、可用传输功率状态和信道状态。

通信系统提供由基站BS1服务的第一小区Cell1和第二小区Cell2。例如，当六(6)个UE连接到Cell1并且一(1)个小区连接到Cell2时，根据从服务器提供的控制动作，Cell2中的六个UE中的一个或更多个UE被重新分配给Cell1，以在Cell1和Cell2之间分配通信业务负载。

具体地，在LTE、5G系统或6G系统中，基站BS1可以通过无线电资源控制释放消息来确定UE应该连接到的每个小区Cell1和Cell2的小区重选优先级。UE可以基于小区重选优先级来确定要驻留在其上的目标小区。对于每个UE，小区重选过程作为基于小区重选优先级的概率过程来执行。当Cell1具有高小区重选优先级时，给定空闲模式UE可以具有被重选以驻留在Cell1上的高概率。通信系统可以将空闲UE从过载的Cell2转移到负载较小的Cell1。

图16示出了根据示例实施例的与UE和BS进行通信以执行小区重选过程的方法。

如图16所示，在操作1601，处于空闲模式的UE 121可以执行初始小区选择。为了选择初始小区，UE 121可以扫描其操作频带中的所有射频(RF)信道，并且可以基于小区选择标准来选择供UE驻留的初始小区。例如，UE 121可以基于各种参数来选择初始小区，诸如例如，小区选择接收(RX)水平值(Srxlev)、小区选择质量值(Squal)、临时应用于小区的偏移(Qoffsettemp)、测量的小区接收水平值(Qqualmeas)、测量的小区质量值(Qrxlevmeas)、小区中的最小所需RX水平(Qrxlevmin)、小区中的最小所需质量水平(Qqualmin)。UE 121将所选择的初始小区的信息发送到管理多个小区的基站122，使得处于空闲模式的UE 121驻留在多个小区中的所选择的初始小区上。

在操作1602，基站122可以向服务器120发送业务数据，包括每小区的活动模式UE的数量、小区负载比和每小区的IP吞吐量。

在操作1603，服务器120可以基于经由操作210-250生成的新控制策略来确定小区重选参数，并且可以向基站122发送小区重选参数。小区重选参数可以对应于分配给图14所示的多个小区C₁-C₇的小区重选优先级。

在操作1604，基站122可以向UE 121发送包括小区重选参数的无线资源控制(RRC)释放消息。

在操作1605，UE 121随后可以基于小区重选参数来选择要驻留的目标小区，并且可以向基站122发送所选目标小区的信息。例如，当第二小区C₂具有比多个小区C₁-C₇中的其他相邻小区C₁和C₃-C₇更高的小区重选优先级时，空闲模式UE 121具有比其他相邻小区C₁和C₃-C₇更高的被重新分配以驻留在第二小区C₂上的概率。

在步骤S1710，服务器分别基于从多个基站收集的多个业务数据集来获得多个教师模型。

在步骤S1720，服务器执行策略预演过程。服务器从多个教师模型获得基于知识提炼的多个学生模型(S1722)。服务器通过集成多个学生模型来获得集成学生模型(S1724)。服务器通过与集成学生模型进行交互来获得策略模型(S1726)。

在步骤S1730，服务器向多个基站中的每个基站提供策略模型以用于策略模型的策略评估。

在步骤S1740，服务器基于作为策略评估的结果从多个基站中的至少一个基站接收的训练继续信号，通过对多个学生模型执行策略预演过程来更新集成学生模型和策略模型。

生成控制策略并根据控制策略执行业务负载平衡的方法可以被编写为可以存储在介质中的计算机可执行程序或指令。

介质可以连续地存储计算机可执行程序或指令，或者临时存储用于执行或下载的计算机可执行程序或指令。此外，介质可以是组合了单件或多件硬件的各种记录介质或存储介质中的任何一种，并且介质不限于直接连接到电子装置100的介质，而是可以分布在网络上。介质的示例包括被配置为存储程序指令的磁介质(诸如硬盘、软盘和磁带)、光记录介质(诸如CD-ROM和DVD)、磁光介质(诸如光磁软盘)以及ROM、RAM和闪存。介质的其他示例包括由分发应用的应用商店或由提供或分发其他各种类型的软件的网站、服务器等管理的记录介质和存储介质。

前述方法可以以可下载软件的形式提供。计算机程序产品可以包括通过制造商或电子市场电子分发的软件程序形式的产品(例如，可以下载的应用)。对于电子分发，软件程序的至少一部分可以存储在存储介质中或者可以临时生成。在这种情况下，存储介质可以是服务器或服务器的存储介质。

前述公开内容提供了说明和描述，但并不旨在穷举或将实施方式限制为所公开的精确形式。根据上述公开内容，修改和变化是可能的，或者可以从实施方式的实现中获得。

如本文所使用的，术语“组件”旨在被广义地解释为硬件、固件或硬件和软件的组合。

将显而易见的是，本文描述的系统和/或方法可以以不同形式的硬件、固件或硬件和软件的组合来实现。用于实现这些系统和/或方法的实际专用控制硬件或软件代码不限制实现方式。

因此，本文描述了系统和/或方法的操作和行为，而不参考特定的软件代码，应当理解，软件和硬件可以被设计为基于本文的描述来实现系统和/或方法。

上述本公开的实施例可以被编写为可以存储在介质中的计算机可执行程序或指令。

介质可以连续地存储计算机可执行程序或指令，或者临时存储用于执行或下载的计算机可执行程序或指令。此外，介质可以是组合了单件或多件硬件的各种记录介质或存储介质中的任何一种，并且介质不限于直接连接到电子装置1300的介质，而是可以分布在网络上。介质的示例包括被配置为存储程序指令的磁介质(诸如硬盘、软盘和磁带)、光记录介质(诸如CD-ROM和DVD)、磁光介质(诸如光磁软盘)以及ROM、RAM和闪存。介质的其他示例包括由分发应用的应用商店或由提供或分发其他各种类型的软件的网站、服务器等管理的记录介质和存储介质。

上述方法可以以可下载软件的形式提供。计算机程序产品可以包括通过制造商或电子市场电子分发的软件程序形式的产品(例如，可以下载的应用)。对于电子分发，软件程序的至少一部分可以存储在存储介质中或者可以临时生成。在这种情况下，存储介质可以是服务器或电子装置1300的存储介质。

与上述神经网络相关的模型可以经由软件模块来实现。当经由软件模块(例如，包括指令的程序模块)实现模型时，模型可以存储在计算机可读记录介质中。

此外，模型可以是通过以硬件芯片的形式集成的上述电子装置1300的一部分。例如，模型可以制造为用于人工智能的专用硬件芯片的形式，或者可以制造为现有通用处理器(例如，CPU或应用处理器)或图形专用处理器(例如GPU)的一部分。

此外，模型可以以可下载软件的形式提供。计算机程序产品可以包括通过制造商或电子市场电子分发的软件程序形式的产品(例如，可以下载的应用)。对于电子分发，软件程序的至少一部分可以存储在存储介质中或者可以临时生成。在这种情况下，存储介质可以是制造商或电子市场的服务器，或者是转发服务器的存储介质。

虽然已经参考附图描述了本公开的实施例，但是本领域普通技术人员将理解，在不脱离由所附权利要求限定的精神和范围的情况下，可以在其中进行形式和细节上的各种改变。

Claims

1.一种用于获得通信系统中的多个基站的负载平衡人工智能AI模型的服务器(1300)，所述服务器包括：

至少一个存储器(1330)，存储指令；以及

至少一个处理器(1320)，被配置为执行所述指令以执行以下操作：

(S1710)分别基于从所述多个基站收集的多个业务数据集来获得多个教师模型；

(S1720)执行策略预演过程，包括：

(S1722)基于来自所述多个教师模型的知识提炼来获得多个学生模型；

(S1724)通过集成所述多个学生模型来获得集成学生模型；以及

(S1726)通过与所述集成学生模型进行交互来获得策略模型；

(S1730)向所述多个基站提供所述策略模型，以用于所述策略模型的策略评估；以及

(S1740)基于作为所述策略评估的结果从所述多个基站中的至少一个基站接收到训练继续信号，通过对所述多个学生模型执行所述策略预演过程来更新所述集成学生模型和所述策略模型。

2.根据权利要求1所述的服务器，其中，所述至少一个处理器还被配置为执行所述指令以执行以下操作：

通过从所述多个基站接收所述多个教师模型的模型参数，并且基于接收到的模型参数更新所述多个教师模型的初始化的模型参数，来获得所述多个教师模型。

3.根据权利要求1至2中任一项所述的服务器，其中，所述多个业务数据集包括状态-动作-奖励轨迹，所述状态-动作-奖励轨迹包括状态、动作和奖励，

所述状态包括活动用户设备UE编号、带宽利用率、互联网协议IP吞吐量、小区物理资源使用和下载链路的速度中的至少一个，

所述动作包括导致所述状态改变的负载平衡参数，以及

所述奖励包括IP吞吐量的最小值、总IP吞吐量和死小区计数中的至少一个。

4.根据权利要求1至3中任一项所述的服务器，其中，所述多个教师模型中的每个教师模型包括基于从所述多个基站收集的状态-动作-奖励轨迹来训练的状态转移模型和奖励转移模型，

其中，所述状态转移模型被配置为基于在当前状态下采取的动作来输出预测的下一状态，并且

其中，所述奖励转移模型被配置为基于在所述当前状态下采取的所述动作来输出预测奖励。

5.根据权利要求1至4中的任一项所述的服务器，其中，所述基于来自所述多个教师模型的知识提炼来获得所述多个学生模型的操作包括：

基于真实值与所述多个学生模型中的每个学生模型的预测之间的差异来计算真实损失；

基于所述多个教师模型的教师预测与所述多个学生模型的学生预测之间的差异来计算知识提炼损失；

计算组合所述真实损失和所述知识提炼损失的聚合损失；以及

通过最小化或收敛所述聚合损失来训练所述多个学生模型。

6.根据权利要求1至5中任一项所述的服务器，其中，所述获得所述策略模型的操作包括：

从所述多个学生模型获得状态-奖励对；

计算所述状态-奖励对的平均值；

将所述状态-奖励对的所述平均值输入到所述策略模型，以获得作为所述策略模型的输出的动作；

将时间步长增加1；

基于增加的时间步长小于预定值，将所述动作输入到所述多个学生模型以继续所述策略预演过程；以及

基于所述增加的时间步长等于所述预定值，终止所述策略预演过程并输出所述策略模型。

7.根据权利要求1至6中任一项所述的服务器，其中，所述训练继续信号指示从所述集成学生模型获得的奖励比从现有负载平衡模型获得的奖励少预定余量或更多。

8.一种用于获得通信系统中的多个基站的负载平衡人工智能AI模型的方法，所述方法包括：

(S1720)通过以下操作来执行策略预演过程：

(S1724)通过集成所述多个学生模型来获得集成学生模型；以及

(S1726)通过与所述集成学生模型进行交互来获得策略模型；

(S1730)向所述多个基站中的每个基站发送所述策略模型，以用于所述策略模型的策略评估；以及

9.根据权利要求8所述的方法，其中，所述获得所述多个教师模型的步骤包括：

从所述多个基站接收所述多个教师模型的模型参数；以及

基于接收到的模型参数来更新所述多个教师模型的初始化的模型参数。

10.根据权利要求8至9中任一项所述的方法，其中，所述多个业务数据集包括状态-动作-奖励轨迹，所述状态-动作-奖励轨迹包括状态、动作和奖励，

所述动作包括导致所述状态改变的负载平衡参数，以及

11.根据权利要求8至10中任一项所述的方法，其中，所述多个教师模型中的每个教师模型包括基于从所述多个基站收集的状态-动作-奖励轨迹而被训练的状态转移模型和奖励转移模型，

12.根据权利要求8至11中的任一项所述的方法，其中，所述基于来自所述多个教师模型的知识提炼来获得所述多个学生模型的步骤包括：

通过最小化或收敛所述聚合损失来训练所述多个学生模型。

13.根据权利要求8至12中任一项所述的方法，其中，所述获得所述策略模型的步骤包括：

从所述多个学生模型获得状态-奖励对；

计算所述状态-奖励对的平均值；

将时间步长增加1；

14.根据权利要求8至13中任一项所述的方法，其中，所述训练继续信号指示从所述集成学生模型获得的奖励比从现有负载平衡模型获得的奖励少预定余量或更多。

15.一种包含指令的计算机可读介质，所述指令在被执行时使电子装置的至少一个处理器执行与根据权利要求8至14中任一项所述的方法对应的操作。