CN109845310B

CN109845310B - 利用强化学习进行无线资源管理的方法和单元

Info

Publication number: CN109845310B
Application number: CN201680090129.3A
Authority: CN
Inventors: 弗朗西斯科·达维德·卡拉布雷斯; 帕布罗·索达蒂; 贡纳·彼得斯; 尤哈娜·加迪米
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2016-10-13
Filing date: 2016-10-13
Publication date: 2021-10-22
Anticipated expiration: 2036-10-13
Also published as: WO2018068857A1; CN109845310A; EP3516895A1; EP3516895B1; US11071122B2; US20190239238A1

Abstract

代理节点(210，500)及其中的方法(600)，用于配置通信系统(200)的无线小区(215)的无线资源参数。该代理节点(210，500)配置为获取控制策略(430)；确定表示在第一时间段该通信系统(200)的至少一部分的状态的特征；基于该获取的控制策略(430)和该确定的至少一个特征，确定在该第一时间段对该无线小区(215)中的控制执行的控制动作，该控制动作来自与该无线小区(215)相关联的一组可用控制动作；以及基于该确定的控制动作配置该无线小区(215)的指令。此外，公开了用于基于接收的参数向代理节点(210，500)提供控制策略(430)的对应训练机节点(400)和方法(800)。

Description

利用强化学习进行无线资源管理的方法和单元

技术领域

本文描述的实施方式一般涉及网络接入单元和网络接入单元中的方法。特别地，本文描述了一种用于配置通信系统的无线小区的无线资源参数的机制。

背景技术

在诸如第三代合作伙伴计划(3GPP)长期演进(LTE)系统的现有技术无线接入网络中的无线资源管理(RRM)包括若干问题，包括功率控制、无线资源调度、链路自适应、负载平衡、无线天线倾斜、小区范围扩展以及用户与无线小区的关联等。每个RRM问题可能需要控制某个无线资源参数(例如，一个或多个eNodeB的下行链路传输功率、一个或多个用户设备的上行链路发射功率、一个或多个eNodeB的电倾斜等)，或者控制给定控制算法的参数(例如，用于执行小区切换的阈值、用于选择要分配给用户设备的一个或多个射频载波的阈值等)，或者分配共享无线资源的一部分(例如，时间-频率资源块)到用户设备。由用户设备报告的无线环境测量以及由无线接入网络节点执行的无线测量提供RRM算法所需的基本信息来控制一个或多个网络操作。无线环境测量包括例如参考信号接收功率(ReferenceSignal Received Power,RSRP)、信噪比(Signal to Noise Ratio，SNR)、干扰、信道质量指示符(Channel Quality Indicator，CQI)、信道状态信息(Channel State Information，CSI)等。

传统上使用专用算法来应对不同的RRM问题，该算法优化一个特定RRM任务的网络操作，但是通常不能将相同的算法重用于其他RRM任务。此外，在RRM架构中，不同的RRM任务相互影响或需要相互交互。当RRM任务在相关的关键时间限制内无法完全完成或者只有其他RRM任务的部分信息可用时，这会引入大的信令开销、额外的复杂性以及可能的性能下降。

将UE接入异构网络的方法存在改进的空间。

发明内容

因此，目的是消除至少一些上述缺点并改进通信系统的无线资源管理。

通过所附独立权利要求的特征实现该目的和其他目的。根据从属权利要求、说明书和附图，进一步的实施方式是显而易见的。

根据第一方面，提供了一种用于配置通信系统的无线小区的无线资源参数的代理节点。该代理节点配置为获取控制策略。此外，该代理节点配置为确定表示在第一时间段通信系统的至少一部分的状态的至少一个特征。该代理节点还配置为基于所获取的控制策略和所确定的至少一个特征，确定将被执行以用于在第一时间段配置无线小区中的无线资源参数的控制动作，该控制动作来自与该无线小区相关联的一组可用控制动作。此外，该代理节点配置为基于所确定的控制动作配置无线小区的无线资源参数。

从与无线环境的算法交互收集测量，通过使用该测量自主学习不同的无线资源管理策略，可以进行任意无线资源参数的适当调整。因此，提供了基于学习网络环境性能的无线资源管理，其可以适应无线环境条件的变化而无需手动调整。从而可以更好地管理无线资源，从而提高网络性能。

根据第一方面的第一可能实施方式，该代理节点还可以配置为确定表示在第二时间段通信系统的一部分的状态的特征。此外，该代理节点可以配置为确定与无线小区内的性能相关联的性能测量。进一步地，该代理节点可以配置为向训练机节点发送训练数据消息，该训练数据消息包括以下组中的一个或多个：表示在第一时间段的状态的所确定的特征，在第一时间段执行的所确定的控制动作，表示在第二时间段的状态的所确定的特征，以及所确定的性能测量。此外，从训练机节点接收所获取的控制策略。

根据第一方面或其第一可能实施方式的第二可能实施方式，该代理节点还可以配置为选择利用至少一个特征中的哪一个来表示通信系统的至少一部分的状态。此外，该代理节点可以配置为选择利用与无线小区相关联的哪个性能测量来表示无线小区的性能。

根据第一方面或其任意先前描述的实施方式的第三可能实施方式，其中控制无线小区的无线网络节点与代理节点不在同一位置，该代理节点还可以配置为向无线网络节点发送用于配置无线小区的无线资源参数的指令。

根据第一方面或其任意先前描述的实施方式的第四可能实施方式，其中表示通信系统的至少一部分的状态的特征是基于以下任意一个来确定的：与由无线小区中的用户设备做出并从其接收的接收信号质量相关的测量；与由另一个无线小区中的用户设备做出并从其接收的接收信号质量相关的测量；与由控制无线小区的无线网络节点做出并从其获取的无线小区的下行链路传输功率相关的测量；与无线小区中的多个活跃用户设备相关的测量；与无线小区内的业务类型或分布相关的测量；与无线小区中的用户设备的位置或分布相关的测量；或者与无线小区内的性能相关联的性能测量；与无线小区中的资源利用相关的测量；和/或与无线小区相关联的电倾斜相关的测量。

根据第一方面或其任意先前描述的实施方式的第五可能实施方式，该代理节点还可以配置为基于所确定的性能测量和从通信系统中的另一个无线网络节点接收的至少一个其他网络性能测量，计算与通信系统的至少一部分相关联的性能测量。此外，该代理节点可配置为将包括所计算的性能测量的训练数据消息发送至训练机节点。

根据第一方面或其任意先前描述的实施方式的第六可能实施方式，其中所获取的控制策略还包括探索到开发控制参数，该探索到开发控制参数与应用所确定的控制策略的概率相关联，该代理节点还可以配置为基于所获取的探索到开发控制参数确定所获取的控制策略的应用。

根据第一方面或其任意先前描述的实施方式的第七可能实施方式，其中控制无线小区的无线网络节点是另一个代理节点，发送至训练机节点的训练数据消息包括从其他代理节点接收的训练数据消息；该代理节点还可以配置为转发从训练机节点接收的控制策略至其他代理节点，该控制策略用于配置通信系统中其他代理节点的无线小区中的无线资源参数。

根据第一方面或其任意先前描述的实施方式的第八可能实施方式，该代理节点还可以配置为迭代：表示通信系统的至少一部分的状态的特征的确定；控制动作的确定；无线资源参数指令的配置；性能测量的确定；训练数据消息或多个训练数据消息至训练机节点的发送以及控制策略的获取。

根据第一方面或其任意先前描述的实施方式的第九可能实施方式，该代理节点还可配置为基于表示通信系统的一部分的状态的所确定的至少一个特征或基于所获取的控制策略来调整与无线小区相关联的可用控制动作的集合。

根据第一方面或其任意先前描述的实施方式的第十可能实施方式，其中所获取的控制策略可以由以下中的一个或多个表示：神经网络架构的指示，描述输入神经网络的第一层的数量的参数，描述神经网络的层的数量的一组参数，描述神经网络的不同层中的神经元的数量的一组参数，指示在每一层使用的非线性激活函数的类型的参数(非线性激活函数的类型可以包括s形函数，如sigmoid或双曲正切、或整流线性单元、或指数线性单元等)，描述神经网络中连续或非连续层的单元之间的连接的一组参数，至少一个神经网络索引的一组指示符，一组神经网络权重，配置为用于无线资源参数控制的多个神经网络，配置为用于在控制策略包括多个神经网络时确定控制动作的投票策略。

根据第一方面或其任意先前描述的实施方式的第十一可能实施方式，其中所获取的控制策略还可以包括：为代理节点配置组合方法以聚合由各个神经网络产生的结果以确定控制动作的指示符；用于至少一个神经网络中的神经元的激活函数的指示符；表示基于决策森林时的控制策略的轴对齐数据分割函数的参数的指示符；表示基于决策森林的控制策略的线性数据分割函数的至少两个参数的指示符；表示基于决策森林的控制策略的二次数据分割函数的参数的指示符；指示表征决策森林的以下组中的一个或多个超参数：决策森林的最大或最小深度；决策森林的深度；决策树的最大或最小数量；决策森林中的决策树的数量；信息增益标准；至少一个停止标准的指示，以确定决策森林的深度。

根据第一方面或其任意先前描述的实施方式的第十二可能实施方式，该代理节点还可以配置为在给定表示在第一时间段t处的状态的特征和在第一时间段t得到的功率控制动作a_t的情况下确定与无线小区相关联的性能测量。

根据第一方面或其任意先前描述的实施方式的第十三可能实施方式，该代理节点还可以配置为通过计算标量

的加权和来确定与无线小区内的性能相关联的性能测量，该标量由标量系数α∈[0，∞)参数化并由函数h_i:

(具有域

和实际标量范围)变换，

其中x_i表示与无线小区相关联的无线测量或性能指示符，

是与无线小区相关联并用于定义性能测量的所有无线测量或性能指示符的集合，w_i是与x_i相关联的权重，

是包含所有

的向量。

根据第一方面或其任意先前描述的实施方式的第十四可能实施方式，其中将被配置的无线资源参数是以下组中的一个或多个：与一个或多个无线小区中的下行链路功率控制相关联的控制参数，例如，用于下行链路功率预算的下行链路功率控制调整值、与由一个或多个无线小区使用的无线频谱的至少一部分相关联的下行链路功率控制调整值；与一个或多个用户设备中的上行链路功率控制相关联的控制参数，例如，上行链路功率控制调整值、部分路径损耗调整值、开环功率控制配置值；与对一个或多个用户设备的一个或多个无线小区的共享无线资源的分配相关联的控制参数，例如，时频资源块；与一个或多个天线的电倾斜相关联的控制参数；用于对用户设备执行切换或小区(重新)选择的控制参数，例如，信号强度指示符的阈值、信号强度指示符的偏移值、与小区中的资源可用性相关联的阈值、与来自无线小区的预期数据速率相关联的阈值、与来自无线小区的经验数据速率相关联的阈值；与用于控制信道信令的无线资源的分配相关联的控制参数，例如，分配给物理下行链路控制信道的正交频分复用符号的数量、用于物理下行链路控制信道的时频资源组的数量或分配；与用于与一个或多个无线小区中的一个或多个用户设备相关联的探测参考信号的资源分配相关联的控制参数，例如，随时间和频率的探测信号的周期性和分布；与在一个无线小区的频谱的至少一部分中使用的参数集或波形类型相关联的控制参数，例如，传输时间间隔的持续时间、正交极化和频分复用符号的数量、循环前缀的长度，以及启用/禁用循环前缀的指示、符号在时域和频域的持续时间；与用于执行切换的阈值或选择要分配给用户设备的一个或多个射频载波的阈值相关的控制参数算法。

根据第二方面，提供了一种根据第一方面或其任意一种可能实施方式的代理节点中用于配置通信系统的无线小区的无线资源参数的方法。该方法包括获取控制策略。进一步地，该方法可以包括确定表示在第一时间段通信系统的至少一部分的状态的至少一个特征。此外，该方法还可以包括基于所获取的控制策略，确定将被执行以用于在第一时间段配置无线小区中的无线资源参数的控制动作，该控制动作来自与该无线小区相关联的一组可用控制动作。再者，该方法还包括基于所确定的控制动作配置无线小区的无线资源参数。

根据第二方面的第一可能实施方式，该方法还可以包括确定表示在第二时间段通信系统的一部分的状态的特征。此外，该方法还可以包括确定与无线小区内的性能相关联的性能测量。进一步地，该方法还可以包括向训练机节点发送训练数据消息，该训练数据消息包括以下组中的一个或多个：表示在第一时间段的状态的所确定的特征，在第一时间段执行的所确定的控制动作，表示在第二时间段的状态的所确定的特征，以及所确定的性能测量。该方法还可以包括从训练机节点接收所获取的控制策略。

根据第二方面或其第一可能实施方式的第二可能实施方式，该方法还可以包括选择利用至少一个特征中的哪一个来表示通信系统的至少一部分的状态。此外，该方法包括选择利用与无线小区相关联的哪个性能测量来表示无线小区的性能。

根据第二方面或其第一可能实施方式的第三可能实施方式，其中控制无线小区的无线网络节点与代理节点不在同一位置，该方法还可以包括向无线网络节点发送用于配置无线网络节点的无线小区的无线资源参数的指令。

根据第二方面或其任意先前描述的实施方式的第四可能实施方式，其中表示通信系统的至少一部分的状态的特征是基于以下任意一个来确定的：与由无线小区中的用户设备做出并从其接收的接收信号质量相关的测量；与由另一个无线小区中的用户设备做出并从其接收的接收信号质量相关的测量；与由控制无线小区的无线网络节点做出并从其获取的无线小区的下行链路传输功率相关的测量；与无线小区中的多个活跃用户设备相关的测量；与无线小区内的业务类型或分布相关的测量；与无线小区中的用户设备的位置或分布相关的测量；与无线小区内的性能相关联的性能测量；与无线小区中的资源利用相关的测量；或与无线小区相关联的电倾斜相关的测量。

根据第二方面或其任意先前描述的实施方式的第五可能实施方式，该方法还可以包括基于所确定的性能测量和从通信系统中的另一个无线网络节点接收的网络性能测量，计算与通信系统的至少一部分相关联的性能测量；并且其中发送至训练机节点的训练数据消息包括所计算的性能测量。

根据第二方面或其任意先前描述的实施方式的第六可能实施方式，该方法还可以包括获取探索到开发控制参数，该探索到开发控制参数与应用控制策略的概率相关联。该方法还包括基于所获取的探索到开发控制参数确定所获取的控制策略的应用。

根据第二方面或其任意先前描述的实施方式的第七可能实施方式，其中控制配置无线资源参数的无线小区的无线网络节点是另一个代理节点，发送至训练机节点的训练数据消息包括从其他代理节点接收的训练数据消息；并且其中转发从训练机节点接收的控制策略至其他代理节点，该控制策略用于通信系统中其他代理节点的无线小区中的无线资源参数控制。

根据第二方面或其任意先前描述的实施方式的第八可能实施方式，该方法包括迭代：表示通信系统的至少一部分的状态的特征的确定；控制动作的确定；无线资源参数的配置；性能测量的确定；训练数据消息或多个训练数据消息至训练机节点的发送以及控制策略的获取。

根据第二方面或其任意先前描述的实施方式的第九可能实施方式，该方法可以包括基于表示通信系统的一部分的状态的所确定的至少一个特征或基于从训练机节点接收的控制策略来调整与无线小区相关联的可用控制动作的集合。

根据第二方面或其任意先前描述的实施方式的第十可能实施方式，该方法可以包括根据上述第二方面或其任意先前描述的实施方式迭代该方法。

根据第二方面或其任意先前描述的实施方式的第十一可能实施方式，该方法可以包括基于表示通信系统的一部分的状态的所确定的特征调整与无线小区相关联的可用控制动作的集合。

根据第二方面或其任意先前描述的实施方式的第十二可能实施方式，该方法可以包括由以下中的一个或多个表示所获取的控制策略：为代理节点配置组合方法以聚合由各个神经网络产生的结果以确定控制动作的指示符；用于至少一个神经网络中的神经元的激活函数的指示符；表示基于决策森林时的控制策略的轴对齐数据分割函数的参数的指示符；表示基于决策森林的控制策略的线性数据分割函数的至少两个参数的指示符；表示基于决策森林的控制策略的二次数据分割函数的参数的指示符；指示表征决策森林的以下组中的一个或多个超参数：决策森林的最大或最小深度；决策森林的深度；决策树的最大或最小数量；决策森林中的决策树的数量；信息增益标准；至少一个停止标准的指示，以确定决策森林的深度。

根据第二方面或其任意先前描述的实施方式的第十三可能实施方式，其中所获取的控制策略还包括：为代理节点配置组合方法以聚合由各个神经网络产生的结果以确定控制动作的指示符；用于至少一个神经网络中的神经元的激活函数的指示符；表示基于决策森林时的控制策略的轴对齐数据分割函数的参数的指示符；表示基于决策森林的控制策略的线性数据分割函数的至少两个参数的指示符；表示基于决策森林的控制策略的二次数据分割函数的参数的指示符；指示表征决策森林的以下组中的一个或多个超参数：决策森林的最大或最小深度；决策森林的深度；决策树的最大或最小数量；决策森林中的决策树的数量；信息增益标准；至少一个停止标准的指示，以确定决策森林的深度。

根据第二方面或其任意先前描述的实施方式的第十四可能实施方式，还包括在给定表示在第一时间段t的状态的特征和在第一时间段t得到的功率控制动作a_t的情况下确定与无线小区相关联的性能测量。

根据第二方面或其任意先前描述的实施方式的第十五可能实施方式，还包括通过计算标量

(具有域

和实际标量范围)变换，

其中x_i表示与无线小区相关联的无线测量或性能指示符，

是包含所有

的向量。

根据第二方面或其任意先前描述的实施方式的第十六可能实施方式，其中将被配置的无线资源参数是以下组中的一个或多个：与一个或多个无线小区中的下行链路功率控制相关联的控制参数，例如，用于下行链路功率预算的下行链路功率控制调整值、与由一个或多个无线小区使用的无线频谱的至少一部分相关联的下行链路功率控制调整值；与一个或多个用户设备中的上行链路功率控制相关联的控制参数，例如，上行链路功率控制调整值、部分路径损耗调整值、开环功率控制配置值；与对一个或多个用户设备的一个或多个无线小区的共享无线资源的分配相关联的控制参数，例如，时频资源块；与一个或多个天线的电倾斜相关联的控制参数；用于对用户设备执行切换或小区(重新)选择的控制参数，例如，信号强度指示符的阈值、信号强度指示符的偏移值、与小区中的资源可用性相关联的阈值、与来自小区的预期数据速率相关联的阈值、与来自小区的经验数据速率相关联的阈值；与用于控制信道信令的无线资源的分配相关联的控制参数，例如，分配给物理下行链路控制信道的正交频分复用符号的数量、用于物理下行链路控制信道的时频资源组的数量或分配；与用于与一个或多个无线小区中的一个或多个用户设备相关联的探测参考信号的资源分配相关联的控制参数，例如，随时间和频率的探测信号的周期性和分布；与在一个无线小区的频谱的至少一部分中使用的参数集或波形类型相关联的控制参数，例如，传输时间间隔的持续时间、正交极化和频分复用符号的数量、循环前缀的长度，以及启用/禁用循环前缀的指示、符号在时域和频域的持续时间；与用于执行切换的阈值或选择要分配给用户设备的一个或多个射频载波的阈值相关的控制参数算法。

根据第三方面，提供了一种计算机程序，具有程序代码，用于当计算机程序在计算机上运行时，执行根据第二方面或其任意一种可能实施方式的方法。

根据第四方面，提供了一种训练机节点，用于确定代理节点用于配置通信系统的无线小区的无线资源参数的控制策略。该训练机节点配置为：从代理节点接收与无线小区相关联的训练数据消息，其中训练数据消息包括以下组中的一个或多个：表示在第一时间段通信系统的至少一部分的状态的特征，在第一时间段由代理节点在无线小区中执行的控制动作，表示在第二时间段的状态的特征，以及性能测量。此外，该训练机节点配置为将接收的训练数据消息存储在与无线小区相关联的数据库中。并且，该训练机节点配置为基于存储在数据库中的至少一个训练数据消息，确定无线小区的控制策略。此外，该训练机节点配置为将确定的控制策略发送至代理节点。

根据第四方面的第一可能实施方式，所确定的控制策略可以由以下中的一个或多个来确定：为代理节点配置组合方法以聚合由各个神经网络产生的结果以确定控制动作的指示符；用于至少一个神经网络中的神经元的激活函数的指示符；表示基于决策森林时的控制策略的轴对齐数据分割函数的参数的指示符；表示基于决策森林的控制策略的线性数据分割函数的至少两个参数的指示符；表示基于决策森林的控制策略的二次数据分割函数的参数的指示符；指示表征决策森林的以下组中的一个或多个超参数：决策森林的最大或最小深度；决策森林的深度；决策树的最大或最小数量；决策森林中的决策树的数量；信息增益标准；至少一个停止标准的指示，以确定决策森林的深度。

根据第四方面或其任意先前描述的实施方式的第二可能实施方式，所确定的控制策略还包括：为代理节点配置组合方法以聚合由各个神经网络产生的结果以确定控制动作的指示符；用于至少一个神经网络中的神经元的激活函数的指示符；表示基于决策森林时的控制策略的轴对齐数据分割函数的参数的指示符；表示基于决策森林的控制策略的线性数据分割函数的至少两个参数的指示符；表示基于决策森林的控制策略的二次数据分割函数的参数的指示符；指示表征决策森林的以下组中的一个或多个超参数：决策森林的最大或最小深度；决策森林的深度；决策树的最大或最小数量；决策森林中的决策树的数量；信息增益标准；至少一个停止标准的指示，以确定决策森林的深度。

根据第四方面或其任意先前描述的实施方式的第三可能实施方式，该训练机节点还可以配置为确定探索到开发控制参数，该探索到开发控制参数与应用所确定的控制策略的概率相关联；并且其中所确定的探索到开发控制参数与所确定的控制策略一起被发送到代理节点。

根据第四方面或其第一可能实施方式的第四可能实施方式，该训练机节点可以配置为确定探索到开发控制参数，使得应用所确定的控制策略的概率随时间增大。

根据第四方面或其任意先前描述的实施方式的第五可能实施方式，该训练机节点可以配置为基于从代理节点接收的训练数据消息中接收的性能测量和从通信系统中的另一个无线网络节点接收的另一个性能测量来计算与通信系统的至少一部分相关联的性能测量。

根据第四方面或其任意先前描述的实施方式的第六可能实施方式，该训练机节点可以配置为选择代理节点利用至少一个特征中的哪一个来表示通信系统的至少一部分的状态，并将所做出的选择提供给代理节点。

根据第四方面或其任意先前描述的实施方式的第七可能实施方式，该训练机节点可以配置为选择代理节点利用与无线小区相关联的哪个性能测量来表示无线小区的性能，并将做出的选择提供给代理节点。

根据第五方面，提供了一种训练机节点中的方法，用于确定将由代理节点用于配置通信系统的无线小区的无线资源参数的控制策略。该方法包括从代理节点接收与无线小区相关联的训练数据消息，其中训练数据消息包括以下组中的一个或多个：表示在第一时间段通信系统的至少一部分的状态的特征，在第一时间段由代理节点在无线小区中执行的控制动作，表示在第二时间段的状态的特征，以及性能测量。该方法还包括将接收的训练数据消息存储在与无线小区相关联的数据库中。此外，该方法包括基于存储在数据库中的至少一个训练数据消息，确定无线小区的控制策略。该方法还包括将所确定的控制策略发送至代理节点。

根据第五方面的第一可能实施方式，该方法可以包括确定与控制策略相关联的探索到开发控制参数；并且其中所确定的探索到开发控制参数与所确定的控制策略一起被发送到代理节点。

根据第五方面或其第一可能实施方式的第二可能实施方式，其中确定所述探索到开发控制参数随时间减小。

根据第五方面或其任意先前描述的实施方式的第三可能实施方式，该方法还可以包括基于从代理节点接收的训练数据消息中接收的性能测量和从通信系统中的另一个无线网络节点接收的另一个性能测量来计算与通信系统的至少一部分相关联的性能测量。

根据第五方面或其任意先前描述的实施方式的第四可能实施方式，该方法还可以包括选择代理节点利用至少一个特征中的哪一个来表示包括无线小区的通信系统的至少一部分的状态，并将所做出的选择发送给代理节点。

根据第五方面或其任意先前描述的实施方式的第五可能实施方式，该方法还可以包括选择代理节点利用与无线小区相关联的哪个性能测量来表示无线小区的性能，并将做出的选择发送给代理节点。

根据第六方面，提供了一种计算机程序，具有程序代码，用于当计算机程序在计算机上运行时，执行根据第五方面或其任意一种可能实施方式的方法。

由于所提供的代理节点、训练机节点和其中的方法，无线资源管理被简化并且在某种程度上是自动化的。通过应用机器学习，例如，强化学习，无线资源参数的调整可以在不涉及手动调整的情况下进行，此外，例如，在业务模式、无线业务强度、通信内容等正在随时间而变化时。从而提高了系统的频谱效率。

从以下详细描述中，本发明各方面的其他目的、优点和新颖特征将变得显而易见。

附图说明

参考附图更详细地描述了各种实施例，附图示出了本发明的实施例的示例，其中：

图1是示出具有代理节点的无线通信网络的框图，其中代理节点控制同一位置的无线小区的下行链路传输功率预算。

图2是示出具有代理节点的无线通信网络的框图，其中代理节点控制不在同一位置的无线小区的下行链路传输功率预算。

图3是示出说明代理节点和训练机节点之间的交互的无线通信网络的框图。

图4是示出具有多个代理节点的无线通信网络的框图。

图5是示出根据本发明实施例的代理节点中的方法的流程图。

图6是示出根据本发明实施例的代理节点架构的框图。

图7是示出根据本发明实施例的训练机节点中的方法的流程图。

图8是示出根据本发明实施例的训练机节点架构的框图。

具体实施方式

这里描述的本发明实施例被定义为网络接入单元和网络接入单元中的方法，其可以在下面描述的实施例中付诸实践。然而，这些实施例可以以许多不同的形式示例和实现，并且不限于这里阐述的示例；相反，提供这些实施例的说明性示例，使得该公开将是彻底和完整的。

通过结合附图考虑的以下详细描述，其他目的和特征将变得显而易见。然而，应该理解，附图仅仅是为了说明的目的而设计的，而不是作为本文所公开的实施例的限制的定义，对于这些实施例，将参考所附的权利要求。此外，附图不一定按比例绘制，并且除非另有说明，否则它们仅旨在概念性地示出本文描述的结构和程序。

图1是无线通信系统200的示意图，其中代理节点210驻留在无线网络节点中，例如，LTE系统的eNodeB，并控制与无线接入节点同一位置的至少一个无线小区215的无线资源。可以基于从驻留在受控无线小区215内的用户设备220接收的无线环境测量，以及基于由表示与通信系统相关联的性能测量的其他无线网络节点230接收的信息来确定小区215的无线资源。所示示例中的相邻无线网络节点230可以控制三个无线小区235-1，235-2，235-3。

未来无线通信系统200中的无线接入节点的大规模密集化使得小区间干扰管理特别困难，因为潜在的大量干扰源影响到/来自用户设备220的传输，因此伴随着与频谱效率和节能有关的许多新的挑战。

将该问题解决为最优需要广泛的信道状态测量，其关联来自多个无线网络节点230(即无线小区)的每个用户设备所经历的信道质量，以完全表征系统的状态。这些测量应该由中央节点收集，以便联合优化多个无线网络节点230使用的下行链路功率预算。实现这种方案的信令开销使得它对于缓慢变化的无线信道已经无法实现。

本文公开的实施例的目的是提供一种减轻和/或解决现有技术解决方案的缺点的方法。更具体地，本文公开了一种用于基于学习网络环境性能来执行RRM的方法。

更具体地，公开了一种使用从与无线环境的算法交互中收集的测量和关键性能指示符(KPI)来自主学习不同无线资源管理策略的方法。这种与无线环境的算法交互是基于来自机器学习(更具体地，强化学习)的理念，并使它们适应无线通信系统200的特性。使用该方案中提出的方法，可以为无线资源的管理设计更好的方案，其性能更好，适应不断变化的无线环境条件。

从而提供自主学习，从而产生更好的性能和改进的适应性。

所公开的实施例包括用于基于机器学习的无线通信系统200中的资源管理的一般框架。该方法可以需要两个逻辑实体：代理节点210(例如，eNodeB)，配置为与无线环境交互并基于相关联的控制策略确定动作；和训练机节点(例如，eNodeB或远程服务器)，配置为基于对从一个或多个代理节点接收的通信系统200的状态的观察和在通信系统200中所执行的动作，最初仅学习部分而最终学习全部该相关联的控制策略。

代理节点210根据所学习的控制策略采取的动作可以包括无线资源参数的改变(例如，一个或多个eNodeB的下行链路传输功率、一个或多个用户设备220的上行链路传输功率、一个或多个eNodeB的电倾斜等)、给定控制算法的参数的改变(例如，用于执行切换或选择要分配给用户设备220的一个或多个射频载波的一个阈值，该阈值通常是与信号干扰加噪声比(SINR)、信噪比(SNR或S/N)、参考信号接收功率(RSRP)、或与用户设备220测量的所需信号的功率电平与不希望的背景噪声电平的比较相关的任何类似测量或比率)或者对给定用户设备220的一部分共享无线资源(例如时频资源块)的分配。

代替RSRP，可以使用与信号强度/质量相关的其他类似测量，例如，接收信号强度指示(RSSI)和/或接收信道功率指示符(RCPI)。

此外，代替SNR或SINR，可以使用其他类似的信号干扰比，例如信号干扰比(SIR)、峰值信噪比(PSNR)、信噪和失真比(SINAD)、或类似的。

在下文中，为简单起见，这些类型的动作被称为无线资源参数的调整。

另外，本文的实施例还公开了一种有效的方法，用于跨代理节点210或在代理节点210与训练机节点之间交换与通信系统200的状态有关的信息。

另外，本发明公开了一种用于训练机节点有效地重建通信系统200的完整或部分状态并存储这些状态和动作的序列以便学习要分配给代理节点210的新控制策略的方法。

因此，提供了一种用于无线通信系统200中的控制的方法，该方法基于表征具有有限信令开销的无线环境的状态的学习特征，并利用特征来学习无线通信系统200中的无线小区215，235-1，235-2，235-3的最佳或至少改进的控制策略。在一些实施例中，可以涉及两个逻辑实体：代理节点210(例如，eNodeB)，配置为与无线环境交互并确定基于控制策略优化/改进一个或多个无线网络节点230的无线资源参数的分配的动作。

在一些实施例中，代理节点210可以与无线网络节点230在同一位置。然而，在其他实施例中，代理节点210可以是与无线网络节点230相对的单独实体。一个代理节点210可以进一步控制多个无线小区，可以是在同一位置的215或不在同一位置的235-1，235-2，235-3。因此，在本公开中使用的表述“无线网络节点”可以指示与无线网络节点230在同一位置的代理节点210，或单独的无线网络节点230。

其他逻辑实体是训练机节点(例如，在不同实施例中的eNodeB或远程服务器)，配置为基于例如状态的观察、从环境中接收的所执行的动作和/或回报来学习控制策略。在一些实施例中，训练机节点可以与代理节点210在同一位置。然而，在其他实施例中，代理节点210和训练机节点可以是单独的实体。

在一些实施例中，训练机节点可以保持在中央服务器室中、或类似中，其中可以抵御风和天气，同时被适当地保护免受盗窃和损坏。此外，技术人员可以方便地进行适当的维护和软件更新。

此外，在一些实施例中，可以在代理节点210之间或在代理节点210与训练机节点之间通信或交换与无线通信系统200或其子集的状态相关联的信息。

另外，公开了训练机节点中的方法，以有效地重建、存储和利用通信系统200的状态的至少一部分的知识，以创建用于无线小区215，235-1，235-2，235-3的RRM控制的新控制策略。

在一些实施例中，代理节点210配置为控制代理节点210或至少另一个无线网络节点的无线资源参数。代理节点210配置为从由代理节点210控制的无线小区215中的用户设备220接收包括至少一个无线环境测量的消息。

此外，代理节点210可以配置为从至少一个无线网络节点230接收包括至少一个网络性能测量或本地回报的消息，因为它也可以被称为与通信系统200或其子集相关联，例如，小区215，235-1，235-2，235-3位于其中的通信系统200的子集。

代理节点210可以另外配置为基于所接收的无线环境测量和/或至少一个网络性能测量来确定部分或全部地表示通信系统200的状态的至少一个特征。此外，在一些实施例中，代理节点210还可以配置为基于控制策略、一组可用控制动作以及表示通信系统200或其子集的状态的至少一个特征，确定与通信系统200中的无线小区215，235-1，235-2，235-3相关联的控制动作。代理节点210还可以配置为基于所确定的控制动作来配置与无线小区215，235-1，235-2，235-3相关联的无线资源参数。

无线资源参数可以是随后列举的示例中的一个或多个。在一些实施例中，无线资源参数可以是与一个或多个无线小区215，235-1，235-2，235-3中的下行链路功率控制相关联的控制参数，例如，用于下行链路功率预算的功率控制调整值、与一个或多个无线小区215，235-1，235-2，235-3使用的无线频谱的至少一部分相关联的功率控制调整值。

此外，无线资源参数可以是与一个或多个用户设备210中的上行链路功率控制相关联的控制参数，例如，功率控制调整值、部分路径损耗调整值、开环功率控制配置值。

在一些实施例中，无线资源参数可以是对一个或多个用户设备220的一个或多个无线小区215，235-1，235-2，235-3的共享无线资源的分配相关联的控制参数，例如，时频资源块。

在一些可选实施例中，无线资源参数可以是与一个或多个天线的电倾斜相关联的控制参数。

根据一些实施例，无线资源参数可以包括用于对用户设备220执行切换或小区(重新)选择的控制参数，例如，信号强度指示符的阈值(例如，RSRP、SINR、SNR等)、信号强度指示符的偏移值(例如，RSRP、SINR、SNR等)、与无线小区215，235-1，235-2，235-3中的资源可用性相关联的阈值、与来自无线小区215，235-1，235-2，235-3的预期数据速率相关联的阈值、与来自无线小区215，235-1，235-2，235-3的经验数据速率相关联的阈值。

无线资源参数可选地可以包括与用于控制信道信令的无线资源的分配相关联的控制参数，例如，分配给物理下行链路控制信道的正交频分复用(OFDM)符号的数量、用于物理下行链路控制信道的时频资源组的数量或分配。

此外，无线资源参数可以包括与用于与一个或多个无线小区215，235-1，235-2，235-3中的一个或多个用户设备220相关联的探测参考信号的资源分配相关联的控制参数，例如，随时间和频率的探测信号的周期性和分布。

在一些实施例中，无线资源参数还可以包括与在一个无线小区的频谱的至少一部分中使用的参数集或波形类型相关联的控制参数，例如，传输时间间隔的持续时间、OPFDM符号的数量、循环前缀的长度以及启用/禁用循环前缀的指示、符号在时域和频域中的持续时间。

无线网络节点230可以被指定为基站，例如，无线基站(RBS)，其在一些网络中可以被称为发送器，“eNB”、“eNodeB”、“NodeB”或“B节点”，这取决于所使用的技术和术语。基于传输功率，从而也基于小区大小，无线网络节点230可以是不同的类，例如，宏eNodeB、家庭eNodeB或微微基站。一个或多个无线小区235-1，235-2，235-3可以由一个无线网络节点230或可能的代理节点210控制，例如，三扇形的无线站(tri-sectorial radio site)。

通信系统200可以至少部分地基于无线接入技术，例如，3GPP LTE、LTE升级版、演进通用陆地无线接入网络(E-UTRAN)、通用移动电信系统(UMTS)、用于移动通信的全球系统(最初：移动专家组)(GSM)/用于GSM演进的增强数据速率(GSM/EDGE)、宽带码分多址(WCDMA)、时分多址(TDMA)网络、频分多址(FDMA)网络、正交FDMA(OFDMA)网络、单载波FDMA(SC-FDMA)网络、全球互通微波接入(WiMax)、或超移动宽带(UMB)、高速分组接入(HSPA)演进通用陆地无线接入(E-UTRA)、通用陆地无线接入(UTRA)、GSM EDGE无线接入网络(GERAN)、3GPP2CDMA技术，例如，CDMA2000 1x RTT和高速分组数据(HRPD)，仅举几个选项。表述“无线通信网络”、“无线通信系统”和/或“蜂窝电信系统”可以在本公开的技术背景下有时可互换地使用。

应注意，图1中的一个代理节点210、一个无线网络节点230和一个用户设备220的所示网络设置将被视为仅作为实施例的非限制性示例。无线通信系统200可以包括代理节点210、无线网络节点230和/或用户设备220的任何其他数量和/或组合。多个用户设备220和无线网络节点230和/或代理节点210的另一个配置可以因此在所公开发明的一些实施例中涉及。

因此，根据一些实施例，无论何时在本上下文中提及“一个”或“一/一个”用户设备220、无线网络节点230和/或代理节点210，可以涉及多个用户设备220、无线网络节点230和/或代理节点210。

该组可用离散控制动作

可以包括要应用于当前无线资源参数值的正或负偏移值。因此，每个值可以对应于当前参数值的增加(正偏移)、减小(负偏移)或保持(零偏移)。参数值可等效地以二进制、线性、对数(分贝)或其他合适的比例表示。此外，通常无线环境参数可具有可变范围的变量，其定义参数的域。在一个示例中，无线小区235-1，235-2，235-3可以发送功率预算，因为控制参数采用[10dB，46dB]范围中的最小和最大可行值，并且该组可用功率控制动作可以包括值

此外，无线资源参数的可行范围还可以取决于通信系统200的当前状态。在一个示例中，无线小区235-1，235-2，235-3的发送功率预算可以作为控制参数，并且发送功率的当前值是时刻t的状态的一部分。然后，在时间t要采取的一组可用功率控制动作还可以取决于功率预算的当前值。例如，如果功率预算的当前值是46dB，那么可用功率控制动作的集合(根据前面的示例)可以被限制为

在另一示例中，控制变量可以是用于触发切换(HandOver)的阈值参数，并且具有包括偏移

的类似的一组可用控制动作。在另一个示例中，动作可以包括到用户设备220的时频资源块的下行链路或上行链路分配。在这种情况下，该组动作将包括可用资源块(RB)和用户设备220的笛卡尔积：

在本发明的一些实施例中，代理节点210可以配置为确定用于控制由无线网络节点230控制的至少一个无线小区235-1，235-2，235-3的无线资源参数的控制动作，所述无线网络节点230与代理节点210不在同一位置。

进一步根据一些实施例，代理节点210可以配置为向无线网络节点230发送控制消息，该控制消息至少包括所述无线资源参数调整。

图2示出了一个实施例，其中代理节点210与无线网络节点230不在同一位置。在这种情况下，代理节点210控制与至少一个与代理节点210不在同一位置的无线小区235-1，235-2，235相关联的无线资源参数。该实施例的优点是能够集中控制多个无线网络节点230，目的是改善KPI，例如，系统200的频谱效率、质量和服务(QoS)要求的满意度以及跨用户设备220的资源分配的公平性。

另外，代理节点210的控制消息还可以包括与控制动作相关联的时间的指示，例如，指示何时应用控制动作的开始时间和指示控制动作的有效性的窗口。此外，控制消息可以另外包括控制动作列表和相关的时间指示。控制动作还可以与由无线网络节点230或多个无线网络节点230控制的一个或多个无线小区235-1，235-2，235-3相关联。

代理节点210可以确定一组特征

其中每个特征f_j用于表示在给定时间t的通信系统200的状态s_t的一部分。可以基于从代理节点210控制的一个或多个无线小区215，235-1，235-2，235-3内的用户设备220接收的无线测量或基于与从至少一个无线网络节点230接收的通信系统200相关联的测量，来确定每个特征

例如，特征集合

可以包括以下特征中的一个或多个，这取决于受控的无线资源参数。

因此，该组特征可以包括与由代理节点210控制的至少一个无线小区215相关联的下行链路传输功率的指示符。此外，该组特征可以包括与至少一个由无线网络节点230控制的与代理节点210不在同一位置的无线小区235-1，235-2，235-3相关联的下行链路传输功率的指示符。此外，该组特征可以包括在由代理节点210控制的至少一个无线小区215，235-1，235-2，235-3内的用户设备220相关联的平均、最小或最大参考信号接收功率(RSRP)的指示符。该组特征可以可选地包括与由代理节点210和至少一个相邻小区控制的无线小区215相关联的测量的干扰的指示符，例如平均、最小或最大干扰。由此可以由代理节点210控制并且向代理节点210报告的至少一个无线小区215，235-1，235-2，235-3内的用户设备220来测量干扰。此外，该组特征还可以包括与由代理节点210控制的至少一个无线小区215内的用户设备220相关联的平均、最小或最大信噪比(SNR)的指示符。另外，该组特征可以包括与由代理节点210控制的至少一个无线小区215内的用户设备220相关联的平均、最小或最大信号干扰加噪声比(SINR)的指示符。该组特征还可以包括与由无线网络节点230控制的无线小区235-1，235-2，235-3相关联的回报函数的指示符。此外，该组特征还可以包括无线小区215，235-1，235-2，235-3中的活跃用户设备220的数量。再者，该组特征可以可选地包括无线小区215，235-1，235-2，235-3中的活跃用户设备220的业务类型。该组特征还可以包括与一个或多个频率载波相关联的无线小区215，235-1，235-2，235-3的业务负载。另外，该组特征还可以包括无线小区215，235-1，235-2，235-3内的资源利用，诸如平均、最大或最小资源利用的指示。该组特征可以包括与一个或多个无线小区215，235-1，235-2，235-3相关联的电倾斜的指示。

更一般地，该组特征可以包括与要由代理节点210控制的一个或多个无线资源管理算法相关联的无线控制参数的列表。在一个示例中，对于切换(HandOver)或小区重选算法，该组特征可以包括：与SINR、SNR、RSRP或从用户设备220到一个或多个无线网络节点230的信号强度的其他测量相关联的阈值或测量间隙。

因此，从用户设备220接收的具有由代理节点210控制的无线小区215，235-1，235-2，235-3的无线环境测量可以包括以下组中的至少一个或多个：与由代理节点210控制的至少一个无线小区215相关联的RSRP的测量(具体地，有用信号)；与至少一个相邻小区相关联的RSRP的测量(即，干扰)；与代理节点210控制的至少一个无线小区215相关联的SNR的测量；和/或与由代理节点210控制的至少一个相邻小区相关联的SINR的测量。

代理节点210还可以通过选择特征

的子集来确定/表征与在给定时间t部分或整个通信系统200相关联的状态s_t，即

其中

且f_k，t表示在时间t的特征

的值。因此，通信系统200的状态可以由特征的不同组合和特征的不同数量来表示。每个特征可以包括一些无线测量的测量或函数。

代理节点210还配置为确定性能测量r_t，其可以被称为在给定时间t与通信系统200中的一个或多个无线小区215，235-1，235-2，235-3相关联的回报，在给定时间t获得的功率控制动作

和时间t的通信系统200的状态s_t的情况下，即r_t＝g(a_t，s_t)。代理节点210可以基于由无线小区215，235-1，235-2，235-3服务的用户设备220接收的无线环境测量

来估计小区性能测量r_t，而不是明确地建模r_t对状态和功率控制动作的依赖性。换句话说，在一些实施例中，用户测量可以提供在时间t时在状态s_t中施加控制动作a_t导致的时间t+1的小区状态和回报的观察。

在一些实施例中，代理节点210确定与受控的无线小区215，235-1，235-2，235-3相关联的性能测量r_t为状态观察

的加权和，其由标量系数α∈[0，∞)参数化并由凹增函数h_i变换，

其中w_i是与用户i的无线环境测量相关联的权重，并且

是包含所有用户设备220的无线环境测量的向量，用于回报函数r_t(x)的定义。

在一个非限制性示例性情况中，函数和h_i(x_i)表示无线小区215，235-1，235-2，235-3的用户i的平均数据吞吐量，等式[1]中的回报r_t(x)可以用α和权重w_i的不同值近似，例如以下表达式中的任意一个、一些或全部：与无线小区215，235-1，235-2，235-3中的用户设备220相关联的平均数据吞吐量，即

如果对于所有的i，α＝0，

与无线小区215，235-1，235-2，235-3相关联的平均数据吞吐量，即

如果对于所有的i，α＝0，w_i＝1；与无线小区215，235-1，235-2，235-3中的用户设备220相关联的平均对数变换数据吞吐量，即

如果对于所有的i，α＝1，

与无线小区215，235-1，235-2，235-3相关联的对数变换数据吞吐量的平均和，即

如果对于所有的i，α＝1，w_i＝1；与无线小区215，235-1，235-2，235-3中的用户设备220相关联的平均谐波数据吞吐量，即

如果对于所有的i，α＝2，

与无线小区215，235-1，235-2，235-3相关联的平均谐波数据吞吐量，即

如果对于所有的i，α＝2，w_i＝1。

每个回报表达式使代理节点210能够优化不同的性能度量，该性能度量可以与各个用户设备220、无线小区215，235-1，235-2，235-3或整个通信系统200相关联。

功率控制策略是将通信系统200的状态映射到可用动作的集合的函数。功率控制策略可以例如是确定性、随机性、概率性或其组合。

在本发明的一个实施例中，功率控制策略可以由一个或多个神经网络表示，其中每个神经网络包括输入层，该输入层包括一组输入单元、包括一组隐藏单元的一组隐藏层以及由一个或多个输出单元组成的一个输出层。每个神经网络可以由一组权重W＝{w⁽¹⁾，…，w^L-1}表示，其中

表示N_l×1实值向量，其分量表示层l的单元与层l+1的单元之间的权重。此外，神经网络可以由激活函数表示，该激活函数可能是S形的，其在将由单元接收的输入变换为其输出时引入非线性。

代理节点210可以配置有神经网络

的码本，其由n＝1，…，N索引，最终具有不同的大小(即具有不同数量的隐藏层，并且在输入、输出和隐藏层中具有不同数量的单元)。

在一个实施例中，代理节点210通过输入与Q值函数相关联的至少一个神经网络来确定控制动作，该Q值函数具有至少一个动作

并且具有至少特征

每个神经网络n的输出层确定与在输入层输入的相应控制动作a_i相关联的实数值

值

表示代理节点210通过选择控制动作a_i并且之后遵循由神经网络n实施的策略而预期实现的累积折扣回报。

因此，在一个实施例中，代理节点210可以配置有由单个神经网络表示的控制策略，并且确定具有最大似然系数的控制动作a_i★：

在一个替代实施例中，代理节点210可以配置有由神经网络表示的控制策略，并且对于表示控制策略的每个神经网络n，基于以下确定步骤确定功率控制动作a_i★，控制动作

具有基于等式[2]的最大q值。下一步可以是选择控制动作a_i★作为已经由最大数量的神经网络(例如，多数投票)选择的控制动作。如果在具有多数投票的相同数量的神经网络中选择了两个或更多个动作，则在一些实施例中，可以以相等的概率随机选择所述动作之一。

所描述的替代实施例的优点可以是纠正某些神经网络的错误的概率，这些神经网络可能已经在状态空间的某些部分中学习了不正确的策略。

在一个替代实施例中，控制策略可以由一个或多个决策森林表示，其中每个决策森林包括一组决策树，其中每个决策树由多个节点表征，每个节点基于阈值将输入数据分成两个子集。提供给决策树的每个节点的数据样本包括一组特征

可以基于在特征空间的子空间上定义的分割函数来划分数据。这样的子空间可以通过随机选择全特征空间

的一个或多个特征并且随机选择分割函数的一个或多个参数来创建，所述分割函数表征(但不限于)以下分割标准之一：轴对齐分割(即，垂直或水平对齐)，一个参数表示特征值

线性分割，其中至少两个参数定义特征的线性函数的斜率和截距值；和/或二次分割，其中至少三个参数定义特征的二次函数。

信息增益标准可以确定随机选择哪些特征或表征分割函数的参数。另外，可以使用停止标准来确定决策森林的深度，例如最大深度、最小信息增益或要分割的数据样本的最小数量。

代理节点210可以基于从代理节点210控制的无线小区215，235-1，235-2，235-3中的用户设备220接收的可用无线测量来学习控制策略。在替换实施例中，代理节点210可以接收包括控制策略的消息。

因此，在本发明的一个实施例中，代理节点210还可以配置为：从训练机节点接收控制消息，该控制消息包括用于调整调节无线资源参数(如下行链路功率)的无线资源参数的控制策略或管理一些无线资源的算法的阈值或对给定用户设备220的时频资源块的分配。

所接收的控制动作可以与由代理节点210控制的一个或多个无线小区215相关联，或者与由代理节点210控制的一个或多个无线网络节点230相关联。图3中示出了实施例，其中控制消息包括由训练机节点400发送到代理节点210的控制策略430。

图3示出了通信系统200中的代理节点210和训练机节点400之间的交互的示例。

此外，控制策略430可以由以下中的一个或多个表示：指示神经网络架构的消息(指定输入、隐藏层、输出和每层神经元或单元的数量，以及激活函数)。控制策略430还可以由至少一个神经网络指示符表示，该神经网络指示符指示已经可用于代理节点210的神经网络

的码本中的一个神经网络。在一些实施例中，控制策略430可以由神经网络权重W的至少一个集合表示，神经网络权重W将被配置用于与控制策略相关联的至少一个神经网络(在一些实施例中，神经网络还可以通过神经网络指示符来寻址)。或者，控制策略430可以由以下来表示：将被配置用于控制动作的多个神经网络；为代理节点210配置组合方法以聚合由各个神经网络产生的结果以确定控制动作的指示符。例如，代理节点210可以配置有一组组合方法，例如，多数投票、加权多数投票和/或波达(borda)计数。控制策略430可以由用于至少一个神经网络中的神经元的激活函数的指示符表示。此外，控制策略430可以由表示基于决策森林的控制策略430的轴对齐数据分割函数的参数的指示符/与基于决策森林的控制策略430的轴对齐数据分割函数相关联的参数的指示符来表示。此外，控制策略430可以由表示基于决策森林的控制策略430的线性数据分割函数的至少两个参数的指示符/与基于决策森林的控制策略430的线性数据分割函数相关联的至少两个参数的指示符来表示。此外，控制策略430还可以由表示基于决策森林的控制策略430的二次数据分割函数的参数的指示符/与基于决策森林的控制策略430的二次数据分割函数相关联的参数的指示符来表示。此外，控制策略430可以由指示表征决策森林的以下组中的一个或多个超参数来表示：决策森林的最大或最小深度；决策森林的深度；决策树的最大或最小数量；决策森林中的决策树的数量；信息增益标准；至少一个停止标准的指示，以确定决策森林的深度。

在本发明的一些实施例中，代理节点210还可以配置为从训练机节点400接收控制消息430，该控制消息430还包括与控制策略相关联的探索到开发控制参数∈。而且，代理节点210可以配置为基于探索到开发控制参数∈确定是否应用控制策略430。

探索到开发控制参数∈可以指示与替代控制策略430相比应该使用控制策略430的平均频率，诸如，例如在集合

中选择随机动作。该方法的优点通过始终使用所接收的控制策略430，允许探索通信系统200的新状态，否则代理节点210将不会观察到新状态。

在一些实施例中，代理节点210还配置为确定训练数据消息(TDM)420，训练数据消息420至少包括以下指示：在特定时间t测量的通信系统200的状态s_t；代理节点210在时间t采取的控制动作a_t；在控制动作之后测量的通信系统200的状态s_t+1；系统性能r_t+1的测量，即与通信系统200的新状态和控制动作相关联的回报。然后将确定的训练数据消息420发送到训练机节点400。

此外，训练数据消息420可以与通信系统200中的一个或多个无线小区215，235-1，235-2，235-3或与一个或多个无线网络节点210，230相关联。从而，训练数据消息420可以提供与一个或多个无线小区215，235-1，235-2，235-3或无线网络节点210，230所采取的控制动作相关联的通信系统200的状态的观察。该实施例，使训练机节点400能够有效地使控制策略适应通信系统200中的变化，从而优化系统性能。

训练机节点400还可以配置为：从至少一个代理节点210接收至少一个训练数据消息420；至少基于所接收的训练数据消息420，确定与通信系统200中的至少一个无线小区215，235-1，235-2，235-3相关联的控制策略430；向代理节点210发送包括用于优化无线资源参数的控制策略430的控制消息。

训练数据消息还可以携带一批训练数据，即，与由于控制动作引起的状态转换的T≥1个观察相关联的一组四元组

与控制策略430相关联的无线小区215，235-1，235-2，235-3可以由代理节点210或由代理节点210控制的另一个无线网络节点230控制。在后一种情况下，代理节点210可以向无线网络节点230发送与根据本发明的前一实施例的基于控制策略230计算的无线小区235-1，235-2，235-3相关联的控制命令。

图4示出了通信系统200中的第一代理节点和第二代理节点500之间的交互，例如，经由LTE系统的X2接口或S1接口。

在本发明的一个实施例中，代理节点210还可以配置为确定至少一个代理间消息，该消息包括以下项中的至少一个：与由代理节点210控制的一个或多个无线小区215相关联的网络性能测量(本地回报)；包括当前控制策略430的控制消息；和/或训练数据消息(TDM)。

代理节点210还可以配置为将一个或多个消息发送到至少另一个代理节点500，该代理节点500可以由先前提到的无线网络节点230表示，或者与训练机节点400在同一位置。一旦接收到该信息，第二代理节点500还可以基于由第一代理节点210接收的至少一个(本地)回报和与由第二代理节点500控制的至少一个无线小区235-1，235-2，235-3相关联的性能测量r_t，确定与至少一个部分或整个通信系统200(例如，一组多个无线小区215，235-1，235-2，235-3)相关联的性能测量r_s。

在一些实施例中，代理节点210的控制策略可以在接收到至少一个数据训练消息420时由训练机节点400确定。

控制策略430还可以与一组多个无线小区215，235-1，235-2，235-3相关联。在一个示例中，控制策略430可以与共同位于三扇区无线网络节点235中的一组三个无线小区235-1，235-2，235-3相关联。代理节点210，500可以是在不同实施例中驻留在所述无线网络节点230中或控制所述无线网络节点230。

在该实施例的一个实施方式中，训练机节点400可以基于接收的训练数据消息420上包括的新训练数据并基于先前接收的训练数据来确定新的控制策略430。接收的训练数据420此后由训练机节点400存储，例如存储在数据库410中，以便将来可用于控制策略430的推导。训练机节点400存储的训练数据可以从一个或多个代理节点210，500接收，并且由此与通信系统200中的不同无线小区215，235-1，235-2，235-3或不同无线网络节点210，230，500相关联。

在本发明的一个实施例中，训练机节点400还可以配置为确定与控制策略430相关联的探索到开发控制参数∈；并且向代理节点210发送控制消息，该控制消息还包括探索到开发控制参数∈。

探索到开发控制参数∈调节在代理节点210处的控制策略430的利用。在一个示例性情况中，探索到开发控制参数∈可以取区间∈∈[0,1]中的值(0和1包括在该区间中)。因此，探索到开发控制参数∈的给定值指示与替代控制策略相比应该使用控制策略430的平均频率，诸如，例如选择集合

中的随机动作。因此，值∈＝0.2可以指示代理节点210在80％的时间内基于所接收的控制策略430选择控制动作

同时在20％的时间内随机选择控制动作

(或相反亦然)。

该实施例的优点是允许探索通信系统200的状态，否则代理节点210和训练机节点400将不会观察到该状态。根据先前描述的实施例，通信系统200的探索状态可以由代理节点210通过训练数据消息420向训练机节点400报告。

对探索与开发权衡的有效控制可能是一个优点，因为随机探索通信系统200的状态可能导致系统频谱效率的降低。因此，在本发明的一个实施例中，根据预定方法逐渐减少探索到开发控制参数∈，以逐渐减少对未知状态空间的探索，并逐渐增加对控制策略430的开发。在一个示例中，每次选择动作时更新的探索到开发控制参数∈_k可以被计算为：

其中∈_min表示一旦主要探索阶段完成，代理节点210将保留的探索到开发控制参数的最小值，∈_max是代理节点210将从其开始的最大∈值。这里k≥0是表示直到当前时间执行的动作的数量的离散计数器，N是从∈_max到∈_min期间应当发生的退火的动作的总数。

训练机节点400可以基于强化学习(RL)算法确定最优控制策略430。强化学习算法解决将经验回报与在系统200的给定状态下获得的控制动作相关联的问题，该控制动作导致该回报。由强化学习算法产生的控制策略430将给定系统状态映射到要采取的动作(在可用的一组动作中)，以最大化累积回报。

RL中一些最流行的方法是critic-only方法。它们基于寻找最优值函数然后从中推导出策略的想法。

可能最著名的critic-only算法是Q学习。Q值函数是对未来回报的预测，更确切地说，Q值函数试图学习“在状态s中采取动作a并遵循策略π，我可以期望多少总回报”。

通过提取Q函数，而不是直接学习在给定状态中采取什么动作，可以了解在给定状态下采取动作然后从中推导出策略是多么有价值。

遵循策略π和折扣因子γ，与状态s中的采取动作a相关联的Q值函数被写为：

Q^π(s，a)＝E[r_t+1+γr_t+2+γ²r_t+3+…|s，a]

这种Q值函数可以通过时序差分的方法学习：

Q(s_t，a_t)←Q(s_t，a_t)+α(r_t+1+γmax_a′∈AQ(s_t+1，a′)-Q(s_t，a_t))

该差分可以被计算为在时间步骤t由Q值函数预测的Q值之间的差异，即在时间步骤t+1的Q(s_t，a_t)和实际回报加上打折的Q值，为r_t+1+γmax_a′∈AQ(s_t+1，a′)。

在预测的内容和实际经历的内容之间的这种差异用于校正(在与某个学习率α相乘之后)估计的Q函数并使其更接近要学习的真实Q函数。上述算法假设值函数可以某种方式以适当的方式表示，例如通过将其存储在表中。但是在实践中，状态空间可能变得非常大或甚至无限，因此无法进行基于表的表示。此外，填充这些大表将需要大量的观察的转换。为了克服这个问题，值函数通常用参数化函数逼近器表示，例如，线性函数，或者如本说明书中所提到的神经网络。不是更新值函数的各个条目，而是使用梯度下降来更改函数逼近器的参数以最小化错误：

其中r+max_a′Q(s′，a′)是目标，而Q(s，a)是预测。

图5是示出代理节点210中用于配置通信系统200的无线小区215，235-1，235-2，235-3的无线资源参数的方法600的实施例的流程图。无线小区215，235-1，235-2，235-3由代理节点210控制，或者在一些实施例中由另一个代理节点500控制，或者替换地由网络节点230控制。代理节点210可以与训练机节点400在同一位置，和/或在一些实施例中，网络节点230控制无线小区215，235-1，235-2，235-3。替换地，代理节点210可以位于距训练机节点400和/或网络节点230一定距离处。

通信系统200可以基于3GPP LTE。此外，在不同实施例中，无线通信系统200可以基于频分双工(FDD)或时分双工(TDD)。

为了适当地配置无线小区215，235-1，235-2，235-3的无线资源参数指令，方法600可以包括多个步骤601-612。

然而，应当注意，根据不同的实施例，所描述的步骤601-612中的任何一个、一些或全部，可以以与枚举指示的稍微不同的时间顺序执行，同时执行或者甚至以完全相反的顺序执行。某些动作，例如，步骤602-603，607-612可以在一些但不一定是所有实施例中执行。另外，要注意的是，可以根据不同的实施例以多种替代方式执行一些动作，并且一些这样的替代方式可以仅在一些但不一定是所有实施例内执行。

在一些实施例中，代理节点210可以周期性地重新执行步骤601-612中的任何一个、一些或全部，从而根据一些实施例能够应用新的控制策略430。方法600可以包括以下步骤：

步骤601包括获取控制策略430。可以从训练机节点400接收控制策略430。

在控制要控制的无线小区235-1，235-2，235-3的无线网络节点500是另一个代理节点500的一些实施例中，控制策略430用于配置通信系统200中的其他代理节点500的无线小区235-1，235-2，235-3中的无线资源参数，无线资源参数从训练机节点400获得，可以被转发到其他代理节点500。

在一些实施例中，可以迭代地获取控制策略430。

所获取的控制策略430可以由以下中的一个或多个表示：为代理节点210，500配置组合方法以聚合由各个神经网络产生的结果以确定控制动作的指示符；用于至少一个神经网络中的神经元的激活函数的指示符；表示基于决策森林时的控制策略430的轴对齐数据分割函数的参数的指示符；表示基于决策森林的控制策略430的线性数据分割函数的至少两个参数的指示符；表示基于决策森林的控制策略430的二次数据分割函数的参数的指示符；指示表征决策森林的以下组中的一个或多个超参数：决策森林的最大或最小深度；决策森林的深度；决策树的最大或最小数量；决策森林中的决策树的数量；信息增益标准；至少一个停止标准的指示，以确定决策森林的深度。

根据各种实施例，所获取的控制策略430还可以包括：对与无线小区215，235-1，235-2，235-3相关联的一组可用控制动作的调整；为代理节点210，500配置组合方法以聚合由各个神经网络产生的结果以确定控制动作的指示符；用于至少一个神经网络中的神经元的激活函数的指示符；表示基于决策森林时的控制策略430的轴对齐数据分割函数的参数的指示符；表示基于决策森林的控制策略430的线性数据分割函数的至少两个参数的指示符；表示基于决策森林的控制策略430的二次数据分割函数的参数的指示符；指示表征决策森林的以下组中的一个或多个超参数：决策森林的最大或最小深度；决策森林的深度；决策树的最大或最小数量；决策森林中的决策树的数量；信息增益标准；至少一个停止标准的指示，以确定决策森林的深度。

步骤602(其可以仅包括在一些实施例中)可以包括选择利用至少一个特征中的哪一个来表示通信系统200的至少一部分的状态。

表示通信系统200的至少一部分的状态的特征可以基于以下中的任何一个、一些或组合来选择：与由无线小区215，235-1，235-2，235-3中的用户设备220做出并从其接收的接收信号质量相关的测量；与由另一个无线小区215，235-1，235-2，235-3中的用户设备220做出并从其接收的接收信号质量相关的测量；与由控制无线小区215，235-1，235-2，235-3的无线网络节点210，230，500做出并从其获取的无线小区215，235-1，235-2，235-3的下行链路传输功率相关的测量；与无线小区215，235-1，235-2，235-3中的多个活跃用户设备220相关的测量；与无线小区215，235-1，235-2，235-3内的业务类型或分布相关的测量；与无线小区215，235-1，235-2，235-3中的用户设备220的位置或分布相关的测量；或与无线小区215，235-1，235-2，235-3内的性能相关联的性能测量。

步骤603(其可以仅包括在一些实施例中)可以包括选择利用与无线小区215，235-1，235-2，235-3相关联的哪个性能测量来表示无线小区215，235-1，235-2，235-3的性能。

步骤604包括确定表示在第一时间段通信系统200的至少一部分的状态的至少一个特征。通信系统200的一部分可以是要对其执行无线资源参数的控制的无线小区215，235-1，235-2，235-3位于其中的通信系统200的一部分。

在一些实施例中，所述特征的确定可以包括迭代表示通信系统200的至少一部分的状态的特征的确定。

表示无线小区215，235-1，235-2，235-3所在的通信系统200的至少一部分的状态的特征可以基于以下任何一个、一些或组合来确定：与由无线小区215，235-1，235-2，235-3中的用户设备220做出并从其接收的接收信号质量相关的测量；与由另一个无线小区215，235-1，235-2，235-3中的用户设备220做出并从其接收的接收信号质量相关的测量；与由控制无线小区215，235-1，235-2，235-3的无线网络节点210，230，500做出并从其获取的无线小区215，235-1，235-2，235-3的下行链路传输功率相关的测量；与无线小区215，235-1，235-2，235-3中的多个活跃用户设备220相关的测量；与无线小区215，235-1，235-2，235-3内的业务类型或分布相关的测量；与无线小区215，235-1，235-2，235-3中的用户设备220的位置或分布相关的测量；或与无线小区215，235-1，235-2，235-3内的性能相关联的性能测量。

步骤605包括基于所获取601的控制策略430，确定将被执行以用于在第一时间段配置无线小区215，235-1，235-2，235-3中的无线资源参数的控制动作，该控制动作来自与该无线小区215，235-1，235-2，235-3相关联的一组可用控制动作。

根据一些实施例，可以迭代控制动作的确定。

此外，根据一些实施例，可以基于所确定604的表示通信系统200(其中可以包括无线小区215，235-1，235-2，235-3)的一部分的状态的至少一个特征，或者基于训练机节点400接收的控制策略430，调整与无线小区215，235-1，235-2，235-3相关联的可用控制动作的集合。

步骤606包括基于所确定605的控制动作来配置无线小区215，235-1，235-2，235-3的无线资源参数。

根据一些实施例，可以迭代无线资源参数的配置。

步骤607(其可以仅包括在一些实施例中)，其中控制无线小区235-1，235-2，235-3的无线网络节点230与代理节点210不在同一位置，可以包括发送配置606的无线小区235-1，235-2，235-3中的无线资源参数到无线网络节点230，以用于控制无线网络节点230的无线小区235-1，235-2，235-3中的无线资源参数。

步骤608(其可以仅包括在一些实施例中)可以包括确定表示在第二时间段通信系统200的一部分的状态的特征，其中无线小区215，235-1，235-2，235-3可以位于通信系统200中。

表示通信系统200的一部分的状态的特征通常可以与在步骤604中列举的先前在第一时间段确定604的相同。

步骤609(其可以仅包括在一些实施例中)可以包括确定与无线小区215，235-1，235-2，235-3内或通信系统200或其子集内的性能相关联的性能测量。

在一些实施例中，性能测量可以在第一时间段做出，在一些实施例中，可以在第二时间段做出。

在一些实施例中，可以迭代所确定的性能测量。

在一些实施例中，在给定表示在第一时间段t的状态的特征和在第一时间段t得到的控制动作a_t的情况下，可以确定与无线小区215，235-1，235-2，235-3相关联的性能测量。

在一些实施例中，通过计算标量

的加权和来确定与无线小区215，235-1，235-2，235-3内的性能相关联的性能测量，该标量由标量系数α∈[0，∞)参数化并由函数h_i:

(具有域

和实际标量范围)变换，

其中x_i表示与无线小区215，235-1，235-2，235-3相关联的无线测量或性能指示符，

是与无线小区215，235-1，235-2，235-3相关联并用于定义性能测量的所有无线测量或性能指示符的集合，w_i是与x_i相关联的权重，

是包含所有

的向量。

步骤610(其可以仅包括在已经执行了步骤609的一些实施例中)可以包括基于所确定609的性能测量和从通信系统200中的另一无线网络节点230，500接收的网络性能测量，计算与通信系统200的至少一部分相关联的性能测量，其中无线小区215，235-1，235-2，235-3可以位于该通信系统200中。

步骤611(其可以仅包括在一些实施例中)可以包括将训练数据消息420发送到训练机节点400，训练数据消息420包括以下组中的一个或多个：所确定604的表示在第一时间段的状态的特征，所确定605的在第一时间段执行的控制动作，所确定608的表示在第二时间段的状态的特征，以及所确定609的性能测量。

在已经执行步骤610的一些实施例中，发送到训练机节点400的训练数据消息420包括所计算610的性能测量。

在控制要控制的无线小区235-1，235-2，235-3的无线网络节点500是另一个代理节点500的一些实施例中，发送到训练机节点400的训练数据消息420可以包括先前已从其他代理节点500接收的训练数据消息420。

在一些实施例中，可以迭代将所收集的一批训练数据消息420中的训练数据消息420或多个训练数据消息420发送到训练机节点400。

步骤612(其可以仅包括在一些实施例中)，其中所获取601的控制策略430还可以包括与应用控制策略430的概率相关联的探索到开发控制参数，可以包括基于所获取601的探索到开发控制参数确定所获取601的控制策略430的应用。

在一些实施例中，对于有限的时间段或者直到达到阈值极限，可以无限地迭代方法步骤601-612的任何一个、一些或所有。

图6示出了用于配置通信系统200的无线小区215，235-1，235-2，235-3的无线资源参数的代理节点210，500的实施例。根据一些实施例，代理节点210，500配置为根据所列举的方法步骤601-612中的任何一个、一些、全部或至少一个来执行方法600。

因此，代理节点210配置为获取控制策略430。此外，代理节点210配置为确定表示在第一时间段通信系统200的至少一部分的状态的至少一个特征，例如，无线小区215，235-1，235-2，235-3位于通信系统200中。另外，代理节点210配置为基于所获取的控制策略430和所确定的至少一个特征，确定将被执行以用于在第一时间段配置无线小区215，235-1，235-2，235-3中的无线资源参数的控制动作，该控制动作来自与该无线小区215，235-1，235-2，235-3相关联的一组可用控制动作。此外，代理节点210还配置为基于所确定的控制动作来配置无线小区215，235-1，235-2，235-3的无线资源参数。

此外，在一些实施例中，代理节点210，500还可以配置为确定表示在第二时间段通信系统200的一部分的状态的特征。通信系统200的一部分可以是无线小区215，235-1，235-2，235-3所在的部分。代理节点210，500还可以配置为确定与无线小区215，235-1，235-2，235-3内的性能相关联的性能测量。此外，代理节点210，500还可以配置为向训练机节点400发送训练数据消息420，训练数据消息420包括以下组中的一个或多个：表示在第一时间段的状态的所确定的特征，在第一时间段执行的所确定的控制动作，表示在第二时间段的状态的所确定的特征，和/或确定的性能测量。代理节点210，500还可以配置为通过从训练机节点400接收控制策略430来获取控制策略430。

在一些可选实施例中，代理节点210，500可以配置为选择利用至少一个特征中的哪一个来表示通信系统200的至少一部分的状态。此外，代理节点210，500还可以配置为选择利用与无线小区215，235-1，235-2，235-3相关联的哪个性能测量来表示无线小区215，235-1，235-2，235-3的性能。

根据一些实施例，代理节点210，500可以配置为，当控制无线小区235-1，235-2，235-3的无线网络节点230与代理节点210不在同一位置时，将无线小区235-1，235-2，235-3的配置的无线资源参数指令发送到无线网络节点230，以用于调整无线网络节点230的无线小区235-1，235-2，235-3的无线资源参数。

此外，代理节点210，500还可以配置为基于以下中的任何一个来确定表示(例如，无线小区215，235-1，235-2，235-3所位于的)通信系统200的至少一部分的状态的特征：与由无线小区215，235-1，235-2，235-3中的用户设备220做出并从其接收的接收信号质量相关的测量；与由另一个无线小区215，235-1，235-2，235-3中的用户设备220做出并从其接收的接收信号质量相关的测量；与由控制无线小区215，235-1，235-2，235-3的无线网络节点210，230，500做出并从其获取的无线小区215，235-1，235-2，235-3的下行链路传输功率相关的测量；与无线小区215，235-1，235-2，235-3中的多个活跃用户设备220相关的测量；与无线小区215，235-1，235-2，235-3内的业务类型或分布相关的测量；与无线小区215，235-1，235-2，235-3中的用户设备220的位置或分布相关的测量；或与无线小区215，235-1，235-2，235-3内的性能相关联的性能测量。

代理节点210，500可以配置为基于所确定的性能测量和从通信系统200中的另一无线网络节点230，500接收的至少一个网络性能测量，计算与通信系统200的至少一部分相关联的性能测量，例如，无线小区215，235-1，235-2，235-3包括在该通信系统200中。此外，在一些实施例中，代理节点210，500还可以配置为向训练机节点400发送包括计算的性能测量的训练数据消息420。

另外，代理节点210，500可以配置为获取与应用所确定的控制策略430的概率相关联的探索到开发控制参数。代理节点210，500还可以配置为基于所获取的探索到开发控制参数，确定所获取的控制策略430的应用。在一些实施例中，探索到开发控制参数可以例如是与控制策略430一起从训练机节点400接收。

在一些实施例中，其中控制无线小区235-1，235-2，235-3的无线网络节点500是另一个代理节点500，代理节点210可以配置为向训练机节点400发送训练数据消息420，训练数据消息420包括从其他代理节点500接收的训练数据消息420。代理节点210，500还可以配置为转发从训练机节点400接收的控制策略430至其他代理节点500，该控制策略430用于通信系统200中其他代理节点500的无线小区235-1，235-2，235-3中的无线资源参数调整。

根据一些可选实施例，代理节点210，500可以配置为迭代：表示通信系统200的至少一部分的状态的特征的确定；控制动作的确定；无线资源参数指令的配置；性能测量的确定；训练数据消息420或多个训练数据消息420至训练机节点400的发送和/或控制策略430的获取。

代理节点210，500还可以配置为基于表示通信系统200的一部分的状态的所确定的至少一个特征或基于所获取的控制策略430来调整与无线小区215，235-1，235-2，235-3相关联的可用控制动作的集合。

此外，在一些实施例中，代理节点210，500可以配置为获取控制策略430，其由以下中的一个或多个表示：为代理节点210，500配置组合方法以聚合由各个神经网络产生的结果以确定控制动作的指示符；用于至少一个神经网络中的神经元的激活函数的指示符；表示基于决策森林时的控制策略430的轴对齐数据分割函数的参数的指示符；表示基于决策森林的控制策略430的线性数据分割函数的至少两个参数的指示符；表示基于决策森林的控制策略430的二次数据分割函数的参数的指示符；指示表征决策森林的以下组中的一个或多个超参数：决策森林的最大或最小深度；决策森林的深度；决策树的最大或最小数量；决策森林中的决策树的数量；信息增益标准；至少一个停止标准的指示，以确定决策森林的深度。

另外，在一些实施例中，代理节点210，500可以配置为获取控制策略430，包括：对与无线小区215，235-1，235-2，235-3相关联的一组可用控制动作的调整；为代理节点210，500配置组合方法以聚合由各个神经网络产生的结果以确定控制动作的指示符；用于至少一个神经网络中的神经元的激活函数的指示符；表示基于决策森林时的控制策略430的轴对齐数据分割函数的参数的指示符；表示基于决策森林的控制策略430的线性数据分割函数的至少两个参数的指示符；表示基于决策森林的控制策略430的二次数据分割函数的参数的指示符；指示表征决策森林的以下组中的一个或多个超参数：决策森林的最大或最小深度；决策森林的深度；决策树的最大或最小数量；决策森林中的决策树的数量；信息增益标准；和/或至少一个停止标准的指示，以确定决策森林的深度。

在一些实施例中，代理节点210，500可以配置为在给定表示在第一时间段t的表示通信系统200或其子集的状态的特征和在第一时间段t得到的功率控制动作a_t的情况下，确定与无线小区215，235-1，235-2，235-3相关联的性能测量。

在一些实施例中，代理节点210，500可以另外配置为通过计算标量

(具有域

和实际标量范围)变换，

是包含所有

的向量。

为了增强清晰度，图6中省略了对于理解本文描述的实施例不是完全必不可少的代理节点210的任何内部电子器件或其他组件。

代理节点210包括接收器710，配置用于接收例如来自一个或多个用户设备220的信号强度/质量测量，用于接收例如来自一个或多个无线网络节点230的信号强度/质量测量或其他信息；或用于接收例如来自训练机节点400的控制策略430。

此外，代理节点210包括处理器720，配置用于通过执行所描述的方法600的步骤601-612的至少一些来配置通信系统200中的无线小区215，235-1，235-2，235-3的无线资源参数。

这样的处理器720可以包括处理电路的一个或多个示例，即，中央处理单元(CPU)、处理单元、处理电路、处理器、专用集成电路(ASIC)、微处理器或可以解释和执行指令的其他处理逻辑。这里使用的表述“处理器”因此可以表示包括多个处理电路的处理电路，诸如，例如上面列举的那些中的任何一个、一些或全部。

此外，在一些实施例中，代理节点210可以包括发送器730，其配置用于发送各种信号，由用户设备220、无线网络节点230、其他代理节点500和/或训练机节点400接收。

此外，根据一些实施例，代理节点210可以包括至少一个存储器725。可选存储器725可以包括用于临时或永久地存储数据或程序(即，指令序列)的物理设备。根据一些实施例，存储器725可以包括具有基于硅的晶体管的集成电路。此外，存储器725可以是易失性的或非易失性的。

可以通过代理节点210中的一个或多个处理电路720以及用于执行至少一些方法步骤601-612的功能的计算机程序产品来实现要在代理节点210中执行的先前描述的方法步骤601-612的至少一个子集。因此，当计算机程序被加载到代理节点210的处理器720中时，包括用于执行方法步骤601-612的指令的计算机程序产品可以执行通信系统200中的无线小区215，235-1，235-2，235-3的无线资源参数调整。

上述计算机程序可以例如以携带计算机程序代码的数据载体的形式提供，计算机程序代码用于在被加载到处理器720中时执行根据一些实施例的方法步骤601-612中的至少一些。数据载体可以例如是硬盘、CD ROM盘、记忆棒、光学存储设备、磁存储设备或诸如磁盘或磁带的可以以非暂时的方式保持机器可读数据的任何其他合适的介质。此外，计算机程序产品可以作为计算机程序代码提供在服务器上，并且例如通过因特网或内联网连接远程下载到代理节点210。

图7是示出训练机节点400中的方法800的实施例的流程图，该方法用于确定将由代理节点210，500用于配置通信系统200的无线小区215，235-1，235-2，235-3的无线资源参数的控制策略430。

无线小区215，235-1，235-2，235-3由代理节点210控制，或者在一些实施例中由另一个代理节点500控制，或者替换地由网络节点230控制，网络节点230又由代理节点210，500控制。在一些实施例中，代理节点210可以与训练机节点400和/或控制无线小区215，235-1，235-2，235-3的网络节点230在同一位置。或者，代理节点210可以位于距训练机节点400和/或网络节点230一定距离处。

控制策略430可以由以下中的一个或多个表示：为代理节点210，500配置组合方法以聚合由各个神经网络产生的结果以确定控制动作的指示符；用于至少一个神经网络中的神经元的激活函数的指示符；表示基于决策森林时的控制策略430的轴对齐数据分割函数的参数的指示符；表示基于决策森林的控制策略430的线性数据分割函数的至少两个参数的指示符；表示基于决策森林的控制策略430的二次数据分割函数的参数的指示符；指示表征决策森林的以下组中的一个或多个超参数：决策森林的最大或最小深度；决策森林的深度；决策树的最大或最小数量；决策森林中的决策树的数量；信息增益标准；至少一个停止标准的指示，以确定决策森林的深度。

为了适当地确定要由用于配置无线小区215，235-1，235-2，235-3的无线资源参数的代理节点210，500使用的控制策略430，方法800可以包括多个步骤801-805。

然而，应当注意，根据不同的实施例，所描述的步骤801-805中的任何一个、一些或全部，可以以与枚举指示的稍微不同的时间顺序执行，同时执行或甚至以完全相反的顺序执行。某些动作，诸如，例如步骤804可以在一些但不一定是所有实施例中执行。另外，要注意的是，可以根据不同的实施例以多种替代方式执行一些动作，并且一些这样的替代方式可以仅在一些但不一定是所有实施例内执行。

在一些实施例中，训练机节点400可以周期性地重新执行步骤801-805中的任何一个、一些或全部，从而根据一些实施例提供连续更新的控制策略430。方法800可以包括以下步骤：

步骤801包括从代理节点210，500接收与无线小区215，235-1，235-2，235-3相关联的训练数据消息420，其中训练数据消息420包括以下组中的一个或多个：表示在第一时间段通信系统200的至少一部分的状态的特征，在第一时间段由无线小区215，235-1，235-2，235-3中的代理节点210，500执行的控制动作，表示在第二时间段的状态的特征，和性能测量。

在一些实施例中，可以基于从代理节点210，500接收的训练数据消息420中接收的性能测量和从通信系统200中的另一个无线网络节点230，500接收的另一个性能测量，计算与通信系统200的至少一部分相关联的联合性能测量。

步骤802包括将接收801的训练数据消息420存储在与无线小区215，235-1，235-2，235-3相关联的数据库410中。

步骤803包括基于在数据库410中存储802的至少一个训练数据消息420来确定无线小区215，235-1，235-2，235-3的控制策略430。

步骤804(其可以仅包括在一些实施例中)可以包括确定与所确定803的控制策略430相关联的探索到开发控制参数。

在一些实施例中，可以确定探索到开发控制参数随时间减小。

步骤805包括将确定803的控制策略430发送到代理节点210，500。

在已经执行步骤804一些实施例中，可以包括将确定的804探索到开发控制参数与确定803的控制策略430一起发送到代理节点210，500。

在一些替代实施例中，方法800还可以包括选择代理节点210，500将利用至少一个特征中的哪一个来表示包括无线小区215，235-1，235-2，235-3的通信系统200的至少一部分的状态，并将所做出的选择发送到代理节点210，500。

在一些实施例中，方法800还可以包括选择代理节点210，500利用与无线小区215，235-1，235-2，235-3相关联的哪个性能测量来表示无线小区215，235-1，235-2，235-3的性能，并将做出的选择发送到代理节点210，500。

在一些实施例中，对于有限的时间段或者直到达到阈值极限，可以无限地迭代方法步骤801-805的任何一个、一些或所有。

图8示出了用于确定将由代理节点210，500用于配置通信系统200的无线小区215，235-1，235-2，235-3的无线资源参数的控制策略430的训练机节点400的实施例。根据一些实施例，训练机节点400配置为根据所列举的方法步骤801-805中的任何一个、一些、全部或至少一个来执行方法800。

因此，训练机节点400配置为从代理节点210，500接收与无线小区215，235-1，235-2，235-3相关联的训练数据消息420，其中训练数据消息420包括以下组中的一个或多个：表示在第一时间段通信系统200的至少一部分的状态的特征，在第一时间段由无线小区215，235-1，235-2，235-3中的代理节点210，500执行的控制动作，表示在第二时间段的状态的特征，和性能测量。训练机节点400还配置为将接收的训练数据消息420存储在与无线小区215，235-1，235-2，235-3相关联的数据库410中。此外，训练机节点400配置为基于存储在数据库410中的至少一个训练数据消息420来确定无线小区215，235-1，235-2，235-3的控制策略430。此外，训练机节点400还配置为将所确定的控制策略430发送到代理节点210，500。

在一些实施例中，训练机节点400可以配置为确定与应用所确定的控制策略430的概率相关联的探索到开发控制参数，例如在一些替代实施例中，基于时间段参数；并且其中，将所确定的探索到开发控制参数与所确定的控制策略430一起发送到代理节点210，500。

另外，训练机节点400可以配置为确定探索到开发控制参数，使得应用所确定的控制策略430的概率随时间增大。

而且，训练机节点400还可以配置为基于在从代理节点210，500接收的训练数据消息420中接收的性能测量和从通信系统200中的另一个无线网络节点230，500接收的至少一个其他性能测量，计算与通信系统200的至少一部分相关联的性能测量。

此外，训练机节点400可以配置为选择代理节点210，500将利用至少一个特征中的哪一个来表示通信系统200的至少一部分的状态，并将所做出的选择提供给代理节点210，500。

训练机节点400可以另外配置为选择代理节点210，500利用与无线小区215，235-1，235-2，235-3相关联的哪个性能测量来用于表示无线小区215，235-1，235-2，235-3的性能，并将所做出的选择提供给代理节点210，500。

为了增强清晰度，图8中省略了对于理解本文描述的实施例不是完全必不可少的训练机节点400的任何内部电子器件或其他组件。

训练机节点400包括接收器910，其配置用于接收例如来自一个或多个代理节点210，500的训练数据消息420中的信号强度/质量测量。

此外，训练机节点400包括处理器920，配置用于通过执行所描述的方法800的至少一些步骤801-805，确定代理节点210，500用于通信系统200的无线小区215，235-1，235-2，235-3的下行链路功率控制的控制策略430。

这样的处理器920可以包括处理电路的一个或多个示例，即，中央处理单元(CPU)、处理单元、处理电路、处理器、专用集成电路(ASIC)、微处理器或可以解释和执行指令的其他处理逻辑。这里使用的表述“处理器”因此可以表示包括多个处理电路的处理电路，诸如，例如上面列举的那些中的任何一个、一些或全部。

此外，在一些实施例中，训练机节点400可以包括发送器930，其配置用于发送各种信号和指令，例如，包括由代理节点210，500或可能是另一个训练机节点接收的所确定的控制策略430。

此外，根据一些实施例，训练机节点400可包括至少一个存储器925。可选存储器925可以包括用于临时或永久地存储数据或程序(即，指令序列)的物理设备。根据一些实施例，存储器925可以包括具有基于硅的晶体管的集成电路。此外，存储器925可以是易失性的或非易失性的。

可以通过训练机节点400中的一个或多个处理电路920以及用于执行至少一些方法步骤801-805的功能的计算机程序产品一起来实现要在训练机节点400中执行的先前描述的方法步骤801-805的至少一个子集。因此，包括用于执行方法步骤801-805的指令的计算机程序产品可以确定代理节点210，500用于配置通信系统200中的无线小区215，235-1，235-2，235-3的无线资源参数的控制策略430。

上述计算机程序可以例如以携带计算机程序代码的数据载体的形式提供，计算机程序代码用于在被加载到处理器920中时执行根据一些实施例的方法步骤801-805中的至少一些。数据载体可以例如是硬盘、CD ROM盘、记忆棒、光学存储设备、磁存储设备或诸如磁盘或磁带的可以以非暂时的方式保持机器可读数据的任何其他合适的介质。此外，计算机程序产品可以作为计算机程序代码提供在服务器上，并且例如通过因特网或内联网连接远程下载到训练机节点400。

在附图中示出的实施例的描述中使用的术语不限于所描述的代理节点210、其中的方法600、训练机节点400或其中的方法800。在不脱离由所附权利要求限定的本发明的情况下，可以进行各种改变、替换和/或变更。

如本文所用，术语“和/或”包括一个或多个相关联所列项目的任何和所有组合。本文使用的术语“或”应被解释为数学OR，即作为包含性的分离；除非另有明确说明，否则不作为数学异或(XOR)。另外，除非另有明确说明，单数形式“一”、“一个”和“该”将被解释为“至少一个”，因此也可能包括多个相同类型的实体。将进一步理解，术语“包括”、“包含”、“包括”和/或“包含”指定所述特征、动作、整数、步骤、操作、元素和/或组件的存在，但是不排除存在或添加一个或多个其他特征、动作、整数、步骤、操作、元素、组件和/或其组。单个单元，诸如，例如处理器可以实现权利要求中记载的若干项的功能。在相互不同的从属权利要求中陈述某些措施的仅有事实并不表示这些措施的组合不能用于获益。计算机程序可以存储/分布在合适的介质上，例如，与其他硬件一起提供或作为其他硬件的一部分提供的光学存储介质或固态介质，但也可以以其他形式分布，例如，通过因特网或其他有线或无线通信系统。

最后，应该理解，本发明不限于上述实施例，而是涉及并包含所附独立权利要求范围内的所有实施例。

Claims

1.一种包括代理节点和训练机节点的系统，其中所述代理节点(210，500)配置为配置通信系统(200)的无线小区(215，235-1，235-2，235-3)的无线资源参数；其中控制所述无线小区(235-1，235-2，235-3)的无线网络节点(230)分离于所述代理节点(210)，其中所述训练机节点(400)配置为：

从所述代理节点(210，500)接收与所述无线小区(215，235-1，235-2，235-3)相关联的训练数据消息(420)，其中所述训练数据消息(420)包括以下组中的多个：

表示在第一时间段所述通信系统(200)的至少一部分的状态的一组特征，

在所述第一时间段由所述代理节点(210，500)在所述无线小区(215，235-1，235-2，235-3)中执行的控制动作，

在第二时间段的所述一组特征，以及

性能测量；

将所接收的训练数据消息(420)存储在与所述无线小区(215，235-1，235-2，235-3)相关联的数据库(410)中；

基于存储在所述数据库(410)中的所接收的训练数据消息(420)并且基于强化学习算法，确定所述无线小区(215，235-1，235-2，235-3)的控制策略(430)；以及

将所确定的控制策略(430)发送至所述代理节点(210，500)；

其中所述代理节点(210，500)进一步配置为：

通过从所述训练机节点(400)接收所述控制策略(430)来获取所述控制策略(430)；

确定表示在所述第一时间段所述通信系统(200)的至少一部分的所述状态的所述一组特征；

基于所获取的控制策略(430)和所述一组特征，确定在所述第一时间段配置所述无线小区(215，235-1，235-2，235-3)中的所述无线资源参数所要执行的所述控制动作，所述控制动作来自与所述无线小区(215，235-1，235-2，235-3)相关联的一组可用控制动作；以及

基于所确定的控制动作配置所述无线小区(215，235-1，235-2，235-3)的所述无线资源参数；

其中所述一组特征包括与要由所述代理节点(210)控制的一个或多个无线资源管理算法相关联的无线控制参数的列表，其中基于从所述无线小区内的用户设备(220)接收的无线测量或基于从控制所述无线小区(235-1，235-2，235-3)的所述无线网络节点(230)接收的无线测量，来确定每个特征；

其中所述代理节点(210，500)还配置为：

通过向所述无线网络节点(230)发送用于配置所述无线小区(235-1，235-2，235-3)的所述无线资源参数的指令，来基于所确定的控制动作配置所述无线小区(215，235-1，235-2，235-3)的所述无线资源参数。

2.根据权利要求1所述的系统，其中所述代理节点(210，500)还配置为：

确定表示在第二时间段所述通信系统(200)的所述一部分的所述状态的所述特征；

确定与所述无线小区(215，235-1，235-2，235-3)内的所述性能相关联的性能测量；以及

将训练数据消息(420)发送至训练机节点(400)，所述训练数据消息(420)包括以下组中的一个或多个：

表示在所述第一时间段的所述状态的所述确定的特征，

在所述第一时间段执行的所述确定的控制动作，

表示在所述第二时间段的所述状态的所述确定的特征，以及

所述确定的性能测量。

3.根据权利要求1或2所述的系统，其中所述一组特征是基于以下任意一个确定的：

与由所述无线小区(215，235-1，235-2，235-3)中的用户设备(220)做出并从其接收的接收信号质量相关的测量；

与由另一个无线小区(215，235-1，235-2，235-3)中的用户设备(220)做出并从其接收的接收信号质量相关的测量；

与由控制所述无线小区(215，235-1，235-2，235-3)的所述无线网络节点(210，230，500)做出并从其获取的所述无线小区(215，235-1，235-2，235-3)的下行链路传输功率相关的测量；

与所述无线小区(215，235-1，235-2，235-3)中的多个活跃用户设备(220)相关的测量；

与所述无线小区(215，235-1，235-2，235-3)内的业务的类型或分布相关的测量；

与所述无线小区(215，235-1，235-2，235-3)中的用户设备(220)的位置或分布相关的测量；

与所述无线小区(215，235-1，235-2，235-3)内的所述性能相关联的性能测量；

与所述无线小区(215，235-1，235-2，235-3)中的资源利用相关的测量；

与所述无线小区(215，235-1，235-2，235-3)相关联的电倾斜相关的测量。

4.根据权利要求2所述的系统，其中所述代理节点(210，500)还配置为：

基于所述确定的性能测量和从所述通信系统(200)中的另一个无线网络节点(230，500)接收的至少一个其他网络性能测量，计算与所述通信系统(200)的至少一部分相关联的性能测量；

并且其中发送至所述训练机节点(400)的所述训练数据消息(420)包括所述计算的性能测量。

5.根据权利要求1或2所述的系统，其中所述获取的控制策略(430)还包括用于调节在代理节点(210)处的控制策略(430)的利用的控制参数；并且其中所述代理节点(210，500)还配置为：

基于所述获取的控制参数，确定所述获取的控制策略(430)的应用。

6.根据权利要求2所述的系统，其中控制为其配置所述无线资源参数的所述无线小区(235-1，235-2，235-3)的所述无线网络节点(500)是另一个代理节点(500)，并且发送至所述训练机节点(400)的所述训练数据消息(420)包括从所述另一个代理节点(500)接收的训练数据消息(420)；并且其中所述代理节点(210，500)还配置为转发从所述训练机节点(400)接收的所述控制策略(430)至其他代理节点(500)，所述控制策略(430)用于配置所述通信系统(200)中的所述其他代理节点(500)的所述无线小区(235-1，235-2，235-3)中的无线资源参数。

7.根据权利要求6所述的系统，其中所述代理节点(210，500)还配置为迭代：所述一组特征的所述确定；所述控制动作的所述确定；所述无线资源参数指令的所述配置；所述性能测量的所述确定；所述训练数据消息(420)或多个训练数据消息(420)至所述训练机节点(400)的所述发送以及所述控制策略(430)的所述获取。

8.根据权利要求1所述的系统，其中所述训练机节点(400)还配置为：

确定探索到开发控制参数，所述探索到开发控制参数与应用所确定的控制策略(430)的概率相关联；并且其中所确定的探索到开发控制参数与所确定的控制策略(430)一起被发送到所述代理节点(210，500)。

9.根据权利要求1或8所述的系统，其中所述训练机节点(400)还配置为确定用于所述无线小区(215，235-1，235-2，235-3)的所述控制策略(430)由以下中的一个或多个表示：

神经网络架构的指示，

描述到所述神经网络第一层的输入的数量的参数，

描述所述神经网络的层的数量的一组参数，

描述所述神经网络的不同层中的神经元的数量的一组参数，

指示在每一层使用的非线性激活函数的类型的参数，所述非线性激活函数的所述类型是sigmoid、双曲正切、整流线性单元或指数线性单元，

描述所述神经网络中连续或非连续层的单元之间的连接的一组参数，

至少一个神经网络索引的一组指示符，

一组神经网络权重，配置为用于功率控制的多个神经网络，

配置为用于在所述控制策略(430)包括多个神经网络时确定功率控制动作的投票策略。

10.一种用于配置通信系统(200)的无线小区(215，235-1，235-2，235-3)的无线资源参数的方法(600)；其中控制所述无线小区(235-1，235-2，235-3)的无线网络节点(230)分离于代理节点(210)，所述方法(600)包括：

由训练机节点(400)从所述代理节点(210，500)接收(801)与所述无线小区(215，235-1，235-2，235-3)相关联的训练数据消息(420)，其中所述训练数据消息(420)包括以下组中的多个：

表示在第二时间段的所述状态的所述一组特征，以及

性能测量；

由所述训练机节点(400)将所接收(801)的训练数据消息(420)存储(802)在与所述无线小区(215，235-1，235-2，235-3)相关联的数据库(410)中；

由所述训练机节点(400)基于存储在所述数据库(410)中的所接收的训练数据消息(420)并且基于强化学习算法，确定(803)所述无线小区(215，235-1，235-2，235-3)的控制策略(430)；以及

由所述训练机节点(400)将所确定的控制策略(430)发送至所述代理节点(210，500)；

其中所述方法还包括：

由所述代理节点(210，500)从所述训练机节点(400)获取(601)所述控制策略(430)；

由所述代理节点(210，500)确定(604)表示在所述第一时间段所述通信系统(200)的所述至少一部分的所述状态的所述一组特征；

由所述代理节点(210，500)基于所获取(601)的控制策略(430)和所述一组特征，确定(605)在所述第一时间段配置所述无线小区(215，235-1，235-2，235-3)中的所述无线资源参数所要执行的所述控制动作，所述控制动作来自与所述无线小区(215，235-1，235-2，235-3)相关联的一组可用控制动作；以及

由所述代理节点(210，500)基于所确定(605)的控制动作配置(606)所述无线小区(215，235-1，235-2，235-3)的所述无线资源参数；

其中基于所确定(605)的控制动作配置(606)所述无线小区(215，235-1，235-2，235-3)的所述无线资源参数包括：

向所述无线网络节点(230)发送用于配置所述无线小区(235-1，235-2，235-3)的所述无线资源参数的指令。

11.一种计算机存储器，所述计算机存储器存储有程序代码，所述程序代码用于执行根据权利要求10所述的方法(600)。