CN112913274A

CN112913274A - 用于自组织网络的优化的过程

Info

Publication number: CN112913274A
Application number: CN201880098938.8A
Authority: CN
Inventors: 廖琦; I·马兰奇尼
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2018-09-06
Filing date: 2018-09-06
Publication date: 2021-06-04
Anticipated expiration: 2038-09-06
Also published as: WO2020048594A1; CN112913274B; US20210219384A1; EP3847841B1; EP3847841A1

Abstract

一种用于由通信网络控制元件或功能使用的装置，被配置为控制对自组织通信网络的参数的设置，该装置包括至少一个处理电路和用于存储要由该处理电路执行的指令的至少一个存储器，其中该至少一个存储器和该指令被配置为与该至少一个处理电路一起使该装置至少：获得预训练的网络优化模型，该网络优化模型模型指示在形成模型的输入的通信网络环境、形成模型的输出的优化动作或以及形成奖励的系统性能指示符之间的映射；引起向形成自组织通信网络一部分的至少一个通信网络元件或功能发送针对为相似性分析提供相似性数据的请求，该相似性分析允许确定自组织通信网络中的针对其得出预训练的网络优化模型的一部分与自组织通信网络中的向该请求被发送到的一部分之间的相似性；执行相似性分析，以用于确定自组织通信网络中的针对其得出预训练的网络优化模型的一部分与自组织通信网络中的接收到针对其的用于相似性分析的相似性数据的一部分之间的相似性；基于相似性分析，至少确定一部分预训练的网络优化模型，该一部分预训练的网络优化模型要被提供给从其接收到相似性数据的、形成自组织通信网络的至少一部分的至少一个通信网络元件或功能；以及引起将所确定的一部分预训练的网络优化模型发送给从其接收到相似性数据的、形成自组织通信网络的一部分的至少一个通信网络元件或功能。

Description

用于自组织网络的优化的过程

技术领域

实施例的示例涉及装置、方法、系统、计算机程序、计算机程序产品和(非瞬态)计算机可读介质，可用于在基于LTE、5G或类似的基于网络的环境中进行用于自动优化通信网络(诸如，自组织网络)的过程，其也适用于未来的网络系统，诸如超过5G的网络。

背景技术

对背景技术的以下描述可以包括对由本发明提供的但是本发明的实施例的至少一些示例的见解、发现、理解或公开或关联，以及相关现有技术未知的公开。下面可以具体指出本发明的一些这样的贡献，而本发明的其他这样的贡献从相关的上下文将是明显的。

本说明书中的缩写的以下含义适用：

3GPP 第三代合作伙伴计划

4G 第四代

5G 第五代

BS 基站

CN 核心网络

CPU 中央处理器

DRL 深度强化学习

E-UTRAN 演进UMTS地面无线接入网

eNB 演进节点B

EPC 演进分组核心

EPS 演进分组系统

ETSI 欧洲电信标准协会

gNB 下一代节点B

KPI 关键性能指示符

LTE 长期演进

LTE-A 高级LTE

OSS 运营与支持系统

QCI 服务质量类别标识符

RAN 无线电接入网络

RAT 无线电接入技术

ReLU 整流线性单元

SON 自组织网络

UE 用户设备

UMTS 通用移动电信系统

发明内容

根据实施例的示例，例如提供了一种用于由通信网络控制元件或功能使用的装置，该通信网络控制元件或功能被配置为控制对自组织通信网络的参数的设置，该装置包括：至少一个处理电路，以及用于存储要由该处理电路执行的指令的至少一个存储器，其中该至少一个存储器和该指令被配置为与该至少一个处理电路一起使该装置至少：获得预训练的网络优化模型，该网络优化模型指示在形成该模型的输入的通信网络环境、形成该模型的输出的优化动作或以及形成奖励的系统性能指示符之间的映射；引起向形成该自组织通信网络的一部分的至少一个通信网络元件或功能发送针对为相似性分析提供相似性数据的请求，该相似性分析允许确定该自组织通信网络中的针对其得出预训练的网络优化模型的一部分与该自组织通信网络中的请求被发送到的一部分之间的相似性；执行相似性分析，以用于确定该自组织通信网络中的针对其得出该预训练的网络优化模型的一部分与该自组织通信网络中的接收到针对其的用于相似性分析的相似性数据的每个部分之间的相似性；基于该相似性分析，至少确定一部分预训练的网络优化模型，一部分所述预训练的网络优化模型要被提供给从其接收到相似性数据的、形成自组织通信网络的一部分的所述至少一个通信网络元件或功能；以及引起将所确定的一部分预训练的网络优化模型发送给从其接收到相似性数据的、形成自组织通信网络的一部分的至少一个通信网络元件或功能。

此外，根据实施例的示例，例如提供了一种用于在通信网络控制元件或功能中使用的方法，该通信网络控制元件或功能被配置为控制对自组织通信网络的参数的设置，该方法包括：获得预训练的网络优化模型，该网络优化模型指示在形成该模型的输入的通信网络环境、形成该模型的输出的优化动作或以及形成奖励的系统性能指示符之间的映射；引起向形成该自组织通信网络的一部分的至少一个通信网络元件或功能发送针对为相似性分析提供相似性数据的请求，该相似性分析允许确定该自组织通信网络中的针对其得出预训练的网络优化模型的一部分与该自组织通信网络中的向其请求被发送到的一部分之间的相似性；执行相似性分析，以用于确定该自组织通信网络中的针对其得出该预训练的网络优化模型的一部分与该自组织通信网络种的接收到针对其的用于相似性分析的相似性数据的每个部分之间的相似性；基于该相似性分析，至少确定一部分预训练的网络优化模型，所述一部分预训练的网络优化模型要被提供给从其接收到相似性数据的、形成自组织通信网络的一部分的至少一个通信网络元件或功能；以及引起将所确定的一部分预训练的网络优化模型发送给从其接收到相似性数据的、形成自组织通信网络的一部分的至少一个通信网络元件或功能。

根据进一步的改进，这些示例可以包括以下一个或多个特征：

-可以通过从属于自组织通信网络的一部分的通信网络元件或功能接收包括预训练的网络优化模型的数据，来获得预训练的网络优化模型，其中处理可以在中央单元中被实施，该中央单元负责收集和管理自组织通信网络中得出的预训练的网络优化模型的使用情况；

-可以通过从在自组织通信网络的一部分中实施的数据和测量得出预训练的网络优化模型，来获得预训练的网络优化模型，其中其中处理可以在通信网络元件或功能中被实施，通信网络元件或功能形成用于管理自组织通信网络中得出的预训练的网络优化模型的使用情况的分布式系统的一部分；

-预训练的网络优化模型可以通过使用基于多个卷积层和多个完全连接层的深度增强学习算法而被得出，多个卷积层被采用来捕获自组织通信网络的一部分的网络环境之间的空间和时间相关性，多个完全连接层被采用来将多个卷积层中的数据处理的维度减小到所期望的输出维度，其中预训练的网络优化模型可以由一组模型参数和超参数来定义；

-针对得出预训练的网络优化模型，输入数据可以通过以下操作被准备：确定通信网络部分的用户在自组织通信网络的一部分中在空间上如何分布，以及用户的空间分布如何随时间演变，确定用户在指定时间段内的用户活动级别，以及生成包括图像和图像序列中的至少一项的输入样本，其中每个像素的位置对应于用户的地理网格或物理地点、以及每个像素的强度或颜色值对应于在指定时间段内在地理网格上聚合的用户活动级别；

-模型参数可以包括以下至少一项：多个卷积层和多个完全连接层的每两个连续层之间的权重矩阵，以及多个卷积层和多个完全连接层的每两个连续层之间的偏置向量，以及超参数可以包括以下至少一项：多个卷积层和多个完全连接层的层数、在多个卷积层和多个完全连接层中的每层处的单元数、激活函数的类型、多个卷积层的每层中的滤波器数目和滤波器大小、每个最大或平均池化层的步长大小；

-被引起要被发送到形成自组织通信网络的一部分的至少一个通信网络元件或功能的、针对为相似性分析提供相似性数据的请求可以被包括在预训练的网络优化模型是存在的指示中；

-针对执行相似性分析以用于确定自组织通信网络中的针对其得出预训练的网络优化模型的一部分与自组织通信网络种的接收到针对其的用于相似性分析的相似性数据的一部分之间的相似性，可以基于自组织通信网络中的针对其得出预训练的网络优化模型的一部分、以及自组织通信网络中接收到针对其的用于相似性分析的相似性数据的一部分的网络属性，来计算相似性测量，其中网络属性可以包括与单个数据点相关的数据和与统计度量相关的数据，并且包括以下至少一项：地点信息、地理特征、移动性模式、数据需求统计和近似于概率密度函数的直方图；

-用于至少确定要被提供给从其接收到相似性数据的、形成自组织通信网络的一部分的至少一个通信网络元件或功能的一部分预训练的网络优化模型，处理所计算的相似性测量，以及为了形成要被提供的预训练的网络优化模型的一部分，可以选择定义预训练的网络优化模型的低层和中层的参数和超参数的子集，其中根据相似性测量，自组织通信网络中的针对其得出预训练的网络优化模型的一部分与自组织通信网络中的接收到针对其的用于相似性分析的相似性数据的一部分之间的相似性越高，则针对子集选择的参数和超参数的数目就变得越高。

此外，根据实施例的示例，例如提供了一种用于由通信网络元件或功能使用的装置，该通信网络元件或功能被配置为实施对自组织通信网络的参数的设置，该装置包括至少一个处理电路，以及用于存储要由处理电路执行的指令的至少一个存储器，其中该至少一个存储器和该指令被配置为与该至少一个处理电路一起使该装置至少：从形成自组织通信网络的一部分的通信网络控制元件或功能接收并处理针对为相似性分析提供相似性数据的请求，该相似性分析允许确定自组织通信网络的各部分之间的相似性；决定相似性数据是否需要被发送；在决定是肯定的情况下，引起将所请求的相似性数据发送到从其接收到所述请求的通信网络控制元件或功能；接收指示预训练的网络优化模型的至少一部分的数据，该预训练的网络优化模型指示在形成该模型的输入的通信网络环境、形成该模型的输出的优化动作或以及形成奖励的系统性能指示符之间的映射；以及通过使接收到的预训练的网络优化模型适配于自组织通信网络的自身部分，处理指示预训练的网络优化模型的至少一部分的数据，以用于生成自身网络优化模型。

此外，根据实施例的示例，提供例如一种用于在通信网络元件或功能中使用的方法，该通信网络元件或功能被配置为实施对自组织通信网络的参数的设置，该方法包括：从形成自组织通信网络的一部分的通信网络控制元件或功能中接收并处理针对为相似性分析提供相似性数据的请求，该相似性分析允许确定自组织通信网络的部分之间的相似性；决定相似性数据是否需要被发送；在决定是肯定的情况下，引起将所请求的相似性数据发送到从其接收到请求的通信网络控制元件或功能；接收指示预训练的网络优化模型的至少一部分的数据，该预训练的网络优化模型指示在形成该模型的输入的通信网络环境、形成该模型的输出的优化动作或以及形成奖励的系统性能指示符之间的映射；并且通过使接收到的预训练的网络优化模型适配于自组织通信网络的自身部分，处理指示预训练的网络优化模型的至少一部分的数据，以用于生成自身网络优化模型。

根据进一步的改进，这些示例可以包括以下特征中的一个或多个：

-可以从中央单元或者通信网络元件或功能接收针对为相似性分析提供相似性数据的请求，该中央单元负责收集和管理自组织通信网络中得出的预训练的网络优化模型的使用，该通信网络元件或功能得出预训练的网络优化模型，并且形成用于管理自组织通信网络中得出的预训练的网络优化模型的使用情况的分布式系统的一部分，其中针对提供相似性数据的请求可以被包括在关于存在预训练的网络优化模型是存在的指示中；

-针对决定相似性数据是否需要响应于该请求而被发送，可以检查自身网络优化模型是否可用，在自身网络优化模型是不可用的情况下，可以决定相似性数据需要被发送，其中相似性数据与网络属性相关，并且包括与单个数据点相关的数据和与统计测量相关的数据，并且包括以下至少一项：地点信息、地理特征、移动性模式、数据需求统计和近似于概率密度函数的直方图，以及在自身网络优化模型是可用的情况下，可以决定相似性数据不需要被发送，并且引起发送拒绝对相似性数据的请求的指示；

-预训练的网络优化模型可以基于深度增强学习算法，该深度增强学习算法基于多个卷积层和多个完全连接层，多个卷积层被采用来捕获自组织通信网络的一部分的网络环境之间的空间和时间相关性，多个完全连接层被采用来将多个卷积层中的数据处理的维度减小到所期望的输出维度，其中预训练的网络优化模型由一组模型参数和超参数来定义；

-模型参数可以包括以下至少一项：多个卷积层和多个完全连接层的每两个连续层之间的权重矩阵，以及多个卷积层和多个完全连接层的每两个连续层之间的偏置向量，以及超参数可以包括以下至少一项：多个卷积层和多个完全连接层中的层数、在多个卷积层和多个完全连接层中的每一层处的单元数、激活函数的类型、多个卷积层的每一层中的滤波器数目和滤波器大小、每个最大或平均池化层的步长大小；

-针对处理指示预训练的网络优化模型的至少一部分的数据以用于生成自身网络优化模型，可以通过实施以下至少一项来修改预训练的网络优化模型的接收到的一部分：将新的卷积层和新的完全连接层中的至少一个层添加到预训练的网络优化模型的一部分中，修改预训练的网络优化模型的一部分的卷积层和完全连接层种的至少一个层，以及可以通过使用在自组织通信网络的自身部分中获得的测量数据，来重新训练包括所添加或修改的层的所修改的网络优化模型；

–针对处理指示预训练的网络优化模型的至少一部分的数据以用于生成自身网络优化模型，通过使用传递学习，可以实施以下至少一项：对预训练的网络优化模型的接收到的一部分进行精细调谐，以及利用在自组织通信网络的自身部分中收集的数据来更新预训练的网络优化模型。

另外，根据实施例，例如提供了一种用于计算机的计算机程序产品，包括当所述产品运行在计算机上时用于执行上述方法的步骤的软件代码部分。该计算机程序产品可以包括其上存储有所述软件代码部分的计算机可读介质。此外，该计算机程序产品可以直接可加载到计算机的内部存储器中和/或借助于上载、下载和推送过程中的至少一种而经由网络可传输。

附图说明

下面仅通过举例的方式，参考附图描述本发明的一些实施例，其中：

图1示出了图示其中可以实现实施例的示例的网络架构的示例的图；

图2示出了信令图，该信令图图示了根据实施例的示例的用于网络优化方法的处理；

图3示出了信令图，该信令图图示了根据实施例的示例的用于网络优化方法的处理；

图4示出了图示根据实施例的一些示例可用的深度强化学习过程的示意图；

图5示出了图示根据实施例的示例的以网络优化方法实施的处理的流程图；

图6示出了根据实施例的示例的以网络优化方法例实施的处理的流程图；

图7示出了根据实施例的一些示例的通信网络元件的图；

图8示出了根据实施例的一些示例的通信网络元件的图；和

图9示出了根据实施例的一些示例的通信网络元件的图。

具体实施方式

在过去的几年中，在全世界范围内发生了通信网络的不断扩展，例如基于有线的通信网络或无线通信网络的扩展，其中基于有线的通信网络诸如是集成服务数字网络(ISDN)、DSL，无线通信网络诸如cdma2000(码分多址)系统、蜂窝第三代(3G)(例如通用移动电信系统(UMTS))、第四代(4G)通信网络或例如基于LTE或LTE-A的增强型通信网络、第五代(5G)通信网络、蜂窝第二代(2G)通信网络(例如全球移动通信系统(GSM)、通用分组无线系统(GPRS))、全球演进的增强数据速率(EDGE)或其他无线通信系统诸如无线局域网(WLAN)、蓝牙或微波接入全球互操作性(WiMAX)。诸如欧洲电信标准协会(ETSI)、第三代合作伙伴计划(3GPP)、高级网络的电信与互联网融合服务和协议(TISPAN)、国际电信联盟(ITU)、第三代合作伙伴计划2(3GPP2))、互联网工程任务组(IETF)、IEEE(电气与电子工程师协会)、WiMAX论坛等等之类的各种组织正在研究用于电信网络和接入环境的标准或规范。

在传统的蜂窝通信网络中，为了正确地建立和处理两个或多个端点(例如，通信站或元件，诸如终端设备、用户装备(UE)或其他通信网络元件、数据库、服务器、主机等)之间的通信，一个或多个网络元件或功能(例如虚拟化网络功能)诸如通信网络控制元件或功能、例如接入网络元件(如接入点、无线电基站、中继站、eNB、gNB等)、以及核心网络元件或功能例如控制节点、支持节点、服务节点、网关、用户平面功能、接入和移动性功能等可能被涉及，它们可以属于一个通信网络系统或不同的通信网络系统。

5G网络的增长趋势，即密集部署，新无线电接入技术和数据分析，在即使有限信息可用的情况下，也面临着迅速适应未知场景和做出快速网络优化决定的挑战。在这种上下文中，希望加快网络的自我规划和自我优化机制并诸如在新的部署、硬件或软件更新以及新无线电技术的应用之后接入技术之后实现更好的性能以应对变化，同时保持较低的试用测量和数据传送成本。

所谓的自组织网络(SON)在基于LTE和UMTS的网络中被实现，还将被用于5G和未来可能的其他通信网络。SON提供了一种自动化技术，被设计来改善通信网络各部分(诸如RAN或CN元件或子系统)的规划、配置、管理、优化和修复。例如，当在网络环境中添加新的BS等时，SON允许新基站实施自我配置，而所有已经运行的基站都可以响应于观察到的网络性能和无线电条件而对参数和算法行为进行自优化。也就是说，当新的BS被添加到网络时，它立即被网络识别和注册。此外，相邻BS可以自动调整其技术参数(诸如发射功率、天线倾斜等)，以提供所需的覆盖范围和容量，同时避免干扰。

SON的另一个功能性是自我优化处理。也就是说，例如基于对BS本身的观察以及在UE处的测量等，BS能够改变控制小区站点的各个方面的配置参数，以改变网络行为。例如，自我优化用例可以包括覆盖范围和容量优化、切换/移动鲁棒性优化、小区中断检测和补偿、以及干扰缓解。

已知的网络自我优化用例可以被分为两个类别：

(1)基于网络的近似数学模型的优化，和

(2)在线学习和使用反馈测量的优化。

作为示例，对于基于网络的近似数学模型的优化，例如假设一种例如为使用随机几何的异构网络(HetNets)中的跨层切换过程而开发的分析模型。另一个示例是例如提供基于干扰近似模型的混合整数线性程序，以联合优化调谐点活动、发射功率和天线下倾斜，以进行优化。然而，当使用这样的近似数学模型时，由于通信网络的复杂性增加，特别是在考虑例如基于5G的未来网络系统的规划复杂性时，几乎不可能得出可以逼近涉及众多交互变量和参数的系统级优化任务的真实场景的封闭式数学模型。

另一方面，通过反馈测量来考虑在线学习和优化的方法与尝试通过数据驱动的搜索方法来适应实际场景的尝试相关。这样的方法例如在无法对网络架构进行适当建模的情况下被实现。一个示例例如是实现一种倾斜搜索算法，该算法基于反馈测量迭代地修改网络天线的倾斜，以便联合优化覆盖范围和容量的上行链路和下行链路性能。但是，由于缺乏对系统的全面了解，例如基于这种算法的方法需要很长时间才能收敛。。

也就是说，无论是基于模型的优化还是传统的数据驱动的搜索方法都不是最优的：前者无法适应变化的或新的因而未知的网络状态，而后者则需要大量数据以获得足够的信息来实现优化算法的快速收敛。在这种上下文中，要注意的是，在后一种情况下，对于数据而言存在成本，包括数据收集、数据存储和数据传送，这在诸如驾驶测试、数据存储和数据传输延迟之类的各种类型的资源消耗方面也可能很高。

因此，在下文中，将使用基于用于通信网络(诸如5G网络)的3GPP标准的通信网络架构作为可应用实施例的示例的通信网络的示例来描述不同的示例性实施例，而没有将实施例限制为这样的架构。然而，对于本领域技术人员而言显而易见的是，通过适当地调整参数和过程，实施例也可以被应用于具有适当装置的其他种类的通信网络，例如4G(LTE)网络、Wi-Fi、全球微波接入互操作性(WiMAX)、

个人通信服务(PCS)、

宽带码分多址(WCDMA)、使用超宽带(UWB)技术的系统、移动自组织网络(MANET)、有线接入等。此外，在不失一般性的情况下，实施例的一些示例的描述与移动通信网络相关，但是本发明的原理可以被扩展并被应用于任何其他类型的通信网络，诸如有线通信网络。

以下示例和实施例仅应被理解为说明性示例。尽管说明书可能在多个位置提及(一个或多个)“一”、“一个”或“一些”示例或实施例，但这并不一定意味着每个这样的引用都与(一个或多个)同一示例或实施例相关，或者该特征仅适用于单个示例或实施例。不同实施例的单个特征也可以被组合以提供其他实施例。此外，诸如“包括”和“包含”之类的术语应被理解为不将所描述的实施例限制为仅由已提及的那些特征组成；而是这样的示例和实施例还可以包含未具体提及的特征、结构、单元、模块等。

可以应用实施例的一些示例的包括移动通信系统的(电信)通信网络的基本系统架构可以包括一个或多个通信网络的架构，该一个或多个通信网络包括(一个或多个)无线接入网络子系统和(一个或多个)核心网络。这样的架构可以包括一个或多个通信网络控制元件或功能、接入网络元件、无线电接入网络元件、接入服务网络网关或基站收发器(诸如基站(BS)、接入点(AP)、节点B(NB)、eNB或gNB)、分布式或集中式单元，其控制相应的覆盖区域或(一个或多个)小区并与一个或多个通信站通信，一个或多个通信站诸如通信元件、用户设备或终端设备例如UE，或具有类似功能的其他设备(诸如调制解调器芯片组、芯片、模块等)，其也可以是能够实施通信的站、单元、功能或应用的一部分，诸如UE、可以在机器对机器通信架构中使用的元件或功能，或者作为单独的元件附接到能够实施通信等的元件、功能或应用，能够经由一个或多个信道经由一个或多个通信波束进行通信来在多个接入域中发射若干类型的数据。此外，可以包括核心网络元件或网络功能，诸如网关网络元件/功能、移动性管理实体、移动交换中心、服务器、数据库等。

所描述的元件和功能的一般功能和互连，也取决于实际的网络类型，对于本领域技术人员而言是已知的并且在对应的说明书中进行了描述，因此在本文中省略其详细描述。但是，应注意的是，可以采用若干附加的网络元件和信令链路来进行去往或来自元件、功能或应用的通信，例如通信端点、通信网络控制元件诸如服务器、网关、无线电网络控制器、以及除了下文详细描述的那些之外的相同或其他通信网络的其他元件。

如实施例的示例中所考虑的通信网络架构也可能能够与其他网络通信，诸如公共交换电话网络或互联网。通信网络也可能能够支持将云服务用于其虚拟网络元件或功能，其中要注意的是，电信网络的虚拟网络部分也可以由非云资源例如内部网络等来提供。应当理解，接入系统、核心网络等的网络元件和/或相应功能性可以通过使用适合于这种用途的任何节点、主机、服务器、接入节点或实体等来实现。通常，网络功能可以被实现为专用硬件上的网络元件，被实现为运行在专用硬件上的软件实例，或者被实现为在适当的平台(例如，云基础设施)上实例化的虚拟化功能。

此外，诸如通信元件(例如UE)、终端设备之类的网络元件、诸如接入网元件(例如基站(BS)、eNB、无线电网络控制器)之类的控制元件或功能、诸如网关元件之类的核心网络控制元件或功能、或者如本文所述的其他网络元件或功能、以及任何其他元件、功能或应用可以由硬件来实现，和/或由软件实现，例如通过用于计算机的计算机程序产品来实现。为了执行它们的相应处理，对应地使用的设备、节点、功能或网络元件可以包括控制、处理和/或传达/用信号通知功能性所需的若干部件、模块、单元、组件等(未示出)。这样的部件、模块、单元和组件可以包括例如一个或多个处理器或处理器单元，该处理器或处理器单元包括用于执行指令和/或程序和/或用于处理数据的一个或多个处理部分，用作处理器或处理部分等的工作区域(例如，ROM、RAM、EEPROM等)的用于存储指令、程序和/或数据的存储或存储器单元或部件，用于通过软件(例如软盘、CD-ROM、EEPROM等)输入数据和指令的输入或接口部件，用于向用户提供监视和操作可能性的用户界面(例如屏幕、键盘等)，用于在处理器单元或部分的控制下建立链路和/或连接的其他接口或部件(例如，有线和无线接口部件，包括例如天线单元等的无线电接口部件，用于形成无线电通信部分的部件等)，其中形成接口的相应部件，诸如无线电通信部分，也可以位于远程站点(例如，无线电头或无线电台等)上。要注意的是，在本说明书中，处理部分不仅应被视为表示一个或多个处理器的物理部分，而且还可以被视为由一个或多个处理器执行的所指代的处理任务的逻辑划分。

应当理解，根据一些示例，可以采用所谓的“液体”或灵活的网络概念，其中网络元件、网络功能或网络的另一实体的操作和功能性可以以灵活的方式在不同的实体或功能中被执行，诸如在节点、主机或服务器中被执行。换句话说，所涉及的网络元件、功能或实体之间的“分工”可能会因情况而异。

图1示出了图示其中可以实现实施例的示例的网络架构的示例的图。

具体地，图1图示了一种情形，其中诸如5G网络之类的通信网络的一部分被建立并且正在操作，并且其中附加的通信网络部分被添加或修改以使得整体情形改变。假设通信网络被配置为至少部分地实施诸如SON之类的网络参数和设置的自主配置。

例如，在实施例的示例中考虑的一种情形是这样一种情况，其中新基站或接入点被建立，其包括新的宏小区、微微小区等、另一种RAT的新接入点(诸如WiFi接入点等)、如将已经存在的接入点或基站(小区)更新为新技术的修改等。通信网络部分可以包括一个附加的或修改后的网络元件或功能(如基站等)，或者包括多个网络元件或功能的子系统或子网，例如当在现有的宏小区的区域中建立具有多个互连的微微小区等的子系统时。在下文中，对应的网络部分也被称为系统。具有类似影响的其他场景也是可以想到的。

附图标记20标示控制小区25的BS(诸如gNB)。在图1中所呈现的示例中，假设小区25和BS 20在操作并且表示其中可以建立和训练网络优化模型的现有系统(也被称为系统A)。为了训练模型，与例如与在小区25中进行通信的UE(诸如与UE 10和UE 11)的通信相关的测量被使用，其中可以可变地设置被用于对模型进行训练的通信方的数量。

附图标记30标示控制小区35的另一个BS(诸如gNB)。在图1中所呈现的示例中，类似于小区25和BS 20，假设小区35和BS 30已经在操作并且形成其中可以建立和训练网络优化模型的另一个现有系统(也被称为系统B)。

附图标记40标示将被新安装在通信网络中以控制新小区45的BS(诸如gNB)。类似地，附图标记50标示将被新安装在通信网络中以控制新小区55的BS(例如gNB)。因此，小区45和BS 40形成新的系统(也被称为系统C)，并且小区55和BS 50形成新的系统(也被称为系统D)，针对其的网络优化模型(尚未)未被生成。

此外，附图标记60标示中央单元。要注意的是，在实施例的一些示例中，中央单元60被使用，在该实施例中采用了用于网络优化的集中式方法(例如，结合图3稍后描述)，以使得中央单元60不一定在下面描述的每个处理中都被涉及。然而，当被实现时，中央单元60负责例如收集网络优化模型并管理模型向其他系统的分布——例如在实施根据相似性分析对要被提供的模型数据进行选择之后。中央单元60例如是CN、OSS等的网络元件或功能的一部分，并且能够与所考虑的通信网络的(即，SON的)网络元件或功能进行通信，诸如如图1的BS 20、30、40、50。

要注意的是，除了以上定义的那些之外，根据实施例的示例，可能还有其他网络元件或功能被考虑用于网络优化处理。

根据实施例的示例，实施网络优化过程，其中当在网络环境中经历改变或新部署时，基于深度强化学习(DRL)框架内的传递学习的自传递优化方法被用来加速网络优化决定。

DRL是用于自主系统的学习策略，例如允许直接从现实世界中的传感器或测量输入中学习控制策略。也就是说，提供了完全自主的代理，其能够与它们的环境进行交互以学习最佳行为，并通过反复试验随时间不断改进。

图4示出了图示根据实施例的一些示例可用的深度强化学习过程的示意图。具体地，图4表示根据实施例的一些示例可用的DRL网络的示例，其中输入网络状态的时间和空间相关性被捕获，其中结果是DRL网络学习做出优化决定。

基本上，DRL网络至少由卷积层(在图4中由附图标记410和420指示)和完全连接层(在图4中由附图标记430和440指示)组成。DRL网络中的处理流程是，例如，由多个卷积层(在图4中，示出了两个卷积层410和420，但是也可以采用其他数目的层)和多个完全连接层(在图4中，示出了两个完全连接层430和440，但是也可以采用其他数目的层)处理输入400(诸如指示时间和空间相关的演变的用户活动序列的输入样本的映射或表示)，其中每个隐藏层后面是激活函数。在图4中，作为这种激活函数的示例，例如示出了整流器线性单元(ReLU)，也就是max(x,0)，但还可以实现其他激活函数，诸如Sigmoid、tanh、softmax、泄漏的ReLU等。

要注意的是，根据实施例的示例，反映各种网络状态的序列作为输入数据400被应用。例如，输入400反映通信网络的用户如何在空间上被分布以及它们的空间分布如何随时间演变。例如，作为输入样本的一个示例，准备图像，其中每个像素的位置对应于地理网格或物理地点。然后，设置每个像素的强度或颜色值，以便对应于所确定的在特定时间在地理网格上聚合的用户活动或用户需求(诸如所请求的服务质量、所需带宽等)的水平。作为进一步的发展，通过将每个输入样本定义为在连续时间快照上捕获的图像序列来捕获时间相关性。作为结果，根据实施例的示例，捕获依赖于空间和时间的网络状态的图像(或2D矩阵)或图像序列(或3D矩阵)作为输入数据而被使用。

卷积层410和420被用来捕获空间和时间网络环境依赖性，而全连接层430和440被用来将维度减小到期望的输出维度。例如，输出是与观察到的网络的参数和策略的优化相关的动作。奖励(例如，正面反应)或损失(例如，负面反应)从网络中被返回给DLR网络，奖励或损失也可以指示根本没有观察到反应。例如，奖励由KPI指示。奖励(或损失)由DLR网络用于学习，例如以用于更新或修改被用于相应动作的参数或值(即，例如Q的相应值)。

根据实施例的示例，假设基于例如DLR网络的网络优化模型在通信网络中的能够自组织参数并且设置该参数的一个或多个部分中(诸如在SON网络中)被训练，如图1中所示。换句话说，在现有网络结构或系统的一部分中建立和训练一个或多个网络优化模型。也就是说，在现有系统中训练对应的DRL模型，其中“系统”可以指代任何网络元件或部分，诸如基站、WiFi接入点、微微/毫微微小区等、或者由多个网络元件或功能组成的子网络或部分网络(诸如一个或多个宏小区)。

此外，根据实施例的示例，将经训练的网络优化模型的至少一部分传递到网络控制元件或功能，这些网络控制元件或功能负责“新”网络部分中(即，通信网络(例如SON网络)的新建立的或最近修改的网络部分中)的网络属性等的设置。也就是说，例如，在新的或所修改的网络部分中利用了被嵌入在预训练的网络优化模型中(诸如在卷积神经网络部分中)的知识。

例如，要在新的或修改后的网络部分中被利用的、被嵌入在预训练的网络优化模型中(诸如卷积神经网络部分中)的可用知识包括一组模型参数(例如权重矩阵、偏置向量)和超参数(例如，层数、每层的单元数、激活函数的类型)。根据实施例的示例，为了利用从先前存在的系统中获得的知识并将其传递到新系统，预训练的参数和超参数(例如，表征DRL模型的较低层的那些参数和超参数)的一部分或全部被传递。

根据实施例的示例，可以基于合适的选择标准来选择要被传递的模型的层。针对这种选择标准的一个示例由要被考虑的网络部分之间——即现有系统的相关部分(即模型被预训练的地方)和新系统的对应部分之间的相似性测量来表示。例如，当相同类型的网络元件(如BS)被比较时，可以假定较高的相似性。

为了使网络优化模型适配于新系统，根据实施例的一些示例，首先以适当的方式适配(传递的)模型。例如，取决于新网络部分中的情况，将层(例如，新的卷积层)添加到网络，或者修改现有的层，例如，输出层(例如，全连接层440)。然后，通过使用新的网络部分中的测量来对所修改的模型进行重新训练；备选地或附加地，如果合适的话，仅新插入的层可以被重新训练。

根据实施例的其他示例，例如在缺乏实际测量的情况下，该过程包括可以从“虚拟”数字系统收集数据，该“虚拟”数字系统被配置为模拟真实网络场景。例如，基于近似的复杂系统级仿真器可用于这种虚拟仿真。然后，训练对应的网络优化模型(诸如上面指示的DRL模型)，以优化仿真系统。基于如此获得的预训练的模型，在将其传递到新的网络部分之后，新网络部分中的实际测量被使用来精细调谐。

在新系统或网络部分中使用预训练的模型通过上述过程可实现的益处包括：例如，利用从新系统收集的少量测量来对新的/所修改的层/模型进行训练/重新训练是可行的。也就是说，与不采用传递学习的场景相比，需要更少量的测量，并且因此需要更少量的数据。此外，考虑到对“现有”系统进行仿真的情况，更快地并且还仅利用有限次数的测量可实现近似模型到真实场景的适配和校正。

在下文中，提供了关于使用DRL模型的网络优化的进一步解释。

如上所述，图4示出了图示根据实施例的一些示例可用的DRL过程的示意图。可用于该DRL过程的算法例如基于用于深度Q网络的训练算法。在此，代理根据基于Q的贪婪策略来选择并执行动作。可以使用任意长度的历史作为输入，或者可以采用历史的固定长度表示。在本示例中，出于网络优化的目的，基于DRL网络的模型被用来直接从例如感测输入来学习成功的策略。具体地，所采用的DRL模型学习作为输入的网络环境测量与作为输出的优化动作/决定之间的映射。然后对应的系统性能指示符被映射为奖励。

如图4中所示，DRL模型至少由卷积层和完全连接层组成，其中卷积层被用来捕获网络环境的时间和空间相关性，而完全连接层被用于将维度减小到输出动作所需的维度。

DRL模型反映了优化代理如何通过一系列动作和观察到的奖励来与网络环境进行交互。代理的目标是选择使累积的预期奖励最大化的动作。更具体地说，DRL网络被用来近似最佳动作值函数

其表示在进行网络状态观察s并采取动作a之后，由行为策略π＝P(a|s)可实现的在每个时间步长t处由γ折扣的最大奖励γ_t的最大和。

上文的最佳动作值函数服从基于递归直觉的贝尔曼方程：如果对于所有可能的动作a'知道下一时间步长处的最佳值Q^*(s′,a′)，那么最佳策略是选择使r+γQ^*(s′,a′)的期望值最大化的动作a'：

在下文中，可在实施例的示例中使用的DRL网络的输入、输出和奖励的示例被指示。

例如，表示网络环境状态的主要因素(即用户活动/需求分布)的值作为输入(暗示网络状态)被使用。例如，假设用户地点可以通过使用从定位服务获得的GPS信息来至少粗略地估计，或者通过使用基站ID和接收到的到达信号来估计。纬度-经度坐标例如被转换为像素坐标。然后，在第t个时间快照时，生成表达用户活动/需求图的矩阵，其中每个像素处的强度是用户活动的测量，例如，数据速率需求或服务质量类别标识符(QCI)。也就是说，例如，提供图(map)或图像，其中每个像素的位置对应于地理地点，并且每个像素的强度(或颜色值)对应于用户活动或用户需求(诸如被请求的服务质量、所需带宽等)的级别。

例如，矩阵由

来标示，其中N_u和N_v分别表示从纬度和经度坐标转换的两轴的像素数。此外，除了用户活动图之外，矩阵还可以被扩展为多通道矩阵以捕获更多网络环境信息，诸如信号强度无线电图。例如，可以形成矩阵

其中沿着第三维的第一N_u×N_v子矩阵X_t(：，：，1)(应注意，为了简化标示矩阵条目的缘故而使用了MATLAB矩阵记号)暗示用户活动图(user activity map)，而沿着第三维的第二子矩阵X_t(：，：，2)是指无线电信号图。每个训练输入样本可以被定义为矩阵(或多通道矩阵)X_t。通过使它们通过卷积层，空间相关性可以被捕获。通过将输入训练样本定义为在T个连续时间快照τ＝t-T+1，...，t上的一系列矩阵{X_τ：τ＝t-T+1，...，t}，时间相关性可以被捕获。总而言之，它的第m个样本用X^(m)标示，其中输入训练样本的两个替代选择是：

用以仅捕获针对第t_m个时间快照的空间相关性，其中

和K是影响系统性能的网络环境变量(例如，用户活动或无线电信号强度)的数目。每个输入训练样本是N_u×N_v×K的图像。

X^(m)：＝{X_τ：τ＝t_m-T+1，...，t_m}用以捕获在T个连续时间快照上的空间和时间相关性。在这种情况下，每个输入样本是N_u×N_v×(K·T)图像，暗示跨空间域和时域的选定网络环境变量的值。

也就是说，如上所述，根据实施例的示例，获得表示空间或空间/时间依赖的网络状态的图像(或2D矩阵)和/或图像序列(或3D矩阵)作为用于网络优化模型的输入(例如，图4中的输入数据400)，以便可以评估通信网络部分的用户如何进行空间分布，其空间分布如何随时间演变，他们随时间表现出什么需求和行为等等。

例如，仅捕获空间依赖性的推理(或预测)模型可以被学习。在这种情况下，输入样本集合是图像集合，并且每个样本是图像(即2D阵列)，其中每个像素的位置对应于用户的地理网格或物理地点，并且每个像素的强度或颜色值对应于在特定时间段在地理网格上聚合的用户状态量度(例如，用户活动级别或用户业务需求)。即，每个图像暗示用户状态图(例如，用户活动图或业务需求图)。

作为另一示例，例如可以学习捕获空间和时间两者依赖性的模型。在这种情况下，输入样本集合是快照图像的多个序列的集合，而每个样本是快照图像序列(即3D阵列)，快照图像序列指示在一个时间段内的用户状态图的演变。

此外，作为另一示例，输入数据可以包括不同形式的数据，即，2D和3D数据集，如上文所讨论的。

此外，关于输出(暗示与动作相对应的预测的Q值)，输出层是完全连接线性层(例如，图4中的层440)，该完全连接线性层对于所有有效的网络优化动作具有Q值的输出向量(参见方程(2))。

例如，在所选择的网络控制参数上定义了离散的网络动作空间。作为示例但不限于此，以下控制参数可以被定义：

发射功率电平p∈P：＝{低，中，高}，

多输入多输出(MIMO)模式

频带

然后，动作空间为

并且有

个可能的动作，并且输出是向量

此输出是Q值的向量，该向量对应于动作空间中的所有24个动作。

另一选项是，代替形成控制参数的经验搜索空间，动作子空间中的一些动作子空间基于调谐方向被定义，例如Δ_p＝{+δ_pmW，-δ_pmW}，Δ_d＝{+2×2antenne，-2×2antenne}。动作空间

的基数被减小为

在存在具有许多可能配置值的多个变量的情况下，可以通过基于调谐方向定义一些动作子空间来减小输出状态空间。此外，还可以包括来自相邻网络元件(例如，相邻小区)的动作以并入多个代理之间的交互。在这种情况下，输出状态空间当然会被扩大。

此外，关于奖励，根据示例，在奖励中考虑与动作相对应的所得性能量度。例如但不限于此，可以提供以下用于定义奖励的策略：

-用于目标关键性能指示符(KPI)的连续值，例如服务成功率。

-用于多个KPI的量化度量。由于KPI可以具有不同的尺度(scale)，所以根据实施例的一些示例，将KPI归一化为相同的尺度并且获得加权和。

-简化的反馈；在这种情况下，所有正面奖励由“1”指示，所有负面奖励(损失)由“-1”指示。不变的性能被保留为“0”。备选地，性能的量级(magnitude)被区分，使得正面性能和负面性能的更多量化级别可以被添加。

作为示例，基于上文所指示的输入、输出和奖励，被用于提供网络优化模型的DRL网络提供了Q^*(s，a)的近似值，即Q(s，a；θ)≈Q^*(s，a)，其中θ是表征DRL网络的参数集(例如权重矩阵和偏置向量)。可以例如通过在每次迭代i时调整参数θ_i来训练DRL网络，以减小布尔曼方程中的均方误差，如方程(2)中所指示，其中最佳目标值r+γmax_a′Q^*(s′，a′)被替换为近似目标值

其中

标示来自一些先前迭代的参数，例如，我们可以设置

这导致了在每次迭代i时都改变的一系列损失函数L_i(θ_i)，写为

利用方程(3)中的上述损失函数，可以例如使用梯度下降算法在每次迭代i时更新参数θ_i。

通过使用上述或类似处理，可以训练用于现有系统的DRL模型，以便实现网络优化。在下一阶段，该经训练的模型的知识将被传递到自组织网络的新的(或修改后的)网络部分或系统中。

在下文中，描述了在实施例的示例中可用于传递知识的措施——特别是关于以下问题：什么知识要被传递，哪些元件或功能将接收知识，要被传递的知识量如何被确定，以及传递的知识(即所传递的模型)可以如何在新的网络部分或系统中被适配。

如上所指示，DRL模型具有在不同层处学习的知识。例如，在低/中层处，DLR模型取决于输入图(input map)(例如，用户需求图(user demand map)或/和无线电信号图(radiosignal map))的局部边缘和局部形状、响应于动作来学习所设计的奖励(或损失)。另一方面，在高层处，模型学习奖励(或损失)对更高级别统计数据特征(例如需求分布)的依赖性。

因此，根据实施例的示例，将知识保留在模型的低/中间层中并在其被应用于新系统时精细调谐或修改高层是有用的。

在该方法的基础上，在下文中，描述了根据实施例的一些示例的潜在知识传递策略的示例。

关于什么知识要被传递的问题，假设在现有系统中获得了预训练的DRL模型(例如图1的BS 20)，其中模型的参数和超参数被保存在数据文件中。为了给出参数和超参数的示例，将参数称为每两个连续层之间的偏置向量和权重矩阵，并且超参数包括学习速率、隐藏层和单位数、每个卷积层中的滤波器的数目以及滤波器的大小、每个最大(或平均)池化层的步长大小、以及激活函数。

例如，假设定义了L个层，则针对第l层的参数和超参数的集合可以被定义为Θ^(l)，l＝1，...，L(例如，包括第l到第(l-1)层之间的权重矩阵W^(l)、偏置向量b^(l)之类的参数以及诸如层类型T^(l)、层的单位数

滤波器尺寸

步长大小

之类的超参数。此外，模型的一般超参数的集合由

来标示(例如，包括学习速率α、损失函数F、批次尺寸S_b、激活函数A)。然后，根据实施例的一些示例，其中K≤L和通用超参数集为

的表征预训练的DRL模型的低/中层的参数和超参数的子集{Θ⁽¹⁾，...，Θ^(K)}被传递。

关于什么元件或功能将接收知识以及要被传递的知识量可以如何被确定的问题，根据实施例的一些示例，以下处理被应用。也就是说，为了决定例如从现有系统(例如，图1的BS 0)传递到新系统(例如，图1的BS 40、50、60之一)的低/中间层数，可用的知识传递策略取决于两个系统(即现有系统和新系统)之间的相似性分析。

详细地，该方法考虑以下内容。两个系统之间的相似性越高，两个网络模型越相似，因此可以传递更多的层。例如，两个系统之间的相似性基于网络属性(诸如地点、地理特征、移动性模式和数据需求统计)被定义。基本上，存在两个类型的网络属性：单个数据点(可以是多维的)，诸如网络的地点或大小；以及统计度量(例如直方图、近似于概率密度函数)，诸如移动性模式或数据需求分布。对应的单个数据点之间的相似性(共同构成例如高维向量)例如可以通过诸如l_p量度之类的合适距离度量(例如幂(p,r)距离度量

来计算。应当注意，根据实施例的一些示例，由于n个变量可以具有不同的单位和尺度，所以在计算距离度量之前输入将被归一化。

另一方面，近似于概率密度函数之间的距离可以用分布函数的距离度量来计算，诸如Kullback-Leibler散度，即

其中(p₁,…,p_n)和(q₁,…,q_n)分别是从现有系统和新系统的特定分类的测量中提取的直方图。然后，加权和被用来计算两个系统的各种网络属性之间的各种相似性测量的组合量度。

基于相似性分析的结果，即，例如各种相似性测量的确定量度，具有(至少)预定相似性级别的系统(即网络部分)被选择以提供有与预训练的模型相对应的数据。例如，根据实施例的示例，在已确定的相似性级别达到最小级别(诸如预设阈值等)的情况下，对应的系统或网络部分被确定与现有系统或网络部分具有足够的相似性，预训练的模型对其可用。然后，具有足够高相似性测量的系统通过模型传递从现有系统接收(至少一部分)预训练的模型。

根据实施例的示例，可以如下确定要被传递的数据量，即预训练的模型中的应被提供给新的(或修改后的)系统的部分。例如，为了找出现有模型的哪些层要被传递，相似性级别和数据量之间的依赖性可以被定义。一个选项例如是设计诸如f:

之类的单调非递减函数，其将相似性测量映射到层数，例如，阶跃函数。另一个选项例如是将相似性测量离散化并定义查找表，以便将输出(层数)与输入(相似性级别)相映射。

关于被传递的模型在新系统中如何被适配的问题，根据实施例的示例，被传递的模型部分在新系统中(例如在新的BS 50等中)被精细调谐或更新。例如，作为被传递的模型的一部分的层被修改，或者模型被改变，例如通过将更高的层添加到接收到的预训练的模型中。然后，例如基于从新系统中收集的训练样本，对被插入的或修改后的层进行(重新)训练。根据实施例的示例，可以例如通过使用已知的传递学习方法来实现精细调谐和更新的操作。例如，可以将对应的传递学习分类为三种不同的设置：归纳(inductive)传递学习、演绎(transductive)传递学习和无监督传递学习，并基于学习中的“要传递的内容”进一步分别分类为四个上下文，包括实例传递方法、特征表示传递方法、参数传递方法和关系知识传递方法。

在下文中，参考图2和图3描述了关于基于上述讨论的措施来优化自组织网络的过程的实施例的示例。

具体地，图2涉及采用所谓的分布式自传递优化网络的情况，其中出于说明的目的，使用如图1中所示的通信网络结构。然而，应注意，在下面的示例中描述的原理也适用于其他网络配置，如上面所指示。

在根据图2的示例中，假设属于BS 20的网络部分已经在操作，使得对应的网络优化模型被训练，例如如上所述。此外，假设属于BS 30的网络部分也在操作，即，具有自身网络优化模型或者不需要这种模型。另一方面，其他网络部分，诸如属于BS 40和BS 50的网络部分，是新近被实现或修改的，因此需要或可以使用网络优化模型。要注意的是，在结合图2讨论的分布式方案中，图1中所示的中央单元60与处理流程无关。

如图2中所示，在自传递优化的完全分布式方案中，具有足够数据收集的每个系统都将得出用于网络优化的预训练的DRL模型。也就是说，在所考虑的示例中，例如根据上述处理，BS 20在S210中得出预训练的网络优化模型。

当网络优化模型被充分准备时，在S220中，作为具有预训练的模型的系统的BS 20向所连接的(有线或无线)系统发送请求消息，以通知这些系统：它具有预训练的模型。如图2中所示，S220中的消息例如被发送到BS 30、BS 40和BS 50。根据实施例的示例，通过传输对来自所连接系统的相似性数据的请求来呈现关于预训练的模型可用的指示。相似性数据是执行相似性分析所需要的，诸如网络属性数据等。备选地，在单独的信令中提供关于预训练的模型可用的指示和对相似性数据的请求。

在S230中，已经在S220中接收到消息的系统对请求BS 20进行响应。例如，接收请求并且其自身不具有预训练模型的系统，诸如与BS 40和BS 50相关的新系统，利用针对两个系统之间的相似性分析所请求的相似性数据来响应该请求。否则，如果系统本身具有预训练的模型或者不需要模型，诸如BS 30的(已操作)系统，则仅发送关于相似性数据请求已被接收的指示(诸如用于确认的单个比特)，以便拒绝该请求。

在S240中，提供预训练的网络优化模型的系统，即BS 20，在已经接收到相似性数据(或确认/拒绝)之后，如下操作。对于针对其已经接收到相似性数据的那些系统，执行相似性分析。基于相似性分析，在S250中，预训练的网络优化模型的要被传递到对应系统的部分被确定，即，确定模型的哪些层要被传递到BS 40和BS 50。

另一方面，由于仅接收确认已经从BS 30被获得，所以在步骤S240中没有执行相似性分析。

基于S250中的处理结果，具有预训练的模型的系统(即BS 20)在S260中将模型的所确定的部分(例如，多个下层/中层)发送到相似性分析已经被执行的那些系统(即，基于其相似性测量)。

接收(部分)预训练的网络优化模型的系统，即图2中的BS 40和BS 50，根据它们的需要来适配接收到的模型(参见S270和S275)。也就是说，例如，模型使用传递学习、基于自己收集的数据来进行精细调谐或更新。

关于图3，作为实施例的另一示例，描述了一种场景，该场景与采用所谓的集中式或分层式自传递优化网络的情况相关，其中出于说明性目的，如图1中所示的通信网络结构再次作为示例而被使用。然而，应注意，在下面的示例中描述的原理也适用于其他网络配置，如上面所指示。

在根据图3的示例中，再次假设属于BS 20的网络部分已经在操作，使得对应的网络优化模型被训练，例如如上所述。此外，即使未在图3中明确指示，也假设属于BS 30的网络部分也在操作，即，具有自身网络优化模型或者不需要这种模型。另一方面，其他网络部分，诸如属于BS 40和BS 50的网络部分，是新近被实现或修改的，因此需要或可以使用网络优化模型。与图2的示例相反，在根据图3的配置中，如图1中所示的中央单元60也参与处理，如下所述。

在自传递优化的集中式方案中，具有足够数据收集的每个系统得出用于网络优化的预训练的DRL模型。也就是说，在所考虑的示例中，例如根据上述处理，BS 20在S310中得出预训练的网络优化模型。

在S320中，当网络优化模型被充分准备时，BS 20将预训练的模型发送到中央单元60。在结合集中式方案讨论的示例中，中央单元60负责从所连接的系统(即，图1的示例中的BS)收集预训练的模型。中央单元60的另一目的是将模型重新分配给不具有任何预训练的模型的系统。例如，中央单元60可以是网络元件或功能的一部分，诸如接入网络系统元件、核心网络元件或功能、网络的OSS的元件或功能、或为此目的而所使用的指定元件或功能，例如服务器等。

当中央单元60中的至少一个预训练的网络优化模型可用时，中央单元60开始执行相似性分析。出于此目的，在S330中，中央单元60向所连接的(有线或无线)系统发送请求消息，以通知这些系统：预训练的模型是可用的。

根据实施例的示例，借助于传输对来自所连接系统的相似性数据的请求来呈现关于预训练的模型可用的指示。如上所述，相似性数据是执行网络相似性分析所需要的，诸如网络属性数据等。如图3中所示，S330中的消息例如被发送到BS 20、BS 40和BS 50。也就是说，根据实施例的示例，还从接收预训练的模型的系统中请求相似性数据。备选地，例如与在S320中提供模型数据相结合地，可以由模型提供系统自动地提供对应的数据。

在S340中，已经在S330中接收到消息的系统通过发送相似性数据来对中央单元60进行响应。

在S350中，中央单元60在已经接收到相似性数据之后，执行相似性分析。应当注意，根据实施例的一些示例，如果一些所连接的系统(诸如，属于BS 30的系统(图3中未示出))不需要预训练的模型，则这些系统可以被相似性分析排除。

基于相似性分析的结果，在S360中，在S320中接收到的预训练的网络优化模型的要被传递到对应系统(这里是BS 40和BS 50)的部分被确定，即确定模型的哪些层要被传递到BS 40和BS 50。

基于S360中的处理结果，中央单元60在S370中将模型的所确定的部分(例如，多个下层/中层)发送到相似性分析已经被执行的那些系统(即，基于其相似性测量)。

接收(部分)预训练的网络优化模型的系统，即图3中的BS 40和BS 50，根据它们的需要来适配接收到的模型(参见S380和S385)。也就是说，例如，模型使用传递学习、基于自己收集的数据来进行精细调谐或更新。

图5示出了根据实施例的示例的在网络优化方法中实施的处理的流程图。具体地，图5示出了由自组织通信网络的通信网络控制元件或功能(诸如BS 20或中央单元60)执行的处理，其被配置为控制网络优化模型向新的网络部分的分发。

在S510中，获得预训练的网络优化模型，该模型指示在形成模型的输入的通信网络环境、形成模型的输出的优化动作或以及形成奖励的系统性能指示符之间的映射。

根据实施例的一些示例，例如在结合图3描述的集中式方案的情况下，通过从属于自组织通信网络的一部分的通信网络元件或功能接收包括预训练的网络优化模型的数据来获得预训练的网络优化模型。这由中央单元来完成，该中央单元负责收集和管理自组织通信网络中得出的预训练的网络优化模型的使用。

备选地，根据实施例的一些示例，例如在结合图2描述的分布式方案的情况下，通过从在自组织通信网络的自身部分中实施的数据和测量，得出预训练的网络优化模型来获得预训练的网络优化模型，其中这是在形成分布式系统的一部分的通信网络元件或功能中完成的，该部分用于管理自组织通信网络中得出的预训练的网络优化模型的使用，诸如BS20。

例如，根据实施例的示例，针对得出预训练的网络优化模型，输入数据通过以下被确定：通信网络部分的用户如何在自组织通信网络的一部分中进行空间分布以及用户的空间分布如何随着时间演变。此外，用户在指定时间段内的用户活动级别被确定。然后，基于所确定的数据，生成输入样本，该输入样本包括图像(例如2D矩阵)和图像序列(例如3D矩阵)中的至少一项，其中每个像素的位置对应于用户的地理网格或物理地点，并且每个像素的强度或颜色值对应于在指定时间段内在地理网格上聚合的用户活动级别。

根据实施例的示例，通过使用基于多个卷积层和多个完全连接层的DRL算法来得出预训练的网络优化模型，该多个卷积层被采用来捕获自组织通信网络的一部分的网络环境之间的空间和时间相关性，该多个完全连接层被采用来将多个卷积层中的数据处理的维度减小到所期望的输出维度，其中预训练的网络优化模型由一组模型参数和超参数来定义。例如，模型参数包括以下至少一项：多个卷积层与多个完全连接层的每两个连续层之间的权重矩阵，以及多个卷积层与多个完全连接层的每两个连续层之间的偏置向量；并且超参数包括以下至少一项：多个卷积层和多个完全连接层的层数、在多个卷积层和多个完全连接层中的每一层处的单元数、激活函数的类型、多个卷积层中的每一层中的滤波器数目和滤波器大小、每个最大或平均池化层的步长大小。

在S520中，针对提供相似性数据的请求被发送到形成自组织通信网络的一部分的至少一个连接的通信网络元件或功能。相似性数据用于相似性分析，该相似性分析允许确定自组织通信网络中的针对其得出预训练的网络优化模型的一部分(例如，属于BS 20的一部分)与自组织通信网络的向其发送请求的至少一个通信网元或功能的一部分之间的相似性。

根据实施例的一些示例，引起被发送到形成自组织通信网络的一部分的至少一个通信网络元件或功能的、针对为相似性分析提供相似性数据的请求被包括在预训练的网络优化模型是存在的指示中。

在S530中，相似性数据被接收到。如结合图2和图3所指示的，从需要预训练的网络优化模型的那些网络部分接收相似性数据，诸如BS 40和BS 50，其中在使用中央单元60的集中式方案的情况下，也从训练了网络优化模型的网络部分(即BS 20)接收相似性数据。

然后在S540中，相似性分析被执行以用于确定在自组织通信网络中的针对其得出预训练的网络优化模型的一部分与自组织通信网络中的接收到针对其的用于相似性分析的相似性数据的每一部分之间的相似性。

根据实施例的示例，针对执行相似性分析以用于确定自组织通信网络中的针对其得出预训练的网络优化模型的一部分与自组织通信网络中的接收到针对其的用于相似性分析的相似性数据的一部分之间的相似性，基于自组织通信网络中的针对其得出预训练的网络优化模型的一部分与自组织通信网络中的接收到针对其的用于相似性分析的相似性数据的一部分的网络属性，来计算相似性测量。用于此目的的网络属性包括例如与单个数据点相关的数据和与统计度量相关的数据，并且包括地点信息、地理特征、移动性模式、数据需求统计和近似于概率密度函数的直方图中的至少一项。

在S550中，基于相似性分析，至少确定一部分预训练的网络优化模型，该一部分预训练的网络优化模型要被提供给从其接收到相似性数据的、形成自组织通信网络的至少一部分的至少一个通信网络元件或功能。根据实施例的示例，用于至少确定要被提供给从其接收到相似性数据的、形成自组织通信网络的一部分的至少一个通信网络元件或功能的一部分所述预训练的网络优化模型，处理所计算的相似性测量。然后，针对形成要被提供的预训练的网络优化模型的一部分，选择定义预训练的网络优化模型的低层和中间层的参数和超参数的子集，其中根据相似性测量，自组织通信网络中的针对其得出预训练的网络优化模型的一部分与自组织通信网络中的接收到针对其的用于相似性分析的相似性数据的一部分之间的相似性越高，则为子集所选择的参数和超参数的数目就变得越高。

在S560中，预训练的网络优化模型的所确定的部分被发送到形成自组织通信网络中的接收到针对其的相似性数据的一部分的至少一个通信网络元件或功能。

图6示出了根据实施例的示例的在网络优化方法中实施的处理的流程图。具体地，图6示出了由自组织通信网络的通信网络元件或功能(诸如BS 40或BS 50)执行的处理，其被配置为接收和处理预训练的(至少一部分)网络优化模型，以用于准备自身网络优化模型。

在S610中，针对为相似性分析提供相似性数据的请求的请求从形成自组织通信网络的一部分的通信网络控制元件或功能(例如BS20或中央单元60)被接收并被处理，该相似性分析允许确定自组织通信网络的各部分之间的相似性。

根据实施例的示例，从负责收集和管理自组织通信网络得出的预训练的网络优化模型的使用的中央单元接收针对为相似性分析提供相似性数据的请求。备选地，根据实施例的示例，从通信网络元件或功能接收请求，该通信网络元件或功能得出预训练的网络优化模型并形成分布式系统的用于管理自组织通信网络中得出的预训练的网络优化模型的使用情况的一部分。应当注意，根据实施例的示例，用于提供相似性数据的请求被包括在关于存在预训练的网络优化模型的指示中。

在S620中，决定相似性数据是否需要被发送。例如，检查网络优化模型是否已经可用，即，检查是否存在自身网络优化模型。在网络优化模型已经可用的情况下，相似性数据不需要被发送(相反，可以仅发送确认以指示请求被拒绝)，或者需要提供网络优化模型。在后一种情况下，即，当决定为肯定时，被请求的相似性数据被发送到从其中接收到请求的通信网络控制元件或功能(即，发送到BS 20或中央单元60)。根据实施例的一些示例，相似性数据与网络属性相关，并且包括与单个数据点相关的数据和与统计度量相关的数据，并且包括地点信息、地理特征、移动性模式、数据需求统计和近似于概率密度函数的直方图中的至少一项。

在S630中，指示预训练的网络优化模型的至少一部分的数据被接收到，该预训练的网络优化模型指示在形成模型的输入的通信网络环境、形成模型的输出的优化动作或以及形成奖励的系统性能指示符之间的映射。

根据实施例的一些示例，预训练的网络优化模型基于深度增强学习算法，该深度增强学习算法基于被采用来捕获自组织通信网络的一部分的网络环境之间的空间和时间相关性的多个卷积层以及被采用来将多个卷积层中的数据处理的维度减小到所期望的输出维度的多个完全连接层，其中预训练的网络优化模型由一组模型参数和超参数来定义。例如，模型参数包括以下中的至少一个：多个卷积层与多个完全连接层的每两个连续层之间的权重矩阵，以及多个卷积层与多个完全连接层的每两个连续层之间的偏置向量；而超参数包括以下中的至少一个：多个卷积层和多个完全连接层的层数、在多个卷积层和多个完全连接层中的每一层处的单元数、激活函数的类型、多个卷积层中的每一层中的滤波器数量和滤波器尺寸、每个最大或平均池化层的步长大小。

在S640中，例如，通过使接收到的预训练的网络优化模型适配于自组织通信网络的自身部分，处理指示预训练的网络优化模型的至少一部分的数据以生成自身网络优化模型。例如，根据实施例的示例，为了处理指示用于生成自身网络优化模型的预训练的网络优化模型的至少一部分的数据，通过实施以下至少一项来修改预训练的网络优化模型的接收到的一部分：将新的卷积层和新的完全连接层中的至少一个层添加到预训练的网络优化模型的一部分中，修改预训练的网络优化模型的一部分的至少一个卷积层和完全连接层。然后，通过使用在自组织通信网络的自身部分中获得的测量数据来(重新)训练所修改的网络优化模型，所修改的网络优化模型包括添加或所修改的层。

根据实施例的一些示例，针对处理指示用于生成自身网络优化模型的预训练的网络优化模型的至少一部分的数据，通过使用传递学习，实施以下至少一项：对预训练的网络优化模型的接收到的一部分进行精细调谐，以及用在自组织通信网络的自身部分中收集的数据来更新预训练的网络优化模型的更新。

图7示出了根据实施例的一些示例的充当通信网络控制元件或功能的网络元件或功能的图，即，图1的BS 20，其是自组织通信网络的通信网络控制元件或功能(例如，BS20)，被配置为例如以分布式方案来控制网络优化模型向新网络部分的分布，如结合图2所述。要注意的是，如图1的BS 20，通信网络控制元件或功能除了下文中描述的元件或功能之外还可以包括其他元件或功能。此外，即使对通信网络控制元件或功能进行了参考，该元件或功能也可以是具有类似任务的另一设备或功能，诸如芯片组、芯片、模块、应用等，其也可以是网络元件的一部分，或者作为单独的元件被附接到网络元件等。应当理解，每个框及其任何组合可以通过各种方式或其组合来实现，诸如硬件、软件、固件、一个或多个处理器和/或电路。

如图7中所示的BS 20的通信网络控制元件可以包括处理电路、处理功能、控制单元或处理器201，诸如CPU等，其适合于执行由与通信连接控制过程相关的程序等给出的指令。处理器201可以包括如下所述的专用于特定处理的一个或多个处理部分或功能，或者该处理可以运行在单个处理器或处理功能中。例如，还可以将用于执行这种特定处理的部分作为离散元件来提供或者提供在一个或多个其他处理器、处理功能或处理部分内，诸如提供在如CPU的一个物理处理器中或者提供在一个或多个物理或虚拟实体中。附图标记202和203标示连接到处理器或处理功能201的输入/输出(I/O)单元或功能(接口)。例如，I/O单元202可以被用于与UE 10、11通信，如结合图1所描述的。例如，I/O单元203可以被用于与其他网络元件或功能(诸如其他BS，如BS 30、40、50等)进行通信，如结合图1和图2所描述的。I/O单元202和203可以是包括朝向若干实体的通信设备的组合单元，或者可以包括具有针对不同实体的多个不同接口的分布式结构。附图标记204标示存储器，该存储器例如可用于存储将由处理器或处理功能201执行的数据和程序和/或用作处理器或处理功能201的工作存储。要注意的是，存储器204可以通过使用相同或不同类型的存储器的一个或多个存储器部分来实现。

处理器或处理功能201被配置为执行与上述处理相关的处理。特别地，处理器或处理电路或功能201包括以下子部分中的一个或多个。子部分2011是处理部分，其可用作用于得出网络优化模型的部分。部分2011可以被配置为执行根据图5的S510的处理。此外，处理器或处理电路或功能201可以包括子部分2012，该子部分可用作用于请求相似性数据的部分。部分2012可以被配置为执行根据图5的S520的处理。另外，处理器或处理电路或功能201可以包括子部分2013，其可用作用于实施相似性分析的部分。部分2013可以被配置为执行根据图5的S530和S540的处理。此外，处理器或处理电路或功能201可以包括子部分2014，该子部分可用作用于确定要被传递的模型部分的部分。部分2014可以被配置为执行根据图5的S550的处理。另外，处理器或处理电路或功能201可以包括子部分2015，该子部分可用作用于发送要被传递的模型部分的部分。部分2015可以被配置为执行根据图5的S560的处理。

图8示出了根据实施例的一些示例的充当通信网络控制元件或功能的网络元件或功能的图，即，图1的中央单元60，其是自组织通信网络的通信网络控制元件或功能，被配置为例如以集中式方案来控制网络优化模型向新网络部分的分布，如结合图3所述。要注意的是，如图1的中央单元60，通信网络控制元件或功能除了下文中描述的元件或功能之外还可以包括其他元件或功能。此外，即使对通信网络控制元件或功能进行了参考，该元件或功能也可以是具有相似任务的另一设备或功能，诸如芯片组、芯片、模块、应用等，其也可以是网络元件的一部分，或者作为单独的元件被附接到网络元件等。应当理解，每个框及其任何组合可以通过各种方式或其组合来实现，诸如硬件、软件、固件、一个或多个处理器和/或电路。

如图8中所示的中央单元60之类的通信网络控制元件可以包括处理电路、处理功能、控制单元或处理器601，诸如CPU等，其适合于执行由与通信连接控制过程相关的程序等给出的指令。处理器601可以包括如下所述的专用于特定处理的一个或多个处理部分或功能，或者该处理可以运行在单个处理器或处理功能中。例如，还可以将用于执行这种特定处理的部分作为离散元件来提供或者提供在一个或多个其他处理器、处理功能或处理部分内，诸如提供在如CPU的一个物理处理器中或者提供在一个或多个物理或虚拟实体中。附图标记602标示连接到处理器或处理功能601的输入/输出(I/O)单元或功能(接口)。例如，I/O单元602可以被用于与其他网络元件或功能(诸如其他BS，如BS 20、40、50等)进行通信，如结合图1和图3所描述的。I/O单元602可以是包括朝向若干实体的通信设备的组合单元，或者可以包括具有针对不同实体的多个不同接口的分布式结构。附图标记604标示存储器，该存储器例如可用于存储将由处理器或处理功能601执行的数据和程序和/或用作处理器或处理功能601的工作存储器。要注意的是，存储器604可以通过使用相同或不同类型的存储器的一个或多个存储器部分来实现。

处理器或处理功能601被配置为执行与上述处理相关的处理。特别地，处理器或处理电路或功能601包括以下子部分中的一个或多个。子部分6011是处理部分，其可用作用于获得(即，接收)网络优化模型的部分。部分6011可以被配置为执行根据图5的S510的处理。此外，处理器或处理电路或功能601可以包括子部分6012，该子部分可用作用于请求相似性数据的部分。部分6012可以被配置为执行根据图5的S520的处理。另外，处理器或处理电路或功能601可以包括子部分2013，其可用作用于实施相似性分析的部分。该部分6013可以被配置为执行根据图5的S530和S540的处理。此外，处理器或处理电路或功能601可以包括子部分6014，其可用作用于确定要被传递的模型部分的部分。部分6014可以被配置为执行根据图5的S550的处理。另外，处理器或处理电路或功能601可以包括子部分6015，该子部分可用作用于发送要被传递的模型部分的部分。部分6015可以被配置为执行根据图5的S560的处理。

图9示出了根据实施例的一些示例的充当通信网络控制元件或功能的网络元件或功能的图，即，图1的BS 40，其是被配置为接收和处理网络优化模型的自组织通信网络的通信网络控制元件或功能，其中例如，网络单元可适用于集中式方案和分布式方案中，如结合图2和3所述。要注意的是，如图1的BS 40，通信网络控制元件或功能除了下文中描述的元件或功能之外还可以包括其他元件或功能。此外，即使对通信网络控制元件或功能进行了参考，该元件或功能也可以是具有类似任务的另一设备或功能，诸如芯片组、芯片、模块、应用等，其也可以是网络元件的一部分，或者作为单独的元件被附接到网络元件等。应当理解，每个框及其任何组合可以通过各种方式或其组合来实现，诸如硬件、软件、固件、一个或多个处理器和/或电路。

如图9中所示的BS 40的通信网络控制元件可以包括处理电路、处理功能、控制单元或处理器401，诸如CPU等，其适合于执行由与通信连接控制过程相关的程序等给出的指令。处理器401可以包括如下所述的专用于特定处理的一个或多个处理部分或功能，或者该处理可以运行在单个处理器或处理功能中。例如，还可以将用于执行这种特定处理的部分作为离散元件来提供或者提供在一个或多个其他处理器、处理功能或处理部分内，诸如提供在如CPU的一个物理处理器中或者提供在一个或多个物理或虚拟实体中。附图标记402和403标示连接到处理器或处理功能401的输入/输出(I/O)单元或功能(接口)。例如，I/O单元402可以被用于与UE进行通信。I/O单元403可以被用于与其他网络元件或功能(诸如其他BS，如BS 30、40、50等)进行通信，如结合图1、图2和图3所描述的。I/O单元402和403可以是包括朝向若干实体的通信设备的组合单元，或者可以包括具有针对不同实体的多个不同接口的分布式结构。附图标记404标示存储器，该存储器例如可用于存储将由处理器或处理功能401执行的数据和程序和/或用作处理器或处理功能401的工作存储。要注意的是，存储器404可以通过使用相同或不同类型的存储器的一个或多个存储器部分来实现。

处理器或处理功能401被配置为执行与上述处理相关的处理。特别地，处理器或处理电路或功能401包括以下子部分中的一个或多个。子部分4011是处理部分，其可用作用于接收和处理对相似性数据的请求的部分。部分4011可以被配置为执行根据图6的S610的处理。此外，处理器或处理电路或功能401可以包括子部分4012，该子部分可用作用于发送相似性数据的部分。部分4012可以被配置为执行根据图6的S620的处理。另外，处理器或处理电路或功能401可以包括子部分4013，该子部分可用作用于接收网络优化模型(的至少一部分)的部分。部分4013可以被配置为执行根据图6的S630的处理。此外，处理器或处理电路或功能401可以包括子部分4014，该子部分可用作用于处理接收到的模型的部分。部分4014可以被配置为执行根据图6的S640的处理。

要注意的是，本发明的实施例的示例适用于各种不同的网络配置。换句话说，被用作在上面讨论的示例的基础的上述附图中所示的示例仅是说明性的，并且绝不以任何方式限制本发明。也就是说，基于所定义的原理，可以结合本发明的实施例的示例来使用在对应的操作环境中可用的其他另外的现有的和提出的新功能性。

根据实施例的另一示例，例如提供了一种用于由通信网络控制元件或功能使用的装置，该通信网络控制元件或功能被配置为控制对自组织通信网络的参数的设置，该装置包括：部件，被配置为获得预训练的网络优化模型，该网络优化模型指示在形成模型的输入的通信网络环境、形成模型的输出的优化动作或以及形成奖励的系统性能指示符之间的映射；部件，被配置为引起向形成自组织通信网络的一部分的至少一个通信网络元件或功能发送针对为相似性分析提供相似性数据的请求，该相似性分析允许确定自组织通信网络中的针对其得出预训练的网络优化模型的一部分与至少一个通信网络元件或功能的自组织通信网络中的该请求被发送到的一部分之间的相似性；部件，被配置为执行相似性分析，以用于确定自组织通信网络中的针对其得出预训练的网络优化模型的一部分与自组织通信网络中的接收到针对其的用于用于相似性分析的相似性数据的每一部分之间的相似性；部件，被配置为基于相似性分析，至少确定一部分预训练的网络优化模型，该一部分预训练的网络优化模型要被提供给从其接收到相似性数据的、形成自组织通信网络的至少一部分的至少一个通信网络元件或功能；以及部件，被配置为致使将预训练的网络优化模型的所确定的一部分发送到形成自组织通信网络中的从其中接收到相似性数据的一部分的至少一个通信网络元件或功能。

此外，根据实施例的一些其他示例，以上定义的装置还可以包括用于实施在上述方法(例如，根据结合图5描述的方法)中定义的处理中的至少一个的部件。

根据实施例的另一示例，例如提供了一种用于由通信网络元件或功能使用的装置，该通信网络元件或功能被配置为实施对自组织通信网络的参数的设置，该装置包括：部件，被配置为从形成所述自组织通信网络的一部分的通信网络控制元件或功能中接收并处理针对为相似性分析提供相似性数据的请求，该相似性分析允许确定自组织通信网络的部分之间的相似性；部件，被配置为决定相似性数据是否需要被发送；部件，被配置为在决定是肯定的情况下，引起将所请求的相似性数据发送到从其接收到请求的通信网络控制元件或功能，接收指示预训练的网络优化模型的至少一部分的数据，该预训练的网络优化模型指示在形成模型的输入的通信网络环境、形成模型的输出的优化动作或以及形成奖励的系统性能指示符之间的映射；以及部件，被配置为通过使接收到的预训练的网络优化模型适配到自组织通信网络的自身部分，处理指示预训练的网络优化模型的至少一部分的数据，以用于生成自身网络优化模型。

此外，根据实施例的一些其他示例，以上定义的装置还可以包括用于实施在上述方法(例如，根据结合图6描述的方法)中定义的处理中的至少一个的部件。

根据实施例的另一示例，例如提供了一种非瞬态计算机可读介质，其包括用于使装置至少执行以下操作的程序指令：获得预训练的网络优化模型，该模型指示在形成模型的输入的通信网络环境、形成模型的输出的优化动作或以及形成奖励的系统性能指示符之间的映射；引起向形成自组织通信网络的一部分的至少一个通信网络元件或功能发送针对为相似性分析提供相似性数据的请求，该相似性分析允许确定自组织通信网络中的针对其得出预训练的网络优化模型的一部分与自组织通信网络中的请求被发送到的一部分之间的相似性；执行相似性分析，以确定自组织通信网络中的针对其得出预训练的网络优化模型的一部分与自组织通信网络中的接收到针对其的用于相似性分析的相似性数据的一部分之间的相似性；基于相似性分析，至少确定一部分预训练的网络优化模型，该一部分预训练的网络优化模型要被提供给从其接收到相似性数据的、形成自组织通信网络的至少一部分的至少一个通信网络元件或功能；以及引起所确定的一部分预训练的网络优化模型发送给从其接收到相似性数据的、形成自组织通信网络的一部分的至少一个通信网络元件或功能。

根据实施例的另一示例，例如提供了一种非瞬态计算机可读介质，其包括用于使装置至少执行以下操作的程序指令：从形成自组织通信网络的一部分的通信网络控制元件或功能中接收并处理针对为相似性分析提供相似性数据的请求，该相似性分析允许确定自组织通信网络的各部分之间的相似性；决定相似性数据是否需要被发送；在决定是肯定的情况下，引起将所请求的相似性数据发送到从其接收到所述请求的所述通信网络控制元件或功能，接收指示预训练的网络优化模型的至少一部分的数据，该模型指示在形成模型的输入的通信网络环境、形成模型的输出的优化动作或以及形成奖励的系统性能指示符之间的映射；以及通过使接收到的预训练的网络优化模型适配于自组织通信网络的自身部分，处理指示预训练的网络优化模型的至少一部分的数据，以用于生成自身网络优化模型。

通过上述用于网络优化的过程，可以实现以下效果。

与基于模型的方法相比，根据实施例的示例的网络优化过程被配置为通过使用传递的知识并因此利用新系统中有限次数的收集样本来学习优化决定过程，而无需明确地估计复杂网络系统的封闭形式的模型。

与需要良好定义的网络模型作为先验知识的基于常规模型的方法相比，在配置根据实施例的示例的网络优化过程中，其中常规随机数据驱动的方法需要通过针对每个新场景遵循相同的学习过程来从头开始学习，所提出的过程可以充分利用从先前系统中提取的知识并使模型适应新系统。

此外，在根据实施例的示例的网络优化过程中，传递学习方法通过(至少)部分地对预训练的模型进行重新训练或精细调谐来适应新系统，这导致在未知动态下更快的学习过程。

此外，根据如上所述的实施例的示例的网络优化过程，可以减少三种类型的数据成本，即，数据存储、数据传递和数据收集。这是因为知识是通过传递针对预训练的模型的部分(或完整)参数和超参数而被传递给新系统的，因此无需传递任何测量数据。这减少了用于本地数据存储和网络元件之间数据传递的成本。而且，由于上面讨论的过程使得能够利用从新系统中收集到的有限训练样本进行快速学习，因此它还降低了用于路径测试和数据收集的成本。

应该意识到的是

-经由其来在通信网络中将业务传递到实体以及从实体传递业务的接入技术可以是任何合适的当前或将来的技术，诸如WLAN(无线本地接入网络)、WiMAX(全球微波接入互通性)、LTE、LTE-A、5G、蓝牙、红外线等可以被使用；另外，实施例也可以应用有线技术，例如基于IP的接入技术，如电缆网络或固定线路、光纤网络等。

-适合于被实现为软件代码或其一部分并且使用处理器或处理功能来运行的实施例是独立于软件代码的，并且可以使用任何已知的或将来开发的编程语言(诸如高级编程语言，诸如Objective-C、C、C++、C#、Java、Python、Javascript、其他脚本语言等)或低级编程语言(诸如机器语言或汇编程序)来指定。

-实施例的实现是独立于硬件的，并且可以使用任何已知的或将来开发的硬件技术或它们的任何混合来实现，诸如微处理器或CPU(中央处理单元)、MOS(金属氧化物半导体)、CMOS(互补MOS)、BiMOS(双极MOS)、BiCMOS(双极CMOS)、ECL(发射极耦合逻辑)和/或TTL(晶体管-晶体管逻辑)。

-实施例可以被实现为个体的设备、装置、单元、部件或功能，或者以分布式的方式来实现，例如可以在处理中使用或共享一个或多个处理器或处理功能，或者可以在处理中使用或共享一个或多个处理分段或部分，其中一个物理处理器或一个以上的物理处理器可以被用于实现专用于上述特定处理的一个或多个处理部分，

-可以通过半导体芯片、芯片组或包括这种芯片或芯片组的(硬件)模块来实现装置；

-实施例还可以被实现为硬件和软件的任何组合，例如ASIC(专用IC(集成电路))组件、FPGA(现场可编程门阵列)或CPLD(复杂可编程逻辑器件)组件或DSP(数字信号处理器)组件。

-实施例还可以被实现为计算机程序产品，包括其中具有体现计算机可读程序代码的计算机可用介质，该计算机可读程序代码适于执行如实施例中所述的过程，其中计算机可用介质可以是非瞬态介质。

尽管在此之前已经参考本发明的特定实施例描述了本发明，但是本发明不限于此，而是可以对其进行各种修改。

Claims

1.一种用于由通信网络控制元件或功能使用的装置，所述通信网络控制元件或功能被配置为控制对自组织通信网络的参数的设置，所述装置包括：

至少一个处理电路系统，以及

至少一个存储器，用于存储要由所述处理电路系统执行的指令，

其中所述至少一个存储器和所述指令被配置为与所述至少一个处理电路系统一起使所述装置至少：

获得预训练的网络优化模型，所述网络优化模型指示在形成所述模型的输入的通信网络环境、形成所述模型的输出的优化动作或决定以及形成奖励的系统性能指示符之间的映射，

使得向形成所述自组织通信网络的一部分的至少一个通信网络元件或功能发送针对为相似性分析提供相似性数据的请求，所述相似性分析允许确定所述自组织通信网络中的针对其得出所述预训练的网络优化模型的一部分与所述自组织通信网络中的所述请求被发送到的一部分之间的相似性，

执行所述相似性分析，以用于确定所述自组织通信网络中的针对其得出所述预训练的网络优化模型的所述一部分与所述自组织通信网络中的接收到针对其的用于所述相似性分析的相似性数据的每个部分之间的相似性，

基于所述相似性分析，至少确定一部分所述预训练的网络优化模型，所述一部分所述预训练的网络优化模型要被提供给从其接收到所述相似性数据的、形成所述自组织通信网络中的一部分的所述至少一个通信网络元件或功能，以及

引起将所确定的一部分所述预训练的网络优化模型的发送给从其接收到所述相似性数据的、形成所述自组织通信网络的一部分的所述至少一个通信网络元件或功能。

2.根据权利要求1所述的装置，其中所述至少一个存储器和所述指令还被配置为与所述至少一个处理电路系统一起使所述装置至少：

通过从属于所述自组织通信网络的一部分的通信网络元件或功能接收包括所述预训练的网络优化模型的数据，来获得所述预训练的网络优化模型，其中所述装置被包括在中央单元中，所述中央单元负责收集和管理所述自组织通信网络中得出的预训练的网络优化模型的使用情况。

3.根据权利要求1所述的装置，其中所述至少一个存储器和所述指令还被配置为与所述至少一个处理电路系统一起使所述装置至少：

通过从在所述自组织通信网络的一部分中实施的数据和测量得出所述预训练的网络优化模型，来获得所述预训练的网络优化模型，其中所述装置被包括在以下通信网络元件或功能中，所述通信网络元件或功能形成用于管理所述自组织通信网络中得出的预训练的网络优化模型的使用情况的分布式系统的一部分。

4.根据权利要求1至3中任一项所述的装置，其中所述预训练的网络优化模型通过使用基于多个卷积层和多个完全连接层的深度增强学习算法而被得出，所述多个卷积层被采用来捕获所述自组织通信网络的所述一部分的所述网络环境之间的空间和时间相关性，所述多个完全连接层被采用来将所述多个卷积层中的数据处理的维度减小到所期望的输出维度，其中所述预训练的网络优化模型由一组模型参数和超参数来定义。

5.根据权利要求4所述的装置，其中用于得出所述预训练的网络优化模型，输入数据通过以下操作被准备：

确定所述通信网络部分的用户在所述自组织通信网络的所述一部分中在空间上如何分布，以及所述用户的所述空间分布如何随时间演变，

确定所述用户在指定时间段内的用户活动级别，以及

生成包括图像和图像序列中的至少一项的输入样本，其中每个像素的位置对应于所述用户的地理网格或物理地点，以及每个像素的强度或颜色值对应于在所述指定时间段、在所述地理网格上聚合的用户活动级别。

6.根据权利要求4或5所述的装置，其中

所述模型参数包括以下至少一项：所述多个卷积层和所述多个完全连接层的每两个连续层之间的权重矩阵，以及所述多个卷积层和所述多个完全连接层的每两个连续层之间的偏置向量，以及

所述超参数包括以下至少一项：所述多个卷积层和所述多个完全连接层的层数、在所述多个卷积层和所述多个完全连接层中的每层处的单元数、激活函数的类型、所述多个卷积层的每层中的滤波器数目和滤波器大小、每个最大或平均池化层的步长大小。

7.根据权利要求1至6中任一项所述的装置，其中被引起要被发送到至少一个通信网络元件或功能的、针对为相似性分析提供相似性数据的请求被包括在预训练的网络优化模型是存在的指示中，所述至少一个通信网络元件或功能形成所述自组织通信网络的一部分。

8.根据权利要求1至7中任一项所述的装置，其中所述至少一个存储器和所述指令还被配置为与所述至少一个处理电路系统一起使所述装置至少：

用于执行所述相似性分析以用于确定所述自组织通信网络中的针对其得出所述预训练的网络优化模型的所述一部分与所述自组织通信网络中的接收到针对其的用于相似性分析的相似性数据的一部分之间的相似性，基于所述自组织通信网络中的针对其得出所述预训练的网络优化模型的所述一部分、以及所述自组织通信网络中的接收到针对其的用于所述相似性分析的相似性数据的所述一部分的网络属性，来计算相似性测量，

其中所述网络属性包括与单个数据点相关的数据和与统计测量相关的数据，并且包括以下至少一项：地点信息、地理特征、移动性模式、数据需求统计和近似于概率密度函数的直方图。

9.根据权利要求8所述的装置，其中所述至少一个存储器和所述指令还被配置为与所述至少一个处理电路系统一起使所述装置至少：

用于至少确定要被提供给从其接收到所述相似性数据的、形成所述自组织通信网络的一部分的所述至少一个通信网络元件或功能的一部分所述预训练的网络优化模型，处理所计算的所述相似性测量，以及

用于形成要被提供的所述预训练的网络优化模型的所述一部分，选择参数和超参数中的定义所述预训练的网络优化模型的低层和中间层的子集，

其中根据所述相似性测量，所述自组织通信网络中的针对其得出所述预训练的网络优化模型的所述一部分与所述自组织通信网络中的接收到针对其的用于所述相似性分析的相似性数据的所述一部分之间的相似性越高，则针对所述子集选择的参数和超参数的数目就变得越高。

10.一种用于由通信网络元件或功能使用的装置，所述通信网络元件或功能被配置为实施对自组织通信网络的参数的设置，所述装置包括：

至少一个处理电路系统，以及

至少一个存储器，用于存储要由所述处理电路执行的指令，

其中所述至少一个存储器和所述指令被配置为与所述至少一个处理电路一起使所述装置至少：

从形成所述自组织通信网络的一部分的通信网络控制元件或功能接收并处理针对为相似性分析提供相似性数据的请求，所述相似性分析允许确定所述自组织通信网络的部分之间的相似性，

决定相似性数据是否需要被发送，

在所述决定是肯定的情况下，引起将所请求的所述相似性数据发送到从其接收到所述请求的所述通信网络控制元件或功能，

接收指示预训练的网络优化模型的至少一部分的数据，所述预训练的网络优化模型指示在形成所述模型的输入的通信网络环境、形成所述模型的输出的优化动作或决定以及形成奖励的系统性能指示符之间的映射，以及

通过使接收到的所述预训练的网络优化模型适配于所述自组织通信网络的自身部分，处理指示预训练的网络优化模型的至少一部分的所述数据，以用于生成自身网络优化模型。

11.根据权利要求10所述的装置，其中所述至少一个存储器和所述指令还被配置为与所述至少一个处理电路系统一起使所述装置至少：

从中央单元或者通信网络元件或功能接收针对为所述相似性分析提供相似性数据的所述请求，所述中央单元负责收集和管理所述自组织通信网络中得出的预训练的网络优化模型的使用情况，所述通信网络元件或功能得出所述预训练的网络优化模型，并且形成用于管理所述自组织通信网络中得出的预训练的网络优化模型的使用情况的分布式系统的一部分，

其中针对提供相似性数据的所述请求被包括在预训练的网络优化模型是存在的指示中。

12.根据权利要求10或11所述的装置，其中所述至少一个存储器和所述指令还被配置为与所述至少一个处理电路系统一起使所述装置至少：

用于决定相似性数据是否需要响应于所述请求而被发送，检查自身网络优化模型是否是可用的，

在自身网络优化模型是不可用的情况下，决定所述相似性数据需要被发送，其中所述相似性数据与网络属性相关，并且包括与单个数据点相关的数据和与统计测量相关的数据，并且包括以下至少一项：地点信息、地理特征、移动性模式、数据需求统计和近似于概率密度函数的直方图，以及

在自身网络优化模型是可用的情况下，决定相似性数据不需要被发送，并且引起发送拒绝针对相似性数据的所述请求的指示。

13.根据权利要求10至12中任一项所述的装置，其中所述预训练的网络优化模型基于的是深度增强学习算法，所述深度增强学习算法基于多个卷积层和多个完全连接层，所述多个卷积层被采用来捕获所述自组织通信网络的一部分的网络环境之间的空间和时间相关性，所述多个完全连接层被采用来将所述多个卷积层中的数据处理的维度减小到所期望的输出维度，其中所述预训练的网络优化模型由一组模型参数和超参数来定义。

14.根据权利要求13所述的装置，其中

所述超参数包括以下至少一项：所述多个卷积层和所述多个完全连接层中的层数、在所述多个卷积层和所述多个完全连接层中的每一层处的单元数、激活函数的类型、所述多个卷积层的每一层中的滤波器数目和滤波器大小、每个最大或平均池化层的步长大小。

15.根据权利要求13和14中任一项所述的装置，其中所述至少一个存储器和所述指令还被配置为与所述至少一个处理电路一起使所述装置至少：

用于处理指示预训练的网络优化模型的至少一部分的所述数据以用于生成自身网络优化模型，

通过实施以下至少一项来修改所述预训练的网络优化模型的接收到的所述一部分

将新的卷积层和新的完全连接层中的至少一个层添加到所述预训练的网络优化模型的所述一部分中，

修改所述预训练的网络优化模型的所述一部分的卷积层和完全连接层中的至少一个层，以及

通过使用在所述自组织通信网络的所述自身部分中获得的测量数据，来重新训练包括所添加或修改的所述层的所修改的所述网络优化模型。

16.根据权利要求10至15中任一项所述的装置，其中所述至少一个存储器和所述指令还被配置为与所述至少一个处理电路一起使所述装置至少：

用于处理指示预训练的网络优化模型的至少一部分的所述数据以用于生成自身网络优化模型，通过使用传递学习，实施以下至少一项：对所述预训练的网络优化模型的接收到的所述一部分进行精细调谐，以及利用在所述自组织通信网络的所述自身部分中收集的数据来更新所述预训练的网络优化模型。

17.一种用于在通信网络控制元件或功能中使用的方法，所述通信网络控制元件或功能被配置为控制对自组织通信网络的参数的设置，所述方法包括：

引起向形成所述自组织通信网络的一部分的至少一个通信网络元件或功能发送针对为相似性分析提供相似性数据的请求，所述相似性分析允许确定所述自组织通信网络中的针对其得出所述预训练的网络优化模型的一部分与所述自组织通信网络中的所述请求被发送到的一部分之间的相似性，

基于所述相似性分析，至少确定一部分所述预训练的网络优化模型，所述一部分所述预训练的网络优化模型要被提供给从其接收到所述相似性数据的、形成所述自组织通信网络的一部分的所述至少一个通信网络元件或功能，以及

引起将所确定的一部分所述预训练的网络优化模型发送给从其接收到所述相似性数据的、形成所述自组织通信网络的一部分的所述至少一个通信网络元件或功能。

18.根据权利要求17所述的方法，还包括

通过从属于所述自组织通信网络的一部分的通信网络元件或功能接收包括所述预训练的网络优化模型的数据来，获得所述预训练的网络优化模型，其中所述方法在中央单元中被实现，所述中央单元负责收集和管理所述自组织通信网络中得出的预训练的网络优化模型的使用情况。

19.根据权利要求17所述的方法，还包括

通过从所述自组织通信网络的一部分中实施的数据和测量得出所述预训练的网络优化模型，来获得所述预训练的网络优化模型，其中所述方法在通信网络元件或功能中被实现，所述通信网络元件或功能形成用于管理所述自组织通信网络中得出的预训练的网络优化模型的使用情况的分布式系统的一部分。

20.根据权利要求17至19中任一项所述的方法，其中所述预训练的网络优化模型通过使用基于多个卷积层和多个完全连接层的深度增强学习算法而被得出，所述多个卷积层被采用来捕获所述自组织通信网络的所述一部分的所述网络环境之间的空间和时间相关性，所述多个完全连接层被采用来将所述多个卷积层中的数据处理的维度减小到所期望的输出维度，其中所述预训练的网络优化模型由一组模型参数和超参数来定义。

21.根据权利要求20所述的方法，其中针对得出所述预训练的网络优化模型，输入数据通过以下操作被准备：

确定所述用户在指定时间段内的用户活动级别，以及

生成包括图像和图像序列中的至少一项的输入样本，其中每个像素的位置对应于所述用户的地理网格或物理地点、以及每个像素的强度或颜色值对应于在所述指定时间段、在所述地理网格上聚合的用户活动级别。

22.根据权利要求20或21所述的方法，其中

23.根据权利要求17至22中任一项所述的方法，其中被引起要被发送到至少一个通信网络元件或功能的、针对为相似性分析提供相似性数据的请求被包括在预训练的网络优化模型是存在的指示中，所述至少一个通信网络元件或功能形成所述自组织通信网络的一部分。

24.根据权利要求17至23中任一项所述的方法，还包括

用于执行所述相似性分析以用于确定所述自组织通信网络中的针对其得出所述预训练的网络优化模型的所述一部分与所述自组织通信网络中的接收到针对其的用于相似性分析的相似性数据的一部分之间的相似性，基于所述自组织通信网络中的针对其得出所述预训练的网络优化模型的所述一部分、以及所述自组织通信网络中的接收到的针对其的用于所述相似性分析的相似性数据的所述一部分的网络属性，来计算相似性测量，

25.根据权利要求24所述的方法，还包括

针对形成要被提供的所述预训练的网络优化模型的所述一部分，选择参数和超参数种的定义所述预训练的网络优化模型的低层和中间层的子集，

26.一种用于在通信网络元件或功能中使用的方法，所述通信网络元件或功能被配置为实施对自组织通信网络的参数的设置，所述方法包括：

从形成所述自组织通信网络的一部分的通信网络控制元件或功能接收并处理针对为相似性分析提供相似性数据的请求，所述相似性分析允许确定所述自组织通信网络的各部分之间的相似性，

决定相似性数据是否需要被发送，

接收指示预训练的网络优化模型的至少一部分的数据，所述预训练的网络优化模型指示在形成所述模型的输入的通信网络环境、形成所述模型的输出的优化动作或以及形成奖励的系统性能指示符之间的映射，以及

27.根据权利要求26所述的方法，还包括

28.根据权利要求26或27所述的方法，还包括

用于决定相似性数据是否需要响应于所述请求而被发送，检查自身网络优化模型是否可用，

在自身网络优化模型是可用的情况下，决定相似性数据不需要被发送，并且引起发送拒绝对相似性数据的所述请求的指示。

29.根据权利要求26至28中任一项所述的方法，其中所述预训练的网络优化模型基于的是深度增强学习算法，所述深度增强学习算法基于多个卷积层和多个完全连接层，所述多个卷积层被采用来捕获所述自组织通信网络的一部分的网络环境之间的空间和时间相关性，所述多个完全连接层被采用来将所述多个卷积层中的数据处理的维度减小到所期望的输出维度，其中所述预训练的网络优化模型由一组模型参数和超参数来定义。

30.根据权利要求29所述的方法，其中

31.根据权利要求29和30中任一项所述的方法，还包括

通过实施以下中的至少一项来修改所述预训练的网络优化模型的接收到的所述一部分

32.根据权利要求26至31中任一项所述的方法，还包括

33.一种用于计算机的计算机程序产品，包括软件代码部分，用于在所述产品运行在计算机上时执行根据权利要求17至25中任一项或权利要求26至32中任一项所述的步骤。

34.根据权利要求33所述的计算机程序产品，其中

所述计算机程序产品包括所述软件代码部分被存在在其上的计算机可读介质，和/或

所述计算机程序产品直接可加载到所述计算机的内部存储器中和/或借助于上载、下载和推送过程中的至少一个而经由网络可传输。