CN114205238A

CN114205238A - 网络资源优化、模型训练方法、装置、存储介质及设备

Info

Publication number: CN114205238A
Application number: CN202111544245.7A
Authority: CN
Inventors: 王迎; 章军; 张乐; 杨博; 李时宇
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2021-12-16
Filing date: 2021-12-16
Publication date: 2022-03-18

Abstract

本公开提供了一种网络资源优化、模型训练方法、装置、存储介质及设备，涉及通信技术领域。涉及的网络资源优化模型训练方法，包括：对目标域子切片以及源域子切片进行聚类，得到聚类簇；确定各所述源域子切片在其所在的聚类簇中的重要性权重；将所述源域子切片的所述重要性权重作为所述源域子切片被选中的概率，根据所述概率从所述源域子切片中选择第一源域子切片，根据所述第一源域子切片的数据训练所述网络资源优化模型，其中，所述网络资源优化模型用于根据所述目标域子切片的数据确定所述目标域子切片的优化策略。本公开实施例解决了无线网络资源动态优化场景下，初始目标域切片配置数据收集过程较为困难的问题，简化了模型训练过程。

Description

网络资源优化、模型训练方法、装置、存储介质及设备

技术领域

本公开涉及通信技术领域，尤其涉及一种网络资源优化、模型训练方法、装置、存储介质及设备。

背景技术

5G(5th Generation Mobile Communication Technology，第五代移动通信技术)端到端网络切片由无线子切片、传输子切片、核心网子切片组合而成，每个子切片可以单独管理，其中，无线子切片主要是对无线空口资源进行编排部署以满足分解到无线侧客户对网络的需求。针对网络切片的资源动态优化，目前比较常用的一种方式为，利用RL

(Reinforcement Learning，强化学习技术)将网络切片资源管理问题抽象成一个MDP(Markov Decision Process，马尔科夫决策过程)，在模型中以特定的性能指标如吞吐量，或者具体的业务需求作为奖励函数Reward，在网络中对资源进行动态调整，用以弱化人为干预。

但在目前这种网络资源动态调整的方式中，初始目标切片无线配置数据收集过程较为困难，通常需要先向现网发送不同的配置策略，并收集每种配置策略带来的性能变化数据生成Reward函数；且如果随机向现网环境中发送不同的配置策略，会带来一定的试错风险，对现网环境带来损害。

发明内容

本公开提供了一种网络资源优化、模型训练方法、装置、存储介质及设备，至少在一定程度上克服相关技术中网络资源动态调整过程中，初始目标切片无线配置数据收集过程较为困难，导致网络资源动态调整策略制定较为困难的问题。

根据本公开的第一个方面，提供了一种网络资源优化模型训练方法，包括：对目标域子切片以及源域子切片进行聚类，得到聚类簇；确定各所述源域子切片在其所在的聚类簇中的重要性权重；将所述源域子切片的所述重要性权重作为所述源域子切片被选中的概率，根据所述概率从所述源域子切片中选择第一源域子切片，根据所述第一源域子切片的数据训练所述网络资源优化模型，其中，所述网络资源优化模型用于根据所述目标域子切片的数据确定所述目标域子切片的优化策略。

可选的，将所述源域子切片的所述重要性权重作为所述源域子切片被选中的概率，根据所述概率从所述源域子切片中选择第一源域子切片，根据所述第一源域子切片的数据训练所述网络资源优化模型，包括：循环执行如下步骤，直至所述网络资源优化模型训练完成：依次在各所述目标域子切片所在的聚类簇中按照所述重要性权重选择所述第一源域子切片；基于所述第一源域子切片的数据生成所述第一源域子切片所处基站小区的状态向量以及所述第一源域子切片的行为；根据所述状态向量以及所述行为确定执行所述行为后所述基站小区的目标状态与产生的回报；根据所述目标状态与所述回报更新所述网络资源优化模型的模型参数。

可选的，确定各所述源域子切片在其所在的聚类簇中的重要性权重，包括：计算第二源域子切片与第一聚类簇中的所述目标域子切片之间的平均距离，将所述平均距离确定为所述第二源域子切片的所述重要性权重，其中，所述第二源域子切片为所述第一聚类簇中的任意源域子切片，所述第一聚类簇为所述聚类簇中的任意聚类簇。

可选的，对目标域子切片以及源域子切片进行聚类，得到聚类簇，包括：分别基于所述目标域子切片与所述源域子切片生成相同维度的特征，得到待聚类的样本集；循环执行如下步骤，直至所述样本集为空：从所述样本集中选取任意未分类样本；根据所述样本集中的其余样本与所述未分类样本之间的距离，检索出所述未分类样本的邻域；根据所述未分类样本的邻域中样本的个数确定所述未分类样本和/或所述邻区中的样本所属的聚类簇。

可选的，根据所述未分类样本的邻域中样本的个数确定所述未分类样本和/或所述邻区中的样本所属的聚类簇，包括：若所述邻区中样本的个数小于第一阈值，将所述未分类样本标记为噪声点，将所述未分类样本放入噪声点的聚类簇，从所述样本集中删除所述未分类样本；若所述邻区中样本的个数小于第二阈值，在已完成聚类的聚类簇中查找距离所述邻区的中心点最近的聚类簇，将所述邻区与距离所述中心点最近的聚类簇合并，得到新的聚类簇，并从所述样本集中移除所述邻区中所有的样本，其中，所述第一阈值不大于所述第二阈值；若所述邻区中样本的个数不小于所述第二阈值，将所述邻区中所有的样本确定为一个聚类簇，确定所述未分类样本为该聚类簇的中心点，并从所述样本集中移除所述邻区中所有的样本。

可选的，所述状态向量包括以下至少一项：子切片特征、当前时刻切片资源配置情况及利用率、切片配置生效后的感知数据以及已选择的每个行为的次数。

可选的，所述子切片特征至少包括以下一项：子切片的业务信息、子切片所处基站的历史资源使用情况以及子切片对应基站的密度参数。

可选的，所述行为包括：所述源域子切片的历史配置数据。

可选的，所述源域子切片的历史配置数据至少包括以下一项：切片标识、切片生效时间、参数修改时间、跟踪区标识TAC、基站小区标识、5QI列表切片组用户数、最大无线资源控制RRC连接态用户数、专用物理资源块RPB资源比率、最大PRB资源比率以及最小PRB资源比率。

可选的，所述回报根据以下至少一项参数计算得到：业务的抖动、丢包率、上行速率、下行速率以及时延。

可选的，所述方法还包括：在所述网络资源优化模型训练完成之后，将所述网络资源优化模型上线运行；采集所述网络资源优化模型上线运行预设时长内所述目标域子切片所处基站小区的状态数据以及所述目标域子切片的行为数据；根据所述状态数据以及所述行为数据对所述网络资源优化模型的模型参数进行更新。

可选的，对目标域子切片以及源域子切片进行聚类，得到聚类簇，包括：通过基于密度的聚类算法对所述目标域子切片以及所述源域子切片进行聚类，得到所述聚类簇。

根据本公开的第二个方面，还提供了一种网络资源优化方法，包括：根据本公开实施例提供的任意一种网络资源优化模型预测所述目标域子切片的目标行为；将所述目标行为下发至网管设备。

根据本公开的第三个方面，还提供了一种网络资源优化模型训练装置，包括：聚类模块，用于对目标域子切片以及源域子切片进行聚类，得到聚类簇；确定模块，用于确定各所述源域子切片在其所在的聚类簇中的重要性权重；训练模块，用于将所述源域子切片的所述重要性权重作为所述源域子切片被选中的概率，根据所述概率从所述源域子切片中选择第一源域子切片，根据所述第一源域子切片的数据训练所述网络资源优化模型，其中，所述网络资源优化模型用于根据所述目标域子切片的数据确定所述目标域子切片的优化策略。

根据本公开的第四个方面，还提供了一种网络资源优化装置，包括：预测模块，用于根据本公开实施例提供的任意一种网络资源优化模型预测所述目标域子切片的目标行为；下发模块，用于将所述目标行为下发至网管设备。

根据本公开的第五个方面，还提供了一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行本公开实施例提供的任意一种网络资源优化模型训练方法或本公开实施例提供的任意一种网络资源优化方法。

根据本公开的第六个方面，还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本公开实施例提供的任意一种网络资源优化模型训练方法或本公开实施例提供的任意一种网络资源优化方法。

本公开实施例的网络资源优化、模型训练方法、装置、存储介质及设备，利用现网已有无线子切片的数据，通过聚类的方式寻找与目标域子切片分布相似的源域子切片进行实例迁移进行网络资源优化模型的训练，解决了无线网络资源动态优化场景下，初始目标域切片配置数据收集过程较为困难的问题，简化了模型训练过程。同时，根据源域子切片的重要性权重在网络资源优化模型训练过程中给予源域子切片相应的贡献，提升了模型决策的有效性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本公开一个或多个实施例的网络资源优化模型训练方法的流程图；

图2是根据本公开一个或多个实施例的网络资源优化模型训练流程图；

图3是根据本公开一个或多个实施例的对目标域子切片以及源域子切片进行聚类的流程图；

图4是根据本公开一个或多个实施例的对目标域子切片以及源域子切片进行聚类的流程图；

图5是根据本公开一个或多个实施例的一种网络资源优化模型训练方法的流程图；

图6是根据本公开一个或多个实施例的一种网络资源优化方法的流程图；

图7是根据本公开一个或多个实施例的一种离线迁移强化学习模型训练的流程图；

图8是根据本公开一个或多个实施例的一种网络资源优化模型训练装置的结构示意图；

图9是根据本公开一个或多个实施例的一种网络资源优化装置的结构示意图；

图10是根据本公开一个或多个实施例提供的一种基于迁移强化学习的无线切片资源动态优化系统的结构示意图；和

图11是根据本公开一个或多个实施例的一种电子设备的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

图1是根据本公开一个或多个实施例的网络资源优化模型训练方法的流程图，如图1所示，该方法包括：

步骤S102：对目标域子切片以及源域子切片进行聚类，得到聚类簇；

其中，目标域子切片可为未开通无线子切片，源域(Source Domain)子切片可为已开通无线子切片，即现网已有的无线子切片，在步骤S102中，可根据现网已有的无线子切片的历史配置数据，通过聚类算法寻找与目标域(Target Domain)子切片分布相似的源域子切片。

步骤S104：确定各所述源域子切片在其所在的聚类簇中的重要性权重；

其中，源域子切片所在的聚类簇为聚类后，该源域子切片所属的聚类簇。

可选的，对于各源域子切片，可依次根据该源域子切片与其所属的聚类簇中的各目标域子切片的距离，确定各源域子切片在其所属的聚类簇中的重要性权重。

步骤S106：将所述源域子切片的所述重要性权重作为所述源域子切片被选中的概率，根据所述概率从所述源域子切片中选择第一源域子切片，根据所述第一源域子切片的数据训练所述网络资源优化模型，其中，所述网络资源优化模型用于根据所述目标域子切片的数据确定所述目标域子切片的优化策略。

可选的，目标域子切片的优化策略可以是目标域子切片在下一时间周期的行为。

将源域子切片的重要性权重作为源域子切片训练网络资源优化模型时，被选中的概率，使得每个源域子切片样本对训练过程的贡献度与其重要性权重成正相关关系。

可选的，所述第一源域子切片的数据可包括：第一源域子切片的特征，当前时刻第一源域子切片的资源配置情况、当前时刻第一源域子切片的资源利用情况，第一源域子切片配置生效后的感知数据(也称历史感知数据)，第一源域子切片已选择的每种优化策略的次数以及第一源域子切片的历史配置数据。

本公开实施例的网络资源优化模型训练方法，利用源域子切片的数据，通过聚类的方式寻找与目标域子切片分布相似的源域子切片通过实例迁移进行网络资源优化模型的训练，解决了无线网络资源动态优化场景下，初始目标域切片配置数据收集过程较为困难的问题，简化了模型训练过程。同时，根据源域子切片的重要性权重在网络资源优化模型训练过程中给予源域子切片相应的贡献，提升了模型决策的有效性。

在本公开的一个或多个实施例中，将所述源域子切片的所述重要性权重作为所述源域子切片被选中的概率，根据所述概率从所述源域子切片中选择第一源域子切片，根据所述第一源域子切片的数据训练所述网络资源优化模型，可包括：

如图2所示，循环执行如下步骤，直至所述网络资源优化模型训练完成：

步骤S1062：依次在各所述目标域子切片所在的聚类簇中按照所述重要性权重选择所述第一源域子切片；

对于每一次第一源域子切片的选择，在当前计算的目标域子切片所在的聚类簇中按照源域子切片的重要性权重作为该源域子切片被选中的概率，其中，被选中的源域子切片即为第一源域子切片，第一源域子切片可参与网络资源优化模型的训练。

步骤S1064：基于所述第一源域子切片的数据生成所述第一源域子切片所处基站小区的状态向量以及所述第一源域子切片的行为；

步骤S1066：根据所述状态向量以及所述行为确定执行所述行为后所述基站小区的目标状态与产生的回报；

可选的，在本公开的一个或多个实施例中，可将无线网络资源动态优化问题抽象为一个MDP(Markov Decision Process，马尔科夫决策过程)，故上述状态向量、行为以及回报可分别对应MDP四元组中的状态、行为、以及回报函数(也称奖励函数)的值。本公开实施例中MDP四元组的具体设计将在后文中进行详细说明。

其中，基站小区执行所述行为后该基站小区的目标状态与产生的回报例如可以是基站小区在执行所述行为后该基站小区在下一时间周期(例如下一刻)的状态以及产生的回报。

步骤S1068：根据所述目标状态与所述回报更新所述网络资源优化模型的模型参数。

可选的，在步骤S1068中，可利用深度强化学习中目标值网络与当前值网络的参数更新与参数传递实现对网络资源优化模型的不断训练。

在本公开的一个或多个实施例中，确定各所述源域子切片在其所在的聚类簇中的重要性权重，可包括：

计算第二源域子切片与第一聚类簇中的所述目标域子切片之间的平均距离，将所述平均距离确定为所述第二源域子切片的所述重要性权重，其中，所述第二源域子切片为所述第一聚类簇中的任意源域子切片，所述第一聚类簇为所述聚类簇中的任意聚类簇。

示例性的，假设聚类簇c中共有源域子切片m个，目标域子切片n个，则第j个源域子切片的重要性权重w_j可根据如下公式(1)进行计算：

在本公开的一个或多个实施例中，如图3所示，对目标域子切片以及源域子切片进行聚类，得到聚类簇，可包括：

步骤S302：分别基于所述目标域子切片与所述源域子切片生成相同维度的特征，得到待聚类的样本集；

可选的，可先采集源域子切片的相关数据，基于该数据提取源域子切片的特征。例如，可通过对接OMC(Operation and Maintenance Center，操作维护中心)网管，查询已开通切片实例所有的无线侧历史配置数据、已开通及待开通切片的产品业务信息，并采集时间周期内的基站小区KPI(Key Performance Indicator，关键绩效指标)数据与工参数据，以及历史切片感知数据，存入数据库。

其中，无线侧历史配置数据包括但不限于如下字段：

切片ID((Identity document，身份证标识号)、切片生效时间、参数修改时间、TAC(Tracking Area Code，跟踪区标识)或基站小区ID、5QI(5QI是一个标量，用于指向一个5GQoS特性)列表切片组用户数、最大RRC(Radio Resource Control，无线资源控制)连接态用户数、专用PRB(Physical Resource Block，物理资源块)资源比率、最大PRB资源比率以及最小PRB资源比率。

已开通及待开通切片的产品业务信息包括但不限于如下字段：

用户类型、月租类型、计费属性、SA(Stand Alone，独立组网)切片种类、组网方式、业务速率、业务类型、切片类型、TAC List、保障等级以及业务速率。

基站小区ID的KPI数据包括但不限于如下字段：

基站小区ID、记录上报时间、上行PRB平均利用率、下行PRB平均利用率、平均RRC连接态用户数、最大RRC连接态用户数以及CQI(Channel Quality Indication，信道质量指示)0～6占比。

基站工参数据可包括但不限于基站ID、小区ID、基站坐标经度以及基站坐标纬度。

切片粒度的感知数据包括但不限于如下字段：

切片ID、记录上报时间、监测时间周期内的业务抖动时延、丢包率、上行速率、下行速率以及时延。

根据以上采集的相关数据设计切片粒度特征，可主要包含以下三个维度：

切片产品业务信息(也简称切片业务信息)；

现网资源历史数据：将切片数据与基站KPI数据匹配，以刻画每个切片所处基站的历史资源使用情况，字段可包括：上行PRB平均利用率、下行PRB平均利用率、平均RRC连接态用户数、最大RRC连接态用户数的四个字段的Lag特征、滑动窗口统计特征、均值与方差等；

基站密度参数，可包括切片对应基站的邻近基站最小距离、一公里内的基站个数。

循环执行如下步骤，直至所述样本集为空：

步骤S304：从所述样本集中选取任意未分类样本；

步骤S306：根据所述样本集中的其余样本与所述未分类样本之间的距离，检索出所述未分类样本的邻域；

可选的，考虑到每个特征的数值分布相差较大，可以使用标准化欧氏距离(Standardized Euclidean Distance)计算样本点的距离，如下公式(2)所示：

其中，K表示特征个数，std_k为第k个特征向量的方差。

步骤S308：根据所述未分类样本的邻域中样本的个数确定所述未分类样本和/或所述邻区中的样本所属的聚类簇；

步骤S310：判断样本集是否为空，若是，流程结束，若否，返回步骤S304。

在本公开的一个或多个实施例中，根据所述未分类样本的邻域中样本的个数确定所述未分类样本和/或所述邻区中的样本所属的聚类簇，可包括：

若所述邻区中样本的个数小于第一阈值，将所述未分类样本标记为噪声点，将所述未分类样本放入噪声点的聚类簇，从所述样本集中删除所述未分类样本；可选的，可将确定为噪声点的样本标记噪声点簇标识。

若所述邻区中样本的个数小于第二阈值，在已完成聚类的聚类簇中查找距离所述邻区的中心点最近的聚类簇，将所述邻区与距离所述中心点最近的聚类簇合并，得到新的聚类簇，并从所述样本集中移除所述邻区中所有的样本，其中，所述第一阈值不大于所述第二阈值；其中，已完成聚类的聚类簇为在聚类过程中聚类得到的聚类簇。

若所述邻区中样本的个数不小于所述第二阈值，将所述邻区中所有的样本确定为一个聚类簇，确定所述未分类样本为该聚类簇的中心点，并从所述样本集中移除所述邻区中所有的样本。

可选的，在每次得到新的聚类簇后，可按照得到聚类簇的顺序，为新的聚类簇生成簇标识。

以下结合图4以一个例子对目标域子切片以及源域子切片进行聚类的过程进行示例性说明，如图4所示，对目标域子切片以及源域子切片进行聚类，可包括如下步骤：

步骤S402：输入源域样本(源域子切片的数据)以及目标域样本(目标域子切片的数据)；

同时，还可输入聚类所需参数，如线性邻域半径ε、识别噪声点阈值Mint以及识别小簇的阈值Mc。

步骤S404：将目标域样本与源域样本按照如上所述的切片粒度特征生成相同维度的特征，混合在一起，作为待聚类的样本集D，定义目标域子切片样本个数为N，为需要通过模型计算给出切片资源配置策略(即上述优化策略)的目标样本；源域子切片样本个数据为M，为上述采集的历史切片配置实例。样本集D中的样本的个数为M+N，待聚类样本集如下表1所示；

表1

聚类模型约束条件可定义为：任意聚类簇内的线性邻域半径不超过第二阈值ε；任意聚类簇的最小样本点数不低于第一阈值MinT，否则为噪声点；由于训练网络资源优化模型，例如基于深度强化学习训练网络资源优化模型对样本数量具有一定要求，所以设置第三阈值Mc判断聚类簇的大小；

步骤S406：从样本集D中选取任意未分类样本p；

步骤S408：根据样本点距离公式检索出p的ε-邻域，公式可如下式(3)所示：

U_ε(p)＝{p_i∈D|dist(p_i,p)≤ε} (3)

步骤S410：计算ε-邻域内样本个数N_p，判断样本个数N_p是否小于MinT，若否，执行步骤S414，若是，执行步骤S412：将样本p记为噪声点，标记簇标识C＝0，簇标识＝0的样本即噪声点，并标记好簇标识的样本p放入集合Seeds中，集合Seeds用于存放已标记好簇标识的样本，从数据集D中移除样本p，返回步骤S406；

步骤S414：判断U(p)内的样本个数N_p是否小于Mc，若是，确定该邻域包含的样本数太少，则执行步骤S416：查找已有簇中距离中心点最近的簇进行合并，若否，执行步骤S418。其中，中心点向量的计算公式如下式(4)所示：

其中，Feat_k标识第k个特征。

步骤S418：确定p为核心点，为U(p)中所有样本标记新的簇标识。C＝{ci|ci<M+N}，并将这些对象放入集合Seeds，步骤S420：从数据集中移除U(p)集对应的样本；

重复执行步骤S402至步骤S418，直至数据集D为空，聚类后样本表增加一列簇标识C，如下表2所示：

表2

切片ID	是否目标域子切片	簇ID	特征1	....	特征K

在计算每个聚类簇的源域子切片样本的权重时，可根据表2聚类结果集中的是否是目标域子切片字段，将目标域与源域拆分出来，根据距离公式dist计算目标域子切片与源域子切片的距离，如下表3所示：

表3

源域切片ID(m)	目标域子切片ID(n)	距离dist(m，n)	所属簇ID(c)

在本公开的一个或多个实施例中，所述状态向量可包括以下至少一项：

子切片特征、当前时刻切片资源配置情况及利用率、切片配置生效后的感知数据(也称历史切片感知数据)以及已选择的每个行为的次数。示例性的，为提高模型收敛速度，状态的特征设计可包括如下三个维度：

子切片特征(也称切片粒度特征)；

当前时刻无线侧切片资源配置情况、资源利用率情况等；

围绕Reward公式，利用历史切片感知数据设计特征，如过去一小时时延的均值、昨天相同时刻的速率等。可选的，历史切片感知数据可包括：上行PRB平均利用率、下行PRB平均利用率、平均RRC连接态用户数以及最大RRC连接态用户数，可以该四项参数的Lag特征、滑动窗口统计特征、均值或方差中的任意一种指标来表征状态的特征。

在本公开的一个或多个实施例中，所述子切片特征至少可包括以下一项：

子切片的业务信息、子切片所处基站的历史资源使用情况以及子切片对应基站的密度参数。

其中，子切片对应基站可包括子切片所处基站，以及子切片所处基站的邻近基站。

可选的，子切片的业务信息至少可包括如下至少一种信息：

用户类型、月租类型、计费属性、SA切片种类、组网方式、业务速率、业务类型、切片类型、TAC List、保障等级以及业务速率。

可选的，子切片所处基站的历史资源使用情况至少可包括如下一种信息：

上行PRB平均利用率、下行PRB平均利用率、平均RRC连接态用户数以及最大RRC连接态用户数这四项参数的Lag特征、滑动窗口统计特征以及均值与方差。

在本公开的一个或多个实施例中，所述行为可包括：

所述源域子切片的历史配置数据。可选的，可从无线网管中获取的无线侧历史配置数据(如源域子切片的历史配置数据)作为每个子切片的行为。

在本公开的一个或多个实施例中，所述源域子切片的历史配置数据至少可包括以下一项：

切片标识、切片生效时间、参数修改时间、TAC、基站小区标识、5QI列表切片组用户数、最大RRC连接态用户数、专用RPB资源比率、最大PRB资源比率以及最小PRB资源比率。

在本公开的一个或多个实施例中，所述回报根据以下至少一项参数计算得到：

业务的抖动、丢包率、上行速率、下行速率以及时延。

可选的，可根据无线切片资源分配回报函数Reward计算上述回报，该回报函数可由切片配置生效后的感知数据获得，示例性的，回报函数的公式可如下式(5)所示：

R₁＝θ₁K_Jitter+θ₂K_PackLoss+θ₃K_Delay+θ₄K_Speed (5)

关键指标可包括抖动K_Jitter、丢包K_PackLoss、时延K_Delay、速率K_Speed，其中，θ₁、θ₂、θ₃以及θ₄分别为K_Jitter、K_PackLoss、K_Delay以及K_Speed在计算回报时的权重，可根据该四项参数对上述回报的重要性设置其对应的权重值，其中，θ₁、θ₂、θ₃以及θ₄之和为1。

在本公开的一个或多个实施例中，MDP四元组中的状态转移概率Probability可借鉴ε-greedy的思想，每次尝试时，以ε的概率进行探索，以均匀概率随机选取一种行为作为下一步的行为Action，以1-ε的概率选取当前的神经网络的输出值作为行为Action，则t时刻的状态转移公式可如下式(6)所示：

其中，Q表示t时刻的网络资源优化模型，θ_t为t时刻模型参数。

图5是根据本公开一个或多个实施例的网络资源优化模型训练方法的流程图，如图5所示，该方法在图1所示的方法的基础上还可进一步包括：

步骤S502：在所述网络资源优化模型训练完成之后，将所述网络资源优化模型上线运行；

网络资源优化模型上线运行后，可输出无线侧切片优化策略，该策略可通过策略执行模块发送至网管设备，如OMC网管，使得网管设备可根据该优化策略进行无线网络资源的动态调整。

步骤S504：采集所述网络资源优化模型上线运行预设时长内所述目标域子切片所处基站小区的状态数据以及所述目标域子切片的行为数据；

可选的，在网络资源优化模型上线运行预设时长后，可对该段时长内下发策略后的新增切片历史配置数据、产品业务信息以及这段时长的基站小区ID的KPI数据、切片配置后的感知数据进行采集并存入数据库。从这些数据中获得目标域子切片所处基站小区的状态数据以及目标域子切片的行为数据。

步骤S506：根据所述状态数据以及所述行为数据对所述网络资源优化模型的模型参数进行更新。

可选的，可通过上线运行的网络资源优化模型读取目标域子切片所处基站小区的状态数据以及目标域子切片的行为数据，生成当前时刻的状态s特征向量和当前的策略a，下发至策略执行模块，重复执行步骤S505与步骤S506，每次计算回报函数r的值，以离线模型训练的网络参数为基础，增量优化模型。

在本公开的一个或多个实施例中，对目标域子切片以及源域子切片进行聚类，得到聚类簇，可包括：

通过基于密度的聚类算法对所述目标域子切片以及所述源域子切片进行聚类，得到所述聚类簇。

可选的，基于密度的聚类算法包括但不限于DBSCAN(Density-Based SpatialClustering of Applications with Noise，具有噪声的基于密度的聚类算法)以及MDCA(Maximum Density Clustering Application，密度最大值聚类算法)。

其中，DBSCAN等基于密度的聚类算法可以接受噪声点，噪声点在无线子切片资源配置的场景下表示为，无法找到与该目标域切片实例相似的历史切片实例，这种情况是正常存在的，且需要被有效识别出。而其他聚类算法大都会将每个样本都聚到一个簇中，这样会损害目标域在网络资源优化模型训练过程中的学习表现，造成负迁移；其次，DBSCAN聚类结果没有偏倚，而其他聚类算法如Kmeans等初始值对聚类结果有很大影响。

图6是根据本公开一个或多个实施例的一种网络资源优化方法的流程图，如图6所示，该方法包括：

步骤S602：根据网络资源优化模型预测所述目标域子切片的目标行为；

可选的，网络资源优化模型可根据目标域子切片的所处基站小区的状态向量，输出目标域子切片的目标行为。其中，目标域子切片的目标行为可为目标域子切片在下一时间周期执行的行为。

步骤S604：将所述目标行为下发至网管设备。

可选的，可通过网络资源优化模型分别确定各目标域子切片的目标行为，将各目标域子切片的目标行为作为无线侧切片优化策略下发至OMC网管(为上述网管设备的一个示例)。OMC网管在接收到该无线侧切片优化策略后，可分别对各目标域子切片进行无线网络资源动态调整。

在本公开的一个或多个实施例中，可通过离线深度强化学习训练网络资源优化模型，利用环境模拟器模拟真实小区的状态，以每个源域子切片的重要性权重w作为环境模拟器中样本被选中的概率进行实例迁移。如图7所示，具体可包括：t时刻环境模拟器在当前要计算的目标域子切片所在聚类簇中，按照权重w选择一个源域子切片，生成状态向量s_t，执行行为a_t，将s_t与a_t输入给环境模拟器，环境模拟器需模拟真实小区的状态返回小区执行a_t后，t+1时刻小区的状态s_t+1与执行a_t产生的回报r_t，即

s_t+1,r_t＝Environment(s_t,a_t)；

反复多次从源域中提取实例样本，利用深度强化学习中目标值网络与当前值网络的参数更新与参数传递。

迭代流程如下：

循环{

按照w选择一个源域切片样本

根据样本生成st；

生成行为：a_t＝Q(s_t；θ_t)；

生成下一步状态与回报：s_t+1,r_t＝Evironment(a_t)；

记忆库储存记录：Memmory.add([s_t,a_t,r_t,s_t+1])；

模型参数更新：Q.learn(Memmory)。

需要说明的是，在本公开实施例中，训练网络资源优化模型的方式不局限于深度强化学习方式，还可利用目前已有的其他机器学习算法实现对网络资源优化模型的训练，本公开实施例对此不再赘述。

图8是根据本公开一个或多个实施例的一种网络资源优化模型训练装置的结构示意图，如图8所示，该装置810包括：

聚类模块812，用于对目标域子切片以及源域子切片进行聚类，得到聚类簇；

确定模块814，用于确定各所述源域子切片在其所在的聚类簇中的重要性权重；

训练模块816，用于将所述源域子切片的所述重要性权重作为所述源域子切片被选中的概率，根据所述概率从所述源域子切片中选择第一源域子切片，根据所述第一源域子切片的数据训练所述网络资源优化模型，其中，所述网络资源优化模型用于根据所述目标域子切片的数据确定所述目标域子切片的优化策略。

在本公开的一个或多个实施例中，所述训练模块具体可用于：

循环执行如下步骤，直至所述网络资源优化模型训练完成：

依次在各所述目标域子切片所在的聚类簇中按照所述重要性权重选择所述第一源域子切片；

基于所述第一源域子切片的数据生成所述第一源域子切片所处基站小区的状态向量以及所述第一源域子切片的行为；

根据所述状态向量以及所述行为确定执行所述行为后所述基站小区的目标状态与产生的回报；

根据所述目标状态与所述回报更新所述网络资源优化模型的模型参数。

在本公开的一个或多个实施例中，所述确定模块具体可用于：

在本公开的一个或多个实施例中，所述聚类模块可包括：

生成子模块，用于分别基于所述目标域子切片与所述源域子切片生成相同维度的特征，得到待聚类的样本集；

循环子模块，用于循环执行如下步骤，直至所述样本集为空：

从所述样本集中选取任意未分类样本；

根据所述样本集中的其余样本与所述未分类样本之间的距离，检索出所述未分类样本的邻域；

根据所述未分类样本的邻域中样本的个数确定所述未分类样本和/或所述邻区中的样本所属的聚类簇。

在本公开的一个或多个实施例中，所述循环子模块具体用于：

若所述邻区中样本的个数小于第一阈值，将所述未分类样本标记为噪声点，将所述未分类样本放入噪声点的聚类簇，从所述样本集中删除所述未分类样本；

若所述邻区中样本的个数小于第二阈值，在已完成聚类的聚类簇中查找距离所述邻区的中心点最近的聚类簇，将所述邻区与距离所述中心点最近的聚类簇合并，得到新的聚类簇，并从所述样本集中移除所述邻区中所有的样本，其中，所述第一阈值不大于所述第二阈值；

子切片特征、当前时刻切片资源配置情况及利用率、切片配置生效后的感知数据以及已选择的每个行为的次数。

在本公开的一个或多个实施例中，所述行为可包括：

所述源域子切片的历史配置数据。

业务的抖动、丢包率、上行速率、下行速率以及时延。

在本公开的一个或多个实施例中，所述装置还可包括：

运行模块，用于在所述网络资源优化模型训练完成之后，将所述网络资源优化模型上线运行；

采集模块，用于采集所述网络资源优化模型上线运行预设时长内所述目标域子切片所处基站小区的状态数据以及所述目标域子切片的行为数据；

更新模块，用于根据所述状态数据以及所述行为数据对所述网络资源优化模型的模型参数进行更新。

在本公开的一个或多个实施例中，所述聚类模块具体可用于：

图9是根据本公开一个或多个实施例的一种网络资源优化装置的结构示意图，如图9所示，该装置910包括：

预测模块912，用于根据本公开实施例提供的任意一种网络资源优化模型预测所述目标域子切片的目标行为；

下发模块914，用于将所述目标行为下发至网管设备。

图10是根据本公开一个或多个实施例提供的一种基于迁移强化学习的无线切片资源动态优化系统的示意图，该系统可包括本公开实施例提供的任意一种网络资源优化模型训练装置以及网络资源优化装置，示例性的，如图10所示，该系统可包括OMC网管1010、数据采集模块1012、数据存储模块1014、迁移学习模块1016、离线强化学习模块1018、模型更新模块1020以及策略执行模块1022。其中，数据采集模块1012、数据存储模块1014、迁移学习模块1016、离线强化学习模块1018以及模型更新模块1020可以设置于网络资源优化装置中，策略执行模块1022可设置于网络资源优化装置中。其中，数据采集模块1012用于采集模型训练数据以及模型更新数据；数据存储模块1014用于存储数据采集模块1012采集到的数据；迁移学习模块1016用于对源域子切片以及目标域子切片进行聚类，进行实例迁移；离线强化学习模块1018用于训练网络资源优化模型；模型更新模块1020用于更新网络资源优化模型；策略执行模块1022用于将网络资源优化模型输出的网络资源优化策略下发至网管设备。

下面参照图11来描述根据本发明的这种实施方式的电子设备1100。图11显示的电子设备1100仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图11所示，电子设备1100以通用计算设备的形式表现。电子设备1100的组件可以包括但不限于：上述至少一个处理单元1110、上述至少一个存储单元1120、连接不同系统组件(包括存储单元1120和处理单元1110)的总线1130。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述电子设备1100，使得所述电子设备1100执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

存储单元1120可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)11201和/或高速缓存存储单元11202，还可以进一步包括只读存储单元(ROM)11203。

存储单元1020还可以包括具有一组(至少一个)程序模块11205的程序/实用工具11204，这样的程序模块11205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1130可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备1100也可以与一个或多个外部设备1200(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备1100交互的设备通信，和/或与使得该电子设备1100能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1150进行。并且，电子设备1100还可以通过网络适配器1160与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1160通过总线1130与电子设备1100的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1100使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。

描述了根据本公开的实施方式的用于实现上述方法的程序产品，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，

在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，

但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由所附的权利要求指出。

Claims

1.一种网络资源优化模型训练方法，其特征在于，包括：

对目标域子切片以及源域子切片进行聚类，得到聚类簇；

确定各所述源域子切片在其所在的聚类簇中的重要性权重；

将所述源域子切片的所述重要性权重作为所述源域子切片被选中的概率，根据所述概率从所述源域子切片中选择第一源域子切片，根据所述第一源域子切片的数据训练所述网络资源优化模型，其中，所述网络资源优化模型用于根据所述目标域子切片的数据确定所述目标域子切片的优化策略。

2.根据权利要求1所述的方法，其特征在于，将所述源域子切片的所述重要性权重作为所述源域子切片被选中的概率，根据所述概率从所述源域子切片中选择第一源域子切片，根据所述第一源域子切片的数据训练所述网络资源优化模型，包括：

循环执行如下步骤，直至所述网络资源优化模型训练完成：

3.根据权利要求1所述的方法，其特征在于，确定各所述源域子切片在其所在的聚类簇中的重要性权重，包括：

4.根据权利要求1所述的方法，其特征在于，对目标域子切片以及源域子切片进行聚类，得到聚类簇，包括：

分别基于所述目标域子切片与所述源域子切片生成相同维度的特征，得到待聚类的样本集；

循环执行如下步骤，直至所述样本集为空：

从所述样本集中选取任意未分类样本；

5.根据权利要求4所述的方法，其特征在于，根据所述未分类样本的邻域中样本的个数确定所述未分类样本和/或所述邻区中的样本所属的聚类簇，包括：

6.根据权利要求2所述的方法，其特征在于，所述状态向量包括以下至少一项：

7.根据权利要求6所述的方法，其特征在于，所述子切片特征至少包括以下一项：

8.根据权利要求2所述的方法，其特征在于，所述行为包括：

所述源域子切片的历史配置数据。

9.根据权利要求8所述的方法，其特征在于，所述源域子切片的历史配置数据至少包括以下一项：

切片标识、切片生效时间、参数修改时间、跟踪区标识TAC、基站小区标识、5QI列表切片组用户数、最大无线资源控制RRC连接态用户数、专用物理资源块RPB资源比率、最大PRB资源比率以及最小PRB资源比率。

10.根据权利要求2所述的方法，其特征在于，所述回报根据以下至少一项参数计算得到：

业务的抖动、丢包率、上行速率、下行速率以及时延。

11.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述网络资源优化模型训练完成之后，将所述网络资源优化模型上线运行；

采集所述网络资源优化模型上线运行预设时长内所述目标域子切片所处基站小区的状态数据以及所述目标域子切片的行为数据；

根据所述状态数据以及所述行为数据对所述网络资源优化模型的模型参数进行更新。

12.根据权利要求1～11中任意一项所述的方法，其特征在于，对目标域子切片以及源域子切片进行聚类，得到聚类簇，包括：

13.一种网络资源优化方法，其特征在于，包括：

根据权利要求1～12中任意一项所述的网络资源优化模型预测所述目标域子切片的目标行为；

将所述目标行为下发至网管设备。

14.一种网络资源优化模型训练装置，其特征在于，包括：

聚类模块，用于对目标域子切片以及源域子切片进行聚类，得到聚类簇；

确定模块，用于确定各所述源域子切片在其所在的聚类簇中的重要性权重；

训练模块，用于将所述源域子切片的所述重要性权重作为所述源域子切片被选中的概率，根据所述概率从所述源域子切片中选择第一源域子切片，根据所述第一源域子切片的数据训练所述网络资源优化模型，其中，所述网络资源优化模型用于根据所述目标域子切片的数据确定所述目标域子切片的优化策略。

15.一种网络资源优化装置，其特征在于，包括：

预测模块，用于根据权利要求1～12中任意一项所述的网络资源优化模型预测所述目标域子切片的目标行为；

下发模块，用于将所述目标行为下发至网管设备。

16.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1～11中任意一项所述的网络资源优化模型训练方法或权利要求13所述的网络资源优化方法。

17.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1～11中任意一项所述的网络资源优化模型训练方法或权利要求13所述的网络资源优化方法。