CN113992524B

CN113992524B - 网络切片优化处理方法及系统

Info

Publication number: CN113992524B
Application number: CN202111143979.4A
Authority: CN
Inventors: 吴文君; 董君宇; 金凯琦; 孙阳; 司鹏搏; 高强
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-09-28
Filing date: 2021-09-28
Publication date: 2024-04-09
Anticipated expiration: 2041-09-28
Also published as: CN113992524A

Abstract

本发明提供一种网络切片优化处理方法及系统，所述方法包括：构建异构马尔可夫决策过程模型，并构建分层深度强化学习架构；基于异构马尔可夫决策过程模型和分层深度强化学习架构构建联合优化决策模型；其中，所述联合优化决策模型包括上层子模型和下层子模型，所述上层子模型用于执行切片间资源分配过程，所述下层子模型用于执行切片内任务调度过程；将实时获取到的网络资源信息和业务请求数据输入至所述联合优化决策模型，得到所述联合优化决策模型输出的网络切片最优策略解。本发明能够对网络切片的资源分配和任务调度进行联合优化，从而能够挖掘系统潜在的服务能力，充分调动系统的可用资源以降低用户网络延迟，提高用户体验。

Description

网络切片优化处理方法及系统

技术领域

本发明涉及网络优化技术领域，尤其涉及一种网络切片优化处理方法及系统。

背景技术

车联网场景下存在大量的不可预知的新生业务，根据服务级别协议(SLA，ServiceLevel Agreement)定制化网络切片为用户提供服务在网络自动化和服务灵活性方面存在局限，难以及时满足新业务需求，因此需要为车联网中网络切片动态、高效地分配资源，为多样的新生业务提供服务。

目前，对于切片间资源分配和切片内任务调度分别存在广泛的研究。然而，每一个网络切片的可用资源会影响它内部的任务调度，而切片内的任务调度过程反过来影响切片整体的资源利用率，切片资源分配和任务调度两者联系紧密、相互耦合。现有研究将网络切片的资源分配和任务调度两者作为两个单独的问题分别进行优化，难以挖掘系统潜在的服务能力，无法充分调动系统的可用资源以降低用户网络延迟。

发明内容

本发明提供一种网络切片优化处理方法、系统、电子设备及存储介质，用以解决上述技术问题，从而能够挖掘系统潜在的服务能力，充分调动系统的可用资源以降低用户网络延迟，提高用户体验。

本发明提供一种网络切片优化处理方法，包括：

构建异构马尔可夫决策过程模型；其中，所述异构马尔可夫决策过程模型包括上层马尔可夫决策过程模型和下层马尔可夫决策过程模型，所述上层马尔可夫决策过程模型用于表示大时间尺度状态转移过程，所述下层马尔可夫决策过程模型用于表示小时间尺度状态转移过程，所述上层马尔可夫决策过程模型与所述下层马尔可夫决策过程模型通过下层马尔可夫决策过程在预设时间段内的累计奖励值作为强化信号进行联系；

构建分层深度强化学习架构；其中，所述分层深度强化学习架构包括上层深度强化学习模型和下层深度强化学习模型，所述上层深度强化学习模型用于进行上层智能体与上层环境的交互过程，所述下层深度强化学习模型用于进行下层智能体与下层环境的交互过程，所述分层深度强化学习架构中的所有智能体均独立进行决策，所述下层智能体在预设时间段内获得的奖励总和返回至当前时间段对应的上层智能体；

基于所述异构马尔可夫决策过程模型和所述分层深度强化学习架构构建联合优化决策模型；其中，所述联合优化决策模型包括上层子模型和下层子模型，所述上层子模型用于执行切片间资源分配过程，所述下层子模型用于执行切片内任务调度过程。

根据本发明的网络切片优化处理方法，所述基于所述异构马尔可夫决策过程模型和所述分层深度强化学习架构构建联合优化决策模型的步骤中，具体包括：

基于所述异构马尔可夫决策过程模型和所述分层深度强化学习架构构建联合优化决策模型，并根据所述分层深度强化学习架构将所述联合优化决策模型中的智能体划分为资源分配智能体和任务调度智能体；其中，所述资源分配智能体用于通过所述上层子模型执行切片间资源分配过程，所述任务调度智能体用于通过所述下层子模型执行切片内任务调度过程。

根据本发明的网络切片优化处理方法，所述任务调度智能体用于通过所述下层子模型执行切片内任务调度过程的步骤中，具体包括：

在所述资源分配智能体通过所述上层子模型执行切片间资源分配过程的相邻两个时间步之间，所述任务调度智能体用于通过所述下层子模型执行切片内任务调度过程。

根据本发明的网络切片优化处理方法，所述任务调度智能体包括第一任务调度智能体和第二任务调度智能体；其中，所述第一任务调度智能体用于通过所述下层子模型执行第一切片内任务调度过程，所述第二任务调度智能体用于通过所述下层子模型执行第二切片内任务调度过程。

根据本发明的网络切片优化处理方法，所述第一切片内任务调度过程与所述第二切片内任务调度过程为并行执行。

根据本发明的网络切片优化处理方法，所述第一切片内任务调度过程为基于eMBB业务的切片内任务调度过程，所述第二切片内任务调度过程为基于URLLC业务的切片内任务调度过程。

根据本发明的网络切片优化处理方法，所述资源分配智能体在每一时步的奖励值等于这一时步期间所有任务调度智能体获得的累计奖励值。

本发明还提供一种网络切片优化处理系统，包括：

第一建模模块，用于构建异构马尔可夫决策过程模型；其中，所述异构马尔可夫决策过程模型包括上层马尔可夫决策过程模型和下层马尔可夫决策过程模型，所述上层马尔可夫决策过程模型用于表示大时间尺度状态转移过程，所述下层马尔可夫决策过程模型用于表示小时间尺度状态转移过程，所述上层马尔可夫决策过程模型与所述下层马尔可夫决策过程模型通过下层马尔可夫决策过程在预设时间段内的累计奖励值作为强化信号进行联系；

第二建模模块，用于构建分层深度强化学习架构；其中，所述分层深度强化学习架构包括上层深度强化学习模型和下层深度强化学习模型，所述上层深度强化学习模型用于进行上层智能体与上层环境的交互过程，所述下层深度强化学习模型用于进行下层智能体与下层环境的交互过程，所述分层深度强化学习架构中的所有智能体均独立进行决策，所述下层智能体在预设时间段内获得的奖励总和返回至当前时间段对应的上层智能体；

模型构建模块，用于基于所述异构马尔可夫决策过程模型和所述分层深度强化学习架构构建联合优化决策模型；其中，所述联合优化决策模型包括上层子模型和下层子模型，所述上层子模型用于执行切片间资源分配过程，所述下层子模型用于执行切片内任务调度过程；

策略输出模块，用于将实时获取到的网络资源信息和业务请求数据输入至所述联合优化决策模型，得到所述联合优化决策模型输出的网络切片最优策略解。

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述网络切片优化处理方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述网络切片优化处理方法的步骤。

本发明提供的网络切片优化处理方法、系统、电子设备及存储介质，通过将切片间资源分配和切片内任务调度分别建模为异构马尔可夫决策过程模型中的子模型，使得联合切片资源分配和任务调度的二维决策被解耦，原始联合优化问题的解空间和复杂度大大减小，从而能够挖掘系统潜在的服务能力，充分调动系统的可用资源以降低用户网络延迟，提高用户体验。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的网络切片优化处理方法的流程示意图；

图2是本发明一实施例提供的异构马尔可夫决策过程模型的结构示意图；

图3是本发明一实施例提供的HMDP的动态贝叶斯网络模型的结构示意图；

图4是本发明一实施例提供的分层深度强化学习架构的结构示意图；

图5是本发明一实施例提供的网络切片优化处理系统的结构示意图；

图6是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，目前联合切片资源分配和任务调度领域尚无既有研究，而对于切片间资源分配和切片内任务调度分别存在广泛的研究。

一方面，对于切片间的资源分配，是通过对物理底层的通信、计算、缓存等资源进行编排、优化和配置，设计满足业务需求的网络切片，其通常考虑资源分配的公平性、节约网络切片定制成本、提高资源利用率和用户服务质量(QoS，Quality of Service)等因素。从网络切片资源分配的架构出发，如在基础设施供应商(InPs，InfrastructureProviders)、移动虚拟网络运营商(MVNOs)和用户(UEs，User Equipments)形成的分级架构InPs-MVNOs-UEs中，InPs拥有基站全部的物理资源，这些资源被抽象为多个相互隔离的网络切片并分配给MVNOs，每个MVNO根据特定的需求将资源分配给其的用户UE，相关研究考虑其不同网络实体间的等级差异、两级资源分配的时间尺度差异，利用Stackelberg博弈建模、组合拍卖或优化理论等方法对切片资源分配过程进行分析和求解。另外，由于用户业务生成的不可预知性和资源请求的不确定性，相关研究利用深度强化学习(DRL，DeepReinforcement Learning)，将业务对资源的请求和资源分配分别建模为环境状态和动作，以实现在随机业务到达和动态资源请求下，执行实时高效的资源分配策略。

另一方面，对于切片内的任务调度，如增强型移动宽带(eMBB，Enhanced MobileBroadband)和超可靠低时延通信(URLLC，ultra Reliable Low Latency Communications)等作为车联网场景中的典型业务被重点考虑，由于不同业务间的差异化特性和需求，现有研究在设计任务调度方法的过程中将吞吐量、时延、可靠性、能耗、系统容量等作为优化目标，将计算、存储、带宽等有限资源作为约束条件，拟定相应的优化问题并利用如Lyapunov等优化方法求解，或采用深度强化学习方法来处理实时的任务调度请求。另外，排队模型、状态转移仿真等解析模型也用于对任务调度策略有效性的分析。

在车联网网络切片场景中，联合切片资源分配和任务调度的异构马尔可夫决策过程(HMDP，Heterogeneous Markov Decision Process)模型和分层深度强化学习解决方案是具有较高存在意义的。

首先，大多数现有研究将网络切片的资源分配和任务调度两者作为两个单独的问题。然而，每一个网络切片的可用资源会影响它内部的任务调度，而切片内的任务调度过程反过来影响切片整体的资源利用率，切片资源分配和任务调度两者联系紧密、相互耦合。对切片资源分配和任务调度的联合优化能够挖掘系统潜在的服务能力，充分调动系统的可用资源并降低用户延迟，提高用户体验。

其次，在车联网网络切片场景中，联合切片资源分配和任务调度面临二维决策的挑战。一方面，网络切片的资源分配和任务调度存在明显的时间尺度差异：系统资源以粗粒度的方式在网络切片间进行资源划分，并不需要每时隙进行，是一种大时间尺度的决策；而在随机的业务到达下，为保障用户体验，任务调度被实时执行，是一种小时间尺度决策，如何对时间尺度不同的切片资源分配和任务调度进行联合优化存在困难；另一方面，切片间资源分配和切片内任务调度的决策动作分别受到系统资源的划分粒度和服务队列中被调度的任务数影响，利用单一的优化框架等方法求解并不实际；由于其联合优化问题存在巨大的解空间和复杂度，利用强化学习方法也会面临收敛速度慢甚至无法收敛的窘境，无法得到一个令人满意的联合资源分配和任务调度策略。

针对上述技术问题，本发明提供了一种网络切片优化处理方法，通过将切片间资源分配和切片内任务调度分别建模为异构马尔可夫决策过程模型中的子模型，使得联合切片资源分配和任务调度的二维决策被解耦，原始联合优化问题的解空间和复杂度大大减小，从而能够挖掘系统潜在的服务能力，充分调动系统的可用资源以降低用户网络延迟，提高用户体验。

如图1所示，本发明实施例提供一种网络切片优化处理方法，包括：

S1、构建异构马尔可夫决策过程模型；其中，所述异构马尔可夫决策过程模型包括上层马尔可夫决策过程模型和下层马尔可夫决策过程模型，所述上层马尔可夫决策过程模型用于表示大时间尺度状态转移过程，所述下层马尔可夫决策过程模型用于表示小时间尺度状态转移过程，所述上层马尔可夫决策过程模型与所述下层马尔可夫决策过程模型通过下层马尔可夫决策过程在预设时间段内的累计奖励值作为强化信号进行联系；

S2、构建分层深度强化学习架构；其中，所述分层深度强化学习架构包括上层深度强化学习模型和下层深度强化学习模型，所述上层深度强化学习模型用于进行上层智能体与上层环境的交互过程，所述下层深度强化学习模型用于进行下层智能体与下层环境的交互过程，所述分层深度强化学习架构中的所有智能体均独立进行决策，所述下层智能体在预设时间段内获得的奖励总和返回至当前时间段对应的上层智能体。

S3、基于所述异构马尔可夫决策过程模型和所述分层深度强化学习架构构建联合优化决策模型；其中，所述联合优化决策模型包括上层子模型和下层子模型，所述上层子模型用于执行切片间资源分配过程，所述下层子模型用于执行切片内任务调度过程。

需要说明的是，在本发明实施例中，步骤S3为基于异构马尔可夫决策过程模型和分层深度强化学习架构构建联合优化决策模型，并根据实际业务场景绑定模型与参数之间的映射关系，具体地，将系统的资源状态、服务队列中业务对资源的请求和业务的属性建模为环境状态，将网络切片资源分配的比例系数和服务队列中的被调度的任务序号建模为动作，以实现在随机的业务到达和动态资源请求下，执行实时高效的联合资源分配和任务调度策略。本发明实施例的联合优化决策模型包括上层子模型和下层子模型，在优化过程中，上层子模型用于执行切片间资源分配过程，下层子模型用于执行切片内任务调度过程。

S4、将实时获取到的网络资源信息和业务请求数据输入至所述联合优化决策模型，得到所述联合优化决策模型输出的网络切片最优策略解。

在本发明实施例中，利用构建好的联合优化决策模型根据实时获取到的网络资源信息和业务请求数据对切片资源分配过程进行分析和求解，最后得到模型输出的网络切片最优策略解。

需要说明的是，面向车联网网络切片场景中的资源分配和任务调度，考虑两者的联合优化问题，本发明提出了面向其的异构马尔可夫决策过程模型。通过将切片间资源分配和切片内任务调度分别建模为HMDP中的子MDP，联合切片资源分配和任务调度的二维决策被解耦，原始联合优化问题的解空间和复杂度大大减小。

在本发明实施例中，进一步地，步骤S3具体包括：基于所述异构马尔可夫决策过程模型和所述分层深度强化学习架构构建联合优化决策模型，并根据所述分层深度强化学习架构将所述联合优化决策模型中的智能体划分为资源分配智能体和任务调度智能体；其中，所述资源分配智能体用于通过所述上层子模型执行切片间资源分配过程，所述任务调度智能体用于通过所述下层子模型执行切片内任务调度过程。

在本发明实施例中，进一步地，所述任务调度智能体用于通过所述下层子模型执行切片内任务调度过程的步骤中，具体包括：

在本发明实施例中，进一步地，所述资源分配智能体在每一时步的奖励值等于这一时步期间所有任务调度智能体获得的累计奖励值。

需要说明的是，网络切片的资源分配和任务调度存在明显的时间尺度差异：系统资源以粗粒度的方式在网络切片间进行资源划分，并不需要每时隙进行，是一种大时间尺度的决策；而在随机的业务到达下，为保障用户体验，任务调度被实时执行，是一种小时间尺度决策。针对这种特性，本发明实施例实现了对HMDP模型进行嵌套层次性设计，即在切片资源分配子MDP的每两个状态转移步之间执行一段时间的任务调度决策，满足了原始优化问题中切片资源分配和任务调度的时间尺度差异性。另外，切片资源分配子MDP每时步的奖励由该时间段内全部的任务调度子MDP的累计奖励值组成，这种HDMP不同跨层之间的奖励信号传递设计进一步保障了联合优化。通过分析，在所提出的异构马尔可夫决策过程模型中，多个连接的子MDP仍然保留完整的马尔可夫性。

在本发明实施例中，进一步地，所述任务调度智能体包括第一任务调度智能体和第二任务调度智能体；其中，所述第一任务调度智能体用于通过所述下层子模型执行第一切片内任务调度过程，所述第二任务调度智能体用于通过所述下层子模型执行第二切片内任务调度过程。进一步地，所述第一切片内任务调度过程与所述第二切片内任务调度过程为并行执行。进一步地，所述第一切片内任务调度过程为基于eMBB业务的切片内任务调度过程，所述第二切片内任务调度过程为基于URLLC业务的切片内任务调度过程。

需要说明的是，本发明实施例中，在下层子模型的任务调度智能体可以包括至少两个，分别执行不同业务类型的任务调度过程，且能够实现多个任务调度过程并行执行。本发明实施例应用了车联网中eMBB和URLLC两种典型业务的任务调度。在本发明实施例的分层DRL架构中，对应HMDP下层的是eMBB切片和URLLC切片任务调度过程，每一个切片均部署一个独立的策略网络进行任务调度决策，以确保不同类型业务的切片隔离性；对应HMDP上层的是切片资源分配过程，即额外部署一个策略网络进行资源分配决策。所有的策略网络均利用策略梯度方法来更新参数，而每一个策略网络更新参数所用的情节数据被详细说明，在下面实施例中给出了相应的完整情节的参数更新过程。

基于上述各实施例提供的网络切片优化处理方法，以下对本发明方案具体实现过程进行说明：

一、异构马尔可夫决策过程模型：

如图2所示，HMDP被设计为上下两层的分层模型，每层子模型拥有单独的子MDP，上层子模型对应大时间尺度的切片资源分配MDP，记为其中第l时步的状态、动作和奖励分别记为/> 下层子模型对应小时间尺度的任务调度MDP，考虑eMBB和URLLC两种典型业务的车联网任务调度，分别记为/>和/>在切片资源分配/>的两个时间步l和l+1之间，执行持续T_M时间的eMBB和URLLC的并行任务调度过程。以/>的任务调度过程为例，状态转移表示为/>同样的任务调度过程也发生在URLLC切片内部。

资源分配智能体在T_M时间内获得的奖励为表示为时间步lT_M到(l+1)T_M-1的全部任务调度累计奖励。

需要说明的是，在t＝lT_M时步，切片资源分配的状态为/>执行为切片划分资源的动作/>后，进入临时状态/>该临时状态表示为/>和/>的上一状态，实际并不存在。经过时间步lT_M后，/>进入下一个资源分配状态/>对于切片资源分配MDP的/>而言，状态/>与/>之间的一系列任务调度状态转移/>可以视为环境中的随机因素；而对于任务调度/>状态/>和状态/>之间的随机任务到达过程和资源分配动作/>也可以视为环境中的随机因素，/>同理。

为了进一步阐述HMDP中不同层之间的联系，构造了与HMDP模型相对应的动态贝叶斯网络模型(DBN，Dynamic Bayesian Network)，来阐述切片资源分配MDP和任务调度MDP之间的关系和马尔可夫性。

如图3所示，以上层MDP模型的的第l+1步为例，状态/>对动作/>造成影响，状态/>动作/>和随机任务到达对下层MDP的状态(即/>和/>此时t＝lT_M)造成影响，下层MDP的/>和/>在接下来的T_M个时间步内，状态对动作造成影响，而状态和动作共同影响奖励。与普通MDP的特性一致，当前状态只与上一个状态有关，而与更之前的状态无关，任务调度的状态转移受到上一个状态，动作和随机任务到达过程的影响。在T_M个时间步以后，下层MDP中/>和/>的片段完成，而片段中末尾的状态(即/>和/>此时t＝(l+1)T_M-1)组成了上层MDP的/>的状态/>自然地，下层MDP整个片段中的累计奖励构成了上层MDP此时的奖励/>

如果单独考虑两层中的子MDP，则下层MDP可以视为影响上层MDP状态转移(即到)中的随机因素；而每隔T_M时间步，下层MDP的状态转移(即/>到/>到)受到任务到达过程和上层MDP中的动作/>的随机因素影响，因此，切片资源分配和任务调度的子MDP之间的联系均没有破坏其的马尔可夫性。

二、分层深度强化学习架构：

为了解决基于HMDP的切片资源分配和任务调度联合优化问题，如图4所示，提出了一个基于分层深度强化学习架构的解决方案。其中包含三个独立的决策智能体与环境的交互过程，即“切片资源分配智能体--车联网资源池环境”、“eMBB任务调度智能体--eMBB切片任务调度环境”和“URLLC任务调度智能体--URLLC切片任务调度环境”，切片资源分配和任务调度决策智能体对应三个独立的策略网络，分别记为和/>决策智能体/>将RSU的资源划分给两个切片，而决策智能体/>和/>分别处于eMBB切片和URLLC切片中执行任务调度。

三个决策智能体分别输入各自当前的状态并输出决策动作，随后任务调度决策智能体获得相应的奖励r_t ^SE和r_t ^SU，而在时间步T_M后，切片资源分配决策智能体获得相应的奖励r_l ^R，三个策略网络的参数分别表示为和/>它们均使用策略梯度方法进行更新，下面进行具体说明。

为了扩展策略网络的训练样本数量，每个情节被重复训练E次，因此，将上层MDP的的第e个训练轨迹表示为/>其中/>根据带基线的蒙特卡洛强化算法，策略网络/>的参数θ^R更新表示为：

其中基线

根据HMDP的定义，每一个上层子模型MDP的的完整情节中都包含L个/>的片段，如果将每一个片段都考虑作为下层MDP的一个完整情节，那么第l个片段可以表示为其中e表示上层MDP的/>的轨迹序号，/>参数更新表示为：

其中同理可以得到策略网络/>的参数θ^SU更新。

与现有技术相比，本发明实施例的优势在于建立了车联网网络切片联合资源分配和任务调度的异构马尔科夫决策过程模型，并构建了分层深度强化学习架构，基于异构马尔可夫决策过程模型和分层深度强化学习架构构建了联合优化决策模型。

首先，考虑了面向车联网网络切片场景下的切片资源分配和任务调度联合优化问题，提出异构马尔可夫决策过程模型，原始优化问题的二维决策被解耦，不仅满足二维动作时间尺度差异，也解决了联合优化问题中存在的解空间庞大、复杂度高的困难，同时保证了不同子MDP片段原有的马尔科夫性。

其次，提出了分层深度强化学习架构，给出了基于其的智能联合切片资源分配和任务调度解决方案，对其中每个决策智能体与环境的交互过程进行了设计，根据HMDP模型定义，为分层深度强化学习架构中的不同策略网络构造了具体的训练轨迹，利用策略梯度方法，并给出了所有策略网络的参数更新方案，保证其可实施性。

综合而言，本发明实施例建立了车联网网络切片场景中面向切片资源分配和任务调度联合优化的异构马尔可夫决策过程模型，设计了相应的分层深度强化学习架构，基于异构马尔可夫决策过程模型和分层深度强化学习架构构建了联合优化决策模型，为联合切片资源分配和任务调度提供了智能解决方案。

下面对本发明提供的网络切片优化处理系统进行描述，下文描述的网络切片优化处理系统与上文描述的网络切片优化处理方法可相互对应参照。

请参见图5，本发明实施例提供了一种网络切片优化处理系统，包括：

第一建模模块1，用于构建异构马尔可夫决策过程模型；其中，所述异构马尔可夫决策过程模型包括上层马尔可夫决策过程模型和下层马尔可夫决策过程模型，所述上层马尔可夫决策过程模型用于表示大时间尺度状态转移过程，所述下层马尔可夫决策过程模型用于表示小时间尺度状态转移过程，所述上层马尔可夫决策过程模型与所述下层马尔可夫决策过程模型通过下层马尔可夫决策过程在预设时间段内的累计奖励值作为强化信号进行联系；

第二建模模块2，用于构建分层深度强化学习架构；其中，所述分层深度强化学习架构包括上层深度强化学习模型和下层深度强化学习模型，所述上层深度强化学习模型用于进行上层智能体与上层环境的交互过程，所述下层深度强化学习模型用于进行下层智能体与下层环境的交互过程，所述分层深度强化学习架构中的所有智能体均独立进行决策，所述下层智能体在预设时间段内获得的奖励总和返回至当前时间段对应的上层智能体；

模型构建模块3，用于基于所述异构马尔可夫决策过程模型和所述分层深度强化学习架构构建联合优化决策模型；其中，所述联合优化决策模型包括上层子模型和下层子模型，所述上层子模型用于执行切片间资源分配过程，所述下层子模型用于执行切片内任务调度过程；

策略输出模块4，用于将实时获取到的网络资源信息和业务请求数据输入至所述联合优化决策模型，得到所述联合优化决策模型输出的网络切片最优策略解。

在本发明实施例中，进一步地，所述模型构建模块3具体用于：基于异构马尔可夫决策过程模型和分层深度强化学习架构构建联合优化决策模型，并根据预设的分层深度强化学习架构将所述联合优化决策模型中的智能体划分为资源分配智能体和任务调度智能体；其中，所述资源分配智能体用于通过所述上层子模型执行切片间资源分配过程，所述任务调度智能体用于通过所述下层子模型执行切片内任务调度过程。

在本发明实施例中，进一步地，所述任务调度智能体用于通过所述下层子模型执行切片内任务调度过程，具体包括：在所述资源分配智能体通过所述上层子模型执行切片间资源分配过程的相邻两个时间步之间，所述任务调度智能体用于通过所述下层子模型执行切片内任务调度过程。

在本发明实施例中，进一步地，所述任务调度智能体包括第一任务调度智能体和第二任务调度智能体；其中，所述第一任务调度智能体用于通过所述下层子模型执行第一切片内任务调度过程，所述第二任务调度智能体用于通过所述下层子模型执行第二切片内任务调度过程。

在本发明实施例中，进一步地，所述第一切片内任务调度过程与所述第二切片内任务调度过程为并行执行。

在本发明实施例中，进一步地，所述第一切片内任务调度过程为基于eMBB业务的切片内任务调度过程，所述第二切片内任务调度过程为基于URLLC业务的切片内任务调度过程。

本案实施例的网络切片优化处理系统的工作原理与上述实施例的网络切片优化处理方法是相应的，此处不再一一赘述。

图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行所述的网络切片优化处理方法，该方法包括：构建异构马尔可夫决策过程模型；构建分层深度强化学习架构；基于所述异构马尔可夫决策过程模型和所述分层深度强化学习架构构建联合优化决策模型；其中，所述联合优化决策模型包括上层子模型和下层子模型，所述上层子模型用于执行切片间资源分配过程，所述下层子模型用于执行切片内任务调度过程；将实时获取到的网络资源信息和业务请求数据输入至所述联合优化决策模型，得到所述联合优化决策模型输出的网络切片最优策略解。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各实施例所提供的网络切片优化处理方法，该方法包括：构建异构马尔可夫决策过程模型；构建分层深度强化学习架构；基于所述异构马尔可夫决策过程模型和所述分层深度强化学习架构构建联合优化决策模型；其中，所述联合优化决策模型包括上层子模型和下层子模型，所述上层子模型用于执行切片间资源分配过程，所述下层子模型用于执行切片内任务调度过程；将实时获取到的网络资源信息和业务请求数据输入至所述联合优化决策模型，得到所述联合优化决策模型输出的网络切片最优策略解。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的网络切片优化处理方法，该方法包括：构建异构马尔可夫决策过程模型；构建分层深度强化学习架构；基于所述异构马尔可夫决策过程模型和所述分层深度强化学习架构构建联合优化决策模型；其中，所述联合优化决策模型包括上层子模型和下层子模型，所述上层子模型用于执行切片间资源分配过程，所述下层子模型用于执行切片内任务调度过程；将实时获取到的网络资源信息和业务请求数据输入至所述联合优化决策模型，得到所述联合优化决策模型输出的网络切片最优策略解。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种网络切片优化处理方法，其特征在于，包括：

基于所述异构马尔可夫决策过程模型和所述分层深度强化学习架构构建联合优化决策模型；其中，所述联合优化决策模型包括上层子模型和下层子模型，所述上层子模型用于执行切片间资源分配过程，所述下层子模型用于执行切片内任务调度过程；

将实时获取到的网络资源信息和业务请求数据输入至所述联合优化决策模型，得到所述联合优化决策模型输出的网络切片最优策略解。

2.根据权利要求1所述的网络切片优化处理方法，其特征在于，所述基于所述异构马尔可夫决策过程模型和所述分层深度强化学习架构构建联合优化决策模型的步骤中，具体包括：

3.根据权利要求2所述的网络切片优化处理方法，其特征在于，所述任务调度智能体用于通过所述下层子模型执行切片内任务调度过程的步骤中，具体包括：

4.根据权利要求3所述的网络切片优化处理方法，其特征在于，所述任务调度智能体包括第一任务调度智能体和第二任务调度智能体；其中，所述第一任务调度智能体用于通过所述下层子模型执行第一切片内任务调度过程，所述第二任务调度智能体用于通过所述下层子模型执行第二切片内任务调度过程。

5.根据权利要求4所述的网络切片优化处理方法，其特征在于，所述第一切片内任务调度过程与所述第二切片内任务调度过程为并行执行。

6.根据权利要求4所述的网络切片优化处理方法，其特征在于，所述第一切片内任务调度过程为基于eMBB业务的切片内任务调度过程，所述第二切片内任务调度过程为基于URLLC业务的切片内任务调度过程。

7.根据权利要求3-6任一项所述的网络切片优化处理方法，其特征在于，所述资源分配智能体在每一时步的奖励值等于这一时步期间所有任务调度智能体获得的累计奖励值。

8.一种网络切片优化处理系统，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述网络切片优化处理方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述网络切片优化处理方法的步骤。