CN113965945A

CN113965945A - 端到端网络切片的切换方法及系统

Info

Publication number: CN113965945A
Application number: CN202111146329.5A
Authority: CN
Inventors: 吴文君; 杨枫; 卢海静; 张延华; 司鹏搏; 孙阳; 高强
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-09-28
Filing date: 2021-09-28
Publication date: 2022-01-21

Abstract

本发明提供一种端到端网络切片的切换方法及系统，方法包括：基于预设的两层分布式切换决策框架，对端到端网络切片切换过程建模为分布式马尔可夫决策过程模型；其中，两层分布式切换决策框架包括本地切换请求层和切换准入决策层；采用基于多智能体深度强化学习的分布式切换算法对分布式马尔可夫决策过程模型进行求解，并根据求解结果对基于端到端网络切片的异构蜂窝网络系统执行切片分布式切换。本发明通过将分布式端到端网络切片切换决策问题建模为一个分布式马尔可夫决策过程模型，并采用基于多智能体深度强化学习的分布式切换算法进行求解，从而克服了现有切换算法的缺陷，为端到端网络切片的切换提供了有效的解决方案。

Description

端到端网络切片的切换方法及系统

技术领域

本发明涉及网络优化技术领域，尤其涉及一种端到端网络切片的切换方法及系统。

背景技术

在移动通信网络中，用户的接入切换一直是研究的热点。但现有的研究主要关注传统移动通信网络中的用户切换问题，而对于如何在基于端到端网络切片的软件定义移动通信网络中，进行用户接入切片的动态优化切换，保障用户业务的服务性能，还少有涉及。

目前，有一些关注端到端网络切片场景中的切换问题的研究，主要是采用基于表格的强化学习算法来设计端到端网络切片切换机制。现有的基于分布式Q-learning的网络切片切换算法中，由于Q表可存储的状态非常有限，而基于端到端网络切片的无线网络中，由于用户的移动和网络条件的变化，可能使得每个用户面临的网络状态信息非常复杂，这就导致随机博弈的状态空间将会非常大，则传统的基于分布式Q-learning的切换算法将不再适用。此外，分布式Q-learning的实现基于一个前提条件：状态空间和动作空间是离散的。但是，当单位带宽很小时，可能会面临连续状态空间的问题，在这种情况下，分布式Q-learning算法将很难收敛甚至无法工作。

综上所述，对于端到端网络切片的切换，目前尚未得到有效的解决方案。

发明内容

本发明提供一种端到端网络切片的切换方法、系统、电子设备及存储介质，用以解决上述技术问题，能够克服现有切换算法的缺陷，为端到端网络切片的切换提供有效的解决方案。

本发明提供一种端到端网络切片的切换方法，包括：

基于预设的两层分布式切换决策框架，对基于端到端网络切片的异构蜂窝网络系统的切片切换过程进行建模得到分布式马尔可夫决策过程模型；其中，所述两层分布式切换决策框架包括本地切换请求层和切换准入决策层，所述本地切换请求层用于通过各个用户设备的智能体生成切换决策请求并发送至所述切换准入决策层的集中控制器，所述切换准入决策层用于通过所述集中控制器根据所述切换决策请求进行切换准入决策处理；

采用基于多智能体深度强化学习的分布式切换算法对所述分布式马尔可夫决策过程模型进行优化求解得到分布式切换策略，继而基于所述分布式切换策略对所述基于端到端网络切片的异构蜂窝网络系统执行切片分布式切换。

根据本发明的端到端网络切片的切换方法，在所述采用基于多智能体深度强化学习的分布式切换算法对所述分布式马尔可夫决策过程模型进行优化求解得到分布式切换策略的步骤之前，还包括：

采用集中式训练并分布式执行的方式对所述基于多智能体深度强化学习的分布式切换算法进行训练；

其中，所述基于多智能体深度强化学习的分布式切换算法的训练过程具体包括：每一用户设备通过自身的智能体独立进行切换决策，并将产生的训练样本发送至所述集中控制器进行集中式训练，所述集中控制器将每次训练更新后的参数下发至每一所述用户设备，每一所述网络用户设备基于获得的参数对自身的智能体进行参数更新。

根据本发明的端到端网络切片的切换方法，所述基于多智能体深度强化学习的分布式切换算法为采用离线训练的模式；其中，在所述基于多智能体深度强化学习的分布式切换算法收敛后，所述用户设备不再发送训练样本至所述集中控制器。

根据本发明的端到端网络切片的切换方法，所述基于端到端网络切片的异构蜂窝网络系统包括无线接入网、核心网和互联网；其中，所述无线接入网包括基站和用户设备，所述基站包括宏基站、小基站、家庭基站。

根据本发明的端到端网络切片的切换方法，所述分布式马尔可夫决策过程模型的状态空间包括每个端到端网络切片在核心网和无线接入网的实时可用传输资源、用户设备的连接状态和服务质量需求、以及用户设备与基站之间的信道质量。

根据本发明的端到端网络切片的切换方法，所述分布式马尔可夫决策过程模型的奖励函数包括用户设备被服务利润因素、切换成本因素和中断惩罚因素。

根据本发明的端到端网络切片的切换方法，在所述基于端到端网络切片的异构蜂窝网络系统中，每一网络切片均部署有软件定义网络控制器，所述软件定义网络控制器用于处理所述网络切片的切换相关操作。

本发明还提供一种端到端网络切片的切换系统，包括：

模型构建模块，用于基于预设的两层分布式切换决策框架，对基于端到端网络切片的异构蜂窝网络系统的切片切换过程进行建模得到分布式马尔可夫决策过程模型；其中，所述两层分布式切换决策框架包括本地切换请求层和切换准入决策层，所述本地切换请求层用于通过各个用户设备的智能体生成切换决策请求并发送至所述切换准入决策层的集中控制器，所述切换准入决策层用于通过所述集中控制器根据所述切换决策请求进行切换准入决策处理；

切片切换模块，用于采用基于多智能体深度强化学习的分布式切换算法对所述分布式马尔可夫决策过程模型进行优化求解得到分布式切换策略，继而基于所述分布式切换策略对所述基于端到端网络切片的异构蜂窝网络系统执行切片分布式切换。

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述端到端网络切片的切换方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述端到端网络切片的切换方法的步骤。

本发明提供的端到端网络切片的切换方法、系统、电子设备及存储介质，通过基于两层分布式切换决策框架，将分布式端到端网络切片切换决策问题建模为一个分布式马尔可夫决策过程模型，并采用基于多智能体深度强化学习的分布式切换算法对所述分布式马尔可夫决策过程模型进行求解，从而克服了现有切换算法的缺陷，为端到端网络切片的切换提供了有效的解决方案。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的端到端网络切片的切换方法的流程示意图；

图2是本发明一实施例提供的基于端到端网络切片的异构蜂窝网络架构示意图；

图3是本发明一实施例提供的两层分布式切换决策框架示意图；

图4是本发明一实施例提供的MA-DDQN-DH算法的框架示意图；

图5是本发明一实施例提供的端到端网络切片场景中基于MA-DDQN-DH的切换流程示意图；

图6是本发明一实施例提供的端到端网络切片的切换系统的模型示意图；

图7是本发明一实施例提供的端到端网络切片的切换系统的结构示意图；

图8是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，目前，有一些少量的研究的确是在关注端到端网络切片场景中的切换问题，主要是采用基于表格的强化学习算法来设计端到端网络切片切换机制。首先，考虑到不同用户的接入选择将相互影响相互制约，结合移动通信应用场景下，动态的网络条件和业务需求对用户接入决策的影响，将网络中多个用户的接入切换建模为一个多人随机博弈问题，该问题的优化目标是最小化所有用户的累积切换成本。然后，使用分布式Q-learning算法来对该问题进行求解。在所提出的分布式Q-learning算法中，每个用户都是一个独立进行切换决策的智能体。同时，每个用户都需要维护一个独立的Q表，用于在发生切换时选择目标基站和切片。在分布式Q-learning算法的训练阶段，每个用户使用自己的Q表去和环境进行交互，从而产生训练数据去对自己的Q表进行更新。在自己的Q表收敛之前，每个用户以概率p＝(1-ε)基于自己的Q表去选择目标基站和切片，以概率p＝ε随机地选择目标基站和切片。一旦得到了收敛的Q表后，每个用户总是基于自己的Q表去选择目标基站和切片进行接入。

需要说明的是，用户的移动性管理是基于端到端网络切片的软件定义移动通信网络中一个重要的研究课题。如何在用户移动的场景下，设计高效的切换算法，将关系到用户乃至全网的性能。在基于端到端网络切片的新型网络架构中，由于引入了网络切片，切换机制与传统移动网络存在着根本的不同。首先，从服务模型来看，端到端网络切片需要保证所有用户的服务质量而不是传统的尽力而为模型。其次，从用户接入方面来看，用户应该通过特定的基站与某个网络切片相关联，从而形成一个用户-基站-网络切片三层接入关系。最后，在端到端网络切片架构下，需要考虑核心网部分的传输资源限制。由于这三点差异，传统的切换算法难以直接应用到端到端网络切片场景中。因此，设计专用于端到端网络切片场景中的切换算法以优化网络性能变得至关重要且富有挑战。

现有的基于分布式Q-learning的网络切片切换算法中，由于Q表可存储的状态非常有限，只有每个切片在每个基站上的无线接入网可用带宽信息被建模在切换随机博弈的状态中。然而，在基于网络切片的无线网络中，由于用户的移动和网络条件的变化，可能使得每个用户面临的网络状态信息非常复杂。为了更好地让用户感知网络环境和业务需求的变化，我们需要在切换随机博弈的状态中考虑用户的服务质量需求、已延迟时间、当前连接状态和每个网络切片在核心网和无线接入网的实时可用带宽等信息。此时，随机博弈的状态空间将会非常大，基于分布式Q-learning的切换算法将不再适用。此外，分布式Q-learning的实现基于一个前提条件：状态空间和动作空间是离散的。在基于分布式Q-learning的端到端网络切片切换算法中，通过将每个切片在每个基站上的无线接入网可用带宽表示为单位带宽的倍数，使其离散化。但是，当单位带宽很小，可能会面临连续状态空间的问题。在这种情况下，分布式Q-learning算法将很难收敛甚至无法工作。同时，由于考虑的状态信息有限，基于分布式Q-learning的网络切片切换算法的优化目标仅仅考虑了最小化累积切换成本。而为了最大化网络整体性能和保障用户的服务体验，往往需要考虑切换成本、中断概率和用户被服务的利润等因素综合的优化目标。

为了解决上述技术问题，如图1所示，本发明实施例提供一种端到端网络切片的切换方法，包括步骤：

S1、基于预设的两层分布式切换决策框架，对基于端到端网络切片的异构蜂窝网络系统的切片切换过程进行建模得到分布式马尔可夫决策过程模型；其中，所述两层分布式切换决策框架包括本地切换请求层和切换准入决策层，所述本地切换请求层用于通过各个用户设备的智能体生成切换决策请求并发送至所述切换准入决策层的集中控制器，所述切换准入决策层用于通过所述集中控制器根据所述切换决策请求进行切换准入决策处理。

在本发明实施例中，进一步地，所述基于端到端网络切片的异构蜂窝网络系统包括无线接入网、核心网和互联网；其中，所述无线接入网包括基站和用户设备，所述基站包括宏基站、小基站、家庭基站。

在本发明实施例中，进一步地，所述分布式马尔可夫决策过程模型的状态空间包括每个端到端网络切片在核心网和无线接入网的实时可用传输资源、用户设备的连接状态和服务质量需求、以及用户设备与基站之间的信道质量。

在本发明实施例中，进一步地，所述分布式马尔可夫决策过程模型的奖励函数包括用户设备被服务利润因素、切换成本因素和中断惩罚因素。

在本发明实施例中，进一步地，在所述基于端到端网络切片的异构蜂窝网络系统中，每一网络切片均部署有软件定义网络控制器，所述软件定义网络控制器用于处理所述网络切片的切换相关操作。

S2、采用基于多智能体深度强化学习的分布式切换算法对所述分布式马尔可夫决策过程模型进行优化求解得到分布式切换策略，继而基于所述分布式切换策略对所述基于端到端网络切片的异构蜂窝网络系统执行切片分布式切换。

在本发明实施例中，进一步地，在所述采用基于多智能体深度强化学习的分布式切换算法对所述分布式马尔可夫决策过程模型进行优化求解得到分布式切换策略的步骤之前，还包括步骤：

S110、采用集中式训练并分布式执行的方式对所述基于多智能体深度强化学习的分布式切换算法进行训练；

在本发明实施例中，进一步地，所述基于多智能体深度强化学习的分布式切换算法为采用离线训练的模式；其中，在所述基于多智能体深度强化学习的分布式切换算法收敛后，所述用户设备不再发送训练样本至所述集中控制器。

需要说明的是，在具体应用中，所述基于多智能体深度强化学习的分布式切换算法可以采用离线训练或在线训练的方式，作为优选方案，本实施例采用离线训练的方式，从而有效避免了用户数据隐私泄露的风险、减少了数据传输开销。

需要说明的是，本发明通过基于两层分布式切换决策框架，将分布式端到端网络切片切换决策问题建模为一个分布式马尔可夫决策过程模型，并采用基于多智能体深度强化学习的分布式切换算法对所述分布式马尔可夫决策过程模型进行求解，从而克服了现有切换算法的不足，为端到端网络切片的切换提供有效的解决方案。

需要说明的是，本发明主要改进点在于以下三个方面：

1)为了降低切换决策的复杂度、减少数据传输的开销和避免用户数据隐私泄露，本发明实施例提出了一个具有本地切换请求层和集中式切换准入决策层的两层分布式切换决策框架。在该框架下，分布式端到端网络切片切换过程被建模为一个分布式马尔可夫决策过程(Decentralized Markov Decision Process，DEC-MDP)，以最大化用户被服务利润、切换成本和中断惩罚综合的长期效用函数为优化目标。DEC-MDP的状态空间中包含了每个端到端网络切片在核心网和无线接入网的实时可用传输资源、用户的连接状态和服务质量需求、以及用户与每个基站之间的信道质量。同时，与服务质量保证相关的最小传输速率和最大可容忍延迟被建模在用户的业务需求和端到端网络切片的定义中，DEC-MDP的奖励函数中考虑了用户被服务的利润、切换成本和中断惩罚。

2)为了求解基于DEC-MDP的分布式切换决策问题，提出了一种基于多智能体Double DQN的分布式切换算法，在本发明实施例中，该算法取名为MA-DDQN-DH。在MA-DDQN-DH中，每个用户独立地进行切换决策，然后所有用户将自己的切换决策发送给集中控制器，最后集中控制器决定是否接受这些切换请求。为了利用在DEC-MDP模型中的所有智能体具有相同结构的优势，本发明实施例为MA-DDQN-DH设计了一种集中式训练和分布式执行的框架。训练器被部署在具有一个Q评估网络和一个Q目标网络的集中控制器上，每个用户都配备有一个与集中控制器上的Q评估网络的结构相同的Q评估网络，用于进行切换决策。在训练阶段，每个用户使用自己的Q评估网络独立地进行切换决策，并将产生的训练样本发送给集中控制器进行集中式训练。每次训练结束后，集中控制器将更新后的Q评估网络的参数下发给每个用户，每个用户基于获得的参数去更新自己的Q评估网络。在MA-DDQN-DH算法收敛后，每个用户将不再发送训练样本给集中控制器。由于训练过程可以离线完成，所以避免了用户数据隐私泄露的风险、减少了数据传输开销。同时，由于采用分布式切换决策架构，所以大大降低了决策的复杂度。

3)由于基于端到端网络切片的蜂窝网络与传统蜂窝网络之间的架构不同，本发明实施例给出了在基于端到端网络切片的蜂窝网络中MA-DDQN-DH切换机制的实现过程。在基于端到端网络切片的移动蜂窝网中，需要在每个端到端网络切片中部署一个软件定义网络(Software-Defined Networking，SDN)控制器用来处理切换的相关流程。与传统蜂窝网络不同，在基于切片的移动蜂窝网中的SDN控制器除了路由和转发之外，还可以负责切换的相关操作。在用户、基站和SDN控制器的协作下，本发明实施例给出了基于MA-DDQN-DH切换机制的流程图。

基于上述各实施例提供的端到端网络切片的切换方法，以下对本发明方案进行详细举例说明：

在如图2所示的基于端到端网络切片的异构蜂窝网络中，无线接入网(RadioAccess Network，RAN)由K_M个宏基站(Macro Base Station，MBS)、K_P个小基站(Pico BaseStation，PBS)、K_F个家庭基站(Femto Base Station，FBS)和U个用户设备(UserEquipment，UE)组成。网络中的所有UE都以随机的速度和方向进行移动。同时，网络中部署了N个端到端网络切片(Network Slice，NS)，每个端到端NS都由一个RAN子切片和一个核心网子切片组成。所有NS共享相同的物理传输资源，包括RAN的无线传输带宽和功率，以及核心网中的传输带宽。一个端到端NS的RAN子切片可以覆盖K′个BS，一个BS上也可能部署多个不同的RAN子切片。因此，在系统中总共有K′×N个BS-NS对。每个BS的无线传输资源将根据需求被分配给部署在其上的所有NS。此外，BS、NS、UE和BS-NS对的集合分别表示为

和

其中K＝K_M+K_P+K_F。如果b_k是n_i覆盖的第k′个BS，那么b_k和n_i对应的BS-NS对的序号是l＝(i-1)K′+k′。

当UE到达网络时，需要选择一个满足自身业务服务需求的BS-NS对接入网络。在实际的网络中，网络条件和用户业务需求动态变化，使得UE到不同BS的信道条件以及不同NS中的可用资源情况不断变化。因此，为了保证UE的接入和传输性能，需要根据UE的接入信道条件和可用资源情况，进行UE接入BS-NS对的动态切换。本发明实施例将网络切片切换问题建模为一个DEC-MDP模型，并提出了一种基于多智能体深度强化学习的分布式网络切片切换算法，取名为MA-DDQN-DH。

首先，本发明实施例设计了一个两层切换决策过程。如图3所示，所有UE形成本地切换请求层，集中控制器(例如，SDN控制器)是切换准入决策层。在每个时间步的开始，每个UE独立地做出自己的切换决策，根据当前的网络状态决定是否需要切换BS-NS对。同时，所有UE将自己的切换请求发送给集中控制器。集中控制器收集到来自所有UE的切换请求之后，根据每个BS-NS对的资源状态决定是否允许每个切换请求。具体地，集中控制器按照UE队列的顺序做序贯切换准入决策。此外，我们假设UE队列的初始顺序是随机的。如果UE在当前时间步成功地切换到目标BS-NS对，它会被移动到UE队列的最后。如果UE在当前时间步选择的BS-NS对与在上一个时间步连接的BS-NS对相同，则认为UE在当前时间步选择不进行切换。

然后，我们将网络切片切换问题建模为一个DEC-MDP，以最大化与UE被服务的利润、切换成本和中断惩罚相关的平均累积奖励为优化目标。DEC-MDP切换模型可以用一个元组

来表示，元组中各个元素的详细定义如下：

1)

是本地切换决策智能体的集合，与系统中UE的集合相同。

2)S＝S_{NS×j∈[1,U]}S_j是状态的集合，S_j是u_j的局部状态的集合，S_NS是所有BS-NS对和集中控制器的状态的集合。

3)A＝×_j∈[1,U]A_j是所有UE的联合动作的集合，

是u_j的动作的集合。假设所有UE具有相同的动作集合，所有UE的联合动作被定义为a＝(a₁,…,a_U)。

4)P是状态转移概率。P(s,a,s′)是通过采取联合动作a从状态

转移到状态

的状态转移概率。

5)R是奖励函数，r＝R(s,a,s′)是在状态s下采取联合动作a转移到状态s′后获得的奖励值。

6)O＝×_j∈[1,U]O_j是所有智能体的观测的集合，

是u_j的观测的集合。o＝(o₁,...,o_U)表示所有UE的联合观测，其中o_j是u_j的观测。

7)Ω是观测概率。P(s,a,s′,o′)是在状态s下采取联合动作a转移到状态s′后观测到o′的概率。

具体地，状态、动作和奖励的详细定义如下。

在时间步t的状态被表示为

其中

被定义为：

α_l(t)和β_l(t)分别表示BS-NS对h_l在核心网和RAN的实时可用带宽，φ_l(t)表示BS-NS对h_l可提供的服务类型。

被定义为：

和

分别表示当u_j接入BS-NS对h_l时为保证业务的服务质量需求所需的核心网带宽和RAN带宽，I_j(t)表示u_j当前连接的BS-NS对，d_j(t)表示u_j发生一次中断前的剩余延迟时间，q_j(t)表示u_j在UE队列中的顺序。

在每个时间步t，每个UE需要选择一个BS-NS对接入到网络，u_j的动作被定义为

在时间步t时所有UE的联合动作被定义为

在奖励函数的定义中，UE被服务的利润C₁、切换成本C₂和中断惩罚C₃三种效用被考虑。对于每个本地决策智能体，u_j在采取动作

之后，会获得立即奖励

被定义为：

γ₁、γ₂和γ₃分别为C₁、C₂和C₃的权重。

是除了u_j的局部状态

之外的全局状态，

是除了u_j的动作

之外的联合动作，这两个向量表示了u_j的奖励依赖于其他UE的状态和动作。联合所有UE的局部奖励，在时间步t的系统奖励向量是

基于上面的定义，DEC-MDP的优化目标是最大化所有UE获得的累积奖励，这可以表示为：

其中T是DEC-MDP的一个情节的持续时长。

可以理解的是，虽然很难从数学上推导出DEC-MDP模型下的分布式切换过程的最优决策策略，但多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning，MA-DRL)算法是获得此类问题近似解的有效方法。由于基于DEC-MDP的分布式切换过程从系统信息交换的角度来看是可行的，因此基于MA-DRL的分布式切换算法具有实际意义。

在本发明中，Double DQN被用作本地切换决策智能体，所提出的切换算法被命名为MA-DDQN-DH。根据DEC-MDP模型中所有UE的局部观测、动作和奖励的定义，可以使用相同的神经网络结构设计所有的本地智能体。有了这种便利，所有智能体的经验可以收集在一起，并在集中控制器上训练一个Double DQN。同时，每个UE仅配备Q评估网络，该网络与在集中控制器处训练的网络相同。因此，MA-DDQN-DH算法采用集中式训练和分布式执行的框架，如图4所示。

训练过程中的一个时间步如下所示。

1)分布式经验收集阶段：在时间步t，u_j基于观测

使用ε-greedy策略选择一个动作

即，

然后，所有UE发送他们的动作到集中控制器。在集中控制器做完切换准入决策之后，每个UE执行最终的动作，同时获得相应的奖励

最后，系统状态转移到s^t+1，u_j得到更新后的观测

在这个时间步，每个UE得到经验

其中x是在

中经验d_x的索引。然后，所有经验被发送到集中控制器，并存储到经验回放

中。

2)集中式训练阶段：首先，集中控制器从经验回放

中随机地采样一个小批次经验

这包含了W个经验，其中d_w＝(o_w,a_w,r_w,o_w′)。然后，集中控制器计算每个经验样本的目标值为：

其中γ∈(0,1]是折扣因子，θ_t和

分别表示Q评估网络和Q目标网络的参数。在计算完小批次

中所有经验的目标值之后，随机梯度下降算法被用来更新参数θ_t为：

其中α表示学习率。

3)参数更新阶段：集中控制器发送参数θ_t+1给每个UE，从而去更新本地Q评估网络。此外，Q目标网络的参数

每

个时间步更新一次。

在测试过程中，每个UE使用训练好的Q评估网络基于ε-greedy策略去选择动作。在实际应用中，MA-DDQN-DH算法可以事先进行训练，然后部署在实际的通信系统中使用。由于每个UE在测试阶段仅利用其局部观测值进行决策，而不向集中式控制器发送任何本地数据，因此所提出的MA-DDQN-DH算法保护了用户隐私。

最后，本发明实施例说明了MA-DDQN-DH机制在实际通信系统中的实现。在UE、BS和SDN控制器的协作下，基于MA-DDQN-DH切换机制的流程图如图5所示。

具体来说，集中控制器在每个时间步的开始将系统状态广播给所有UE。然后，每个UE根据系统状态和UE状态基于自己的Q评估网络做出切换决策，并将切换请求发送给集中控制器。集中控制器收集到来自所有UE的切换请求后，按照UE队列的顺序为所有UE进行序贯切换准入决策。如果集中控制器拒绝某个UE的切换请求，会直接向该UE发送“切换失败”的信令，该UE将保持现有连接状态。如果集中控制器接收某个UE的切换请求，那么集中控制器会将切换请求发送给该UE的目标基站和目标SDN控制器。在得到并确认请求之后，由目标和源SDN控制器配合执行该切换。最后，源SDN控制器释放源BS和NS的资源。在所有UE的切换过程完成后，集中控制器更新系统状态。在图5中，u₁和u_U表示集中控制器允许切换请求的情况，u_j表示集中控制器拒绝切换请求的情况。

请参见图6，其为本发明实施例的端到端网络切片的切换系统的模型示意图，该系统模型包括集中式控制器模块、本地切换决策模块和网络控制模块；其中：

集中式控制器模块包括集中式准入决策模块和集中式训练模块，集中式准入决策模块包括源SDN控制器和目标SND控制器，集中式训练模块包括网络信息采集单元、数据发送单元(用于发送系统状态信息至本地切换决策模块的数据接收单元，以及发送模型参数至切换决策单元)、模型训练单元和数据接收单元；

本地切换决策模块包括数据接收单元、用户信息检测单元、切换决策单元、数据发送单元(用于发送经验样本至集中式训练模块)、信令发送单元、信令接收单元和切换执行单元；

网络控制模块包括源基站控制器和目标基站控制器。

其中，集中控制器模块通过网络信息采集单元采集网络系统状态，并在每个时间步的开始通过数据发送单元将系统状态广播给所有UE，UE的本地切换决策模块通过数据接收单元接收到系统状态信息。

然后，每个UE根据系统状态和UE状态(由用户信息检测单元采集)通过自身的切换决策单元做出切换决策，并通过信令发送单元将切换请求经过网络控制模块的目标基站控制器发送给集中控制器模块的目标SDN控制器。

集中控制器模块收集到来自所有UE的切换请求后，按照UE队列的顺序为所有UE进行序贯切换准入决策，将切换请求发送给目标SDN控制器。在得到并确认请求之后，由目标和源SDN控制器配合执行该切换。最后，源SDN控制器释放源BS和NS的资源。

与现有技术相比，本发明实施例具有如下有益效果：

本发明实施例主要优势是将切片化的异构蜂窝网络中的分布式切换决策问题建模为一个DEC-MDP模型，并基于多智能体深度强化学习算法提出了一种分布式智能切换策略。

首先，从复杂性、开销和隐私性等方面研究了异构蜂窝网络中端到端网络切片的分布式切换决策问题。我们考虑了一个具有本地切换请求层和集中式切换准入决策层的两层分布式切换决策框架。该框架中的分布式端到端网络切片切换决策过程被建模为DEC-MDP。由于DEC-MDP中的局部观测比全局状态简单得多，因此可以大大降低决策复杂度。同时，本地决策不需要向集中控制器发送实时信息，减少了通信开销，有助于保护用户隐私。

然后，本发明实施例提出了基于DEC-MDP的分布式切换决策过程的MA-DDQN-DH算法。利用DEC-MDP模型中所有本地智能体具有相同结构的优点，设计了MA-DDQN-DH算法的集中式训练和分布式执行框架。部署在集中控制器上的训练器拥有一个DDQN，每个UE仅配备一个Q评估网络，该网络的结构与在集中控制器上训练的Q评估网络相同。

最后，考虑到基于端到端网络切片的异构蜂窝网络与传统蜂窝网络之间的架构不同，我们详细阐述了基于端到端网络切片的异构蜂窝网络中MA-DDQN-DH切换机制的实现过程。同时，本发明实施例给出了基于MA-DDQN-DH切换机制的流程图。

综合而言，本发明将分布式端到端网络切片切换决策问题建模为一个DEC-MDP模型，并基于多智能体深度强化学习理论对该DEC-MDP模型进行求解，提出了一种新型的端到端网络切片切换算法，完善了现有切换算法的不足，为端到端网络切片的切换提供了有效的解决方案。

下面对本发明提供的端到端网络切片的切换系统进行描述，下文描述的端到端网络切片的切换系统与上文描述的端到端网络切片的切换方法可相互对应参照。

请参见图7，本发明实施例提供了一种端到端网络切片的切换系统，包括：

模型构建模块1，用于基于预设的两层分布式切换决策框架，对基于端到端网络切片的异构蜂窝网络系统的切片切换过程进行建模得到分布式马尔可夫决策过程模型；其中，所述两层分布式切换决策框架包括本地切换请求层和切换准入决策层，所述本地切换请求层用于通过各个用户设备的智能体生成切换决策请求并发送至所述切换准入决策层的集中控制器，所述切换准入决策层用于通过所述集中控制器根据所述切换决策请求进行切换准入决策处理；

切片切换模块2，用于采用基于多智能体深度强化学习的分布式切换算法对所述分布式马尔可夫决策过程模型进行优化求解得到分布式切换策略，继而基于所述分布式切换策略对所述基于端到端网络切片的异构蜂窝网络系统执行切片分布式切换。

在本发明实施例中，进一步地，所述端到端网络切片的切换系统还包括算法训练模块，用于采用集中式训练并分布式执行的方式对所述基于多智能体深度强化学习的分布式切换算法进行训练；

本案实施例的端到端网络切片的切换系统的工作原理与上述实施例的端到端网络切片的切换方法是相应的，此处不再一一赘述。

图8示例了一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行所述的端到端网络切片的切换方法，该方法包括：基于预设的两层分布式切换决策框架，对基于端到端网络切片的异构蜂窝网络系统的切片切换过程进行建模得到分布式马尔可夫决策过程模型；其中，所述两层分布式切换决策框架包括本地切换请求层和切换准入决策层，所述本地切换请求层用于通过各个用户设备的智能体生成切换决策请求并发送至所述切换准入决策层的集中控制器，所述切换准入决策层用于通过所述集中控制器根据所述切换决策请求进行切换准入决策处理；

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各实施例所提供的端到端网络切片的切换方法，该方法包括：基于预设的两层分布式切换决策框架，对基于端到端网络切片的异构蜂窝网络系统的切片切换过程进行建模得到分布式马尔可夫决策过程模型；其中，所述两层分布式切换决策框架包括本地切换请求层和切换准入决策层，所述本地切换请求层用于通过各个用户设备的智能体生成切换决策请求并发送至所述切换准入决策层的集中控制器，所述切换准入决策层用于通过所述集中控制器根据所述切换决策请求进行切换准入决策处理；

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的端到端网络切片的切换方法，该方法包括：基于预设的两层分布式切换决策框架，对基于端到端网络切片的异构蜂窝网络系统的切片切换过程进行建模得到分布式马尔可夫决策过程模型；其中，所述两层分布式切换决策框架包括本地切换请求层和切换准入决策层，所述本地切换请求层用于通过各个用户设备的智能体生成切换决策请求并发送至所述切换准入决策层的集中控制器，所述切换准入决策层用于通过所述集中控制器根据所述切换决策请求进行切换准入决策处理；

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种端到端网络切片的切换方法，其特征在于，包括：

2.根据权利要求1所述的端到端网络切片的切换方法，其特征在于，在所述采用基于多智能体深度强化学习的分布式切换算法对所述分布式马尔可夫决策过程模型进行优化求解得到分布式切换策略的步骤之前，还包括：

3.根据权利要求1所述的端到端网络切片的切换方法，其特征在于，所述基于多智能体深度强化学习的分布式切换算法为采用离线训练的模式；其中，在所述基于多智能体深度强化学习的分布式切换算法收敛后，所述用户设备不再发送训练样本至所述集中控制器。

4.根据权利要求1所述的端到端网络切片的切换方法，其特征在于，所述基于端到端网络切片的异构蜂窝网络系统包括无线接入网、核心网和互联网；其中，所述无线接入网包括基站和用户设备，所述基站包括宏基站、小基站、家庭基站。

5.根据权利要求1所述的端到端网络切片的切换方法，其特征在于，所述分布式马尔可夫决策过程模型的状态空间包括每个端到端网络切片在核心网和无线接入网的实时可用传输资源、用户设备的连接状态和服务质量需求、以及用户设备与基站之间的信道质量。

6.根据权利要求1所述的端到端网络切片的切换方法，其特征在于，所述分布式马尔可夫决策过程模型的奖励函数包括用户设备被服务利润因素、切换成本因素和中断惩罚因素。

7.根据权利要求1所述的端到端网络切片的切换方法，其特征在于，在所述基于端到端网络切片的异构蜂窝网络系统中，每一网络切片均部署有软件定义网络控制器，所述软件定义网络控制器用于处理所述网络切片的切换相关操作。

8.一种端到端网络切片的切换系统，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述端到端网络切片的切换方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述端到端网络切片的切换方法的步骤。