CN113965945A - 端到端网络切片的切换方法及系统 - Google Patents
端到端网络切片的切换方法及系统 Download PDFInfo
- Publication number
- CN113965945A CN113965945A CN202111146329.5A CN202111146329A CN113965945A CN 113965945 A CN113965945 A CN 113965945A CN 202111146329 A CN202111146329 A CN 202111146329A CN 113965945 A CN113965945 A CN 113965945A
- Authority
- CN
- China
- Prior art keywords
- switching
- distributed
- decision
- network
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/02—Arrangements for optimising operational condition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/0893—Assignment of logical groups to network elements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W36/00—Hand-off or reselection arrangements
- H04W36/16—Performing reselection for specific purposes
- H04W36/22—Performing reselection for specific purposes for handling the traffic
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computer Networks & Wireless Communication (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明提供一种端到端网络切片的切换方法及系统,方法包括:基于预设的两层分布式切换决策框架,对端到端网络切片切换过程建模为分布式马尔可夫决策过程模型;其中,两层分布式切换决策框架包括本地切换请求层和切换准入决策层;采用基于多智能体深度强化学习的分布式切换算法对分布式马尔可夫决策过程模型进行求解,并根据求解结果对基于端到端网络切片的异构蜂窝网络系统执行切片分布式切换。本发明通过将分布式端到端网络切片切换决策问题建模为一个分布式马尔可夫决策过程模型,并采用基于多智能体深度强化学习的分布式切换算法进行求解,从而克服了现有切换算法的缺陷,为端到端网络切片的切换提供了有效的解决方案。
Description
技术领域
本发明涉及网络优化技术领域,尤其涉及一种端到端网络切片的切换方法及系统。
背景技术
在移动通信网络中,用户的接入切换一直是研究的热点。但现有的研究主要关注传统移动通信网络中的用户切换问题,而对于如何在基于端到端网络切片的软件定义移动通信网络中,进行用户接入切片的动态优化切换,保障用户业务的服务性能,还少有涉及。
目前,有一些关注端到端网络切片场景中的切换问题的研究,主要是采用基于表格的强化学习算法来设计端到端网络切片切换机制。现有的基于分布式Q-learning的网络切片切换算法中,由于Q表可存储的状态非常有限,而基于端到端网络切片的无线网络中,由于用户的移动和网络条件的变化,可能使得每个用户面临的网络状态信息非常复杂,这就导致随机博弈的状态空间将会非常大,则传统的基于分布式Q-learning的切换算法将不再适用。此外,分布式Q-learning的实现基于一个前提条件:状态空间和动作空间是离散的。但是,当单位带宽很小时,可能会面临连续状态空间的问题,在这种情况下,分布式Q-learning算法将很难收敛甚至无法工作。
综上所述,对于端到端网络切片的切换,目前尚未得到有效的解决方案。
发明内容
本发明提供一种端到端网络切片的切换方法、系统、电子设备及存储介质,用以解决上述技术问题,能够克服现有切换算法的缺陷,为端到端网络切片的切换提供有效的解决方案。
本发明提供一种端到端网络切片的切换方法,包括:
基于预设的两层分布式切换决策框架,对基于端到端网络切片的异构蜂窝网络系统的切片切换过程进行建模得到分布式马尔可夫决策过程模型;其中,所述两层分布式切换决策框架包括本地切换请求层和切换准入决策层,所述本地切换请求层用于通过各个用户设备的智能体生成切换决策请求并发送至所述切换准入决策层的集中控制器,所述切换准入决策层用于通过所述集中控制器根据所述切换决策请求进行切换准入决策处理;
采用基于多智能体深度强化学习的分布式切换算法对所述分布式马尔可夫决策过程模型进行优化求解得到分布式切换策略,继而基于所述分布式切换策略对所述基于端到端网络切片的异构蜂窝网络系统执行切片分布式切换。
根据本发明的端到端网络切片的切换方法,在所述采用基于多智能体深度强化学习的分布式切换算法对所述分布式马尔可夫决策过程模型进行优化求解得到分布式切换策略的步骤之前,还包括:
采用集中式训练并分布式执行的方式对所述基于多智能体深度强化学习的分布式切换算法进行训练;
其中,所述基于多智能体深度强化学习的分布式切换算法的训练过程具体包括:每一用户设备通过自身的智能体独立进行切换决策,并将产生的训练样本发送至所述集中控制器进行集中式训练,所述集中控制器将每次训练更新后的参数下发至每一所述用户设备,每一所述网络用户设备基于获得的参数对自身的智能体进行参数更新。
根据本发明的端到端网络切片的切换方法,所述基于多智能体深度强化学习的分布式切换算法为采用离线训练的模式;其中,在所述基于多智能体深度强化学习的分布式切换算法收敛后,所述用户设备不再发送训练样本至所述集中控制器。
根据本发明的端到端网络切片的切换方法,所述基于端到端网络切片的异构蜂窝网络系统包括无线接入网、核心网和互联网;其中,所述无线接入网包括基站和用户设备,所述基站包括宏基站、小基站、家庭基站。
根据本发明的端到端网络切片的切换方法,所述分布式马尔可夫决策过程模型的状态空间包括每个端到端网络切片在核心网和无线接入网的实时可用传输资源、用户设备的连接状态和服务质量需求、以及用户设备与基站之间的信道质量。
根据本发明的端到端网络切片的切换方法,所述分布式马尔可夫决策过程模型的奖励函数包括用户设备被服务利润因素、切换成本因素和中断惩罚因素。
根据本发明的端到端网络切片的切换方法,在所述基于端到端网络切片的异构蜂窝网络系统中,每一网络切片均部署有软件定义网络控制器,所述软件定义网络控制器用于处理所述网络切片的切换相关操作。
本发明还提供一种端到端网络切片的切换系统,包括:
模型构建模块,用于基于预设的两层分布式切换决策框架,对基于端到端网络切片的异构蜂窝网络系统的切片切换过程进行建模得到分布式马尔可夫决策过程模型;其中,所述两层分布式切换决策框架包括本地切换请求层和切换准入决策层,所述本地切换请求层用于通过各个用户设备的智能体生成切换决策请求并发送至所述切换准入决策层的集中控制器,所述切换准入决策层用于通过所述集中控制器根据所述切换决策请求进行切换准入决策处理;
切片切换模块,用于采用基于多智能体深度强化学习的分布式切换算法对所述分布式马尔可夫决策过程模型进行优化求解得到分布式切换策略,继而基于所述分布式切换策略对所述基于端到端网络切片的异构蜂窝网络系统执行切片分布式切换。
本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述端到端网络切片的切换方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述端到端网络切片的切换方法的步骤。
本发明提供的端到端网络切片的切换方法、系统、电子设备及存储介质,通过基于两层分布式切换决策框架,将分布式端到端网络切片切换决策问题建模为一个分布式马尔可夫决策过程模型,并采用基于多智能体深度强化学习的分布式切换算法对所述分布式马尔可夫决策过程模型进行求解,从而克服了现有切换算法的缺陷,为端到端网络切片的切换提供了有效的解决方案。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的端到端网络切片的切换方法的流程示意图;
图2是本发明一实施例提供的基于端到端网络切片的异构蜂窝网络架构示意图;
图3是本发明一实施例提供的两层分布式切换决策框架示意图;
图4是本发明一实施例提供的MA-DDQN-DH算法的框架示意图;
图5是本发明一实施例提供的端到端网络切片场景中基于MA-DDQN-DH的切换流程示意图;
图6是本发明一实施例提供的端到端网络切片的切换系统的模型示意图;
图7是本发明一实施例提供的端到端网络切片的切换系统的结构示意图;
图8是本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,目前,有一些少量的研究的确是在关注端到端网络切片场景中的切换问题,主要是采用基于表格的强化学习算法来设计端到端网络切片切换机制。首先,考虑到不同用户的接入选择将相互影响相互制约,结合移动通信应用场景下,动态的网络条件和业务需求对用户接入决策的影响,将网络中多个用户的接入切换建模为一个多人随机博弈问题,该问题的优化目标是最小化所有用户的累积切换成本。然后,使用分布式Q-learning算法来对该问题进行求解。在所提出的分布式Q-learning算法中,每个用户都是一个独立进行切换决策的智能体。同时,每个用户都需要维护一个独立的Q表,用于在发生切换时选择目标基站和切片。在分布式Q-learning算法的训练阶段,每个用户使用自己的Q表去和环境进行交互,从而产生训练数据去对自己的Q表进行更新。在自己的Q表收敛之前,每个用户以概率p=(1-ε)基于自己的Q表去选择目标基站和切片,以概率p=ε随机地选择目标基站和切片。一旦得到了收敛的Q表后,每个用户总是基于自己的Q表去选择目标基站和切片进行接入。
需要说明的是,用户的移动性管理是基于端到端网络切片的软件定义移动通信网络中一个重要的研究课题。如何在用户移动的场景下,设计高效的切换算法,将关系到用户乃至全网的性能。在基于端到端网络切片的新型网络架构中,由于引入了网络切片,切换机制与传统移动网络存在着根本的不同。首先,从服务模型来看,端到端网络切片需要保证所有用户的服务质量而不是传统的尽力而为模型。其次,从用户接入方面来看,用户应该通过特定的基站与某个网络切片相关联,从而形成一个用户-基站-网络切片三层接入关系。最后,在端到端网络切片架构下,需要考虑核心网部分的传输资源限制。由于这三点差异,传统的切换算法难以直接应用到端到端网络切片场景中。因此,设计专用于端到端网络切片场景中的切换算法以优化网络性能变得至关重要且富有挑战。
现有的基于分布式Q-learning的网络切片切换算法中,由于Q表可存储的状态非常有限,只有每个切片在每个基站上的无线接入网可用带宽信息被建模在切换随机博弈的状态中。然而,在基于网络切片的无线网络中,由于用户的移动和网络条件的变化,可能使得每个用户面临的网络状态信息非常复杂。为了更好地让用户感知网络环境和业务需求的变化,我们需要在切换随机博弈的状态中考虑用户的服务质量需求、已延迟时间、当前连接状态和每个网络切片在核心网和无线接入网的实时可用带宽等信息。此时,随机博弈的状态空间将会非常大,基于分布式Q-learning的切换算法将不再适用。此外,分布式Q-learning的实现基于一个前提条件:状态空间和动作空间是离散的。在基于分布式Q-learning的端到端网络切片切换算法中,通过将每个切片在每个基站上的无线接入网可用带宽表示为单位带宽的倍数,使其离散化。但是,当单位带宽很小,可能会面临连续状态空间的问题。在这种情况下,分布式Q-learning算法将很难收敛甚至无法工作。同时,由于考虑的状态信息有限,基于分布式Q-learning的网络切片切换算法的优化目标仅仅考虑了最小化累积切换成本。而为了最大化网络整体性能和保障用户的服务体验,往往需要考虑切换成本、中断概率和用户被服务的利润等因素综合的优化目标。
为了解决上述技术问题,如图1所示,本发明实施例提供一种端到端网络切片的切换方法,包括步骤:
S1、基于预设的两层分布式切换决策框架,对基于端到端网络切片的异构蜂窝网络系统的切片切换过程进行建模得到分布式马尔可夫决策过程模型;其中,所述两层分布式切换决策框架包括本地切换请求层和切换准入决策层,所述本地切换请求层用于通过各个用户设备的智能体生成切换决策请求并发送至所述切换准入决策层的集中控制器,所述切换准入决策层用于通过所述集中控制器根据所述切换决策请求进行切换准入决策处理。
在本发明实施例中,进一步地,所述基于端到端网络切片的异构蜂窝网络系统包括无线接入网、核心网和互联网;其中,所述无线接入网包括基站和用户设备,所述基站包括宏基站、小基站、家庭基站。
在本发明实施例中,进一步地,所述分布式马尔可夫决策过程模型的状态空间包括每个端到端网络切片在核心网和无线接入网的实时可用传输资源、用户设备的连接状态和服务质量需求、以及用户设备与基站之间的信道质量。
在本发明实施例中,进一步地,所述分布式马尔可夫决策过程模型的奖励函数包括用户设备被服务利润因素、切换成本因素和中断惩罚因素。
在本发明实施例中,进一步地,在所述基于端到端网络切片的异构蜂窝网络系统中,每一网络切片均部署有软件定义网络控制器,所述软件定义网络控制器用于处理所述网络切片的切换相关操作。
S2、采用基于多智能体深度强化学习的分布式切换算法对所述分布式马尔可夫决策过程模型进行优化求解得到分布式切换策略,继而基于所述分布式切换策略对所述基于端到端网络切片的异构蜂窝网络系统执行切片分布式切换。
在本发明实施例中,进一步地,在所述采用基于多智能体深度强化学习的分布式切换算法对所述分布式马尔可夫决策过程模型进行优化求解得到分布式切换策略的步骤之前,还包括步骤:
S110、采用集中式训练并分布式执行的方式对所述基于多智能体深度强化学习的分布式切换算法进行训练;
其中,所述基于多智能体深度强化学习的分布式切换算法的训练过程具体包括:每一用户设备通过自身的智能体独立进行切换决策,并将产生的训练样本发送至所述集中控制器进行集中式训练,所述集中控制器将每次训练更新后的参数下发至每一所述用户设备,每一所述网络用户设备基于获得的参数对自身的智能体进行参数更新。
在本发明实施例中,进一步地,所述基于多智能体深度强化学习的分布式切换算法为采用离线训练的模式;其中,在所述基于多智能体深度强化学习的分布式切换算法收敛后,所述用户设备不再发送训练样本至所述集中控制器。
需要说明的是,在具体应用中,所述基于多智能体深度强化学习的分布式切换算法可以采用离线训练或在线训练的方式,作为优选方案,本实施例采用离线训练的方式,从而有效避免了用户数据隐私泄露的风险、减少了数据传输开销。
需要说明的是,本发明通过基于两层分布式切换决策框架,将分布式端到端网络切片切换决策问题建模为一个分布式马尔可夫决策过程模型,并采用基于多智能体深度强化学习的分布式切换算法对所述分布式马尔可夫决策过程模型进行求解,从而克服了现有切换算法的不足,为端到端网络切片的切换提供有效的解决方案。
需要说明的是,本发明主要改进点在于以下三个方面:
1)为了降低切换决策的复杂度、减少数据传输的开销和避免用户数据隐私泄露,本发明实施例提出了一个具有本地切换请求层和集中式切换准入决策层的两层分布式切换决策框架。在该框架下,分布式端到端网络切片切换过程被建模为一个分布式马尔可夫决策过程(Decentralized Markov Decision Process,DEC-MDP),以最大化用户被服务利润、切换成本和中断惩罚综合的长期效用函数为优化目标。DEC-MDP的状态空间中包含了每个端到端网络切片在核心网和无线接入网的实时可用传输资源、用户的连接状态和服务质量需求、以及用户与每个基站之间的信道质量。同时,与服务质量保证相关的最小传输速率和最大可容忍延迟被建模在用户的业务需求和端到端网络切片的定义中,DEC-MDP的奖励函数中考虑了用户被服务的利润、切换成本和中断惩罚。
2)为了求解基于DEC-MDP的分布式切换决策问题,提出了一种基于多智能体Double DQN的分布式切换算法,在本发明实施例中,该算法取名为MA-DDQN-DH。在MA-DDQN-DH中,每个用户独立地进行切换决策,然后所有用户将自己的切换决策发送给集中控制器,最后集中控制器决定是否接受这些切换请求。为了利用在DEC-MDP模型中的所有智能体具有相同结构的优势,本发明实施例为MA-DDQN-DH设计了一种集中式训练和分布式执行的框架。训练器被部署在具有一个Q评估网络和一个Q目标网络的集中控制器上,每个用户都配备有一个与集中控制器上的Q评估网络的结构相同的Q评估网络,用于进行切换决策。在训练阶段,每个用户使用自己的Q评估网络独立地进行切换决策,并将产生的训练样本发送给集中控制器进行集中式训练。每次训练结束后,集中控制器将更新后的Q评估网络的参数下发给每个用户,每个用户基于获得的参数去更新自己的Q评估网络。在MA-DDQN-DH算法收敛后,每个用户将不再发送训练样本给集中控制器。由于训练过程可以离线完成,所以避免了用户数据隐私泄露的风险、减少了数据传输开销。同时,由于采用分布式切换决策架构,所以大大降低了决策的复杂度。
3)由于基于端到端网络切片的蜂窝网络与传统蜂窝网络之间的架构不同,本发明实施例给出了在基于端到端网络切片的蜂窝网络中MA-DDQN-DH切换机制的实现过程。在基于端到端网络切片的移动蜂窝网中,需要在每个端到端网络切片中部署一个软件定义网络(Software-Defined Networking,SDN)控制器用来处理切换的相关流程。与传统蜂窝网络不同,在基于切片的移动蜂窝网中的SDN控制器除了路由和转发之外,还可以负责切换的相关操作。在用户、基站和SDN控制器的协作下,本发明实施例给出了基于MA-DDQN-DH切换机制的流程图。
基于上述各实施例提供的端到端网络切片的切换方法,以下对本发明方案进行详细举例说明:
在如图2所示的基于端到端网络切片的异构蜂窝网络中,无线接入网(RadioAccess Network,RAN)由KM个宏基站(Macro Base Station,MBS)、KP个小基站(Pico BaseStation,PBS)、KF个家庭基站(Femto Base Station,FBS)和U个用户设备(UserEquipment,UE)组成。网络中的所有UE都以随机的速度和方向进行移动。同时,网络中部署了N个端到端网络切片(Network Slice,NS),每个端到端NS都由一个RAN子切片和一个核心网子切片组成。所有NS共享相同的物理传输资源,包括RAN的无线传输带宽和功率,以及核心网中的传输带宽。一个端到端NS的RAN子切片可以覆盖K′个BS,一个BS上也可能部署多个不同的RAN子切片。因此,在系统中总共有K′×N个BS-NS对。每个BS的无线传输资源将根据需求被分配给部署在其上的所有NS。此外,BS、NS、UE和BS-NS对的集合分别表示为和其中K=KM+KP+KF。如果bk是ni覆盖的第k′个BS,那么bk和ni对应的BS-NS对的序号是l=(i-1)K′+k′。
当UE到达网络时,需要选择一个满足自身业务服务需求的BS-NS对接入网络。在实际的网络中,网络条件和用户业务需求动态变化,使得UE到不同BS的信道条件以及不同NS中的可用资源情况不断变化。因此,为了保证UE的接入和传输性能,需要根据UE的接入信道条件和可用资源情况,进行UE接入BS-NS对的动态切换。本发明实施例将网络切片切换问题建模为一个DEC-MDP模型,并提出了一种基于多智能体深度强化学习的分布式网络切片切换算法,取名为MA-DDQN-DH。
首先,本发明实施例设计了一个两层切换决策过程。如图3所示,所有UE形成本地切换请求层,集中控制器(例如,SDN控制器)是切换准入决策层。在每个时间步的开始,每个UE独立地做出自己的切换决策,根据当前的网络状态决定是否需要切换BS-NS对。同时,所有UE将自己的切换请求发送给集中控制器。集中控制器收集到来自所有UE的切换请求之后,根据每个BS-NS对的资源状态决定是否允许每个切换请求。具体地,集中控制器按照UE队列的顺序做序贯切换准入决策。此外,我们假设UE队列的初始顺序是随机的。如果UE在当前时间步成功地切换到目标BS-NS对,它会被移动到UE队列的最后。如果UE在当前时间步选择的BS-NS对与在上一个时间步连接的BS-NS对相同,则认为UE在当前时间步选择不进行切换。
然后,我们将网络切片切换问题建模为一个DEC-MDP,以最大化与UE被服务的利润、切换成本和中断惩罚相关的平均累积奖励为优化目标。DEC-MDP切换模型可以用一个元组来表示,元组中各个元素的详细定义如下:
2)S=SNS×j∈[1,U]Sj是状态的集合,Sj是uj的局部状态的集合,SNS是所有BS-NS对和集中控制器的状态的集合。
5)R是奖励函数,r=R(s,a,s′)是在状态s下采取联合动作a转移到状态s′后获得的奖励值。
7)Ω是观测概率。P(s,a,s′,o′)是在状态s下采取联合动作a转移到状态s′后观测到o′的概率。
具体地,状态、动作和奖励的详细定义如下。
αl(t)和βl(t)分别表示BS-NS对hl在核心网和RAN的实时可用带宽,φl(t)表示BS-NS对hl可提供的服务类型。
和分别表示当uj接入BS-NS对hl时为保证业务的服务质量需求所需的核心网带宽和RAN带宽,Ij(t)表示uj当前连接的BS-NS对,dj(t)表示uj发生一次中断前的剩余延迟时间,qj(t)表示uj在UE队列中的顺序。
γ1、γ2和γ3分别为C1、C2和C3的权重。是除了uj的局部状态之外的全局状态,是除了uj的动作之外的联合动作,这两个向量表示了uj的奖励依赖于其他UE的状态和动作。联合所有UE的局部奖励,在时间步t的系统奖励向量是
基于上面的定义,DEC-MDP的优化目标是最大化所有UE获得的累积奖励,这可以表示为:
其中T是DEC-MDP的一个情节的持续时长。
可以理解的是,虽然很难从数学上推导出DEC-MDP模型下的分布式切换过程的最优决策策略,但多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning,MA-DRL)算法是获得此类问题近似解的有效方法。由于基于DEC-MDP的分布式切换过程从系统信息交换的角度来看是可行的,因此基于MA-DRL的分布式切换算法具有实际意义。
在本发明中,Double DQN被用作本地切换决策智能体,所提出的切换算法被命名为MA-DDQN-DH。根据DEC-MDP模型中所有UE的局部观测、动作和奖励的定义,可以使用相同的神经网络结构设计所有的本地智能体。有了这种便利,所有智能体的经验可以收集在一起,并在集中控制器上训练一个Double DQN。同时,每个UE仅配备Q评估网络,该网络与在集中控制器处训练的网络相同。因此,MA-DDQN-DH算法采用集中式训练和分布式执行的框架,如图4所示。
训练过程中的一个时间步如下所示。
然后,所有UE发送他们的动作到集中控制器。在集中控制器做完切换准入决策之后,每个UE执行最终的动作,同时获得相应的奖励最后,系统状态转移到st+1,uj得到更新后的观测在这个时间步,每个UE得到经验其中x是在中经验dx的索引。然后,所有经验被发送到集中控制器,并存储到经验回放中。
其中α表示学习率。
在测试过程中,每个UE使用训练好的Q评估网络基于ε-greedy策略去选择动作。在实际应用中,MA-DDQN-DH算法可以事先进行训练,然后部署在实际的通信系统中使用。由于每个UE在测试阶段仅利用其局部观测值进行决策,而不向集中式控制器发送任何本地数据,因此所提出的MA-DDQN-DH算法保护了用户隐私。
最后,本发明实施例说明了MA-DDQN-DH机制在实际通信系统中的实现。在UE、BS和SDN控制器的协作下,基于MA-DDQN-DH切换机制的流程图如图5所示。
具体来说,集中控制器在每个时间步的开始将系统状态广播给所有UE。然后,每个UE根据系统状态和UE状态基于自己的Q评估网络做出切换决策,并将切换请求发送给集中控制器。集中控制器收集到来自所有UE的切换请求后,按照UE队列的顺序为所有UE进行序贯切换准入决策。如果集中控制器拒绝某个UE的切换请求,会直接向该UE发送“切换失败”的信令,该UE将保持现有连接状态。如果集中控制器接收某个UE的切换请求,那么集中控制器会将切换请求发送给该UE的目标基站和目标SDN控制器。在得到并确认请求之后,由目标和源SDN控制器配合执行该切换。最后,源SDN控制器释放源BS和NS的资源。在所有UE的切换过程完成后,集中控制器更新系统状态。在图5中,u1和uU表示集中控制器允许切换请求的情况,uj表示集中控制器拒绝切换请求的情况。
请参见图6,其为本发明实施例的端到端网络切片的切换系统的模型示意图,该系统模型包括集中式控制器模块、本地切换决策模块和网络控制模块;其中:
集中式控制器模块包括集中式准入决策模块和集中式训练模块,集中式准入决策模块包括源SDN控制器和目标SND控制器,集中式训练模块包括网络信息采集单元、数据发送单元(用于发送系统状态信息至本地切换决策模块的数据接收单元,以及发送模型参数至切换决策单元)、模型训练单元和数据接收单元;
本地切换决策模块包括数据接收单元、用户信息检测单元、切换决策单元、数据发送单元(用于发送经验样本至集中式训练模块)、信令发送单元、信令接收单元和切换执行单元;
网络控制模块包括源基站控制器和目标基站控制器。
其中,集中控制器模块通过网络信息采集单元采集网络系统状态,并在每个时间步的开始通过数据发送单元将系统状态广播给所有UE,UE的本地切换决策模块通过数据接收单元接收到系统状态信息。
然后,每个UE根据系统状态和UE状态(由用户信息检测单元采集)通过自身的切换决策单元做出切换决策,并通过信令发送单元将切换请求经过网络控制模块的目标基站控制器发送给集中控制器模块的目标SDN控制器。
集中控制器模块收集到来自所有UE的切换请求后,按照UE队列的顺序为所有UE进行序贯切换准入决策,将切换请求发送给目标SDN控制器。在得到并确认请求之后,由目标和源SDN控制器配合执行该切换。最后,源SDN控制器释放源BS和NS的资源。
与现有技术相比,本发明实施例具有如下有益效果:
本发明实施例主要优势是将切片化的异构蜂窝网络中的分布式切换决策问题建模为一个DEC-MDP模型,并基于多智能体深度强化学习算法提出了一种分布式智能切换策略。
首先,从复杂性、开销和隐私性等方面研究了异构蜂窝网络中端到端网络切片的分布式切换决策问题。我们考虑了一个具有本地切换请求层和集中式切换准入决策层的两层分布式切换决策框架。该框架中的分布式端到端网络切片切换决策过程被建模为DEC-MDP。由于DEC-MDP中的局部观测比全局状态简单得多,因此可以大大降低决策复杂度。同时,本地决策不需要向集中控制器发送实时信息,减少了通信开销,有助于保护用户隐私。
然后,本发明实施例提出了基于DEC-MDP的分布式切换决策过程的MA-DDQN-DH算法。利用DEC-MDP模型中所有本地智能体具有相同结构的优点,设计了MA-DDQN-DH算法的集中式训练和分布式执行框架。部署在集中控制器上的训练器拥有一个DDQN,每个UE仅配备一个Q评估网络,该网络的结构与在集中控制器上训练的Q评估网络相同。
最后,考虑到基于端到端网络切片的异构蜂窝网络与传统蜂窝网络之间的架构不同,我们详细阐述了基于端到端网络切片的异构蜂窝网络中MA-DDQN-DH切换机制的实现过程。同时,本发明实施例给出了基于MA-DDQN-DH切换机制的流程图。
综合而言,本发明将分布式端到端网络切片切换决策问题建模为一个DEC-MDP模型,并基于多智能体深度强化学习理论对该DEC-MDP模型进行求解,提出了一种新型的端到端网络切片切换算法,完善了现有切换算法的不足,为端到端网络切片的切换提供了有效的解决方案。
下面对本发明提供的端到端网络切片的切换系统进行描述,下文描述的端到端网络切片的切换系统与上文描述的端到端网络切片的切换方法可相互对应参照。
请参见图7,本发明实施例提供了一种端到端网络切片的切换系统,包括:
模型构建模块1,用于基于预设的两层分布式切换决策框架,对基于端到端网络切片的异构蜂窝网络系统的切片切换过程进行建模得到分布式马尔可夫决策过程模型;其中,所述两层分布式切换决策框架包括本地切换请求层和切换准入决策层,所述本地切换请求层用于通过各个用户设备的智能体生成切换决策请求并发送至所述切换准入决策层的集中控制器,所述切换准入决策层用于通过所述集中控制器根据所述切换决策请求进行切换准入决策处理;
切片切换模块2,用于采用基于多智能体深度强化学习的分布式切换算法对所述分布式马尔可夫决策过程模型进行优化求解得到分布式切换策略,继而基于所述分布式切换策略对所述基于端到端网络切片的异构蜂窝网络系统执行切片分布式切换。
在本发明实施例中,进一步地,所述端到端网络切片的切换系统还包括算法训练模块,用于采用集中式训练并分布式执行的方式对所述基于多智能体深度强化学习的分布式切换算法进行训练;
其中,所述基于多智能体深度强化学习的分布式切换算法的训练过程具体包括:每一用户设备通过自身的智能体独立进行切换决策,并将产生的训练样本发送至所述集中控制器进行集中式训练,所述集中控制器将每次训练更新后的参数下发至每一所述用户设备,每一所述网络用户设备基于获得的参数对自身的智能体进行参数更新。
在本发明实施例中,进一步地,所述基于多智能体深度强化学习的分布式切换算法为采用离线训练的模式;其中,在所述基于多智能体深度强化学习的分布式切换算法收敛后,所述用户设备不再发送训练样本至所述集中控制器。
在本发明实施例中,进一步地,所述基于端到端网络切片的异构蜂窝网络系统包括无线接入网、核心网和互联网;其中,所述无线接入网包括基站和用户设备,所述基站包括宏基站、小基站、家庭基站。
在本发明实施例中,进一步地,所述分布式马尔可夫决策过程模型的状态空间包括每个端到端网络切片在核心网和无线接入网的实时可用传输资源、用户设备的连接状态和服务质量需求、以及用户设备与基站之间的信道质量。
在本发明实施例中,进一步地,所述分布式马尔可夫决策过程模型的奖励函数包括用户设备被服务利润因素、切换成本因素和中断惩罚因素。
在本发明实施例中,进一步地,在所述基于端到端网络切片的异构蜂窝网络系统中,每一网络切片均部署有软件定义网络控制器,所述软件定义网络控制器用于处理所述网络切片的切换相关操作。
本案实施例的端到端网络切片的切换系统的工作原理与上述实施例的端到端网络切片的切换方法是相应的,此处不再一一赘述。
图8示例了一种电子设备的实体结构示意图,如图8所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行所述的端到端网络切片的切换方法,该方法包括:基于预设的两层分布式切换决策框架,对基于端到端网络切片的异构蜂窝网络系统的切片切换过程进行建模得到分布式马尔可夫决策过程模型;其中,所述两层分布式切换决策框架包括本地切换请求层和切换准入决策层,所述本地切换请求层用于通过各个用户设备的智能体生成切换决策请求并发送至所述切换准入决策层的集中控制器,所述切换准入决策层用于通过所述集中控制器根据所述切换决策请求进行切换准入决策处理;
采用基于多智能体深度强化学习的分布式切换算法对所述分布式马尔可夫决策过程模型进行优化求解得到分布式切换策略,继而基于所述分布式切换策略对所述基于端到端网络切片的异构蜂窝网络系统执行切片分布式切换。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各实施例所提供的端到端网络切片的切换方法,该方法包括:基于预设的两层分布式切换决策框架,对基于端到端网络切片的异构蜂窝网络系统的切片切换过程进行建模得到分布式马尔可夫决策过程模型;其中,所述两层分布式切换决策框架包括本地切换请求层和切换准入决策层,所述本地切换请求层用于通过各个用户设备的智能体生成切换决策请求并发送至所述切换准入决策层的集中控制器,所述切换准入决策层用于通过所述集中控制器根据所述切换决策请求进行切换准入决策处理;
采用基于多智能体深度强化学习的分布式切换算法对所述分布式马尔可夫决策过程模型进行优化求解得到分布式切换策略,继而基于所述分布式切换策略对所述基于端到端网络切片的异构蜂窝网络系统执行切片分布式切换。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的端到端网络切片的切换方法,该方法包括:基于预设的两层分布式切换决策框架,对基于端到端网络切片的异构蜂窝网络系统的切片切换过程进行建模得到分布式马尔可夫决策过程模型;其中,所述两层分布式切换决策框架包括本地切换请求层和切换准入决策层,所述本地切换请求层用于通过各个用户设备的智能体生成切换决策请求并发送至所述切换准入决策层的集中控制器,所述切换准入决策层用于通过所述集中控制器根据所述切换决策请求进行切换准入决策处理;
采用基于多智能体深度强化学习的分布式切换算法对所述分布式马尔可夫决策过程模型进行优化求解得到分布式切换策略,继而基于所述分布式切换策略对所述基于端到端网络切片的异构蜂窝网络系统执行切片分布式切换。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种端到端网络切片的切换方法,其特征在于,包括:
基于预设的两层分布式切换决策框架,对基于端到端网络切片的异构蜂窝网络系统的切片切换过程进行建模得到分布式马尔可夫决策过程模型;其中,所述两层分布式切换决策框架包括本地切换请求层和切换准入决策层,所述本地切换请求层用于通过各个用户设备的智能体生成切换决策请求并发送至所述切换准入决策层的集中控制器,所述切换准入决策层用于通过所述集中控制器根据所述切换决策请求进行切换准入决策处理;
采用基于多智能体深度强化学习的分布式切换算法对所述分布式马尔可夫决策过程模型进行优化求解得到分布式切换策略,继而基于所述分布式切换策略对所述基于端到端网络切片的异构蜂窝网络系统执行切片分布式切换。
2.根据权利要求1所述的端到端网络切片的切换方法,其特征在于,在所述采用基于多智能体深度强化学习的分布式切换算法对所述分布式马尔可夫决策过程模型进行优化求解得到分布式切换策略的步骤之前,还包括:
采用集中式训练并分布式执行的方式对所述基于多智能体深度强化学习的分布式切换算法进行训练;
其中,所述基于多智能体深度强化学习的分布式切换算法的训练过程具体包括:每一用户设备通过自身的智能体独立进行切换决策,并将产生的训练样本发送至所述集中控制器进行集中式训练,所述集中控制器将每次训练更新后的参数下发至每一所述用户设备,每一所述网络用户设备基于获得的参数对自身的智能体进行参数更新。
3.根据权利要求1所述的端到端网络切片的切换方法,其特征在于,所述基于多智能体深度强化学习的分布式切换算法为采用离线训练的模式;其中,在所述基于多智能体深度强化学习的分布式切换算法收敛后,所述用户设备不再发送训练样本至所述集中控制器。
4.根据权利要求1所述的端到端网络切片的切换方法,其特征在于,所述基于端到端网络切片的异构蜂窝网络系统包括无线接入网、核心网和互联网;其中,所述无线接入网包括基站和用户设备,所述基站包括宏基站、小基站、家庭基站。
5.根据权利要求1所述的端到端网络切片的切换方法,其特征在于,所述分布式马尔可夫决策过程模型的状态空间包括每个端到端网络切片在核心网和无线接入网的实时可用传输资源、用户设备的连接状态和服务质量需求、以及用户设备与基站之间的信道质量。
6.根据权利要求1所述的端到端网络切片的切换方法,其特征在于,所述分布式马尔可夫决策过程模型的奖励函数包括用户设备被服务利润因素、切换成本因素和中断惩罚因素。
7.根据权利要求1所述的端到端网络切片的切换方法,其特征在于,在所述基于端到端网络切片的异构蜂窝网络系统中,每一网络切片均部署有软件定义网络控制器,所述软件定义网络控制器用于处理所述网络切片的切换相关操作。
8.一种端到端网络切片的切换系统,其特征在于,包括:
模型构建模块,用于基于预设的两层分布式切换决策框架,对基于端到端网络切片的异构蜂窝网络系统的切片切换过程进行建模得到分布式马尔可夫决策过程模型;其中,所述两层分布式切换决策框架包括本地切换请求层和切换准入决策层,所述本地切换请求层用于通过各个用户设备的智能体生成切换决策请求并发送至所述切换准入决策层的集中控制器,所述切换准入决策层用于通过所述集中控制器根据所述切换决策请求进行切换准入决策处理;
切片切换模块,用于采用基于多智能体深度强化学习的分布式切换算法对所述分布式马尔可夫决策过程模型进行优化求解得到分布式切换策略,继而基于所述分布式切换策略对所述基于端到端网络切片的异构蜂窝网络系统执行切片分布式切换。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述端到端网络切片的切换方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述端到端网络切片的切换方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111146329.5A CN113965945A (zh) | 2021-09-28 | 2021-09-28 | 端到端网络切片的切换方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111146329.5A CN113965945A (zh) | 2021-09-28 | 2021-09-28 | 端到端网络切片的切换方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113965945A true CN113965945A (zh) | 2022-01-21 |
Family
ID=79462539
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111146329.5A Pending CN113965945A (zh) | 2021-09-28 | 2021-09-28 | 端到端网络切片的切换方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113965945A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109412770A (zh) * | 2017-09-23 | 2019-03-01 | 华为技术有限公司 | 通信方法及装置 |
CN112512070A (zh) * | 2021-02-05 | 2021-03-16 | 之江实验室 | 一种基于图注意力机制强化学习的多基站协同无线网络资源分配方法 |
CN113163451A (zh) * | 2021-04-23 | 2021-07-23 | 中山大学 | 一种基于深度强化学习的d2d通信网络切片分配方法 |
CN113328777A (zh) * | 2021-04-25 | 2021-08-31 | 西安电子科技大学 | 面向巨型卫星星座的分层网络运维和资源管控系统及方法 |
-
2021
- 2021-09-28 CN CN202111146329.5A patent/CN113965945A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109412770A (zh) * | 2017-09-23 | 2019-03-01 | 华为技术有限公司 | 通信方法及装置 |
CN112512070A (zh) * | 2021-02-05 | 2021-03-16 | 之江实验室 | 一种基于图注意力机制强化学习的多基站协同无线网络资源分配方法 |
CN113163451A (zh) * | 2021-04-23 | 2021-07-23 | 中山大学 | 一种基于深度强化学习的d2d通信网络切片分配方法 |
CN113328777A (zh) * | 2021-04-25 | 2021-08-31 | 西安电子科技大学 | 面向巨型卫星星座的分层网络运维和资源管控系统及方法 |
Non-Patent Citations (3)
Title |
---|
FENG YANG ETC: "Deep Reinforcement Learning based Handoff Algorithm in End-to-End Network Slicing Enabling HetNets", IEEE * |
WENJUN WU ETC: "Distributed Handoff Problem in Heterogeneous Networks With End-to-End Network Slicing:Decentralized Markov Decision Process-Based Modeling and Solution", IEEE * |
秦爽 等: "基于多智体强化学习的接入网络切片动态切换", 电子科技大学学报 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wei et al. | Joint optimization of caching, computing, and radio resources for fog-enabled IoT using natural actor–critic deep reinforcement learning | |
CN110809306B (zh) | 一种基于深度强化学习的终端接入选择方法 | |
Zou et al. | A3C-DO: A regional resource scheduling framework based on deep reinforcement learning in edge scenario | |
CN105009475B (zh) | 考虑到用户设备(ue)移动性的用于准入控制和资源可用性预测的方法和系统 | |
CN112486690B (zh) | 一种适用于工业物联网的边缘计算资源分配方法 | |
CN107333281A (zh) | 移动计算卸载协同控制系统及方法 | |
EP2790424B1 (en) | Mobility management method, system and equipment for group terminals | |
CN106550348B (zh) | 一种在无线局域网络中实现漫游的方法、无线接入点及服务器 | |
Alghamdi et al. | On the optimality of task offloading in mobile edge computing environments | |
CN115175217A (zh) | 一种基于多智能体的资源分配和任务卸载优化方法 | |
Yang et al. | Deep reinforcement learning based handoff algorithm in end-to-end network slicing enabling HetNets | |
CN109474960B (zh) | 一种基于q学习的双连接流量分配方法 | |
CN112492656B (zh) | 一种基于强化学习的无线网络接入点切换方法 | |
CN114650227A (zh) | 一种分层联邦学习场景下的网络拓扑构建方法及系统 | |
Xu et al. | Deep reinforcement learning based mobility load balancing under multiple behavior policies | |
CN106060145A (zh) | 一种分布式多云数据中心中基于收益的请求访问控制方法 | |
Chua et al. | Resource allocation for mobile metaverse with the Internet of Vehicles over 6G wireless communications: A deep reinforcement learning approach | |
Pham et al. | When RAN intelligent controller in O-RAN meets multi-UAV enable wireless network | |
Liu et al. | Rendered tile reuse scheme based on FoV prediction for MEC-assisted wireless VR service | |
Al-Hammadi et al. | Independent tasks scheduling of collaborative computation offloading for SDN-powered MEC on 6G networks | |
Ju et al. | eDeepSave: Saving DNN inference using early exit during handovers in mobile edge environment | |
CN113965945A (zh) | 端到端网络切片的切换方法及系统 | |
Henna et al. | Distributed and collaborative high-speed inference deep learning for mobile edge with topological dependencies | |
CN110191362B (zh) | 数据传输方法及装置、存储介质及电子设备 | |
CN110224861A (zh) | 基于学习的自适应动态异构网络选择策略的实现方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |