CN111683381A - 基于深度强化学习的端到端网络切片资源分配算法 - Google Patents
基于深度强化学习的端到端网络切片资源分配算法 Download PDFInfo
- Publication number
- CN111683381A CN111683381A CN202010349221.5A CN202010349221A CN111683381A CN 111683381 A CN111683381 A CN 111683381A CN 202010349221 A CN202010349221 A CN 202010349221A CN 111683381 A CN111683381 A CN 111683381A
- Authority
- CN
- China
- Prior art keywords
- slice
- resource
- network
- base station
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/02—Arrangements for optimising operational condition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/06—Testing, supervising or monitoring using simulated traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/16—Central resource management; Negotiation of resources or communication parameters, e.g. negotiating bandwidth or QoS [Quality of Service]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/02—Selection of wireless resources by user or terminal
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/50—Allocation or scheduling criteria for wireless resources
- H04W72/53—Allocation or scheduling criteria for wireless resources based on regulatory allocation policies
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明针对混合业务多切片共享无线资源情况,提出了一种基于深度强化学习(DQN)的端到端网络切片资源分配算法,从端到端的角度联合考虑接入侧和核心侧影响对资源进行动态合理分配。为训练得到合理的DQN网络,求解DQN中环境的反馈,将端到端系统接入率最优化问题解耦为接入侧和核心侧两部分,然后分别设计动态背包算法以及最大接入的链路映射算法求得最大端到端接入。该方法不管是在静态环境还是在动态环境都能利用训练好的网络动态调整资源,使得系统接入率显著提升。
Description
技术领域
本发明公开了一种基于深度强化学习的端到端网络切片资源分配算法,能够应用到 5G网络中对含有多种业务的场景进行资源分配。该发明属于通信网络技术领域。
背景技术
5G网络将支持大量来自垂直行业的多样化业务场景,例如智能安防、高清视频、智能家居、自动驾驶和增强现实等,这些业务场景通常具有不同的通信需求。传统移动 通信网络主要用来服务单一的移动宽带业务,无法适应未来5G多样化的业务场景。如 果为每种业务场景都建设一个专有的物理网络必然会导致网络运维复杂、成本昂贵以及 可扩展性差等问题。因此,为应对在一个物理网络上同时支持多种具有不同性能要求的 业务场景,满足差异化服务对网络的不同需求,网络切片技术应运而生。
每个网络切片逻辑上都是一个独立的端到端网络,由一组网络功能及相应资源组成, 针对特定的业务场景优化,提供端到端的按需定制服务。为了保证端到端正常通信,在接入侧必须进行无线资源的分配,在满足用户QoS前提下使得更多用户能够接入网络。 传统的资源分配方法通常只考虑接入侧的性能进行分配。但是对于切片而言只有保证整 个端到端的链路走通才算成功接入。因此对于5G网络切片中的资源分配必须联合考虑 接入侧和核心侧的影响。
近几年来,深度强化学习迎来了研究的高潮,比如打败了人类为其高手的阿尔法狗。 深度强化学习由强化学习和深度神经网络组成,该领域的研究着重于解决一系列在过去 无法由机器解决的决策制定问题。深度强化学习在健康、机器人、智能电网、金融等领域,提出了新的应用。那么对于无线网络而言,能否利用它进行一些资源分配的决策呢? 这是一个值得思考的问题。
因此,本发明提出了基于深度强化学习实现端到端网络切片资源分配的框架。综合 考虑接入侧和核心侧影响,智能动态协调资源分配,从而提高系统容量。
发明内容
技术问题:本发明的目的是针对5G多业务下的网络切片场景,提出一种基于深度强 化学习的端到端网络切片资源分配算法,从端到端的角度协调各个切片资源分配。保证整个系统端到端接入用户数量。
技术方案:本发明提出了一种基于深度强化学习的端到端网络切片资源分配算法, 该方法包括如下步骤:
1.端到端切片系统模型及无线资源初始化
A.端到端模型之接入网
整个端到端模型由接入侧和核心侧两部分组成,接入侧主要为用户选择基站,核心 侧则进行用户服务链的映射,从用户到基站再到核心侧的链路整个构成一条端到端通信 链路,如图1所示。
在接入侧考虑上行链路蜂窝网络,假设网络具有完善的同步系统和信道估计,在网 络中,所有基站统一用N={1,2,....,|N|},切片表示为M={1,2,....,|M|},所有用户表示为 U={1,2,....|U|},切片m下的所有用户表示为Um,切片m下的具体一个用户表示为um, 基站的传输功率表示为Pn,系统总带宽为B,被分为L份,则频率域每个RB的带宽为Bl,时间域分为调度帧,每个调度帧由T个子帧组成,每个子帧的长度为Δt,则一个最小的 资源块表示为考虑每个用户选择性的接入一个基站。每个用户属于一种类型的切 片,本发明考虑速率约束型和时延约束型两种类型的切片。对于速率约束型的切片,最 低速率表示为对于延迟约束型的切片,最大延迟表示为
对于时延约束型的用户,将其看作一个排队论的模型,假设用户的数据包到达速率 为λu,数据包的长度为Lu比特,则在利用Nt个RB传输时,算出此时的平均时延为
B.无线资源初始化
计算每个用户连接不同基站的的值越大,用户选择这一基站的优先级越高,初始化时假设用户选择优先级最高的基站,并且得到此时用户所需要的资源块 的数量Nnum,速率约束切片Nnum等于Nv,对于延迟约束切片Nnum=Nt。
初始化切片m分得资源Am
则切片分配给基站的带宽资源计算如下:
初始化无线资源分配完成后,将利用初始分配的无线资源实现用户端到端的资源分 配。
C.端到端模型之核心网链路映射
接入侧用户选择完基站,核心侧需要进行服务链的映射,用户才能实现端到端成功 接入。用户选定了基站,便明确了用户所在切片的初始虚拟机。每个虚拟机都承载着特定功能的VNF,对于每种切片而言,它所需要的VNF是确定的,并按照一定顺序排列。 这种特定顺序排列的VNF链路称作服务功能链如图2所示。
表1服务链符号定义
当一个用户的SFC请求来临时,需要为服务链中的每一个VNF找到一个物理虚拟机承载,并满足虚拟节点的容量需求和虚拟链路的带宽需求。每个用户服务链的初始 VM就是hn,m即f0映射的位置就是hn,m。
对于速率约束型切片要保证带宽需求,带宽需求表示为接入侧需要的RB数量Nnum,延迟约束切片延迟按需设定,速率约束型将q2设置一个较大正整数,
D.问题建模
整个端到端切片问题介绍完毕,需要利用初始化分配的无线资源进行用户链路端到 端的匹配,确定用户连接哪个基站,核心侧走哪条链路,使整个系统的接入率达到最大。将整个端到端的问题命名为问题P1,P1的目标和约束如下:
以上问题需要求解用户基站的选择即xu,n,核心侧节点映射以及链路映射接入侧基站选择不同,则会影响核心侧链路映射的起点,只有当接入侧xu,n和核心侧同时映射成功,端到端才能实现成功通信。目标是使系统容量最大,约束1-5为接入侧 约束,约束1表示一个用户最多只允许接入一个基站,约束2说明变量xu,n只能取0, 1两个值。约束3表示同一切片的用户占有基站的资源不能超过切片分配给基站的资源, 约束4,5分别表示时延和速率约束。约束6-11为核心侧约束,约束6表示服务链每个 节点只能映射到一个虚拟机上,约束7表示每个虚拟机的容量约束,约束8表示每条链 路的带宽约束,约束9是整条链路的延迟约束,约束10表示链路的流量守恒,约束11 表示核心侧成功标志。
2.基于深度强化学习的端到端切片资源动态调整
控制器在初始化资源分配方案确定后能够根据分配的资源求解P1得到此时系统的 最大接入率,但是这种分配并不一定是最优的,因此接下来需要利用DQN网络进行资 源动态调整,得到最优的资源分配方案,求解最优方案下的接入率。
A.DQN网络中重要参数设计
状态:s=(Rm,Sm)Rm表示切片m中接入侧成功接入的概率大小,Sm表示成功实现 端到端接入的用户相对接入侧成功接入的用户的比值。用户能否实现端到端成功接入受 两方面的影响,一方面是接入侧资源是否足够,第二方面是核心侧节点和链路资源是否 足够。定义Sm如下,Sm值较大则表示接入侧接入的用户在核心侧都能找合适链路接入, 较小则表示用户无法接入受核心侧影响较大。
行为:定义为切片的资源增加或是减少的百分比,是一组离散的小数,其中负数表示分配给切片m资源增加,0表示切片资源不变,正数则表示资源增加。
a=[-10%,-8%,-6%,-4%,-2%,0,2%,4%,6%,8%,10%]
奖励:奖励定义为系统总的接入率
资源更新:执行完动作首先需要进行切片级资源更新如下
所有切片按照上式进行切片资源调整,调整的结果可能超过系统总资源,需要将资 源在此基础上进行归一化如下,这样便保证资源总和保持不变。
切片级资源更新完成就需要将切片资源再反馈到各基站上,同样定义切片m用户在 基站n的相对接入成功率如下式
则当切片资源增加时,更新后切片分配到各基站的无线资源如下式
Q网络结构:本发明的Q网咯为一个前向反馈的神经网络,网络的输入为切片的状态,输出为各种动作选择下的状态动作对Q值。
B.DQN动态调整资源算法描述
1)初始化DQN网络的参数,基站用户信息,核心侧拓扑信息;
2)根据(6)、(7)计算初始资源分配Am,n代入P1求解得到端到端映射结果,代 入(10)、(11)得到DQN初始状态Rm,Sm;
3)利用贪心策略选择一个行为at;
6)如果存储资源次数达到迷你资源池的倍数,从经验池中选取迷你资源池大小的数据对DQN网络的当前值Q网络进行训练和参数更新;
7)训练次数达到某个时间周期,则将当前值Q网络复制给目标值网络;
8)对步骤2-7进行迭代,一直到网络收敛。
以上利用DQN对网络资源进行更新的过程,需要利用问题P1求解出每种资源分配方案下系统的接入率作为每种状态动作对的奖励。
3.DQN中奖励值的求解
对于DQN奖励值的计算就是问题P1的求解,这是一个0-1规划问题,并且存在多 个变量。无法利用最优化的方法求解出其最优解,本文将其解耦成接入侧和核心侧两个 子问题。使得两个子问题用户容量最大。
A.接入侧子问题
对于接入侧,切片无线资源确定时,切片之间具有隔离性。因此接入侧的目标函数和约束可以解耦为两个切片单独的目标函数和约束。速率约束型切片表示如下,时延约 束型只需将速率约束改为时延约束。解耦的接入侧问题P2如下:
上述子问题属于NP-Hard问题,本发明采取动态背包算法进行求解:
1)输入切片分配给基站的资源Am,n,基站和用户位置信息;
2)对于所有的基站采取0-1背包算法选定基站接入用户;
3)被多个基站选择的用户,选择需要Nnum最少的基站接入;
4)没有接入的用户重复步骤2,3,一直到基站没有资源或用户全部接入。
以上动态资源分配过程让用户在接入侧选择合适的基站,接入更多用户。
B.核心侧子问题
接入侧确定用户接入基站后,在核心侧需要对每条服务链进行映射使得用户容量最 大,这样P1才能完全求解。每种切片的服务链映射也是相互隔离的,因此核心侧对每 一种切片可以解耦成子问题P3如下:
上述问题无法采取最优化的方法求解,为了快速求解上述问题,并得到一个较优解, 设计以下启发式算法,求解过程如下:
1)输入接入侧用户基站选择结果,核心侧网络拓扑信息;
2)对于速率约束切片,按照带宽要求对服务链进行排序,对于时延约束切片,按照时延要求对服务链进行排序,得到每种切片的服务链集;
3)每条服务链映射前,先将网络拓扑图中不满足带宽要求的边去掉;
6)服务链映射结束,判断时延是否满足要求,满足则映射成功;
7)按照步骤4-7依次对每类切片按照服务链集的顺序进行服务链映射。一直到服务链映射完成;
8)计算成功完成端到端服务链映射的用户总人数。
评估函数中vi′∈V′指含有下一功能的所有候选节点,hopi是使用Dijkstra算法计算 的到候选节点的最短跳数。delayi是使用Dijkstra算法计算到候选节点的最短时延,Bi表 示最短跳数的剩余平均带宽,reci表示候选节点剩余功能数量。
对于速率约束型考虑最短路径并且平均剩余带宽大,同样节点剩余资源多,对于时 延约束型主要考虑链路时延最短,且节点剩余资源多,这样做的目的也就是为了达到方便后面链路接入,节点资源能够达到一定程度的均衡,使得接入用户数最多。至此问题 P1就解决了,DQN网络的奖励值求得了,整个DQN网络便能进行训练,利用训练好 的网络实现资源动态分配,整个流程如图3所示。
本发明相比现有技术,具有以下有益效果:
1.本发明提出基于深度强化学习的端到端网络切片资源分配算法,能够做到动态实时 的进行无线资源分配的更新和服务链路的映射。
2.本发明考虑无线资源分配时不仅考虑了对接入侧的影响也考虑了核心侧的影响。从 整个端到端网络切片的角度出发考虑无线虚拟资源的分配。
3.本发明考虑速率约束型切片和延迟约束型切片,对于不同类型的切片采取不同算法 进行SFC映射,使得整个端到端的用户接入率最大。
附图说明
图1是端到端网络切片模型
图2是核心侧服务链映射系统模型
图3基于深度强化学习的端到端网络切片资源分配模型
具体实施方式
本发明设计了一种基于深度强化学习的端到端网络切片资源分配算法,该方法综合 考虑接入侧和核心侧,动态合理分配资源,旨在提高系统的接入率。为了求得最佳的资源分配策略,利用深度强化学习对环境中影响接入率的因素进行训练,得到网络模型。为了求解在无线资源分配确定下接入率的值,针对接入侧和核心侧设计算法进行端到端资源映射映射,有了这些前提,从而能够利用训练好的网络对动态变化的环境进行合理资 源分配。具体实施方法如下:
1.端到端模型及无线资源初始化
A.端到端模型接入侧相关计算
在接入侧考虑上行链路蜂窝网络,假设网络具有完善的同步系统和信道估计,考虑 每个用户选择性的接入一个基站。每个用户属于一种类型的切片,本文考虑速率约束型和时延约束型两种类型的切片。对于速率约束型的切片,最低速率表示为对于延 迟约束型的切片,最大延迟表示为
对于时延约束型的用户,将其看作一个排队论的模型,假设用户的数据包到达速率 为λu,数据包的长度为Lu比特,用Nt个RB传输时,算出此时平均时延为
B.无线资源初始化
计算每个用户连接不同基站的的值越大用户选择这一基站的优先级 越高,初始化时假设用户选择优先级最高的基站,用户所需要的资源块的数量为Nnum,速率约束型切片Nnum等于Nv,对于延迟约束切片Nnum=Nt。
初始化切片m分得资源Am
切片分配给基站的带宽资源计算如下:
初始化资源分配完成后,利用初始分配的无线资源实现用户端到端的映射。
C.端到端模型核心网
接入侧用户选择完基站,核心侧需要进行服务链的映射,用户才能实现端到端成功 接入。用户选定了基站,便明确了用户所在切片的初始虚拟机。每个用户对应的服务链的初始VM都是hn,m,f0映射的位置就是hn,m表示为:
对于每条服务链需要为每一个VNF找到一个物理虚拟机承载,并满足虚拟节点的容量需求和虚拟链路的带宽需求,将带宽需求对应为接入侧需要的RB数量即Nnum, 速率约束型的延迟设为一个较大的正整数,延迟约束型切片按需设定。
D.问题建模
整个端到端切片问题介绍完毕,要想知道如何分配资源系统接入率最高,就必须先 求得资源分配确定时,用户如何进行基站选择和核心侧链路映射能使得系统接入率最大。 将该问题命名为P1,目标和约束如下:
该问题求解的是资源分配确定时,如何进行端到端资源映射,但是本发明的最终目 的是要实现资源的动态变化,因此该问题的求解是前提。
2.基于深度强化学习的端到端网络切片资源调整
控制器在初始化资源分配方案确定后求解问题P1得到此时系统的最大接入率,但是这种分配并不一定是最优的,因此接下来需要利用DQN网络进行资源动态调整,得 到最优的资源分配方案。
A.DQN网络中重要参数设计
状态:s=(Rm,Sm),Rm表示切片m中接入侧成功接入的概率大小,Sm表示成功实 现端到端接入的用户相对接入侧成功接入的用户的比值。
行为:定义为切片的资源增加或是减少的百分比,负数表示分配给切片m资源增加, 0表示切片资源不变,正数则表示资源增加。
a=[-10%,-8%,-6%,-4%,-2%,0,2%,4%,6%,8%,10%]
奖励:奖励定义为系统总的接入率
资源更新:切片级资源更新如下
按照上式进行切片资源调整,可能超过系统总资源,将资源进行归一化如下:
切片级资源更新完成就需要将切片资源再反馈到各基站上,同样定义切片m用户在 基站n的相对接入成功率如下式
则更新后切片分配到各基站的无线资源如下式
Q网络结构:本发明的Q网咯设置为一个前向反馈的神经网络,网络的输入为切片的状态,输出为各种动作选择下的状态动作对Q值。
B.基于深度强化学习的端到端网络切片资源分配算法描述
1)初始化DQN网络的参数,基站用户信息,核心侧拓扑信息;
2)根据(6)、(7)计算初始资源分配Am,n代入P1求解得到端到端映射结果,代 入(10)、(11)得到DQN初始状态Rm,Sm;
3)利用贪心策略选择一个行为at(上标t表示t时刻);
6)如果存储资源次数达到迷你资源池的倍数,从经验池中选取迷你资源池大小的数据对DQN网络的当前值Q网络进行训练和参数更新;
7)训练次数达到某个时间周期,则将当前值Q网络复制给目标值网络;
8)对步骤2-7进行迭代,一直到网络收敛。
以上利用深度强化学习对网络资源分配进行调整,需要利用问题P1求解出每种资源分配方案下系统的接入率作为每种状态动作对的奖励。
3.DQN中奖励值的求解
对于DQN奖励值的计算就是问题P1的求解,这是一个0-1规划问题,并且存在多 个变量。无法利用最优化的方法求解出其最优解,本文将其解耦成接入侧和核心侧两个 子问题。使得两个子问题用户容量最大。
A.接入侧子问题
对于接入侧而言,切片无线资源确定时,切片之间便具有隔离性,相互之间互不影响。因此对于接入侧的目标函数和约束可以解耦为两个切片单独的目标函数和约束,对 于速率约束型切片表示如下,对于时延约束型只需要将速率约束改为时延约束。对于速 率约束型切片Nnum等于Nv,对于延迟约束切片Nnum=Nt。解耦出来的接入侧问题P2 如下所示:
上述子问题的求解属于NP-Hard问题,本发明采取动态背包算法进行求解,求解过程描述如下:
1)输入切片分配给基站的资源Am,n,基站和用户位置信息;
2)对于所有的基站采取0-1背包算法选定基站接入用户;
3)被多个基站选择的用户,选择需要Nnum最少的基站接入;
4)对于剩下没有接入的用户重复步骤2,3一直到基站没有资源或用户全部接入。
以上动态资源分配过程能够为每个用户在接入侧选择合适的基站,使得接入更多用 户。
B.核心侧子问题
接入侧确定用户接入基站后,在核心侧需要对每条服务链进行映射使得用户容量最 大,这样P1才能完全求解。每种切片的服务链映射也是相互隔离的,因此核心侧对每 一种切片可以解耦成子问题P3如下:
为了快速求解上述问题得到一个较优解,设计以下启发式算法:
1)输入接入侧用户基站选择结果,核心侧网络拓扑信息;
2)对于速率约束切片,按照带宽要求对服务链进行排序,对于时延约束切片,按照时延要求对服务链进行排序,得到每种切片的服务链集;
3)每条服务链映射前,先将网络拓扑图中不满足带宽要求的边去掉;
6)服务链映射结束,判断时延是否满足要求,满足则映射成功;
7)按照步骤4-7依次对每类切片按照服务链集的顺序进行服务链映射;一直到服务链映射完成;
8)计算成功完成端到端服务链映射的用户总人数。
评估函数中vi′∈V′指含有下一功能的所有候选节点,hopi是使用Dijkstra算法计算 的到候选节点的最短跳数。delayi是使用Dijkstra算法计算到候选节点的最短时延,Bi表 示最短跳数的剩余平均带宽,reci表示候选节点剩余功能数量。
至此问题P1就解决了,DQN网络每次训练的奖励值便得到了,整个DQN网络便 可以训练,训练好的网络便可以对资源进行动态分配。
Claims (6)
1.基于深度强化学习的端到端网络切片资源分配算法,其特征在于,包括如下步骤:
步骤1:建立端到端切片系统的问题模型P1;
步骤2:初始化切片资源分配方案,根据各基站分配到的资源求解问题模型P1,得到此时系统的最大接入率;
步骤3:以步骤2求解求得的最大接入率作为DQN网络的奖励值,利用DQN网络进行资源动态调整,得到最优的资源分配方案,求解最优方案下的接入率。
2.根据权利要求1所述的基于深度强化学习的端到端网络切片资源分配算法,其特征在于,步骤1中,所述问题模型P1为:
其中,基站表示为N={1,2,....,|N|},切片表示为M={1,2,....,|M|},所有用户表示为U={1,2,....|U|},切片m下的所有用户表示为Um,切片m下的具体一个用户表示为um,用户u接入基站n则xu,n等于1,否则为0;用户um对映的服务链p在核心侧映射成功则等于1,否则为0;Nnum表示用户u接入基站n所需要的最小资源块数量,Am,n表示切片m分配给基站n的资源大小;接入侧速率约束切片,最低速率表示为接入侧延迟约束切片,最大延迟表示为服务链p的第i个功能映射在物理节点j则等于1,否则为0;fi表示服务链的第i个节点所需要的功能;表示切片m中物理节点j所含有的虚拟网络功能k的数量;表示服务链p是否占用物理节点j1和j2之间的链路,占用为1,不占用为0;表示切片m中物理节点j1和j2之间的带宽;表示切片m中物理节点j1和j2之间的传输带宽;表示服务链p的带宽约束,表示服务链p的时延约束。
3.根据权利要求1所述的基于深度强化学习的端到端网络切片资源分配算法,其特征在于,步骤2中,初始化切片m分得资源Am
L表示总带宽分为L份,T表示每一份由T个子帧组成;则切片m分配给基站的带宽资源计算如下:
对于速率约束切片Nnum等于Nv,对于延迟约束切片Nnum=Nt;
在基站n上传输的用户,需要的RB数量为Nv;
对于时延约束型的用户,假设用户的数据包到达速率为λu,数据包的长度为Lu比特,则在利用Nt个RB传输时,算出此时的平均时延为
4.根据权利要求1所述的基于深度强化学习的端到端网络切片资源分配算法,其特征在于,步骤2求解问题模型P1的步骤包括:
将问题模型P1解耦成接入侧和核心侧两个子问题,使两个子问题用户容量最大;
A.接入侧子问题
接入侧的目标函数和约束可解耦为两个切片单独的目标函数和约束;速率约束型切片表示如下,时延约束型只需将速率约束改为时延约束;解耦的接入侧问题P2如下:
上述子问题属于NP-Hard问题,采取动态背包算法进行求解:
1)输入切片分配给基站的资源Am,n,基站和用户位置信息;
2)对于所有的基站采取0-1背包算法选定基站接入用户;
3)被多个基站选择的用户,选择需要Nnum最少的基站接入;
4)没有接入的用户重复步骤2、3,一直到基站没有资源或用户全部接入;
B.核心侧子问题
核心侧对每一种切片可解耦成子问题P3如下:
上述问题求解过程如下:
1)输入接入侧用户基站选择结果,核心侧网络拓扑信息;
2)对于速率约束切片,按照带宽要求对服务链进行排序,对于时延约束切片,按照时延要求对服务链进行排序,得到每种切片的服务链集;
3)每条服务链映射前,先将网络拓扑图中不满足带宽要求的边去掉;
6)服务链映射结束,判断时延是否满足要求,满足则映射成功;
7)按照步骤4-7依次对每类切片按照服务链集的顺序进行服务链映射;一直到服务链映射完成;
8)计算成功完成端到端服务链映射的用户总人数;
评估函数中vi′∈V′指含有下一功能的所有候选节点,hopi是使用Dijkstra算法计算的到候选节点的最短跳数;delayi是使用Dijkstra算法计算到候选节点的最短时延,Bi表示最短跳数的剩余平均带宽,reci表示候选节点剩余功能数量。
5.根据权利要求1所述的基于深度强化学习的端到端网络切片资源分配算法,其特征在于,步骤3的具体步骤包括:
1)初始化DQN网络的参数,基站用户信息,核心侧拓扑信息;
2)计算初始资源分配Am,n代入P1求解得到端到端映射结果,根据端到端映射结果得到DQN初始状态Rm,Sm,Rm表示切片m中接入侧成功接入的概率大小,Sm表示成功实现端到端接入的用户相对接入侧成功接入的用户的比值;
3)利用贪心策略选择一个行为at,行为at定义为切片的资源增加或是减少的百分比,上标t表示时刻;
6)如果存储资源次数达到迷你资源池的倍数,从经验池中选取迷你资源池大小的数据对DQN网络的当前值Q网络进行训练和参数更新;
7)训练次数达到某个时间周期,则将当前值Q网络复制给目标值网络;
8)对步骤2-7进行迭代,一直到网络收敛。
6.根据权利要求5所述的基于深度强化学习的端到端网络切片资源分配算法,其特征在于,所述DQN网络的参数包括:
状态:定义Sm如下:
行为:定义为切片的资源增加或是减少的百分比,是一组离散的小数,其中负数表示分配给切片m资源增加,0表示切片资源不变,正数则表示资源增加;
a=[-10%,-8%,-6%,-4%,-2%,0,2%,4%,6%,8%,10%]
奖励:奖励定义为系统总的接入率
Q值的更新:采取贝尔曼等式进行Q值更新,其中γ∈[0,1]表示折扣因子,表达式如下:
资源更新:执行完动作首先需要进行切片级资源更新如下
所有切片按照上式进行切片资源调整,调整的结果可能超过系统总资源,需要将资源在此基础上进行归一化如下,这样便保证资源总和保持不变;
切片级资源更新完成就需要将切片资源再反馈到各基站上,同样定义切片m用户在基站n的相对接入成功率如下式
则当切片资源增加时,更新后切片分配到各基站的无线资源如下式
Q网络结构:Q网络为一个前向反馈的神经网络,网络的输入为切片的状态,输出为各种动作选择下的状态动作对Q值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010349221.5A CN111683381B (zh) | 2020-04-28 | 2020-04-28 | 基于深度强化学习的端到端网络切片资源分配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010349221.5A CN111683381B (zh) | 2020-04-28 | 2020-04-28 | 基于深度强化学习的端到端网络切片资源分配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111683381A true CN111683381A (zh) | 2020-09-18 |
CN111683381B CN111683381B (zh) | 2023-04-07 |
Family
ID=72433869
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010349221.5A Active CN111683381B (zh) | 2020-04-28 | 2020-04-28 | 基于深度强化学习的端到端网络切片资源分配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111683381B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113242602A (zh) * | 2021-05-10 | 2021-08-10 | 内蒙古大学 | 毫米波大规模mimo-noma系统资源分配方法及系统 |
CN113316188A (zh) * | 2021-05-08 | 2021-08-27 | 北京科技大学 | 一种支持ai引擎的接入网智能切片管控方法及装置 |
CN113329414A (zh) * | 2021-06-07 | 2021-08-31 | 深圳聚创致远科技有限公司 | 一种基于强化学习的智能电网切片分配方法 |
CN113382414A (zh) * | 2021-03-12 | 2021-09-10 | 厦门大学 | 基于网络切片的非正交多址接入系统资源分配方法及装置 |
CN113490184A (zh) * | 2021-05-10 | 2021-10-08 | 北京科技大学 | 一种面向智慧工厂的随机接入资源优化方法及装置 |
CN113596912A (zh) * | 2021-07-29 | 2021-11-02 | 西安电子科技大学 | 基于ran切片的无线异构网络资源调度方法 |
CN113660159A (zh) * | 2021-07-23 | 2021-11-16 | 成都壹唯视信息技术有限公司 | 一种基于强化学习的多径动态复用与分组传输方法 |
CN113692021A (zh) * | 2021-08-16 | 2021-11-23 | 北京理工大学 | 一种基于亲密度的5g网络切片智能资源分配方法 |
CN113923791A (zh) * | 2021-10-21 | 2022-01-11 | 南京邮电大学 | 一种无线接入网切片上行链路中虚拟无线资源分配方法 |
CN113949660A (zh) * | 2021-12-16 | 2022-01-18 | 中通服建设有限公司 | 一种基于多接入边缘计算技术的云网融合管理系统 |
CN114637262A (zh) * | 2022-03-10 | 2022-06-17 | 广东泰云泽科技有限公司 | 基于5g驱动的智能工厂数字孪生信息的决策控制方法及系统 |
CN116095720A (zh) * | 2023-03-09 | 2023-05-09 | 南京邮电大学 | 基于深度强化学习的网络业务接入和切片资源配置方法 |
CN113382414B (zh) * | 2021-03-12 | 2024-05-31 | 厦门大学 | 基于网络切片的非正交多址接入系统资源分配方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107071782A (zh) * | 2017-04-01 | 2017-08-18 | 北京邮电大学 | 基于网络切片的无线资源分配方法 |
CN107743100A (zh) * | 2017-09-30 | 2018-02-27 | 重庆邮电大学 | 一种基于业务预测的在线自适应网络切片虚拟资源分配方法 |
CN108989099A (zh) * | 2018-07-02 | 2018-12-11 | 北京邮电大学 | 基于软件定义天地一体化网络的联合资源分配方法和系统 |
CN109600262A (zh) * | 2018-12-17 | 2019-04-09 | 东南大学 | Urllc传输网络切片中资源自配置和自优化方法及装置 |
CN109743217A (zh) * | 2019-03-08 | 2019-05-10 | 西安交通大学 | 一种基于svra算法的自适应资源调节方法 |
CN110062407A (zh) * | 2018-01-19 | 2019-07-26 | 华为技术有限公司 | 网络切片性能管理的方法和装置 |
CN110798849A (zh) * | 2019-10-10 | 2020-02-14 | 西北工业大学 | 一种超密网边缘计算的计算资源分配与任务卸载方法 |
-
2020
- 2020-04-28 CN CN202010349221.5A patent/CN111683381B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107071782A (zh) * | 2017-04-01 | 2017-08-18 | 北京邮电大学 | 基于网络切片的无线资源分配方法 |
CN107743100A (zh) * | 2017-09-30 | 2018-02-27 | 重庆邮电大学 | 一种基于业务预测的在线自适应网络切片虚拟资源分配方法 |
CN110062407A (zh) * | 2018-01-19 | 2019-07-26 | 华为技术有限公司 | 网络切片性能管理的方法和装置 |
CN108989099A (zh) * | 2018-07-02 | 2018-12-11 | 北京邮电大学 | 基于软件定义天地一体化网络的联合资源分配方法和系统 |
CN109600262A (zh) * | 2018-12-17 | 2019-04-09 | 东南大学 | Urllc传输网络切片中资源自配置和自优化方法及装置 |
CN109743217A (zh) * | 2019-03-08 | 2019-05-10 | 西安交通大学 | 一种基于svra算法的自适应资源调节方法 |
CN110798849A (zh) * | 2019-10-10 | 2020-02-14 | 西北工业大学 | 一种超密网边缘计算的计算资源分配与任务卸载方法 |
Non-Patent Citations (3)
Title |
---|
LI TAIHUI等: "An End-to-End Network Slicing Algorithm Based on Deep Q-Learning for SG Network", 《IEEE ACCESS》 * |
李泰慧: "5G网络端到端切片算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
熊昆: "基于深度强化学习的无线虚拟网络资源分配问题研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113382414A (zh) * | 2021-03-12 | 2021-09-10 | 厦门大学 | 基于网络切片的非正交多址接入系统资源分配方法及装置 |
CN113382414B (zh) * | 2021-03-12 | 2024-05-31 | 厦门大学 | 基于网络切片的非正交多址接入系统资源分配方法及装置 |
CN113316188B (zh) * | 2021-05-08 | 2022-05-17 | 北京科技大学 | 一种支持ai引擎的接入网智能切片管控方法及装置 |
CN113316188A (zh) * | 2021-05-08 | 2021-08-27 | 北京科技大学 | 一种支持ai引擎的接入网智能切片管控方法及装置 |
CN113490184A (zh) * | 2021-05-10 | 2021-10-08 | 北京科技大学 | 一种面向智慧工厂的随机接入资源优化方法及装置 |
CN113242602A (zh) * | 2021-05-10 | 2021-08-10 | 内蒙古大学 | 毫米波大规模mimo-noma系统资源分配方法及系统 |
CN113329414A (zh) * | 2021-06-07 | 2021-08-31 | 深圳聚创致远科技有限公司 | 一种基于强化学习的智能电网切片分配方法 |
CN113329414B (zh) * | 2021-06-07 | 2023-01-10 | 深圳聚创致远科技有限公司 | 一种基于强化学习的智能电网切片分配方法 |
CN113660159A (zh) * | 2021-07-23 | 2021-11-16 | 成都壹唯视信息技术有限公司 | 一种基于强化学习的多径动态复用与分组传输方法 |
CN113660159B (zh) * | 2021-07-23 | 2023-04-18 | 成都壹唯视信息技术有限公司 | 一种基于强化学习的多径动态复用与分组传输方法 |
CN113596912A (zh) * | 2021-07-29 | 2021-11-02 | 西安电子科技大学 | 基于ran切片的无线异构网络资源调度方法 |
CN113596912B (zh) * | 2021-07-29 | 2023-07-18 | 西安电子科技大学 | 基于ran切片的无线异构网络资源调度方法 |
CN113692021B (zh) * | 2021-08-16 | 2023-11-28 | 北京理工大学 | 一种基于亲密度的5g网络切片智能资源分配方法 |
CN113692021A (zh) * | 2021-08-16 | 2021-11-23 | 北京理工大学 | 一种基于亲密度的5g网络切片智能资源分配方法 |
CN113923791A (zh) * | 2021-10-21 | 2022-01-11 | 南京邮电大学 | 一种无线接入网切片上行链路中虚拟无线资源分配方法 |
CN113923791B (zh) * | 2021-10-21 | 2023-06-20 | 南京邮电大学 | 一种无线接入网切片上行链路中虚拟无线资源分配方法 |
CN113949660B (zh) * | 2021-12-16 | 2022-03-15 | 中通服建设有限公司 | 一种基于多接入边缘计算技术的云网融合管理系统 |
CN113949660A (zh) * | 2021-12-16 | 2022-01-18 | 中通服建设有限公司 | 一种基于多接入边缘计算技术的云网融合管理系统 |
CN114637262A (zh) * | 2022-03-10 | 2022-06-17 | 广东泰云泽科技有限公司 | 基于5g驱动的智能工厂数字孪生信息的决策控制方法及系统 |
CN114637262B (zh) * | 2022-03-10 | 2022-11-15 | 天津科技大学 | 基于5g驱动的智能工厂数字孪生信息的决策控制方法及系统 |
CN116095720A (zh) * | 2023-03-09 | 2023-05-09 | 南京邮电大学 | 基于深度强化学习的网络业务接入和切片资源配置方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111683381B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111683381B (zh) | 基于深度强化学习的端到端网络切片资源分配方法 | |
CN109862610B (zh) | 一种基于深度强化学习ddpg算法的d2d用户资源分配方法 | |
CN109947545B (zh) | 一种基于用户移动性的任务卸载及迁移的决策方法 | |
Zhou et al. | The partial computation offloading strategy based on game theory for multi-user in mobile edge computing environment | |
Saad et al. | A selfish approach to coalition formation among unmanned air vehicles in wireless networks | |
Wang et al. | Regional intelligent resource allocation in mobile edge computing based vehicular network | |
CN113543074B (zh) | 一种基于车路云协同的联合计算迁移和资源分配方法 | |
CN103687023B (zh) | 基于时延区分业务和比例性速率约束的优化无线资源方法 | |
Wang et al. | Joint resource allocation and power control for D2D communication with deep reinforcement learning in MCC | |
CN109819422B (zh) | 一种基于Stackelberg博弈的异构车联网多模通信方法 | |
CN113114721B (zh) | 一种基于mec的软件定义车联网服务迁移方法 | |
Zhang et al. | New computing tasks offloading method for MEC based on prospect theory framework | |
KR102371534B1 (ko) | 비직교 다중접속(noma) 방식을 지원하는 다중접속 에지 컴퓨팅(mec)에서 심층 강화학습 기반 컴퓨팅 오프로딩 최적화 방법 | |
CN107105455A (zh) | 一种基于自回程感知的用户接入负载均衡方法 | |
CN116456493A (zh) | 一种基于深度强化学习算法的d2d用户资源分配方法及存储介质 | |
CN107484245A (zh) | 一种异构网络中支持d2d通信的资源分配方法 | |
Ren et al. | Vehicular network edge intelligent management: A deep deterministic policy gradient approach for service offloading decision | |
Nguyen et al. | Deep reinforcement learning-based partial task offloading in high altitude platform-aided vehicular networks | |
CN117098189A (zh) | 一种基于gat混合动作多智能体强化学习的计算卸载和资源分配方法 | |
Wu et al. | A robust distributed hierarchical online learning approach for dynamic MEC networks | |
CN114885422A (zh) | 一种超密集网络中基于混合接入方式的动态边缘计算卸载方法 | |
Gao et al. | Reinforcement learning based resource allocation in cache-enabled small cell networks with mobile users | |
CN111885551B (zh) | 基于边云协同模式的多移动社交网络中高影响力用户的选择和分配机制 | |
CN107820295B (zh) | 一种基于用户需求的分布式中继资源分配方法 | |
CN114051252A (zh) | 无线接入网中多用户智能发射功率控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |