CN113098714B - 基于强化学习的低时延网络切片方法 - Google Patents
基于强化学习的低时延网络切片方法 Download PDFInfo
- Publication number
- CN113098714B CN113098714B CN202110334767.8A CN202110334767A CN113098714B CN 113098714 B CN113098714 B CN 113098714B CN 202110334767 A CN202110334767 A CN 202110334767A CN 113098714 B CN113098714 B CN 113098714B
- Authority
- CN
- China
- Prior art keywords
- network
- service function
- node
- service
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/0893—Assignment of logical groups to network elements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/0803—Configuration setting
- H04L41/0823—Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/0896—Bandwidth or capacity management, i.e. automatically increasing or decreasing capacities
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明提出了一种基于深度强化学习的低时延网络切片的方法,通过对网络切片中低时延业务的时延约束条件以及服务功能和链路的映射条件构建了资源分配和路由的最优化问题;在进行求解的过程中,提出建立了该场景下的马尔可夫模型,利用强化学习中的DDQN来求解在低时延网络切片中的路由和资源分配的问题,在针对当前网络状态下所采取的动作则定义为每一条服务功能链下一跳的虚拟功能的部署,采取的动作集为前一跳节点的相邻的节点集合,奖励值则设置为与成功部署的服务功能链条数相关的函数。本发明在资源分配和和提升整个系统的成功部署服务的服务功能链数量以及整个系统资源的利用率等方面具有优越性。
Description
技术领域
本发明设计了一种基于强化学习的低时延网络切片方法,应用于核心网的低时延的服务功能链的部署,属于信息通信技术领域。
背景技术
在5G时代,通信基础架构正在从专用的网络基础设施转移到每一个应用程序中,这样各种各样的应用和服务可以共享同一张网络。特别地,网络切片技术已经成为5G系统进行部署的关键技术,因为它允许运营商灵活地组织网络资源,为用户或者是第三方提供多样性的服务。这一技术特点将会给运营商节省建设成本和运营成本。由于这些原因,提出了具有基于不同网段的切片方案:核心网切片,无线接入网切片,传输网切片。
网络切片的概念是构建多个虚拟的逻辑网络,以便在同一物理网络上提供服务。网络切片技术可以保证服务的差异化以及可以满足服务水平协议。在网络切片实现的过程中,要将对应的虚拟的逻辑网络中的虚拟网络功能放置到相应的通用硬件中,实现真正的物理功能。
在3GPP关于5G的应用场景中定义了三大场景,分别是增强型移动宽带(eMBB),超可靠和低延迟通信(uRLLC)和大规模机器类型通信(mMTC),要想在一张网络中能够满足上述不同的场景,网络切片技术将作为主要的实现手段,如何高效的将需求部署到底层的设备中,为客户提供优质的服务将会是网络切片实现方案中的主要的难点。本发明,将对低时延业务场景下的传输网切片的路由和资源分配的问题进行深入的研究。我们将提出一种基于深度强化学习的新方法,用于在低时延切片场景下的动态路由和资源分配的方法。
发明内容
发明目的:本发明的目的是为核心网的低时延网络切片提供基于强化学习的路由和资源分配的算法,有效地解决了在核心网中的资源分配和路由的问题。
技术方案:
一种基于强化学习的低时延网络切片方法,包括以下步骤:
步骤1:首先构建物理网络和服务功能链的数学模型,针对低时延的网络切片的约束条件,对物理网络中的每一条服务功能链进行建模,形成低时延网络切片的数学模型;
步骤2:对当前物理网络场景下的服务功能链进行马尔可夫模型构建,定义当前场景下的状态,动作,奖励值等内容;
步骤3:提出基于强化学习的低时延网络切片的路由和资源分配的算法。
进一步地,步骤1低时延网络切片的数学模型建模如下:
把底层的物理网络结构建模为有向图G={N,E},其中N表示的是底层物理节点集合,底层的网络节点集合通过N={n1,n2,..,n|N|}进行表示,nx表示的是物理节点集合中的第x个物理节点(x∈{1,2,..,|N|})。在底层的物理节点nx上都拥有计算、存储等资源分别为E表示的是连接任意两个物理节点之间的链路集合,链路(nx,ny)∈E的链路带宽资源大小为/>
对网络中的服务功能链进行建模表示.在网络中假设[0,T]时间内会产生K条低时延的服务功能链,分别可以表示为S1,S2,…,SK,那么每条服务功能链由|Si|(i∈{1,2,...,K})个VNF构成,每条服务功能链所需的带宽资源大小为服务功能链Si的VNF集合可以表示为/>其中Sij表示的是第i条服务功能链的第j个VNF的实例。每个VNF所需要的计算、存储资源分别为/> 每条低时延业务的时延约束条件为Ti。
(1)服务功能链中VNF的映射表达式
表达式(1)表示的含义是任意的一个VNF只映射到N的物理节点集合中的一个节点上。
(2)物理节点和链路的资源限制
映射节点的资源限制:
表达式(2)表示的是节点使用的所有计算资源小于节点的计算资源的容量,表达式(3)表示的是节点使用的所有存储资源小于节点的存储资源的容量。
映射链路的带宽资源的限制:
(3)单链路的流量守恒
表达式(5)描述的是单条链路的流量守恒公式保证了流量从起始点出发流入目标的物理节点和流量不会回流,并确保每个物理节点的流量平衡。
(4)低时延服务功能链时延约束
表达式(6)的含义是一条功能服务链中按序编排的节点在处理时间上要按照先后顺序执行部署,表示的是第i条服务功能链的第j个VNF开始执行的时间。/>表示的是第i条服务功能链的第j个VNF开始执行的时间,/>则表示的是物理节点nx处理VNF Sij所需要的时间。
表示式(7)则表示的是第个i服务功能链从开始传输到结束传输的时间间隔要满足整个传输时延的约束条件。其中表示的是服务功能链i的第|Si|个VNF开始执行路由和资源分配的时间,/>表示的是物理节点nx处理第|Si|个VNF的处理时间,/>表示的是服务功能链i的第1个VNF开始执行路由和资源分配的时间。
(5)最优化目标
最优化的目标为最大化所有的映射成功的节点的资源使用数量,来最大化进行映射成功的服务功能链的数量。
进一步地,步骤2中服务功能链的马尔可夫模型构建如下::
(1)状态空间
状态空间是对整个网络中资源的和当前网络正在处理的虚拟网络功能的状态的一种描述,定义为S(t)={C(t),M(t),B(t),V(t),e(t)}其中C(t)表示的是在t时刻所有节点所剩余的计算资源的向量,M(t)表示的是节点剩余的存储资源的向量其表达式为/>B(t)则表示的是节点之间链路剩余带宽的向量表达式为/>如果两个节点之间没有连接的链路则/>始终保持为0。V(t)则表示的是在t时刻每个节点所映射的成功的虚拟网络功能的向量 表示的是在时刻t在物理节点nx上映射的虚拟网络功能的向量其表达式为/>定义/>为服务功能链Si,t时刻在节点nx的映射情况的向量/> 表示在t时刻虚拟网络功能Sij是否映射在节点nx上。则有/>且/>定义整个网络中K条服务功能链状态的一维矩阵/>其中/>如果/>表示服务功能链Si正在正常的映射运行,/>表示服务功能链Si在下一个时刻即将进行映射服务,若/>表示服务功能链Si还要继续进行等待进行服务,若/>则表示服务功能链Si由于某种原因没有进行映射成功,/>则表示该服务功能链进行了成功的路由和资源映射。
(2)动作空间
在进行下一个动作的节点映射选择时,可以进行选择的节点范围为当前节点的所有的有边直接进行相连的相邻节点的集合,定义物理网络中节点的nx的相邻的节点的集合为nx NEI可以表示为映射在节点nx中的所有的VNF的下一跳的选择只能是nx NEI中的节点进行选择。动作空间是由所有节点当前所映射的VNF共同决定和构成的。定义A(t)为t时刻的动作空间,/>其中/>表示的是在节点nx上所映射的VNF的下一跳动作的集合。
定义在t时刻在节点nx上的VNF的动作集合为其表达式定义为其中/>表示VNF Sij在t时刻映射到节点nx上,下一跳的节点选择则会在nx的相邻的节点集合中按照策略进行选择映射,/>则表示的示选择下一跳的结果,如果选择nx NEI中的第m个相邻节点则/>否则为0。因此有/>其中/>的表达式为
(3)奖励值的设置
假设在[0,T]的时间内总共会随机的产生总共K条低时延的服务功能链,假设服务功能链Si完成部署成功所获得的奖励值为奖励值的是根据当前所有的正在进行服务功能链的映射状态进行设定的。如果服务功能链Si在下一时刻全部映射成功完成,则获得/>的奖励值,如果是正在等待进行映射在下一时刻映射成功,获取/>的奖励值,如果在映射过程中出现服务功能链映射失败,获得的奖励值为/>其他情况下的奖励值为0。在状态S(t)执行动作A(t)后获得的立刻的奖励的定义如下。其中Rc表示表示全部映射完成的奖励值,Rw表示等待进行映射的服务功能链映射成功的奖励值,Rf则表示映射失败的奖励值,下面给出了其对应的计算表达式。
R(S(t),A(t),S(t+1))=Rc+Rw-Rf (9)
(4)强化学习求解大状态空间问题
我们使用深度强化学习来解决低时延业务场景下的网络切片中的路由和资源分配的问题,主要的原因是其在解决大状态空间的马尔可夫决策过程中具有很好的表现。
在时间戳t时刻获得的奖励值可以表示为Rt=R(S(t),A(t),S(t+1)),从当前时间戳开始到结束所获得的累计折扣奖励值表示为:
在表达式(10)中γ∈[0,1)是折扣因子。
定义深度强化学习在状态S(t)采取的动作的策略为π(a|s)=P(A(t)=a|S(t)=s)。在网络切片的路由和资源分配的问题中,策略π表示的是当前映射的所有服务功能链中的下一个服务功能的路由映射和资源分配。为了评价制定的策略π(a|s)的好坏并且希望智能体在与环境交互过程中执行动作中获得尽可能多的平均期望回报奖励,因此定义值函数Qπ(s,a)=Eπ(Gt|S(t)=s,A(t)=a)。通过相应的策略的调整来最大化值函数,获取在低时延网络切片业务场景下最优的路由和资源分配的策略。在进行动作的选择过程中是采用的ε策略,以1-ε的概率选择最优的策略,以ε的概率进行动作的随机探索,这样可以进行整个状态空间的探索。其表达式如下:
深度强化学习是采用深度的Q值网络来作为对值函数的逼近,深度强化学习利用深度神经网络来近似参数化的值函数Qπ(s,a;θ)。它将当前的状态作为整个网络的输入,输出当前状态下每个动作下的状态动作值函数。在进行神经网络的训练过程中对Q值的迭代公式如下所示:
在神经网络进行训练的过程中采用经验池的机制,将(S(t),A(t),S(t+1),Rt)的四元组作为一个训练样本存放到经验池中,用于对神经网络的训练。这样可以更有效地利用以前的经验。此外,使用经验池的机制,使得数据更像是独立且分布均匀的数据。这可以降低数据之间的相关性。
由于在进行Q值网络的训练过程中Q值的更新容易发生震荡,呈现出不稳定的学习行为,因此使用了带有target网络的深度强化学习,可以提升算法的稳定性。
进一步地,步骤3中的基于强化学习的低时延网络切片算法如下:
(1)初始化经验池大小为D。
(2)初始化Q值神经网络的权值为随机值θ。
(3)目标值网络神经网络的权值为θ^。
(4)随机生成网络功能服务链加入到物理网络进行映射。
(5)通过ε策略选择动作,以ε的概率选择随机动作A(t),其他情况选择
(6)执行动作A(t)获取奖励值Rt状态转换为下一个状态S(t+1)。
(7)将样本(S(t),A(t),S(t+1),Rt)存入到经验池。
(8)从经验池中随机选取样本进行训练。
(10)每隔C步使用Q值网络的参数来更新目标值网络的参数。
(11)重复步骤(4)到步骤(10)进行训练。
有益效果:本发明具有以下优点:
①根据低时延的网络切片的约束条件,对物理网络中的每一条服务功能链进行建模,提出了低时延网络切片的数学模型,根据模型解决了核心网进行低时延服务功能链映射资源和路由优化的问题。
②提出了当前物理网络场景下的服务功能链进行马尔可夫模型,定义当前场景下的状态,动作,奖励值等内容;
③根据提出的低时延网络切片的数学模型以及马尔可夫模型,提出基于深度强化学习的低时延网络切片的路由和资源分配的优化模型。
附图说明
图1是本发明中低时网络切片映射图。
图2是本发明中基于深度强化学习的低时延网络切片算法架构图
图3是本发明中基于深度强化学习的低时延网络切片架构流程图。
具体实施方式
本发明的目的是为核心网低时延网络切片提供基于深度强化学习的路由和资源分配的算法,有效地解决了在核心网低时延网络切片中的资源分配和路由的问题。在该模型中对核心网中的低时延网络切片进行建模,对动态的低时延业务的性能约束进行建模最优化模型,在建模完成后对该模型构建出相应的马尔可夫模型,最后通过基于深度强化学习的方法来求解低时延网络切片的资源分配和路由问题。
1、低时延网络切片映射模型以及服务功能链模型
把底层的物理网络结构建模为有向图G={N,E},其中N表示的是底层物理节点集合,底层的网络节点集合通过N={n1,n2,..,n|N|}进行表示,nx表示的是物理节点集合中的第x个物理节点(x∈{1,2,..,|N|})。在底层的物理节点nx上都拥有计算、存储等资源分别为E表示的是连接任意两个物理节点之间的链路集合,链路(nx,ny)∈E的链路带宽资源大小为/>
对网络中的服务功能链进行建模表示,在网络中假设[0,T]时间内会产生K条低时延的服务功能链,分别可以表示为S1,S2,…,SK,那么每条服务功能链由|Si|(i∈{1,2,...,K})个VNF构成,每条服务功能链所需的带宽资源大小为服务功能链Si的VNF集合可以表示为/>其中Sij表示的是第i条服务功能链的第j个VNF的实例。每个VNF所需要的计算、存储资源分别为/> 每条低时延业务的时延约束条件为Ti。
(1)服务功能链中VNF的映射表达式
表达式(1)表示的含义是任意的一个VNF只映射到N的物理节点集合中的一个节点上。
(2)物理节点和链路的资源限制
映射节点的资源限制:
表达式(2)表示的是节点使用的所有计算资源小于节点的计算资源的容量,表达式(3)表示的是节点使用的所有存储资源小于节点的存储资源的容量。
映射链路的带宽资源的限制:
(3)单链路的流量守恒
表达式(5)描述的是单条链路的流量守恒公式保证了流量从起始点出发流入目标的物理节点和流量不会回流,并确保每个物理节点的流量平衡。
(4)低时延服务功能链时延约束
表达式(6)的含义是一条功能服务链中按序编排的节点处理时间要按照先后顺序执行部署,表示的是第i条服务功能链的第j个VNF开始执行的时间。/>表示的是第i条服务功能链的第j个VNF开始执行的时间,/>则表示的是物理节点nx处理VNF Sij所需要的时间。
表示式(7)则表示的是第个i服务功能链从开始传输到结束传输的时间间隔要满足整个传输时延的约束条件。其中表示的是服务功能链i的第|Si|个VNF开始执行路由和资源分配的时间,/>表示的是物理节点nx处理第|Si|个VNF的处理时间,/>表示的是服务功能链i的第1个VNF开始执行路由和资源分配的时间。
(5)最优化目标
最优化的目标为最大化所有的映射成功的节点的资源使用数量,来最大化进行映射成功的服务功能链的数量。
2、低时延服务功能链的最优化模型
低时延网络切片的路由和资源分配的最优化模型如下所示:
s.t.
3、低时延服务功能链的马尔可夫模型模型
(1)状态空间
状态空间是对整个网络中资源的和当前网络正在处理的虚拟网络功能的状态的一种描述,定义为S(t)={C(t),M(t),B(t),V(t),e(t)}其中C(t)表示的是在t时刻所有节点所剩余的计算资源的向量,M(t)表示的是节点剩余的存储资源的向量其表达式为/>B(t)则表示的是节点之间链路剩余带宽的向量表达式为/>如果两个节点之间没有连接的链路则/>始终保持为0。V(t)则表示的是在t时刻每个节点所映射的成功的虚拟网络功能的向量 表示的是在时刻t在物理节点nx上映射的虚拟网络功能的向量其表达式为/>定义/>为服务功能链Si,t时刻在节点nx的映射情况的向量/> 表示在t时刻虚拟网络功能Sij是否映射在节点nx上。则有/>且/>定义整个网络中K条服务功能链状态的一维矩阵/>其中/>如果/>表示服务功能链Si正在正常的映射运行,/>表示服务功能链Si在下一个时刻即将进行映射服务,若/>表示服务功能链Si还要继续进行等待进行服务,若/>则表示服务功能链Si由于某种原因没有进行映射成功,/>则表示该服务功能链进行了成功的路由和资源映射。
(2)动作空间
在进行下一个动作的节点映射选择时,可以进行选择的节点范围为当前节点的所有的有边直接进行相连的相邻节点的集合,定义物理网络中节点的nx的相邻的节点的集合为nx NEI可以表示为映射在节点nx中的所有的VNF的下一跳的选择只能是nx NEI中的节点进行选择。动作空间是由所有节点当前所映射的VNF共同决定和构成的。定义A(t)为t时刻的动作空间,/>其中/>表示的是在节点nx上所映射的VNF的下一跳动作的集合。
定义在t时刻在节点nx上的VNF的动作集合为其表达式定义为其中/>表示VNFSij在t时刻映射到节点nx上,下一跳的节点选择则会在nx的相邻的节点集合中按照策略进行选择映射,/>则表示的示选择下一跳的结果,如果选择/>中的第m个相邻节点则/>否则为0。因此有/> 的表达式为/>
(3)奖励值的设置
在[0,T]的时间内总共会随机的产生总共K条低时延的服务功能链,假设服务功能链Si完成部署成功所获得的奖励值为奖励值的是根据当前所有的正在进行服务功能链的映射状态进行设定的。如果服务功能链Si在下一时刻全部映射成功完成,则获得/>的奖励值,如果是正在等待进行映射在下一时刻映射成功,获取/>的奖励值,如果在映射过程中出现服务功能链映射失败,获得的奖励值为/>其他情况下的奖励值为0。在状态S(t)执行动作A(t)后获得的立刻的奖励的定义如下。其中Rc表示表示全部映射完成的奖励值,Rw表示等待进行映射的服务功能链映射成功的奖励值,Rf则表示映射失败的奖励值,下面给出了其对应的计算表达式。
R(S(t),A(t),S(t+1))=Rc+Rw-Rf (18)
(4)强化学习求解大状态空间问题
我们使用深度强化学习来解决低时延业务场景下的网络切片中的路由和资源分配的问题,主要的原因是其在解决大状态空间的马尔可夫决策过程中具有很好的表现。
在时间戳t时刻获得的奖励值可以表示为Rt=R(S(t),A(t),S(t+1)),从当前时间戳开始到结束所获得的累计折扣奖励值表示为:
在表达式(10)中γ∈[0,1)是折扣因子。
定义深度强化学习在状态S(t)采取的动作的策略为π(a|s)=P(A(t)=a|S(t)=s)。在网络切片的路由和资源分配的问题中,策略π表示的是当前映射的所有服务功能链中的下一个服务功能的路由映射和资源分配。为了评价制定的策略π(a|s)的好坏并且希望智能体在与环境交互过程中执行动作中获得尽可能多的平均期望回报奖励,因此定义值函数Qπ(s,a)=Eπ(G,|S(t)=s,A(t)=a)。通过相应的策略的调整来最大化值函数,获取在低时延网络切片业务场景下最优的路由和资源分配的策略。在进行动作的选择过程中是采用的ε策略,以1-ε的概率选择最优的策略,以ε的概率进行动作的随机探索,这样可以进行整个状态空间的探索。其表达式如下:
深度强化学习是采用深度的Q值网络来作为对值函数的逼近,深度强化学习利用深度神经网络来近似参数化的值函数Qπ(s,a;θ)。它将当前的状态作为整个网络的输入,输出当前状态下每个动作下的状态动作值函数。在进行神经网络的训练过程中对Q值的迭代公式如下所示:
在神经网络进行训练的过程中采用经验池的机制,将(S(t),A(t),S(t+1),Rt)的四元组作为一个训练样本存放到经验池中,用于对神经网络的训练。这样可以更有效地利用以前的经验。此外,使用经验池的机制,使得数据更像是独立且分布均匀的数据。这可以降低数据之间的相关性。
由于在进行Q值网络的训练过程中Q值的更新容易发生震荡,呈现出不稳定的学习行为,因此使用了带有target网络的深度强化学习,可以提升算法的稳定性。
步骤3中的基于强化学习的低时延网络切片算法如下:
(1)初始化经验池大小为D。
(2)初始化Q值神经网络的权值为随机值θ。
(3)目标值网络神经网络的权值为θ^。
(4)随机生成网络功能服务链加入到物理网络进行映射。
(5)通过ε策略选择动作,以ε的概率选择随机动作A(t),其他情况选择
(6)执行动作A(t)获取奖励值Rt状态转换为下一个状态S(t+1)。
(7)将样本(S(t),A(t),S(t+1),Rt)存入到经验池。
(8)从经验池中随机选取样本进行训练。
(10)每隔C步使用Q值网络的参数来更新目标值网络的参数。
(11)重复步骤(4)到步骤(10)进行训练。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (6)
1.一种基于深度强化学习的低时延网络切片的路由和资源分配方法,其特征在于:包括以下步骤:
步骤1:首先构建物理网络和服务功能链的数学模型,针对低时延的网络切片的约束条件,对物理网络中的每一条服务功能链进行建模,形成低时延网络切片的数学模型;
其中,低时延网络切片的数学模型建模过程如下:
把底层的物理网络结构建模为有向图G={N,E},其中N表示的是底层物理节点集合,底层的网络节点集合通过N={n1,n2,..,n|N|}进行表示,nx表示的是物理节点集合中的第x个物理节点(x∈{1,2,...,|N|}),在底层的物理节点nx上都拥有计算、存储资源分别为E表示的是连接任意两个物理节点之间的链路集合,链路(nx,ny)∈E的链路带宽资源大小为/>
对网络中的服务功能链进行建模表示.在网络中假设[0,T]时间内会产生K条低时延的服务功能链,分别可以表示为S1,S2,…,SK,那么每条服务功能链由|Si|(i∈{1,2,...,K})个VNF构成,每条服务功能链所需的带宽资源大小为服务功能链Si的VNF集合可以表示为/>其中Sij表示的是第i条服务功能链的第j个VNF的实例,每个VNF所需要的计算、存储资源分别为/>每条低时延业务的时延约束条件为Ti;
步骤2:对当前物理网络场景下的服务功能链进行马尔可夫模型构建,定义当前场景下的状态、动作及奖励值;服务功能链的马尔可夫模型构建如下:
(1)状态空间
状态空间是对整个网络中资源的和当前网络正在处理的虚拟网络功能的状态的一种描述,定义为S(t)={C(t),M(t),B(t),V(t),e(t)};其中C(t)表示的是在t时刻所有节点所剩余的计算资源的向量,M(t)表示的是节点剩余的存储资源的向量,其表达式为/>B(t)则表示的是节点之间链路剩余带宽的向量,其表达式为/>如果两个节点之间没有连接的链路则/>始终保持为0;V(t)则表示的是在t时刻每个节点所映射的成功的虚拟网络功能的向量 表示的是在时刻t在物理节点nx上映射的虚拟网络功能的向量,其表达式为/>定义/>为服务功能链Si,t时刻在节点nx的映射情况的向量/> 表示在t时刻虚拟网络功能Sij是否映射在节点nx上,则有/>且/>定义整个网络中K条服务功能链状态的一维矩阵/>其中/>如果/>表示服务功能链Si正在正常的映射运行,/>表示服务功能链Si在下一个时刻即将进行映射服务,若/>表示服务功能链Si还要继续进行等待进行服务,若/>则表示服务功能链Si由于某种原因没有进行映射成功,/>则表示该服务功能链进行了成功的路由和资源映射;
(2)动作空间
在进行下一个动作的节点映射选择时,进行选择的节点范围为当前节点的所有的有边直接进行相连的相邻节点的集合,定义物理网络中节点的nx的相邻的节点的集合为nx NEI可以表示为映射在节点nx中的所有的VNF的下一跳的选择只能是nx NEI中的节点进行选择;动作空间是由所有节点当前所映射的VNF共同决定和构成的,定义A(t)为t时刻的动作空间,/>其中/>表示的是在节点nx上所映射的VNF的下一跳动作的集合;
定义在t时刻在节点nx上的VNF的动作集合为其表达式定义为其中/>表示VNF Sij在t时刻映射到节点nx上,下一跳的节点选择则会在nx的相邻的节点集合中按照策略进行选择映射,/>则表示的是选择下一跳的结果,如果选择nx NEI中的第m个相邻节点则/>否则为0,因此有/> 的表达式为
(3)奖励值的设置
在[0,T]的时间内总共会随机的产生总共K条低时延的服务功能链,假设服务功能链Si完成部署成功所获得的奖励值为奖励值的是根据当前所有的正在进行服务功能链的映射状态进行设定的,如果服务功能链Si在下一时刻全部映射成功完成,则获得/>的奖励值,如果是正在等待进行映射在下一时刻映射成功,获取/>的奖励值,如果在映射过程中出现服务功能链映射失败,获得的奖励值为/>其他情况下的奖励值为0;在状态S(t)执行动作A(t)后获得的立刻的奖励的定义如下,其中Rc表示全部映射完成的奖励值,Rw表示等待进行映射的服务功能链映射成功的奖励值,Rf则表示映射失败的奖励值,下面给出了其对应的计算表达式:
R(S(t),A(t),S(t+1))=Rc+Rw-Rf (9)
(4)强化学习求解大状态空间问题
使用深度强化学习来解决低时延业务场景下的网络切片中的路由和资源分配的问题;
在时间戳t时刻获得的奖励值可以表示为Rt=R(S(t),A(t),S(t+1)),从当前时间戳开始到结束所获得的累计折扣奖励值表示为:
在表达式(10)中γ∈[0,1)是折扣因子;
定义深度强化学习在状态S(t)采取的动作的策略为π(a|s)=P(A(t)=a|S(t)=s),在网络切片的路由和资源分配的问题中,策略π表示的是当前映射的所有服务功能链中的下一个服务功能的路由映射和资源分配:为了评价制定的策略π(a|s)的好坏并且希望智能体在与环境交互过程中执行动作中获得平均期望回报奖励,因此定义值函数Qπ(s,a)=Eπ(Gt|S(t)=s,A(t)=a),通过相应的策略的调整来最大化值函数,获取在低时延网络切片业务场景下最优的路由和资源分配的策略,在进行动作的选择过程中是采用的ε策略,以1-ε的概率选择最优的策略,以ε的概率进行动作的随机探索,这样可以进行整个状态空间的探索,其表达式如下:
深度强化学习是采用深度的Q值网络来作为对值函数的逼近,深度强化学习利用深度神经网络来近似参数化的值函数Qπ(s,a;θ),它将当前的状态作为整个网络的输入,输出当前状态下每个动作下的状态动作值函数,在进行神经网络的训练过程中对Q值的迭代公式如下所示:
在神经网络进行训练的过程中采用经验池的机制,将(S(t),A(t),S(t+1),Rt)的四元组作为一个训练样本存放到经验池中,用于对神经网络的训练,以更有效地利用以前的经验;此外,使用经验池的机制,使得数据更像是独立且分布均匀的数据,以降低数据之间的相关性;
由于在进行Q值网络的训练过程中Q值的更新容易发生震荡,呈现出不稳定的学习行为,因此使用了带有target网络的深度强化学习,可以提升算法的稳定性;
步骤3:提出基于强化学习的低时延网络切片的路由和资源分配的算法,具体内容如下:
(1)初始化经验池大小为D;
(2)初始化Q值神经网络的权值为随机值θ;
(3)目标值网络神经网络的权值为θ^;
(4)随机生成网络功能服务链加入到物理网络进行映射;
(6)执行动作A(t)获取奖励值Rt状态转换为下一个状态S(t+1);
(7)将样本(S(t),A(t),S(t+1),Rt)存入到经验池;
(8)从经验池中随机选取样本进行训练;
(10)每隔C步使用Q值网络的参数来更新目标值网络的参数;
重复步骤(4)到步骤(10)进行训练。
5.根据权利要求1所述的基于深度强化学习的低时延网络切片的路由和资源分配方法,其特征在于:低时延的服务功能链时延约束的表达式为
表达式(6)的含义是一条功能服务链中按序编排的节点处理时间要按照先后顺序执行部署,表示的是第i条服务功能链的第j个VNF开始执行的时间,/>表示的是第i条服务功能链的第j+1个VNF开始执行的时间,/>则表示的是物理节点nx处理VNF Sij所需要的时间;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110334767.8A CN113098714B (zh) | 2021-03-29 | 2021-03-29 | 基于强化学习的低时延网络切片方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110334767.8A CN113098714B (zh) | 2021-03-29 | 2021-03-29 | 基于强化学习的低时延网络切片方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113098714A CN113098714A (zh) | 2021-07-09 |
CN113098714B true CN113098714B (zh) | 2023-07-11 |
Family
ID=76670754
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110334767.8A Active CN113098714B (zh) | 2021-03-29 | 2021-03-29 | 基于强化学习的低时延网络切片方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113098714B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113747450B (zh) * | 2021-07-27 | 2022-12-09 | 清华大学 | 一种移动网络中业务部署方法、装置及电子设备 |
CN113849313B (zh) * | 2021-09-30 | 2024-09-13 | 郑州大学 | 一种节能的云-边弹性光网络中计算任务链部署方法 |
CN113904937B (zh) * | 2021-12-06 | 2022-03-29 | 北京邮电大学 | 一种服务功能链迁移方法、装置、电子设备及存储介质 |
CN114172937B (zh) * | 2022-01-19 | 2023-12-29 | 广州市宝思信息科技有限公司 | 基于深度强化学习的动态服务功能链编排方法及系统 |
CN114448804B (zh) * | 2022-03-17 | 2024-05-28 | 长安大学 | 一种基于信息交互连通时长优化的服务功能链映射系统和方法 |
CN114492845B (zh) * | 2022-04-01 | 2022-07-15 | 中国科学技术大学 | 资源受限条件下提高强化学习探索效率的方法 |
CN115174393B (zh) * | 2022-06-27 | 2023-09-22 | 福州大学 | 基于带内网络遥测的服务功能链动态调整方法 |
CN115665258B (zh) * | 2022-10-21 | 2023-04-18 | 南京航空航天大学 | 一种基于深度强化学习的多目标服务功能链的优先级感知部署方法 |
CN115865698A (zh) * | 2022-11-28 | 2023-03-28 | 南京航空航天大学 | 一种移动感知的多目标业务功能链部署和迁移方法 |
CN116132353A (zh) * | 2022-12-28 | 2023-05-16 | 重庆邮电大学 | 基于ddqn的tsn路由选择方法 |
CN116389266A (zh) * | 2023-01-17 | 2023-07-04 | 烽火通信科技股份有限公司 | 一种基于强化学习的数字孪生网络切片的方法和装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108063830A (zh) * | 2018-01-26 | 2018-05-22 | 重庆邮电大学 | 一种基于mdp的网络切片动态资源分配方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11051210B2 (en) * | 2017-04-28 | 2021-06-29 | NEC Laboratories Europe GmbH | Method and system for network slice allocation |
CN110768837A (zh) * | 2019-10-28 | 2020-02-07 | 北京邮电大学 | 一种网络切片虚拟资源分配方法、系统及装置 |
-
2021
- 2021-03-29 CN CN202110334767.8A patent/CN113098714B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108063830A (zh) * | 2018-01-26 | 2018-05-22 | 重庆邮电大学 | 一种基于mdp的网络切片动态资源分配方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113098714A (zh) | 2021-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113098714B (zh) | 基于强化学习的低时延网络切片方法 | |
CN111858009B (zh) | 基于迁移和强化学习的移动边缘计算系统任务调度方法 | |
CN114338504B (zh) | 一种基于网络边缘系统的微服务部署和路由方法 | |
CN108111335B (zh) | 一种调度和链接虚拟网络功能的方法及系统 | |
CN110460465B (zh) | 面向移动边缘计算的服务功能链部署方法 | |
CN108684046B (zh) | 一种基于随机学习的接入网服务功能链部署方法 | |
CN111585811B (zh) | 一种基于多智能体深度强化学习的虚拟光网络映射方法 | |
CN116541106B (zh) | 计算任务卸载方法、计算设备及存储介质 | |
CN111324630A (zh) | 基于mpi的神经网络架构搜索并行化方法和设备 | |
CN114710439B (zh) | 基于深度强化学习的网络能耗与吞吐量联合优化路由方法 | |
Xu et al. | Living with artificial intelligence: A paradigm shift toward future network traffic control | |
Hu et al. | Dynamic task offloading in MEC-enabled IoT networks: A hybrid DDPG-D3QN approach | |
CN116260821A (zh) | 基于深度强化学习和区块链的分布式并行计算卸载方法 | |
Zhou et al. | Multi-task deep learning based dynamic service function chains routing in SDN/NFV-enabled networks | |
CN116938323A (zh) | 一种基于强化学习的卫星转发器资源分配方法 | |
Huang et al. | Parallel Placement of Virtualized Network Functions via Federated Deep Reinforcement Learning | |
CN116367190A (zh) | 一种面向6g移动网络的数字孪生功能虚拟化方法 | |
CN115225512A (zh) | 基于节点负载预测的多域服务链主动重构机制 | |
CN115150335A (zh) | 一种基于深度强化学习的最优流量分割的方法和系统 | |
CN111813525B (zh) | 一种异构系统工作流调度方法 | |
CN113869511A (zh) | 一种基于策略迁移的多智能体协同进化方法 | |
Pashazadeh et al. | On the difficulty of generalizing reinforcement learning framework for combinatorial optimization | |
WO2022236948A1 (zh) | 一种适用于边缘物联代理装置的容错型协作决策的方法 | |
CN115134366B (zh) | 一种移动边缘分发网络服务器放置方法及系统 | |
Huang et al. | Digital Twin Assisted DAG Task Scheduling Via Evolutionary Selection MARL in Large-Scale Mobile Edge Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |