CN113098714B - 基于强化学习的低时延网络切片方法 - Google Patents

基于强化学习的低时延网络切片方法 Download PDF

Info

Publication number
CN113098714B
CN113098714B CN202110334767.8A CN202110334767A CN113098714B CN 113098714 B CN113098714 B CN 113098714B CN 202110334767 A CN202110334767 A CN 202110334767A CN 113098714 B CN113098714 B CN 113098714B
Authority
CN
China
Prior art keywords
network
service function
node
service
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110334767.8A
Other languages
English (en)
Other versions
CN113098714A (zh
Inventor
朱洪波
高健
朱晓荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202110334767.8A priority Critical patent/CN113098714B/zh
Publication of CN113098714A publication Critical patent/CN113098714A/zh
Application granted granted Critical
Publication of CN113098714B publication Critical patent/CN113098714B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0893Assignment of logical groups to network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0823Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0896Bandwidth or capacity management, i.e. automatically increasing or decreasing capacities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提出了一种基于深度强化学习的低时延网络切片的方法,通过对网络切片中低时延业务的时延约束条件以及服务功能和链路的映射条件构建了资源分配和路由的最优化问题;在进行求解的过程中,提出建立了该场景下的马尔可夫模型,利用强化学习中的DDQN来求解在低时延网络切片中的路由和资源分配的问题,在针对当前网络状态下所采取的动作则定义为每一条服务功能链下一跳的虚拟功能的部署,采取的动作集为前一跳节点的相邻的节点集合,奖励值则设置为与成功部署的服务功能链条数相关的函数。本发明在资源分配和和提升整个系统的成功部署服务的服务功能链数量以及整个系统资源的利用率等方面具有优越性。

Description

基于强化学习的低时延网络切片方法
技术领域
本发明设计了一种基于强化学习的低时延网络切片方法,应用于核心网的低时延的服务功能链的部署,属于信息通信技术领域。
背景技术
在5G时代,通信基础架构正在从专用的网络基础设施转移到每一个应用程序中,这样各种各样的应用和服务可以共享同一张网络。特别地,网络切片技术已经成为5G系统进行部署的关键技术,因为它允许运营商灵活地组织网络资源,为用户或者是第三方提供多样性的服务。这一技术特点将会给运营商节省建设成本和运营成本。由于这些原因,提出了具有基于不同网段的切片方案:核心网切片,无线接入网切片,传输网切片。
网络切片的概念是构建多个虚拟的逻辑网络,以便在同一物理网络上提供服务。网络切片技术可以保证服务的差异化以及可以满足服务水平协议。在网络切片实现的过程中,要将对应的虚拟的逻辑网络中的虚拟网络功能放置到相应的通用硬件中,实现真正的物理功能。
在3GPP关于5G的应用场景中定义了三大场景,分别是增强型移动宽带(eMBB),超可靠和低延迟通信(uRLLC)和大规模机器类型通信(mMTC),要想在一张网络中能够满足上述不同的场景,网络切片技术将作为主要的实现手段,如何高效的将需求部署到底层的设备中,为客户提供优质的服务将会是网络切片实现方案中的主要的难点。本发明,将对低时延业务场景下的传输网切片的路由和资源分配的问题进行深入的研究。我们将提出一种基于深度强化学习的新方法,用于在低时延切片场景下的动态路由和资源分配的方法。
发明内容
发明目的:本发明的目的是为核心网的低时延网络切片提供基于强化学习的路由和资源分配的算法,有效地解决了在核心网中的资源分配和路由的问题。
技术方案:
一种基于强化学习的低时延网络切片方法,包括以下步骤:
步骤1:首先构建物理网络和服务功能链的数学模型,针对低时延的网络切片的约束条件,对物理网络中的每一条服务功能链进行建模,形成低时延网络切片的数学模型;
步骤2:对当前物理网络场景下的服务功能链进行马尔可夫模型构建,定义当前场景下的状态,动作,奖励值等内容;
步骤3:提出基于强化学习的低时延网络切片的路由和资源分配的算法。
进一步地,步骤1低时延网络切片的数学模型建模如下:
把底层的物理网络结构建模为有向图G={N,E},其中N表示的是底层物理节点集合,底层的网络节点集合通过N={n1,n2,..,n|N|}进行表示,nx表示的是物理节点集合中的第x个物理节点(x∈{1,2,..,|N|})。在底层的物理节点nx上都拥有计算、存储等资源分别为
Figure SMS_1
E表示的是连接任意两个物理节点之间的链路集合,链路(nx,ny)∈E的链路带宽资源大小为/>
Figure SMS_2
对网络中的服务功能链进行建模表示.在网络中假设[0,T]时间内会产生K条低时延的服务功能链,分别可以表示为S1,S2,…,SK,那么每条服务功能链由|Si|(i∈{1,2,...,K})个VNF构成,每条服务功能链所需的带宽资源大小为
Figure SMS_3
服务功能链Si的VNF集合可以表示为/>
Figure SMS_4
其中Sij表示的是第i条服务功能链的第j个VNF的实例。每个VNF所需要的计算、存储资源分别为/>
Figure SMS_5
Figure SMS_6
每条低时延业务的时延约束条件为Ti
(1)服务功能链中VNF的映射表达式
定义二进制变量
Figure SMS_7
表示的是第i条服务功能链的第j个VNF的实例是否映射到物理节点nx上面。
Figure SMS_8
Figure SMS_9
表达式(1)表示的含义是任意的一个VNF只映射到N的物理节点集合中的一个节点上。
(2)物理节点和链路的资源限制
映射节点的资源限制:
Figure SMS_10
Figure SMS_11
表达式(2)表示的是节点使用的所有计算资源小于节点的计算资源的容量,表达式(3)表示的是节点使用的所有存储资源小于节点的存储资源的容量。
映射链路的带宽资源的限制:
Figure SMS_12
表达式(4)表示的是物理网络中链路nxny的带宽限制,其中
Figure SMS_13
表示的是功能服务链Si是否使用链路nxny来做为链路映射的二元变量。
(3)单链路的流量守恒
Figure SMS_14
表达式(5)描述的是单条链路的流量守恒公式保证了流量从起始点出发流入目标的物理节点和流量不会回流,并确保每个物理节点的流量平衡。
(4)低时延服务功能链时延约束
Figure SMS_15
表达式(6)的含义是一条功能服务链中按序编排的节点在处理时间上要按照先后顺序执行部署,
Figure SMS_16
表示的是第i条服务功能链的第j个VNF开始执行的时间。/>
Figure SMS_17
表示的是第i条服务功能链的第j个VNF开始执行的时间,/>
Figure SMS_18
则表示的是物理节点nx处理VNF Sij所需要的时间。
Figure SMS_19
表示式(7)则表示的是第个i服务功能链从开始传输到结束传输的时间间隔要满足整个传输时延的约束条件。其中
Figure SMS_20
表示的是服务功能链i的第|Si|个VNF开始执行路由和资源分配的时间,/>
Figure SMS_21
表示的是物理节点nx处理第|Si|个VNF的处理时间,/>
Figure SMS_22
表示的是服务功能链i的第1个VNF开始执行路由和资源分配的时间。
(5)最优化目标
Figure SMS_23
最优化的目标为最大化所有的映射成功的节点的资源使用数量,来最大化进行映射成功的服务功能链的数量。
进一步地,步骤2中服务功能链的马尔可夫模型构建如下::
(1)状态空间
状态空间是对整个网络中资源的和当前网络正在处理的虚拟网络功能的状态的一种描述,定义为S(t)={C(t),M(t),B(t),V(t),e(t)}其中C(t)表示的是在t时刻所有节点所剩余的计算资源的向量,
Figure SMS_31
M(t)表示的是节点剩余的存储资源的向量其表达式为/>
Figure SMS_29
B(t)则表示的是节点之间链路剩余带宽的向量表达式为/>
Figure SMS_34
如果两个节点之间没有连接的链路则/>
Figure SMS_26
始终保持为0。V(t)则表示的是在t时刻每个节点所映射的成功的虚拟网络功能的向量
Figure SMS_32
Figure SMS_30
表示的是在时刻t在物理节点nx上映射的虚拟网络功能的向量其表达式为/>
Figure SMS_36
定义/>
Figure SMS_38
为服务功能链Si,t时刻在节点nx的映射情况的向量/>
Figure SMS_41
Figure SMS_24
表示在t时刻虚拟网络功能Sij是否映射在节点nx上。则有/>
Figure SMS_42
且/>
Figure SMS_25
定义整个网络中K条服务功能链状态的一维矩阵/>
Figure SMS_35
其中/>
Figure SMS_28
如果/>
Figure SMS_37
表示服务功能链Si正在正常的映射运行,/>
Figure SMS_27
表示服务功能链Si在下一个时刻即将进行映射服务,若/>
Figure SMS_33
表示服务功能链Si还要继续进行等待进行服务,若/>
Figure SMS_39
则表示服务功能链Si由于某种原因没有进行映射成功,/>
Figure SMS_40
则表示该服务功能链进行了成功的路由和资源映射。
(2)动作空间
在进行下一个动作的节点映射选择时,可以进行选择的节点范围为当前节点的所有的有边直接进行相连的相邻节点的集合,定义物理网络中节点的nx的相邻的节点的集合为nx NEI可以表示为
Figure SMS_43
映射在节点nx中的所有的VNF的下一跳的选择只能是nx NEI中的节点进行选择。动作空间是由所有节点当前所映射的VNF共同决定和构成的。定义A(t)为t时刻的动作空间,/>
Figure SMS_44
其中/>
Figure SMS_45
表示的是在节点nx上所映射的VNF的下一跳动作的集合。
定义在t时刻在节点nx上的VNF的动作集合为
Figure SMS_47
其表达式定义为
Figure SMS_49
其中/>
Figure SMS_51
表示VNF Sij在t时刻映射到节点nx上,下一跳的节点选择则会在nx的相邻的节点集合中按照策略进行选择映射,/>
Figure SMS_48
则表示的示选择下一跳的结果,如果选择nx NEI中的第m个相邻节点则/>
Figure SMS_50
否则为0。因此有/>
Figure SMS_52
其中/>
Figure SMS_53
的表达式为
Figure SMS_46
(3)奖励值的设置
假设在[0,T]的时间内总共会随机的产生总共K条低时延的服务功能链,假设服务功能链Si完成部署成功所获得的奖励值为
Figure SMS_54
奖励值的是根据当前所有的正在进行服务功能链的映射状态进行设定的。如果服务功能链Si在下一时刻全部映射成功完成,则获得/>
Figure SMS_55
的奖励值,如果是正在等待进行映射在下一时刻映射成功,获取/>
Figure SMS_56
的奖励值,如果在映射过程中出现服务功能链映射失败,获得的奖励值为/>
Figure SMS_57
其他情况下的奖励值为0。在状态S(t)执行动作A(t)后获得的立刻的奖励的定义如下。其中Rc表示表示全部映射完成的奖励值,Rw表示等待进行映射的服务功能链映射成功的奖励值,Rf则表示映射失败的奖励值,下面给出了其对应的计算表达式。
R(S(t),A(t),S(t+1))=Rc+Rw-Rf (9)
Figure SMS_58
其中/>
Figure SMS_59
表示如果满足服务功能链状态/>
Figure SMS_60
并且/>
Figure SMS_61
时值为1,否则为0。
Figure SMS_62
其中/>
Figure SMS_63
表示如果满足服务功能链状态/>
Figure SMS_64
并且/>
Figure SMS_65
时值为1,否则为0。
Figure SMS_66
其中/>
Figure SMS_67
如果满足服务功能链状态/>
Figure SMS_68
或者/>
Figure SMS_69
并且/>
Figure SMS_70
时值为1,否则为0。
(4)强化学习求解大状态空间问题
我们使用深度强化学习来解决低时延业务场景下的网络切片中的路由和资源分配的问题,主要的原因是其在解决大状态空间的马尔可夫决策过程中具有很好的表现。
在时间戳t时刻获得的奖励值可以表示为Rt=R(S(t),A(t),S(t+1)),从当前时间戳开始到结束所获得的累计折扣奖励值表示为:
Figure SMS_71
在表达式(10)中γ∈[0,1)是折扣因子。
定义深度强化学习在状态S(t)采取的动作的策略为π(a|s)=P(A(t)=a|S(t)=s)。在网络切片的路由和资源分配的问题中,策略π表示的是当前映射的所有服务功能链中的下一个服务功能的路由映射和资源分配。为了评价制定的策略π(a|s)的好坏并且希望智能体在与环境交互过程中执行动作中获得尽可能多的平均期望回报奖励,因此定义值函数Qπ(s,a)=Eπ(Gt|S(t)=s,A(t)=a)。通过相应的策略的调整来最大化值函数,获取在低时延网络切片业务场景下最优的路由和资源分配的策略。在进行动作的选择过程中是采用的ε策略,以1-ε的概率选择最优的策略,以ε的概率进行动作的随机探索,这样可以进行整个状态空间的探索。其表达式如下:
Figure SMS_72
深度强化学习是采用深度的Q值网络来作为对值函数的逼近,深度强化学习利用深度神经网络来近似参数化的值函数Qπ(s,a;θ)。它将当前的状态作为整个网络的输入,输出当前状态下每个动作下的状态动作值函数。在进行神经网络的训练过程中对Q值的迭代公式如下所示:
Figure SMS_73
在神经网络进行训练的过程中采用经验池的机制,将(S(t),A(t),S(t+1),Rt)的四元组作为一个训练样本存放到经验池中,用于对神经网络的训练。这样可以更有效地利用以前的经验。此外,使用经验池的机制,使得数据更像是独立且分布均匀的数据。这可以降低数据之间的相关性。
由于在进行Q值网络的训练过程中Q值的更新容易发生震荡,呈现出不稳定的学习行为,因此使用了带有target网络的深度强化学习,可以提升算法的稳定性。
进一步地,步骤3中的基于强化学习的低时延网络切片算法如下:
(1)初始化经验池大小为D。
(2)初始化Q值神经网络的权值为随机值θ。
(3)目标值网络神经网络的权值为θ^。
(4)随机生成网络功能服务链加入到物理网络进行映射。
(5)通过ε策略选择动作,以ε的概率选择随机动作A(t),其他情况选择
Figure SMS_74
(6)执行动作A(t)获取奖励值Rt状态转换为下一个状态S(t+1)。
(7)将样本(S(t),A(t),S(t+1),Rt)存入到经验池。
(8)从经验池中随机选取样本进行训练。
(9)通过
Figure SMS_75
来计算梯度对Q值神经网络进行训练,更新参数θ。
(10)每隔C步使用Q值网络的参数来更新目标值网络的参数。
(11)重复步骤(4)到步骤(10)进行训练。
有益效果:本发明具有以下优点:
①根据低时延的网络切片的约束条件,对物理网络中的每一条服务功能链进行建模,提出了低时延网络切片的数学模型,根据模型解决了核心网进行低时延服务功能链映射资源和路由优化的问题。
②提出了当前物理网络场景下的服务功能链进行马尔可夫模型,定义当前场景下的状态,动作,奖励值等内容;
③根据提出的低时延网络切片的数学模型以及马尔可夫模型,提出基于深度强化学习的低时延网络切片的路由和资源分配的优化模型。
附图说明
图1是本发明中低时网络切片映射图。
图2是本发明中基于深度强化学习的低时延网络切片算法架构图
图3是本发明中基于深度强化学习的低时延网络切片架构流程图。
具体实施方式
本发明的目的是为核心网低时延网络切片提供基于深度强化学习的路由和资源分配的算法,有效地解决了在核心网低时延网络切片中的资源分配和路由的问题。在该模型中对核心网中的低时延网络切片进行建模,对动态的低时延业务的性能约束进行建模最优化模型,在建模完成后对该模型构建出相应的马尔可夫模型,最后通过基于深度强化学习的方法来求解低时延网络切片的资源分配和路由问题。
1、低时延网络切片映射模型以及服务功能链模型
把底层的物理网络结构建模为有向图G={N,E},其中N表示的是底层物理节点集合,底层的网络节点集合通过N={n1,n2,..,n|N|}进行表示,nx表示的是物理节点集合中的第x个物理节点(x∈{1,2,..,|N|})。在底层的物理节点nx上都拥有计算、存储等资源分别为
Figure SMS_76
E表示的是连接任意两个物理节点之间的链路集合,链路(nx,ny)∈E的链路带宽资源大小为/>
Figure SMS_77
对网络中的服务功能链进行建模表示,在网络中假设[0,T]时间内会产生K条低时延的服务功能链,分别可以表示为S1,S2,…,SK,那么每条服务功能链由|Si|(i∈{1,2,...,K})个VNF构成,每条服务功能链所需的带宽资源大小为
Figure SMS_78
服务功能链Si的VNF集合可以表示为/>
Figure SMS_79
其中Sij表示的是第i条服务功能链的第j个VNF的实例。每个VNF所需要的计算、存储资源分别为/>
Figure SMS_80
Figure SMS_81
每条低时延业务的时延约束条件为Ti
(1)服务功能链中VNF的映射表达式
定义二进制变量
Figure SMS_82
表示的是第i条服务功能链的第j个VNF的实例是否映射到物理节点nx上面。
Figure SMS_83
Figure SMS_84
表达式(1)表示的含义是任意的一个VNF只映射到N的物理节点集合中的一个节点上。
(2)物理节点和链路的资源限制
映射节点的资源限制:
Figure SMS_85
Figure SMS_86
表达式(2)表示的是节点使用的所有计算资源小于节点的计算资源的容量,表达式(3)表示的是节点使用的所有存储资源小于节点的存储资源的容量。
映射链路的带宽资源的限制:
Figure SMS_87
表达式(4)表示的是物理网络中链路nxny的带宽限制,其中
Figure SMS_88
表示的是功能服务链Si是否使用链路nxny来做为链路映射。
(3)单链路的流量守恒
Figure SMS_89
表达式(5)描述的是单条链路的流量守恒公式保证了流量从起始点出发流入目标的物理节点和流量不会回流,并确保每个物理节点的流量平衡。
(4)低时延服务功能链时延约束
Figure SMS_90
表达式(6)的含义是一条功能服务链中按序编排的节点处理时间要按照先后顺序执行部署,
Figure SMS_91
表示的是第i条服务功能链的第j个VNF开始执行的时间。/>
Figure SMS_92
表示的是第i条服务功能链的第j个VNF开始执行的时间,/>
Figure SMS_93
则表示的是物理节点nx处理VNF Sij所需要的时间。
Figure SMS_94
表示式(7)则表示的是第个i服务功能链从开始传输到结束传输的时间间隔要满足整个传输时延的约束条件。其中
Figure SMS_95
表示的是服务功能链i的第|Si|个VNF开始执行路由和资源分配的时间,/>
Figure SMS_96
表示的是物理节点nx处理第|Si|个VNF的处理时间,/>
Figure SMS_97
表示的是服务功能链i的第1个VNF开始执行路由和资源分配的时间。
(5)最优化目标
Figure SMS_98
最优化的目标为最大化所有的映射成功的节点的资源使用数量,来最大化进行映射成功的服务功能链的数量。
2、低时延服务功能链的最优化模型
低时延网络切片的路由和资源分配的最优化模型如下所示:
Figure SMS_99
s.t.
Figure SMS_100
Figure SMS_101
Figure SMS_102
Figure SMS_103
Figure SMS_104
Figure SMS_105
Figure SMS_106
Figure SMS_107
3、低时延服务功能链的马尔可夫模型模型
(1)状态空间
状态空间是对整个网络中资源的和当前网络正在处理的虚拟网络功能的状态的一种描述,定义为S(t)={C(t),M(t),B(t),V(t),e(t)}其中C(t)表示的是在t时刻所有节点所剩余的计算资源的向量,
Figure SMS_115
M(t)表示的是节点剩余的存储资源的向量其表达式为/>
Figure SMS_110
B(t)则表示的是节点之间链路剩余带宽的向量表达式为/>
Figure SMS_122
如果两个节点之间没有连接的链路则/>
Figure SMS_114
始终保持为0。V(t)则表示的是在t时刻每个节点所映射的成功的虚拟网络功能的向量
Figure SMS_125
Figure SMS_113
表示的是在时刻t在物理节点nx上映射的虚拟网络功能的向量其表达式为/>
Figure SMS_118
定义/>
Figure SMS_109
为服务功能链Si,t时刻在节点nx的映射情况的向量/>
Figure SMS_116
Figure SMS_108
表示在t时刻虚拟网络功能Sij是否映射在节点nx上。则有/>
Figure SMS_119
且/>
Figure SMS_111
定义整个网络中K条服务功能链状态的一维矩阵/>
Figure SMS_121
其中/>
Figure SMS_120
如果/>
Figure SMS_126
表示服务功能链Si正在正常的映射运行,/>
Figure SMS_112
表示服务功能链Si在下一个时刻即将进行映射服务,若/>
Figure SMS_123
表示服务功能链Si还要继续进行等待进行服务,若/>
Figure SMS_117
则表示服务功能链Si由于某种原因没有进行映射成功,/>
Figure SMS_124
则表示该服务功能链进行了成功的路由和资源映射。
(2)动作空间
在进行下一个动作的节点映射选择时,可以进行选择的节点范围为当前节点的所有的有边直接进行相连的相邻节点的集合,定义物理网络中节点的nx的相邻的节点的集合为nx NEI可以表示为
Figure SMS_127
映射在节点nx中的所有的VNF的下一跳的选择只能是nx NEI中的节点进行选择。动作空间是由所有节点当前所映射的VNF共同决定和构成的。定义A(t)为t时刻的动作空间,/>
Figure SMS_128
其中/>
Figure SMS_129
表示的是在节点nx上所映射的VNF的下一跳动作的集合。
定义在t时刻在节点nx上的VNF的动作集合为
Figure SMS_131
其表达式定义为
Figure SMS_134
其中/>
Figure SMS_136
表示VNFSij在t时刻映射到节点nx上,下一跳的节点选择则会在nx的相邻的节点集合中按照策略进行选择映射,/>
Figure SMS_132
则表示的示选择下一跳的结果,如果选择/>
Figure SMS_135
中的第m个相邻节点则/>
Figure SMS_137
否则为0。因此有/>
Figure SMS_138
Figure SMS_130
的表达式为/>
Figure SMS_133
(3)奖励值的设置
在[0,T]的时间内总共会随机的产生总共K条低时延的服务功能链,假设服务功能链Si完成部署成功所获得的奖励值为
Figure SMS_139
奖励值的是根据当前所有的正在进行服务功能链的映射状态进行设定的。如果服务功能链Si在下一时刻全部映射成功完成,则获得/>
Figure SMS_140
的奖励值,如果是正在等待进行映射在下一时刻映射成功,获取/>
Figure SMS_141
的奖励值,如果在映射过程中出现服务功能链映射失败,获得的奖励值为/>
Figure SMS_142
其他情况下的奖励值为0。在状态S(t)执行动作A(t)后获得的立刻的奖励的定义如下。其中Rc表示表示全部映射完成的奖励值,Rw表示等待进行映射的服务功能链映射成功的奖励值,Rf则表示映射失败的奖励值,下面给出了其对应的计算表达式。
R(S(t),A(t),S(t+1))=Rc+Rw-Rf (18)
Figure SMS_143
其中/>
Figure SMS_144
表示如果满足服务功能链状态/>
Figure SMS_145
并且/>
Figure SMS_146
时值为1,否则为0。
Figure SMS_147
其中/>
Figure SMS_148
表示如果满足服务功能链状态/>
Figure SMS_149
并且/>
Figure SMS_150
时值为1,否则为0。
Figure SMS_151
其中/>
Figure SMS_152
如果满足服务功能链状态/>
Figure SMS_153
或者/>
Figure SMS_154
并且/>
Figure SMS_155
时值为1,否则为0。
(4)强化学习求解大状态空间问题
我们使用深度强化学习来解决低时延业务场景下的网络切片中的路由和资源分配的问题,主要的原因是其在解决大状态空间的马尔可夫决策过程中具有很好的表现。
在时间戳t时刻获得的奖励值可以表示为Rt=R(S(t),A(t),S(t+1)),从当前时间戳开始到结束所获得的累计折扣奖励值表示为:
Figure SMS_156
在表达式(10)中γ∈[0,1)是折扣因子。
定义深度强化学习在状态S(t)采取的动作的策略为π(a|s)=P(A(t)=a|S(t)=s)。在网络切片的路由和资源分配的问题中,策略π表示的是当前映射的所有服务功能链中的下一个服务功能的路由映射和资源分配。为了评价制定的策略π(a|s)的好坏并且希望智能体在与环境交互过程中执行动作中获得尽可能多的平均期望回报奖励,因此定义值函数Qπ(s,a)=Eπ(G,|S(t)=s,A(t)=a)。通过相应的策略的调整来最大化值函数,获取在低时延网络切片业务场景下最优的路由和资源分配的策略。在进行动作的选择过程中是采用的ε策略,以1-ε的概率选择最优的策略,以ε的概率进行动作的随机探索,这样可以进行整个状态空间的探索。其表达式如下:
Figure SMS_157
深度强化学习是采用深度的Q值网络来作为对值函数的逼近,深度强化学习利用深度神经网络来近似参数化的值函数Qπ(s,a;θ)。它将当前的状态作为整个网络的输入,输出当前状态下每个动作下的状态动作值函数。在进行神经网络的训练过程中对Q值的迭代公式如下所示:
Figure SMS_158
在神经网络进行训练的过程中采用经验池的机制,将(S(t),A(t),S(t+1),Rt)的四元组作为一个训练样本存放到经验池中,用于对神经网络的训练。这样可以更有效地利用以前的经验。此外,使用经验池的机制,使得数据更像是独立且分布均匀的数据。这可以降低数据之间的相关性。
由于在进行Q值网络的训练过程中Q值的更新容易发生震荡,呈现出不稳定的学习行为,因此使用了带有target网络的深度强化学习,可以提升算法的稳定性。
步骤3中的基于强化学习的低时延网络切片算法如下:
(1)初始化经验池大小为D。
(2)初始化Q值神经网络的权值为随机值θ。
(3)目标值网络神经网络的权值为θ^。
(4)随机生成网络功能服务链加入到物理网络进行映射。
(5)通过ε策略选择动作,以ε的概率选择随机动作A(t),其他情况选择
Figure SMS_159
(6)执行动作A(t)获取奖励值Rt状态转换为下一个状态S(t+1)。
(7)将样本(S(t),A(t),S(t+1),Rt)存入到经验池。
(8)从经验池中随机选取样本进行训练。
(9)通过
Figure SMS_160
来计算梯度对Q值神经网络进行训练,更新参数θ。
(10)每隔C步使用Q值网络的参数来更新目标值网络的参数。
(11)重复步骤(4)到步骤(10)进行训练。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (6)

1.一种基于深度强化学习的低时延网络切片的路由和资源分配方法,其特征在于:包括以下步骤:
步骤1:首先构建物理网络和服务功能链的数学模型,针对低时延的网络切片的约束条件,对物理网络中的每一条服务功能链进行建模,形成低时延网络切片的数学模型;
其中,低时延网络切片的数学模型建模过程如下:
把底层的物理网络结构建模为有向图G={N,E},其中N表示的是底层物理节点集合,底层的网络节点集合通过N={n1,n2,..,n|N|}进行表示,nx表示的是物理节点集合中的第x个物理节点(x∈{1,2,...,|N|}),在底层的物理节点nx上都拥有计算、存储资源分别为
Figure FDA0004200372570000011
E表示的是连接任意两个物理节点之间的链路集合,链路(nx,ny)∈E的链路带宽资源大小为/>
Figure FDA0004200372570000012
对网络中的服务功能链进行建模表示.在网络中假设[0,T]时间内会产生K条低时延的服务功能链,分别可以表示为S1,S2,…,SK,那么每条服务功能链由|Si|(i∈{1,2,...,K})个VNF构成,每条服务功能链所需的带宽资源大小为
Figure FDA00042003725700000111
服务功能链Si的VNF集合可以表示为/>
Figure FDA0004200372570000013
其中Sij表示的是第i条服务功能链的第j个VNF的实例,每个VNF所需要的计算、存储资源分别为/>
Figure FDA0004200372570000014
每条低时延业务的时延约束条件为Ti
步骤2:对当前物理网络场景下的服务功能链进行马尔可夫模型构建,定义当前场景下的状态、动作及奖励值;服务功能链的马尔可夫模型构建如下:
(1)状态空间
状态空间是对整个网络中资源的和当前网络正在处理的虚拟网络功能的状态的一种描述,定义为S(t)={C(t),M(t),B(t),V(t),e(t)};其中C(t)表示的是在t时刻所有节点所剩余的计算资源的向量,
Figure FDA0004200372570000015
M(t)表示的是节点剩余的存储资源的向量,其表达式为/>
Figure FDA0004200372570000016
B(t)则表示的是节点之间链路剩余带宽的向量,其表达式为/>
Figure FDA0004200372570000017
如果两个节点之间没有连接的链路则/>
Figure FDA0004200372570000018
始终保持为0;V(t)则表示的是在t时刻每个节点所映射的成功的虚拟网络功能的向量
Figure FDA0004200372570000019
Figure FDA00042003725700000110
表示的是在时刻t在物理节点nx上映射的虚拟网络功能的向量,其表达式为/>
Figure FDA0004200372570000021
定义/>
Figure FDA0004200372570000022
为服务功能链Si,t时刻在节点nx的映射情况的向量/>
Figure FDA0004200372570000023
Figure FDA0004200372570000024
表示在t时刻虚拟网络功能Sij是否映射在节点nx上,则有/>
Figure FDA0004200372570000025
且/>
Figure FDA0004200372570000026
定义整个网络中K条服务功能链状态的一维矩阵/>
Figure FDA0004200372570000027
其中/>
Figure FDA0004200372570000028
如果/>
Figure FDA0004200372570000029
表示服务功能链Si正在正常的映射运行,/>
Figure FDA00042003725700000210
表示服务功能链Si在下一个时刻即将进行映射服务,若/>
Figure FDA00042003725700000211
表示服务功能链Si还要继续进行等待进行服务,若/>
Figure FDA00042003725700000212
则表示服务功能链Si由于某种原因没有进行映射成功,/>
Figure FDA00042003725700000213
则表示该服务功能链进行了成功的路由和资源映射;
(2)动作空间
在进行下一个动作的节点映射选择时,进行选择的节点范围为当前节点的所有的有边直接进行相连的相邻节点的集合,定义物理网络中节点的nx的相邻的节点的集合为nx NEI可以表示为
Figure FDA00042003725700000214
映射在节点nx中的所有的VNF的下一跳的选择只能是nx NEI中的节点进行选择;动作空间是由所有节点当前所映射的VNF共同决定和构成的,定义A(t)为t时刻的动作空间,/>
Figure FDA00042003725700000215
其中/>
Figure FDA00042003725700000216
表示的是在节点nx上所映射的VNF的下一跳动作的集合;
定义在t时刻在节点nx上的VNF的动作集合为
Figure FDA00042003725700000217
其表达式定义为
Figure FDA00042003725700000218
其中/>
Figure FDA00042003725700000219
表示VNF Sij在t时刻映射到节点nx上,下一跳的节点选择则会在nx的相邻的节点集合中按照策略进行选择映射,/>
Figure FDA00042003725700000220
则表示的是选择下一跳的结果,如果选择nx NEI中的第m个相邻节点则/>
Figure FDA00042003725700000221
否则为0,因此有/>
Figure FDA00042003725700000222
Figure FDA00042003725700000223
的表达式为
Figure FDA00042003725700000224
(3)奖励值的设置
在[0,T]的时间内总共会随机的产生总共K条低时延的服务功能链,假设服务功能链Si完成部署成功所获得的奖励值为
Figure FDA0004200372570000031
奖励值的是根据当前所有的正在进行服务功能链的映射状态进行设定的,如果服务功能链Si在下一时刻全部映射成功完成,则获得/>
Figure FDA0004200372570000032
的奖励值,如果是正在等待进行映射在下一时刻映射成功,获取/>
Figure FDA0004200372570000033
的奖励值,如果在映射过程中出现服务功能链映射失败,获得的奖励值为/>
Figure FDA0004200372570000034
其他情况下的奖励值为0;在状态S(t)执行动作A(t)后获得的立刻的奖励的定义如下,其中Rc表示全部映射完成的奖励值,Rw表示等待进行映射的服务功能链映射成功的奖励值,Rf则表示映射失败的奖励值,下面给出了其对应的计算表达式:
R(S(t),A(t),S(t+1))=Rc+Rw-Rf (9)
Figure FDA0004200372570000035
其中/>
Figure FDA0004200372570000036
表示如果满足服务功能链状态/>
Figure FDA0004200372570000037
并且/>
Figure FDA0004200372570000038
时值为1,否则为0;
Figure FDA0004200372570000039
其中/>
Figure FDA00042003725700000310
表示如果满足服务功能链状态/>
Figure FDA00042003725700000311
并且/>
Figure FDA00042003725700000312
时值为1,否则为0;
Figure FDA00042003725700000313
其中/>
Figure FDA00042003725700000314
如果满足服务功能链状态/>
Figure FDA00042003725700000315
或者/>
Figure FDA00042003725700000316
并且/>
Figure FDA00042003725700000317
时值为1,否则为0;
(4)强化学习求解大状态空间问题
使用深度强化学习来解决低时延业务场景下的网络切片中的路由和资源分配的问题;
在时间戳t时刻获得的奖励值可以表示为Rt=R(S(t),A(t),S(t+1)),从当前时间戳开始到结束所获得的累计折扣奖励值表示为:
Figure FDA00042003725700000318
在表达式(10)中γ∈[0,1)是折扣因子;
定义深度强化学习在状态S(t)采取的动作的策略为π(a|s)=P(A(t)=a|S(t)=s),在网络切片的路由和资源分配的问题中,策略π表示的是当前映射的所有服务功能链中的下一个服务功能的路由映射和资源分配:为了评价制定的策略π(a|s)的好坏并且希望智能体在与环境交互过程中执行动作中获得平均期望回报奖励,因此定义值函数Qπ(s,a)=Eπ(Gt|S(t)=s,A(t)=a),通过相应的策略的调整来最大化值函数,获取在低时延网络切片业务场景下最优的路由和资源分配的策略,在进行动作的选择过程中是采用的ε策略,以1-ε的概率选择最优的策略,以ε的概率进行动作的随机探索,这样可以进行整个状态空间的探索,其表达式如下:
Figure FDA0004200372570000041
深度强化学习是采用深度的Q值网络来作为对值函数的逼近,深度强化学习利用深度神经网络来近似参数化的值函数Qπ(s,a;θ),它将当前的状态作为整个网络的输入,输出当前状态下每个动作下的状态动作值函数,在进行神经网络的训练过程中对Q值的迭代公式如下所示:
Figure FDA0004200372570000042
在神经网络进行训练的过程中采用经验池的机制,将(S(t),A(t),S(t+1),Rt)的四元组作为一个训练样本存放到经验池中,用于对神经网络的训练,以更有效地利用以前的经验;此外,使用经验池的机制,使得数据更像是独立且分布均匀的数据,以降低数据之间的相关性;
由于在进行Q值网络的训练过程中Q值的更新容易发生震荡,呈现出不稳定的学习行为,因此使用了带有target网络的深度强化学习,可以提升算法的稳定性;
步骤3:提出基于强化学习的低时延网络切片的路由和资源分配的算法,具体内容如下:
(1)初始化经验池大小为D;
(2)初始化Q值神经网络的权值为随机值θ;
(3)目标值网络神经网络的权值为θ^;
(4)随机生成网络功能服务链加入到物理网络进行映射;
(5)通过ε策略选择动作,以ε的概率选择随机动作A(t),其他情况选择
Figure FDA0004200372570000043
(6)执行动作A(t)获取奖励值Rt状态转换为下一个状态S(t+1);
(7)将样本(S(t),A(t),S(t+1),Rt)存入到经验池;
(8)从经验池中随机选取样本进行训练;
(9)通过
Figure FDA0004200372570000051
来计算梯度对Q值神经网络进行训练,更新参数θ;
(10)每隔C步使用Q值网络的参数来更新目标值网络的参数;
重复步骤(4)到步骤(10)进行训练。
2.根据权利要求1所述的基于深度强化学习的低时延网络切片的路由和资源分配方法,其特征在于:所述服务功能链中VNF的映射表达式为:
定义二进制变量
Figure FDA0004200372570000052
表示的是第i条服务功能链的第j个VNF的实例是否映射到物理节点nx上面;
Figure FDA0004200372570000053
Figure FDA0004200372570000054
表达式(1)表示的含义是任意的一个VNF只映射到N个物理节点集合中的一个节点上。
3.根据权利要求1所述的基于深度强化学习的低时延网络切片的路由和资源分配方法,其特征在于:所述物理节点和链路的资源限制如下所示:
映射节点的资源限制:
Figure FDA0004200372570000055
Figure FDA0004200372570000056
表达式(2)表示的是节点使用的所有计算资源小于节点的计算资源的容量,表达式(3)表示的是节点使用的所有存储资源小于节点的存储资源的容量;
映射链路的带宽资源的限制:
Figure FDA0004200372570000057
表达式(4)表示的是物理网络中链路nxny的带宽限制,其中
Figure FDA0004200372570000058
表示的是功能服务链Si是否使用链路nxny来做为链路映射。
4.根据权利要求1所述的基于深度强化学习的低时延网络切片的路由和资源分配方法,其特征在于:单条链路的流量守恒表达式为
Figure FDA0004200372570000061
表达式(5)描述的是单条链路的流量守恒公式保证了流量从起始点出发流入目标的物理节点和流量不会回流,并确保每个物理节点的流量平衡。
5.根据权利要求1所述的基于深度强化学习的低时延网络切片的路由和资源分配方法,其特征在于:低时延的服务功能链时延约束的表达式为
Figure FDA0004200372570000062
表达式(6)的含义是一条功能服务链中按序编排的节点处理时间要按照先后顺序执行部署,
Figure FDA0004200372570000063
表示的是第i条服务功能链的第j个VNF开始执行的时间,/>
Figure FDA0004200372570000064
表示的是第i条服务功能链的第j+1个VNF开始执行的时间,/>
Figure FDA0004200372570000065
则表示的是物理节点nx处理VNF Sij所需要的时间;
Figure FDA0004200372570000066
表示式(7)则表示的是第个i服务功能链从开始传输到结束传输的时间间隔要满足整个传输时延的约束条件;其中
Figure FDA0004200372570000067
表示的是服务功能链i的第|Si|个VNF开始执行路由和资源分配的时间,/>
Figure FDA0004200372570000068
表示的是物理节点nx处理第|Si|个VNF的处理时间,/>
Figure FDA0004200372570000069
表示的是服务功能链i的第1个VNF开始执行路由和资源分配的时间。
6.根据权利要求1所述的基于深度强化学习的低时延网络切片的路由和资源分配方法,其特征在于:最优化目标的表达式为
Figure FDA00042003725700000610
最优化的目标为最大化所有的映射成功的节点的资源使用数量,来最大化进行映射成功的服务功能链的数量。
CN202110334767.8A 2021-03-29 2021-03-29 基于强化学习的低时延网络切片方法 Active CN113098714B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110334767.8A CN113098714B (zh) 2021-03-29 2021-03-29 基于强化学习的低时延网络切片方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110334767.8A CN113098714B (zh) 2021-03-29 2021-03-29 基于强化学习的低时延网络切片方法

Publications (2)

Publication Number Publication Date
CN113098714A CN113098714A (zh) 2021-07-09
CN113098714B true CN113098714B (zh) 2023-07-11

Family

ID=76670754

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110334767.8A Active CN113098714B (zh) 2021-03-29 2021-03-29 基于强化学习的低时延网络切片方法

Country Status (1)

Country Link
CN (1) CN113098714B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113747450B (zh) * 2021-07-27 2022-12-09 清华大学 一种移动网络中业务部署方法、装置及电子设备
CN113849313B (zh) * 2021-09-30 2024-09-13 郑州大学 一种节能的云-边弹性光网络中计算任务链部署方法
CN113904937B (zh) * 2021-12-06 2022-03-29 北京邮电大学 一种服务功能链迁移方法、装置、电子设备及存储介质
CN114172937B (zh) * 2022-01-19 2023-12-29 广州市宝思信息科技有限公司 基于深度强化学习的动态服务功能链编排方法及系统
CN114448804B (zh) * 2022-03-17 2024-05-28 长安大学 一种基于信息交互连通时长优化的服务功能链映射系统和方法
CN114492845B (zh) * 2022-04-01 2022-07-15 中国科学技术大学 资源受限条件下提高强化学习探索效率的方法
CN115174393B (zh) * 2022-06-27 2023-09-22 福州大学 基于带内网络遥测的服务功能链动态调整方法
CN115665258B (zh) * 2022-10-21 2023-04-18 南京航空航天大学 一种基于深度强化学习的多目标服务功能链的优先级感知部署方法
CN115865698A (zh) * 2022-11-28 2023-03-28 南京航空航天大学 一种移动感知的多目标业务功能链部署和迁移方法
CN116132353A (zh) * 2022-12-28 2023-05-16 重庆邮电大学 基于ddqn的tsn路由选择方法
CN116389266A (zh) * 2023-01-17 2023-07-04 烽火通信科技股份有限公司 一种基于强化学习的数字孪生网络切片的方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108063830A (zh) * 2018-01-26 2018-05-22 重庆邮电大学 一种基于mdp的网络切片动态资源分配方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11051210B2 (en) * 2017-04-28 2021-06-29 NEC Laboratories Europe GmbH Method and system for network slice allocation
CN110768837A (zh) * 2019-10-28 2020-02-07 北京邮电大学 一种网络切片虚拟资源分配方法、系统及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108063830A (zh) * 2018-01-26 2018-05-22 重庆邮电大学 一种基于mdp的网络切片动态资源分配方法

Also Published As

Publication number Publication date
CN113098714A (zh) 2021-07-09

Similar Documents

Publication Publication Date Title
CN113098714B (zh) 基于强化学习的低时延网络切片方法
CN111858009B (zh) 基于迁移和强化学习的移动边缘计算系统任务调度方法
CN114338504B (zh) 一种基于网络边缘系统的微服务部署和路由方法
CN108111335B (zh) 一种调度和链接虚拟网络功能的方法及系统
CN110460465B (zh) 面向移动边缘计算的服务功能链部署方法
CN108684046B (zh) 一种基于随机学习的接入网服务功能链部署方法
CN111585811B (zh) 一种基于多智能体深度强化学习的虚拟光网络映射方法
CN116541106B (zh) 计算任务卸载方法、计算设备及存储介质
CN111324630A (zh) 基于mpi的神经网络架构搜索并行化方法和设备
CN114710439B (zh) 基于深度强化学习的网络能耗与吞吐量联合优化路由方法
Xu et al. Living with artificial intelligence: A paradigm shift toward future network traffic control
Hu et al. Dynamic task offloading in MEC-enabled IoT networks: A hybrid DDPG-D3QN approach
CN116260821A (zh) 基于深度强化学习和区块链的分布式并行计算卸载方法
Zhou et al. Multi-task deep learning based dynamic service function chains routing in SDN/NFV-enabled networks
CN116938323A (zh) 一种基于强化学习的卫星转发器资源分配方法
Huang et al. Parallel Placement of Virtualized Network Functions via Federated Deep Reinforcement Learning
CN116367190A (zh) 一种面向6g移动网络的数字孪生功能虚拟化方法
CN115225512A (zh) 基于节点负载预测的多域服务链主动重构机制
CN115150335A (zh) 一种基于深度强化学习的最优流量分割的方法和系统
CN111813525B (zh) 一种异构系统工作流调度方法
CN113869511A (zh) 一种基于策略迁移的多智能体协同进化方法
Pashazadeh et al. On the difficulty of generalizing reinforcement learning framework for combinatorial optimization
WO2022236948A1 (zh) 一种适用于边缘物联代理装置的容错型协作决策的方法
CN115134366B (zh) 一种移动边缘分发网络服务器放置方法及系统
Huang et al. Digital Twin Assisted DAG Task Scheduling Via Evolutionary Selection MARL in Large-Scale Mobile Edge Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant