CN115941506A - 一种基于策略网络强化学习的多类型服务资源编排方法 - Google Patents

一种基于策略网络强化学习的多类型服务资源编排方法 Download PDF

Info

Publication number
CN115941506A
CN115941506A CN202211201337.XA CN202211201337A CN115941506A CN 115941506 A CN115941506 A CN 115941506A CN 202211201337 A CN202211201337 A CN 202211201337A CN 115941506 A CN115941506 A CN 115941506A
Authority
CN
China
Prior art keywords
node
service
resource
bandwidth
path
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211201337.XA
Other languages
English (en)
Inventor
马天纯
张旭
张琦涵
冯川
郭磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202211201337.XA priority Critical patent/CN115941506A/zh
Publication of CN115941506A publication Critical patent/CN115941506A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于策略网络强化学习的多类型服务资源编排方法,属于通信技术领域,包括以下主要步骤:步骤1:映射业务首节点;步骤2:将特征矩阵输入强化学习模型中;步骤3:输出候选动作概率;步骤4:选择最大概率动作映射;步骤5:将业务需要映射的下一节点和与上一节点之间的直连链路作为一个元组同时映射,重复步骤2‑4,直至业务全部节点均已映射,判断业务是否映射完成;步骤6:若业务映射完成,计算收益成本比;否则映射剩余链路,重复步骤2‑4直至业务映射完成,计算收益成本比;步骤7:计算损失函数损失值,策略梯度法更新强化学习模型参数。本方法可以提高平均节点服务资源利用率,同时降低业务阻塞率,减少服务提供商成本消耗。

Description

一种基于策略网络强化学习的多类型服务资源编排方法
技术领域
本发明涉及通信技术领域,具体是一种基于策略网络强化学习的多类型服务资源编排方法。
背景技术
众所周知,互联网的发展速度异常迅猛,各个领域随着互联网的渗透相应涌现出各种不同的应用,然而传统的互联网很难适应新应用、新需求的变化,因为传统互联网是在TCP/IP协议基础上产生和发展的。为此学术界提出了把当前使用的网络资源进行抽象和封装的处理方案,即把服务供应商分解为基础设施供应商和服务开发商。抽象和封装网络资源的过程涉及虚拟网络的映射技术,映射过程可以由多种算法实现,比如启发式算法、机器学习算法等。
启发式算法主要分为基于图论的、基于拓扑感知的和基于线性规划的算法。基于图论的算法利用了子图分割、子图同构检测等方法;基于拓扑感知的算法通过对物理网络的拓扑信息进行挖掘,从而区分网络中不同节点的资源重要性的差异,然后在映射过程中考虑这种差异从而优化映射结果;基于线性规划模型的算法,将虚拟网络映射问题转变为混合整数规划问题,并经过松弛后将其转变为线性规划问题,然后设计相应的目标函数和约束条件,最后通过线性规划工具进行求解。
机器学习算法可以处理在一段时间内收集的大量数据,并自动从数据中学习统计信息以进行分类或预测。强化学习作为机器学习中广泛使用的技术,在处理复杂的任务时表现出巨大的潜力。强化学习设置一个代理进行学习,通过代理与环境的不断交互以及获得的反馈来调整策略,目标是使代理得到最优策略,基于这个最优策略,代理可以得到最大累积奖赏。代理与环境不断进行交互,逐渐优化选择策略,相比传统启发式算法提高了请求接受率和长期收益成本比,证明了强化学习在虚拟网络映射问题中的有效性。
发明内容
有鉴于此,本发明提出了一种基于策略网络强化学习的多类型服务资源编排方法,简称NL-PNRL。在NL-PNRL方法中,设计了策略网络强化学习模型(Policy NetworkReinforcement Learning Model,PNRL-Model),把收益成本比作为奖励函数,采用节点链路同时映射的顺序,将物理网络节点属性和链路属性综合考虑,通过与启发式方法对比,在节点多类型资源利用率、业务阻塞率、长期收益成本比等方面,证明了本发明设计的NL-PNRL方法具有明显的优势。
为达到上述目的,本发明提供如下技术方案:一种基于策略网络强化学习的多类型服务资源编排方法,包括以下步骤:
步骤1:映射业务请求Gr首节点。
步骤2:将物理网络节点特征矩阵
Figure BDA0003872148510000011
/节点-路径特征矩阵
Figure BDA0003872148510000012
/路径特征矩阵
Figure BDA0003872148510000021
输入强化学习模型PNRL-Model中。
步骤3:强化学习模型PNRL-Model输出候选节点概率PN/候选节点路径元组概率PNP/候选路径概率PP
步骤4:选择最大概率的动作进行映射,并更新物理网络Gs
步骤5:将业务请求需要映射的下一节点(i+1)r和与上一节点ir之间的直连链路jr作为一个元组同时映射,重复步骤2到步骤4,直至业务请求所有节点映射完成,并判断业务请求Gr是否映射完成。
步骤6:若业务请求Gr映射完成,计算业务映射收益成本比;否则映射剩余链路,重复步骤2到步骤4直至业务请求Gr映射完成,计算业务映射收益成本比。
步骤7:计算损失函数损失值Loss,使用策略梯度方法更新强化学习模型PNRL-Model的参数。
本发明的优点及有益效果如下:
本发明的创新主要是步骤2和步骤7,通过设计强化学习模型PNRL-Model,采用节点链路同时映射的顺序,把收益成本比作为奖励函数,在映射过程中不断优化选择策略,提高最优动作选择概率,在映射过程中充分考虑了节点剩余资源量、相邻链路剩余带宽和、节点度、候选节点到已映射节点的平均距离,源节点到目的节点之间路径的可用带宽、带宽剩余率、跳数和最大丢包率,对多种类型的服务资源进行均衡分配,提高物理网络节点各种类型服务资源的利用率,降低业务阻塞率,提高物理网络对业务请求的承载量。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作优选的详细描述,其中:
图1为本发明具体实施方式基于策略网络强化学习的多类型服务资源编排方法的流程图;
图2为本发明具体实施方式基于策略网络强化学习的多类型服务资源编排方法的策略网络强化学习模型;
图3为本发明具体实施方式基于策略网络强化学习的多类型服务资源编排方法使用的拓扑图;
图4为本发明具体实施方式的对比强化学习方法NF-PNRL算法的流程图;
图5为本发明具体实施方式的对比强化学习方法LF-PNRL算法的流程图;
图6为本发明具体实施方式基于FITI拓扑图类型Ⅰ服务资源的平均节点资源利用率变化图;
图7为本发明具体实施方式基于FITI拓扑图类型Ⅱ服务资源的平均节点资源利用率对比图;
图8为本发明具体实施方式基于FITI拓扑图类型Ⅲ服务资源的平均节点资源利用率对比图;
图9为本发明具体实施方式基于FITI拓扑图类型Ⅳ服务资源的平均节点资源利用率对比图;
图10为本发明具体实施方式基于FITI拓扑图类型Ⅴ服务资源的平均节点资源利用率对比图;
图11为本发明具体实施方式基于FITI拓扑图平均链路带宽资源利用率对比图;
图12为本发明具体实施基于FITI拓扑图长期收益成本比对比图;
图13为本发明具体实施基于FITI拓扑图阻塞率对比图;
图14为本发明具体实施基于FITI拓扑图强化学习方法损失函数对比图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明提出了一种利用强化学习模型对多类型服务资源进行编排的虚拟网络映射方法,算法整体流程如图1所示,在相同的物理网络和业务请求的条件下,相比于节点优先的启发式方法(简称NF-HA)、链路优先的启发式方法(简称LF-HA)、节点链路同时映射的启发式方法(简称NL-HA)、节点优先的强化学习方法(简称NF-PNRL)和链路优先的强化学习方法(简称LF-PNRL),本方案的平均节点资源利用率和长期收益成本比均高于对比方法,并且本方案的业务阻塞率低于所有启发式方法以及其他映射顺序下的强化学习方法。
一种基于策略网络强化学习的多类型服务资源编排方法,该方法包括以下步骤:
步骤1:映射业务请求Gr首节点;
步骤2:将物理网络节点/节点-路径/路径特征矩阵
Figure BDA0003872148510000031
输入强化学习模型PNRL-Model中;
步骤3:强化学习模型PNRL-Model输出候选动作的概率PN/PNP/PP
步骤4:选择最大概率的动作进行映射,并更新物理网络Gs
步骤5:将业务需要映射的下一节点(i+1)r和与上一节点ir之间的直连链路jr作为一个元组同时映射,重复步骤2到步骤4,直至业务所有节点映射完成,并判断业务请求Gr是否映射完成;
步骤6:若业务请求Gr映射完成,计算业务映射收益成本比;否则映射剩余链路,重复步骤2到步骤4直至业务请求Gr映射完成,计算业务映射收益成本比。
步骤7:计算损失函数损失值Loss,使用策略梯度方法更新强化学习模型PNRL-Model的参数;
进一步,步骤2又可以分为以下步骤:
步骤8:将物理网络节点/节点-路径/路径特征矩阵
Figure BDA0003872148510000032
输入到策略网络的输入层,使用离差标准化方法进行归一化;
步骤9:将归一化后的矩阵IN/INP/IP输入策略网络卷积层,生成每个动作的可用资源向量CN/CNP/CP
步骤10:将所有动作的可用资源向量CN/CNP/CP输入Softmax层,将每个动作的可用资源向量转化成每个动作被选择的概率
Figure BDA0003872148510000033
步骤11:过滤掉不满足节点资源约束、一对一约束、带宽约束和丢包率约束的动作;
步骤12:将不满足约束动作的概率记为0;
步骤13:输出候选动作以及相对应的概率PN/PNP/PP
其中业务的请求网络模型表述为:R表示业务请求的集合;Gr(Vr,Er)表示请求网络模型,r∈R;Vr表示业务请求Gr的虚拟节点集合,Er表示业务请求Gr的虚拟链路集合;
Figure BDA0003872148510000041
表示业务请求Gr中节点ir对第t种资源的请求量,其中
Figure BDA0003872148510000042
T表示物理网络中所有节点的资源类型:Ⅰ、Ⅱ、Ⅲ、Ⅳ、Ⅴ共5种,T={Ⅰ,Ⅱ,Ⅲ,Ⅳ,Ⅴ};
Figure BDA0003872148510000043
Figure BDA0003872148510000044
分别表示业务请求Gr中虚拟链路jr的带宽需求和容忍丢包率,其中
Figure BDA0003872148510000045
底层物理网络模型表述为:Gs(Vs,Es)表示物理网络模型;Vs表示节点集合;Es表示链路集合;
Figure BDA0003872148510000046
分别表示物理网络节点is第t种类型的资源总量和剩余资源量,其中
Figure BDA0003872148510000047
Figure BDA0003872148510000048
Figure BDA0003872148510000049
分别表示物理网络中链路js的带宽总量、带宽剩余量和丢包率大小,其中
Figure BDA00038721485100000410
Figure BDA00038721485100000411
Figure BDA00038721485100000412
分别表示路径
Figure BDA00038721485100000413
的剩余带宽、带宽剩余率、丢包率和跳数,
Figure BDA00038721485100000414
Ps(as,bs)表示物理网络源节点as到目的节点bs的无环路径集合,K=|Ps(as,bs)|,其中
Figure BDA00038721485100000415
as≠bs
Figure BDA00038721485100000416
分别表示物理网络节点is的相邻链路集合、相邻链路剩余带宽和和节点度,其中
Figure BDA00038721485100000417
Figure BDA00038721485100000418
表示业务请求Gr的请求节点i'r在物理网络Gs中的候选节点集合,且
Figure BDA00038721485100000419
SP(as,bs)表示物理网络源节点as到目的节点bs之间最短路径的跳数;
Figure BDA00038721485100000420
表示物理网络目的节点bs到已被业务Gr中虚拟节点映射的物理网络节点之间的平均距离;
Figure BDA00038721485100000421
Figure BDA00038721485100000422
Figure BDA00038721485100000423
Figure BDA00038721485100000424
Figure BDA00038721485100000425
Figure BDA00038721485100000426
公式(1)表示物理网络路径
Figure BDA0003872148510000051
的剩余带宽大小等于路径中所有链路的最小剩余带宽值;公式(2)表示物理网络路径
Figure BDA0003872148510000052
的丢包率等于路径中所有链路的最大丢包率;公式(3)表示物理网络路径
Figure BDA0003872148510000053
的带宽剩余率,即路径剩余带宽比路径总带宽的值,其中,
Figure BDA0003872148510000054
为二进制决策变量,如果物理网络源节点as到目的节点bs的第k条物理路径包含物理链路js,值为1,否则为0;公式(4)表示物理网络节点is的相邻链路剩余带宽和;公式(5)表示物理网络节点is的度;公式(6)表示物理网络目的节点bs到已被业务请求Gr中虚拟节点映射的物理网络节点之间的平均距离,平均距离越大,业务请求Gr中虚拟节点映射的物理网络节点越分散,否则越集中。
业务请求的收益成本比为映射成功业务的节点请求资源量和链路请求带宽之和比映射成功业务节点占用资源量和链路占用带宽之和(公式7所示)。
Figure BDA0003872148510000055
优化目标是最大化请求的收益成本比RC(公式8所示)
Max:RC(8)
Figure BDA0003872148510000056
Figure BDA0003872148510000057
Figure BDA0003872148510000058
Figure BDA0003872148510000059
其中,
Figure BDA00038721485100000510
表示二进制决策变量,如果将第r个业务请求中的虚拟节点ir映射到物理网络节点is,值为1,否则为0;
Figure BDA00038721485100000511
表示二进制决策变量,如果将第r个业务请求中的虚拟链路jr映射到包含物理网络链路js的物理路径中,值为1,否则为0。
约束条件有:(1)节点资源约束(公式9所示):业务请求的虚拟节点映射到的物理网络节点对应资源类型的剩余资源量必须大于对应资源类型的请求资源量;(2)节点一对一映射约束(公式10所示):同一业务请求内不同的请求节点不可映射到同一物理网络节点上;(3)带宽约束(公式11所示):业务请求链路映射到的物理网络路径剩余带宽必须大于请求带宽;(4)丢包率约束(公式12所示):业务请求链路映射到的物理网络路径的最大丢包率必须小于对应请求链路的容忍丢包率。
虚拟网络映射的评价指标有收益成本比、节点平均资源利用率、平均带宽资源利用率和阻塞率。节点平均资源利用率为物理网络中所有节点的资源占用量之和比所有节点的总资源量之和。平均带宽资源利用率为物理网络中所有链路带宽占用量之和比所有链路总带宽之和。阻塞率为映射失败的业务请求数量比业务请求的总数量。
进一步,强化学习模型PNRL-Model的策略网络由输入层、卷积层、Softmax层、过滤层和输出层构成。
输入层的作用是读取节点特征矩阵
Figure BDA0003872148510000061
(公式13所示)/节点-路径特征矩阵
Figure BDA0003872148510000062
(公式15所示)/路径特征矩阵
Figure BDA0003872148510000063
(公式16所示),对
Figure BDA0003872148510000064
使用离差标准化方法(公式17所示)进行归一化,得到归一化后的特征矩阵IN/INP/IP,使IN/INP/IP中的值都介于0到1之间。
节点特征矩阵
Figure BDA0003872148510000065
包含节点剩余资源量、相邻链路剩余带宽和、节点度和候选节点到已映射节点的平均距离:
Figure BDA0003872148510000066
节点-路径特征矩阵
Figure BDA0003872148510000067
包含目的节点剩余资源量、相邻链路剩余带宽和、节点度、候选节点到已映射节点的平均距离,源节点到目的节点之间路径的可用带宽、带宽剩余率、跳数和最大丢包率,
Figure BDA0003872148510000068
中源节点为确定节点,目的节点为物理网络中的候选节点:
Figure BDA0003872148510000069
Figure BDA00038721485100000610
路径特征矩阵
Figure BDA00038721485100000611
包含源节点到目的节点之间路径的可用带宽、带宽剩余率、跳数和最大丢包率,
Figure BDA00038721485100000612
中源节点和目的节点均为确定节点:
Figure BDA00038721485100000613
离差标准化方法的公式为:
Figure BDA0003872148510000071
其中x表示原始列表,x'表示计算离差标准化后的列表,xmin表示原始列表中的最小值,xmax原始列表中的最大值。
卷积层的作用是将归一化后的特征矩阵IN/INP/IP执行卷积运算,ωNNPP为卷积核权重向量,bN/bNP/bP为偏置项,ReLU函数为激活函数,卷积层生成候选动作的可用资源向量CN/CNP/CP(公式18-20所示)。
ReLU函数,即分段线性函数,如果函数输入大于0,直接返回作为输入提供的值;如果输入是0或者更小,返回0。
对归一化后的节点特征矩阵IN进行卷积操作:
Figure BDA0003872148510000072
其中CN表示卷积层生成的候选节点动作可用资源向量,
Figure BDA0003872148510000073
表示向量CN中的元素,CN中共有元素Vs个。
对归一化后的节点-路径特征矩阵INP进行卷积操作:
Figure BDA0003872148510000074
其中CNP表示卷积层生成的候选路径节点动作可用资源向量,
Figure BDA0003872148510000075
表示向量CNP中的元素,CNP中共有元素Vs×K个。
对归一化后的路径特征矩阵IP进行卷积操作:
Figure BDA0003872148510000076
其中CP表示卷积层生成的候选路径动作可用资源向量,cP,K表示向量CP中的元素,CP中共有元素K个。
Softmax层将候选动作的可用资源向量CN/CNP/CP转化成每个动作被选择的概率
Figure BDA0003872148510000077
(公式21-23所示)。
将节点可用资源向量转化成每个候选节点被选择的概率:
Figure BDA0003872148510000078
其中g表示向量CN中元素的索引,代表第几个元素,
Figure BDA0003872148510000081
表示向量CN中第g个元素cN,g的指数次方。
将节点路径元组可用资源向量转化成每个候选节点路径元组被选择的概率:
Figure BDA0003872148510000082
Figure BDA0003872148510000083
表示向量CNP中第g个元素cNP,g的指数次方。
将路径可用资源向量转化成每条候选路径被选择的概率:
Figure BDA0003872148510000084
Figure BDA0003872148510000085
表示向量CP中第g个元素cP,g的指数次方。
过滤层将所有不符合节点资源约束、节点一对一映射约束、带宽约束和丢包率约束的动作过滤掉,得到更新后候选动作的可用资源向量和候选动作集合。
输出层将过滤层过滤掉的动作对应的概率记为0,得到新的概率分布PN/PNP/PP(公式24-26所示)。
候选节点概率分布:
Figure BDA0003872148510000086
候选节点路径元组概率分布:
Figure BDA0003872148510000087
候选路径概率分布:
PP=(pP,1,pP,2,…,pP,K)                                 (26)
强化学习模型PNRL-Model的奖励函数为业务的收益成本比。
强化学习模型PNRL-Model的损失函数为:
Figure BDA0003872148510000088
Figure BDA0003872148510000089
Loss3=-log(max(pP,1,pP,2,…,pP,K)))                            (29)
Loss=Loss1+Loss2+Loss3                                         (30)
当映射业务节点时,强化学习模型的损失函数为公式(27),当映射业务节点链路元组时,强化学习模型的损失函数为公式(28),当映射业务链路时,强化学习模型的损失函数为公式(29)。一个业务映射完成后的损失函数损失值为映射节点、映射节点路径元组和映射路径的损失值之和(公式30)。
强化学习模型PNRL-Model如图2所示,此处采用PyCharm作为仿真软件,实现本方案并对其进行验证。
物理网络采用如图3所示的拓扑图。物理网络包含40个节点,45条链路,节点服务资源类型有5种:Ⅰ,Ⅱ,Ⅲ,Ⅳ,Ⅴ;骨干节点的服务资源类型包含5种,每种类型服务资源量为3000,其余节点随即包含3种,每种类型服务资源量为1000;该拓扑图还包含多条骨干链路,骨干链路的总带宽为3000,非骨干链路总带宽为1000;所有链路丢包率在[0,0.3]范围内。
请求虚拟网络随机生成,节点个数在2到6之间,最小链路数量为节点个数减1,最大链路数量为全连接时的链路数量。请求节点服务资源类型有5种:Ⅰ,Ⅱ,Ⅲ,Ⅳ,Ⅴ;同一个业务内,每个节点随机请求一种类型的服务资源,且各节点请求的资源类型各不相同,请求资源量的范围为(1,10];请求链路带宽范围为(1,10];请求链路容忍丢包率范围为[0.3,0.5]。
本实例涉及到的对比方法包含启发式方法:NF-HA、LF-HA、NL-HA和强化学习方法NF-PNRL和LF-PNRL。
NF-HA方法流程图如图4所示,LF-HA、NL-HA方法与NF-HA方法的不同之处在于映射顺序,LF-HA方法按照先链路后节点的映射顺序,首先映射一个业务的首节点,然后映射下一个节点和下一节点与业务中所有已映射节点之间的链路,以此类推,直至该业务映射完成;NL-HA方法增加了节点和链路同时映射的阶段。NL-HA方法首先映射业务的首节点,然后把业务中下一个目标映射节点和上一个刚刚映射的节点之间的直连链路作为一个整体来映射,把节点剩余可用资源量比路径跳数作为考虑因素,选择比值最大的节点路径元组作为映射对象,更新物理网络资源。这样,当节点路径元组映射结束之后,业务中只剩余部分链路未映射,所以最后映射剩余链路。在映射剩余链路时,考虑因素同前两个算法相同,满足约束的最短路径者优先。
NF-PNRL方法流程图如图5所示,NL-PNRL方法的节点特征矩阵考虑的是节点的剩余资源量,路径特征矩阵考虑的是最短路径的跳数。LF-PNRL方法与NF-PNRL方法和本实例所用的NL-PNRL方法的不同之处在于映射顺序。LF-PNRL方法采用链路优先的映射顺序。节点属性和链路属性与NL-PNRL方法一样,LF-PNRL方法首先映射首节点,然后映射下一个节点和下一节点与业务中所有已映射节点之间的直连链路,以此类推,直至该业务映射完成。
对本实例所提的算法进行性能分析。首先从图6到图10可以看出,本实例使用NL-PNRL方法得到的五种类型服务资源的平均节点资源利用率均高于对比算法,这是因为NL-PNRL方法在节点链路同时映射阶段既考虑了节点属性,又考虑了链路属性,综合了物理网络整体特征来寻找最佳映射节点和路径。以节点资源类型Ⅴ为例,在业务负载量为800时,NL-PNRL方法比FN-HA方法的平均节点资源利用率高出11.48%,比NL-PNRL方法的平均节点资源利用率高出4.62%。观察图13,NL-PNRL方法的阻塞率始终低于相同条件下的对比算法。理论上,物理网络和虚拟请求都相同时,平均链路资源利用率越低,说明物理网络链路带宽的使用量越少,在物理节点服务资源充足的情况下,物理网络可以承载更多业务,在图11中不难看出,由于NL-PNRL方法的阻塞率是最低的,其物理网络承载的业务请求数量是最多的,而且NL-PNRL映射时选择最优路径,因此NL-PNRL方法的带宽资源利用率介于对比算法中最高带宽利用率与最低带宽利用率之间。观察图12,NL-PNRL方法的长期收益成本比始终是最好的,当业务负载量为800时,NL-PNRL方法的长期收益成本比高于NL-HA方法2.6%,高于FN-PNRL方法6.6%。最后观察三种强化学习方法NF-PNRL、LF-PNRL和NL-PNRL方法的损失函数,从图14中可以看出,虽然三种强化学习方法的损失函数最终都趋于平缓,但NL-PNRL方法损失函数收敛值更趋于0。

Claims (9)

1.一种基于策略网络强化学习的多类型服务资源编排方法,其特征在于,包括以下步骤:
步骤1:映射业务请求Gr首节点;
步骤2:将物理网络节点特征矩阵
Figure FDA0003872148500000011
/节点-路径特征矩阵
Figure FDA0003872148500000012
/路径特征矩阵
Figure FDA0003872148500000013
输入强化学习模型PNRL-Model中;
步骤3:强化学习模型PNRL-Model输出候选节点概率PN/候选节点路径元组概率PNP/候选路径概率PP
步骤4:选择最大概率的动作进行映射,并更新物理网络Gs
步骤5:将业务请求需要映射的下一节点(i+1)r和与上一节点ir之间的直连链路jr作为一个元组同时映射,重复步骤2到步骤4,直至业务请求所有节点映射完成,并判断业务请求Gr是否映射完成;
步骤6:若业务请求Gr映射完成,计算业务映射收益成本比;否则映射剩余链路,重复步骤2到步骤4直至业务请求Gr映射完成,计算业务映射收益成本比;
步骤7:计算损失函数损失值Loss,使用策略梯度方法更新强化学习模型PNRL-Model的参数。
2.根据权利要求1所述一种基于策略网络强化学习的多类型服务资源编排方法,其特征在于:所述步骤1中的业务请求:包含虚拟节点和链路的请求网络拓扑,虚拟节点属性包括节点请求资源类型和请求资源量,虚拟链路属性包括请求带宽和容忍丢包率;
首节点为业务中需要被映射的首个节点。
3.根据权利要求1所述一种基于策略网络强化学习的多类型服务资源编排方法,其特征在于:所述物理网络包含物理节点和链路的物理网络拓扑,其中物理节点属性包括节点资源类型、节点剩余资源量、节点度、相邻链路剩余带宽和、平均距离;所述节点剩余资源量为物理网络节点当前可用的资源量,即节点总资源量减去被已经映射的业务占用的资源量;
所述节点度如下式:
Figure FDA0003872148500000014
所述相邻链路剩余带宽和,如下式:
Figure FDA0003872148500000015
目的节点到已被业务请求中虚拟节点映射的物理网络节点之间的平均距离,如下式:
Figure FDA0003872148500000016
物理链路属性包括带宽剩余量和丢包率;
物理网络路径属性包括带宽剩余量、带宽剩余率、跳数和丢包率,所述带宽剩余量,如下式:
Figure FDA0003872148500000021
带宽剩余率,如下式:
Figure FDA0003872148500000022
丢包率如下式:
Figure FDA0003872148500000023
节点特征矩阵,包含节点剩余资源量、相邻链路剩余带宽和、节点度和候选节点到已映射节点的平均距离,如下式:
Figure FDA0003872148500000024
节点-路径特征矩阵包含目的节点剩余资源量、相邻链路剩余带宽和、节点度、候选节点到已映射节点的平均距离,源节点到目的节点之间路径的可用带宽、带宽剩余率、跳数和最大丢包率,如下式:
Figure FDA0003872148500000025
Figure FDA0003872148500000026
路径特征矩阵包含源节点到目的节点之间路径的可用带宽、带宽剩余率、跳数和最大丢包率,如下式:
Figure FDA0003872148500000027
上式中,R表示业务请求的集合,Vr表示业务请求Gr的虚拟节点集合,Er表示业务请求Gr的虚拟链路集合,
Figure FDA0003872148500000031
表示业务请求Gr中节点ir对第t种资源的请求量,其中
Figure FDA0003872148500000032
T表示物理网络中所有节点的资源类型,
Figure FDA0003872148500000033
Figure FDA0003872148500000034
分别表示业务请求Gr中虚拟链路jr的带宽需求和容忍丢包率,其中
Figure FDA0003872148500000035
Vs表示节点集合;Es表示链路集合;
Figure FDA0003872148500000036
分别表示物理网络节点is第t种类型的资源总量和剩余资源量,其中
Figure FDA0003872148500000037
Figure FDA0003872148500000038
Figure FDA0003872148500000039
分别表示物理网络中链路js的带宽总量、带宽剩余量和丢包率大小,其中
Figure FDA00038721485000000310
Figure FDA00038721485000000311
Figure FDA00038721485000000312
分别表示路径
Figure FDA00038721485000000313
的剩余带宽、带宽剩余率、丢包率和跳数,
Figure FDA00038721485000000314
Ps(as,bs)表示物理网络源节点as到目的节点bs的无环路径集合,K=|Ps(as,bs)|,其中
Figure FDA00038721485000000315
Figure FDA00038721485000000316
分别表示物理网络节点is的相邻链路集合、相邻链路剩余带宽和和节点度,其中
Figure FDA00038721485000000317
Figure FDA00038721485000000318
表示业务请求Gr的请求节点i'r在物理网络Gs中的候选节点集合,且
Figure FDA00038721485000000319
SP(as,bs)表示物理网络源节点as到目的节点bs之间最短路径的跳数;
Figure FDA00038721485000000320
表示物理网络目的节点bs到已被业务Gr中虚拟节点映射的物理网络节点之间的平均距离。
4.根据权利要求3所述一种基于策略网络强化学习的多类型服务资源编排方法,其特征在于:业务请求的收益成本比为映射成功业务的节点请求资源量和链路请求带宽之和比映射成功业务节点占用资源量和链路占用带宽之和;
优化目标是最大化请求的收益成本比;
约束条件有:(1)节点资源约束:业务请求的虚拟节点映射到的物理网络节点对应资源类型的剩余资源量必须大于对应资源类型的请求资源量;(2)节点一对一映射约束:同一业务请求内不同的请求节点不可映射到同一物理网络节点上;(3)带宽约束:业务请求链路映射到的物理网络路径剩余带宽必须大于请求带宽;(4)丢包率约束:业务请求链路映射到的物理网络路径的最大丢包率必须小于对应请求链路的容忍丢包率。
5.根据权利要求1-4任一项所述一种基于策略网络强化学习的多类型服务资源编排方法,其特征在于:所述强化学习模型PNRL-Model:包含输入层、卷积层、Softmax层、过滤层和输出层;
所述步骤2具体包括:
步骤2.1:将物理网络节点特征矩阵
Figure FDA00038721485000000321
/节点-路径特征矩阵
Figure FDA00038721485000000322
/路径特征矩阵
Figure FDA00038721485000000323
输入到强化学习模型PNRL-Model的输入层,使用离差标准化方法进行归一化;
步骤:2.2:将归一化后的节点特征矩阵IN/归一化后的节点-路径特征矩阵INP/归一化后的路径特征矩阵IP输入策略网络卷积层,生成每个动作的可用资源向量CN/CNP/CP
步骤2.3:将所有动作的可用资源向量CN/CNP/CP输入Softmax层,将每个动作的可用资源向量转化成每个动作被选择的概率
Figure FDA00038721485000000324
步骤2.4:过滤掉不满足节点资源约束、一对一约束、带宽约束和丢包率约束的动作;
步骤2.5:将不满足约束动作的概率记为0;
步骤2.6:输出候选动作以及相对应的候选节点概率PN/候选节点路径元组概率PNP/候选路径概率PP
6.根据权利要求5所述一种基于策略网络强化学习的多类型服务资源编排方法,其特征在于:所述卷积层的作用是将归一化后的特征矩阵IN/INP/IP执行卷积运算,ωNNPP为卷积核权重向量,bN/bNP/bP为偏置项;
对归一化后的节点特征矩阵IN进行卷积操作:
Figure FDA0003872148500000041
对归一化后的节点-路径特征矩阵INP进行卷积操作:
Figure FDA0003872148500000042
对归一化后的路径特征矩阵IP进行卷积操作:
Figure FDA0003872148500000043
7.根据权利要求5所述一种基于策略网络强化学习的多类型服务资源编排方法,其特征在于:将节点可用资源向量转化成每个候选节点被选择的概率:
Figure FDA0003872148500000044
将节点路径元组可用资源向量转化成每个候选节点路径元组被选择的概率:
Figure FDA0003872148500000045
将路径可用资源向量转化成每条候选路径被选择的概率:
Figure FDA0003872148500000046
8.根据权利要求5所述一种基于策略网络强化学习的多类型服务资源编排方法,其特征在于:所述强化学习模型PNRL-Model的奖励函数为业务的收益成本比;
强化学习模型PNRL-Model的损失函数为:
Figure FDA0003872148500000051
Figure FDA0003872148500000052
Loss3=-log(max(pP,1,pP,2,…,pP,K)))
Loss=Loss1+Loss2+Loss3。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8任一项所述的多类型服务资源编排方法的步骤。
CN202211201337.XA 2022-09-29 2022-09-29 一种基于策略网络强化学习的多类型服务资源编排方法 Pending CN115941506A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211201337.XA CN115941506A (zh) 2022-09-29 2022-09-29 一种基于策略网络强化学习的多类型服务资源编排方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211201337.XA CN115941506A (zh) 2022-09-29 2022-09-29 一种基于策略网络强化学习的多类型服务资源编排方法

Publications (1)

Publication Number Publication Date
CN115941506A true CN115941506A (zh) 2023-04-07

Family

ID=86551232

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211201337.XA Pending CN115941506A (zh) 2022-09-29 2022-09-29 一种基于策略网络强化学习的多类型服务资源编排方法

Country Status (1)

Country Link
CN (1) CN115941506A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116582451A (zh) * 2023-07-13 2023-08-11 三峡科技有限责任公司 一种弹性通信网络结合虚拟化技术通讯运营的方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101499975A (zh) * 2009-02-27 2009-08-05 中国人民解放军信息工程大学 一种实现分组交换网络业务传输QoS保证的方法及系统
US20140379927A1 (en) * 2013-06-24 2014-12-25 Nec Laboratories America, Inc. Network Followed by Compute Load Balancing Procedure for Embedding Cloud Services in Software-Defined Flexible-Grid Optical Transport Networks
CN110365568A (zh) * 2019-06-18 2019-10-22 西安交通大学 一种基于深度强化学习的虚拟网络映射方法
CN110365514A (zh) * 2019-05-24 2019-10-22 北京邮电大学 基于强化学习的sdn多级虚拟网络映射方法和装置
CN112953761A (zh) * 2021-01-26 2021-06-11 中国电子科技集团公司第七研究所 一种面向多跳网络中虚网构建的资源虚实映射方法
CN113708969A (zh) * 2021-08-27 2021-11-26 华东师范大学 一种基于深度强化学习的云数据中心虚拟网络的协同嵌入方法
CN115001978A (zh) * 2022-05-19 2022-09-02 华东师范大学 一种基于强化学习模型的云租户虚拟网络智能映射方法
CN115065601A (zh) * 2022-05-19 2022-09-16 重庆邮电大学 一种节点链路同时映射的虚拟网络映射方法
WO2022193534A1 (zh) * 2021-03-17 2022-09-22 北京交通大学 智融标识网络中基于意图驱动的服务编排系统和方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101499975A (zh) * 2009-02-27 2009-08-05 中国人民解放军信息工程大学 一种实现分组交换网络业务传输QoS保证的方法及系统
US20140379927A1 (en) * 2013-06-24 2014-12-25 Nec Laboratories America, Inc. Network Followed by Compute Load Balancing Procedure for Embedding Cloud Services in Software-Defined Flexible-Grid Optical Transport Networks
CN110365514A (zh) * 2019-05-24 2019-10-22 北京邮电大学 基于强化学习的sdn多级虚拟网络映射方法和装置
CN110365568A (zh) * 2019-06-18 2019-10-22 西安交通大学 一种基于深度强化学习的虚拟网络映射方法
CN112953761A (zh) * 2021-01-26 2021-06-11 中国电子科技集团公司第七研究所 一种面向多跳网络中虚网构建的资源虚实映射方法
WO2022193534A1 (zh) * 2021-03-17 2022-09-22 北京交通大学 智融标识网络中基于意图驱动的服务编排系统和方法
CN113708969A (zh) * 2021-08-27 2021-11-26 华东师范大学 一种基于深度强化学习的云数据中心虚拟网络的协同嵌入方法
CN115001978A (zh) * 2022-05-19 2022-09-02 华东师范大学 一种基于强化学习模型的云租户虚拟网络智能映射方法
CN115065601A (zh) * 2022-05-19 2022-09-16 重庆邮电大学 一种节点链路同时映射的虚拟网络映射方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HAIPENG YAO等: "RDAM: A Reinforcement Learning Based Dynamic Attribute Matrix Representation for Virtual Network Embedding", IEEE TRANSACTIONS ON EMERGING TOPICS IN COMPUTING, vol. 09, no. 02, 20 September 2018 (2018-09-20) *
胡颖: "高效节能虚拟网的节点链路选择标准与映射算法研究", 万方, 7 April 2017 (2017-04-07) *
魏亮;黄韬;张娇;王泽南;刘江;刘韵洁;: "基于强化学习的服务链映射算法", 通信学报, no. 01, 25 January 2018 (2018-01-25) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116582451A (zh) * 2023-07-13 2023-08-11 三峡科技有限责任公司 一种弹性通信网络结合虚拟化技术通讯运营的方法
CN116582451B (zh) * 2023-07-13 2023-11-21 三峡科技有限责任公司 一种弹性通信网络结合虚拟化技术通讯运营的方法

Similar Documents

Publication Publication Date Title
CN110365514B (zh) 基于强化学习的sdn多级虚拟网络映射方法和装置
Poularakis et al. One step at a time: Optimizing SDN upgrades in ISP networks
CN112953761B (zh) 一种面向多跳网络中虚网构建的资源虚实映射方法
CN112636961B (zh) 网络切片下基于可靠性和分流策略的虚拟网资源分配方法
CN115941506A (zh) 一种基于策略网络强化学习的多类型服务资源编排方法
CN115065601B (zh) 一种节点链路同时映射的虚拟网络映射方法
Jia et al. Heuristic methods for delay constrained least cost routing using/spl kappa/-shortest-paths
Zhao et al. Reinforcement learning for resource mapping in 5G network slicing
Shen et al. Incentive-based pricing for network games with complete and incomplete information
CN114513449A (zh) 一种域内路由选择优化方法及系统
Maniscalco et al. Binary and m-ary encoding in applications of tree-based genetic algorithms for QoS routing
Zhang Reliable virtual network mapping algorithm with network characteristics and associations
CN116647879A (zh) 基于双智能体深度强化学习的多类型任务卸载系统及方法
CN111865793B (zh) 基于功能学习的IPv6网络服务定制化可靠路由系统及方法
Lu et al. A multiple QoS metrics-aware virtual network embedding algorithm
CN108174446B (zh) 一种资源占用度最小化的网络节点链路资源联合分配方法
CN113052629B (zh) 基于cecu体系智能算法模型的网络用户画像方法
Guan et al. A multi‐controller placement method for software defined network based on improved firefly algorithm
Yussof et al. Finding multi-constrained path using genetic algorithm
CN111752707A (zh) 一种基于映射关系的电力通信网资源分配方法
Salomie et al. Hybrid immune-inspired method for selecting the optimal or a near-optimal service composition
CN116260730B (zh) 多边缘计算节点中的地理信息服务进化粒子群优化方法
CN113255886B (zh) 一种组合服务动态演化方法
Yang et al. Virtual network function placement based on differentiated weight graph convolutional neural network and maximal weight matching
CN107948070A (zh) 一种基于QoS的移动P2P网络虚拟链路选取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination