CN111585811A

CN111585811A - 一种基于多智能体深度强化学习的虚拟光网络映射方法

Info

Publication number: CN111585811A
Application number: CN202010373661.4A
Authority: CN
Inventors: 朱睿杰; 王培森; 李羽蒙; 李世华; 李亚飞; 徐明亮
Original assignee: Zhengzhou University
Current assignee: Zhengzhou University
Priority date: 2020-05-06
Filing date: 2020-05-06
Publication date: 2020-08-25
Anticipated expiration: 2040-05-06
Also published as: CN111585811B

Abstract

本发明提出了一种基于多智能体深度强化学习的虚拟光网络映射方法，其步骤为：判断环境模块中是否有其他虚拟网业务离去；对虚拟网请求业务的当前物理网的节点与链路信息进行提取；节点智能体模块利用节点策略网络得到物理网每个节点为当前虚拟网请求业务提供映射的概率分布，选取合适的节点作为当前虚拟网请求业务要映射到的节点；链路智能体模块通过链路策略网计算源节点与目的节点间的最短路径的频槽概率选择分布；评判模块从环境模块中获得即时奖励计算多步映射的累加奖励；评价模块计算节点动作和链路动作的评价值，根据评价值对智能体模块的参数进行更新。本发明可有效提高节点与链路的资源利用率，降低网络的阻塞率，提高虚拟网映射成功率。

Description

一种基于多智能体深度强化学习的虚拟光网络映射方法

技术领域

本发明涉及通信领域与强化学习的技术领域，尤其涉及一种基于多智能体深度强化学习的虚拟光网络映射方法，当弹性光网络作为底层物理网通信设施时，使用多智能体深度强化学习训练学习历史数据，使虚拟网业务自主高效的映射到底层物理网中。

背景技术

物联网在各个领域蓬勃发展，万物互联的时代渐行渐近。但是随着5G、虚拟现实、自动驾驶的发展，物联网设备的迅速增加，面对网络数据中心爆炸性的增长，传统互联网在数据安全、可扩展性、网络管控能力以及服务质量保证等方面的不足正为其带来越来越多的挑战。

网络虚拟化利用虚拟化技术将网络进行逻辑抽象，从而在共享的底层物理网络基础设施上同时创建和运行多个不同的虚拟网络。虚拟网络映射问题是网络虚拟化技术研究中的核心问题之一，它的主要研究目标是在满足节点和链路约束条件的基础上，将虚拟网络请求映射到基础网络设施上，利用已有的物理网络资源获得尽可能多的业务收益。

弹性光网络(EON)是一种很有前途的、用于物理网通信的网络基础设施，将底层物理网络中的资源抽象出来，能对虚拟网请求业务提供高效映射。

常用的多智能体强化学习DRL模型为：

环境：针对当前虚拟网映射的环境为部分可观测环境(Partially ObservableEnvironment)，这种情况即智能体(Agent)不能完整的获取环境信息状态，所以此时智能体状态(Agent State)≠环境状态(Environment State)。而此时的环境状态称为部分可观测(MDP)，所以此时智能体(Agent)必须自己对环境进行解读探索。

状态：当前状态为智能体状态(Agent State)，是智能体(Agent)用来选择下一个行动的信息源和算法进行所需要的那些信息，智能体(Agent)面对环境状态(EnvironmentState)的解读与翻译，所以它可能不完整，但由这些信息来做决定。

动作：智能体(Agent)根据策略决定对每一个状态执行动作。

奖励(Reward)：智能体(Agent)执行的每一步动作后，由环境给出对动作执行的评价。

多智能体强化学习DRL模型以降低虚拟网业务映射阻塞率为优化目标，公式为：BP＝1-(B_N∪B_L)，其中，BP为总阻塞率，B_N为节点配置的阻塞率，B_L为链路阻塞率。节点或链路阻塞则当前网络功能配置失败。

先前的研究从多个方面研究了如何将虚拟网请求映射到底层光网络上。但是，这些研究仅应用固定映射策略，而不管时变网络状态如何，或仅依赖简单的经验策略，并且它们无法实现真正的灵活、高效映射。同时，深度强化学习(DRL)已证明其在解决大规模任务中的有效性。

发明内容

针对传统的弹性光网络虚拟网映射方法网络利用率低，阻塞率高的技术问题，本发明提出一种基于多智能体深度强化学习的虚拟光网络映射方法，采用多智能体强化学习框架，通过节点智能体和链路智能体间在底层网络环境中交互学习，获得每次映射回馈奖励值，对每次节点智能体执行的节点动作与链路智能体执行的链路动作进行评价，从而优化下一次的动作选择，完成协同合作，最终使虚拟请求达到最佳映射。

为了达到上述目的，本发明的技术方案是这样实现的：一种基于多智能体深度强化学习的虚拟光网络映射方法，其步骤如下：

步骤一：执行底层物理网资源调度更新算法，在虚拟网请求业务到达时间，判断此时刻环境模块中底层物理网是否有其他虚拟网业务离去，若有，环境模块执行资源释放算法，对要离去的虚拟网请求业务占用的节点与链路资源进行释放，更新完成后进行节点选择；若无其他虚拟网请求业务离去，则直接进行节点选择；

步骤二：对虚拟网请求业务面对的当前物理网的节点与链路信息进行提取：节点智能体提取底层物理网所有节点及其周围链路的特征信息组成特征矩阵M，特征矩阵M作为节点状态输入节点智能体模块；链路智能体从环境中提取源节点和目的节点间的链路特征信息组成特征向量V，特征向量V作为链路状态输入链路智能体模块；

步骤三：节点智能体模块利用节点策略网络对输入的特征矩阵进行计算，得到物理网每个节点为当前虚拟网请求业务提供映射的概率分布，通过e-贪心算法和概率分布选取合适的节点作为当前虚拟网请求业务要映射到的节点；最后判断虚拟网节点是否映射成功，若物理节点计算资源够用则虚拟节点映射成功，记录下映射成功的节点动作；反之则映射失败；

步骤四：链路智能体模块把同一虚拟网请求中成功映射的所有节点动作分批次接受，同时把当前映射的物理网源节点与目的节点同步骤二中获取的链路状态作为链路策略网的输入，并通过链路策略网的计算源节点与目的节点间的最短路径的频槽概率选择分布，并选择出合适的频槽块来满足链路请求资源，若选择的可用的频槽块支持虚拟网请求业务的带宽资源，则该最短路径对应的链路映射成功，否则当前虚拟网请求业务映射失败；

步骤五：经过步骤三和步骤四中执行的节点动作与链路动作的映射结果，评判模块依次得到从环境模块中获得的即时奖励，在一个步长中重复步骤一到步骤四，由即时奖励计算多步映射的累加奖励；

步骤六：评价模块根据累加奖励计算节点动作和链路动作的评价值，链路智能体和节点智能体均接受评价模块计算出的评价值，当有多个虚拟网请求业务时，评价模块根据计算得到评价值对智能体模块的参数进行更新。

所述步骤一种底层物理网资源调度更新算法的实现方法为：

(1)环境模块建立时间轴T，每个事件刻度加1，下一时间刻度为T+1，建立离去业务队列D，每当有虚拟网请求业务到达时，把当前虚拟网请求业务添加到离去业务队列D，并按离去时间T_l由小到达排序；

(2)环境模块从时间刻度0开始，到最后一个虚拟网请求业务离去时间为止，每个时间刻度都对离去业务队列D中的第一个虚拟网请求业务R′的离去时间进行判断，若当前时刻T≥T_l，则对虚拟网请求业务R′占用的物理网节点与链路资源进行删除；否则T+1。

所述节点智能体提取所有节点及其周围的特征信息：第i个节点的特征向量为v_i＝(ncc_i,deg_i,nfs_i,fsb_i,ads_i)，并组成特征矩阵M＝(v₁,v₂,v₃……v_n)作为节点状态并输入到节点智能体模块，其中，ncc_i、deg_i,、nfs_i、fsb_i、ads_i分别表示第i个节点的节点承载能力、节点度、节点周围链路的总频槽数、节点周围每个链路的总频槽数/频槽可用块数和节点到其他映射节点的平均距离，n代表底层物理网的节点个数；

所述链路智能体从环境中提取源节点和目的节点间的链路特征信息：两节点间最短路径中一段链路的特征向量为l_j＝(fs_j,blok_j,fir_j,fb_j,req_j)，作为链路状态并输入到链路智能体模块，其中，fs_j、blok_j、fir_j、fb_j、req_j分别表示源节点和目的节点间最短路径第j段链路的总的可用频槽、可用的频槽块数、第一块可用频槽位置、总可用频槽数/可用块数、两节点间请求的频槽数。

所述节点策略网络的节点智能体模块主要由三层人工神经网络构成：

输入层为提取的特征矩阵M，行代表各个物理节点的特征向量v_i，列为各个物理节点；

中间层为卷积运算层，设置一个一维卷积核W，其维度大小与特征向量v_i相同：

W＝(W_ncc,W_deg,W_nfs,W_fsb,W_ads)，其中，W_ncc、W_deg、W_nfs、W_fsb、W_ads分别表示对应节点承载能力、节点度、节点周围链路的总频槽数、节点周围每个链路的总频槽数/频槽可用块数和节点到其他映射节点的平均距离的卷积值；通过卷积运算从特征向量中找出节点映射对应空间资源的内在联系，运算公式为：

L＝M*W+B (1)

其中，B为偏置常数；L为由环境模块传进来的状态特征通过卷积矩阵运算后的值，L代表物理网节点的被映射分布；

输出层为softmax层，输入的值L通过激活函数SoftMax输出当前的物理网节点的被映射的概率分布：P_θ＝(p₁·p₂·p₃…p_n)，其中，p₁、p₂、p₃…p_n分别是选择节点1,2,3…n的概率，从而得到当前虚拟网请求业务对物理网所有节点的映射的各个概率值。

所述步骤三中节点智能体模块根据概率分布使用e-贪心算法进行节点的确定与选取，最后根据底层物理网资源调度更新算法确定节点是否映射成功；所述e-贪心算法进行虚拟网节点映射选取的步骤为：

(1)设置初始e值为1，设置随机区间为

设置贪心区间为

设置每次训练迭代e的变化值λ＝1×10^-5；

(2)训练时，每轮迭代判断是否

若是则按概率分布P_θ随机选取，p₁、p₂、p₃…p_n概率高的被选可能性大，概率低的被选可能性低；反之则选取概率最高的节点作为映射节点；

(3)每轮迭代e＝e-λ。

所述链路智能体模块中链路中频槽块的确定与选取的步骤为：

(1)链路智能体取得步骤三中选取的物理网映射节点集N，根据弗洛伊德最短距离算法找到映射节点集N中按随机获得的每一对源节点S和目的节点D间的最短路径path；

(2)根据物理网拓扑图计算出每条路径的物理距离dis，并由物理距离dis以及虚拟网请求业务请求R中的带宽资源B，计算出链路所需的频槽数，计算方法为：

其中，b_vi为当前链路请求带宽，nus_FS为计算出当前请求的频槽数；

(3)最短路径path中的所有路径形成路径名列表，再根据路径名列表以及物理网此时的链路资源，根据底层物理网资源调度更新算法中链路的资源判断计算对于当前待映射路径的物理资源是否满足，若满足，返回所有可用的连续槽信息，包括所有连接槽的起始位置和连续长度；

(4)选择步骤(3)中计算得到所有连续槽中的第一个可用槽，进行链路映射，同时对该次映射进行记录；

(5)重复步骤(1)-(4)，直到映射节点集N所生成的链路请求都映射成功，若有任何一个接节点对映射失败，则将该次链路请求占用的资源全部释放，该次映射失败。

所述步骤五中多步映射的累计奖励R_π(s,a)表示为：

其中，b为步骤数，γ为奖励的衰退因子，r_a为当前动作a执行后的即时奖励，r_a-1、r_a-2、r_a-b分别为动作a-1、a-2、a-b的即时奖励。

所述评判模块从环境模块中得到节点状态与链路状态组成总状态，获取节点动作与链路动作组成连续动作，并同时将总状态与连续动作作为评价模块中评价网络的输入，评价网络根据汇总的状态与动作并根据节点与链路利用率反馈的奖励计算各自的评价值，对节点动作与链路动作评价。

所述步骤六中评价模块根据节点动作与链路动作的价值值分别计算出对本步长中节点动作的评价函数Q_n(s,a)与链路动作的评价函数Q_l(s,a)：

Q_n(s,a)＝l_q+U_n×R_π(s,a) (3)

Q_l(s,a)＝l_q+U_l×R_π(s,a) (4)

其中，l_q为评价网络的输出为代表本映射步长整个映射过程的情况，一个映射步长的节点利用率U_n与链路利用率U_l分别：

其中，R_π(s,a)为一个步长映射当前动作a的累计奖励，N_u与L_u分别为底层物理网总的节点资源与链路资源，n_b与l_b分别为步长b中的底层物理网节点与链路资源占用率。

所述评价模块根据评价函数计算的评价值对节点智能体模块的参数进行更新的方法为：

计算每次节点策略网的损失函数：

L(θ)＝∑log_π(a|s,θ)Q_n(s,a) (7)

由梯度公式进行梯度更新：

其中，L(θ)为节点策略网的损失函数，θ为本次网络输出的概率分布与概率分布P_θ同分布，Q_n为节点的动作评价函数，

为损失函数的梯度值，E_πθ为对奖励函数与概率分布函数取的两次差值取期望，log_π(a|s,θ)为网络输出的概率分布取log。

与现有技术相比，本发明的有益效果：对底层物理网中有效特征进行提取，使用多智能体深度强化学习方法，对动态虚拟网业务学习，使面临近似动态虚拟网请求业务时，可根据底层物理网的节点和链路的空间分布与各自资源状态对虚拟网请求灵活、高效的映射，经仿真实验与对比实验结果表明，该方法可有效提高节点与链路的资源利用率，降低网络的阻塞率，提高虚拟网映射成功率。本发明通过评价网络的评判价值，节点与链路智能体不断的学习策略，在面对相似的复杂虚拟网业务数据时能使虚拟网请求业务合理，高效的映射到底层物理网中。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的流程图。

图2为本发明强化学习方法的原理图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种基于多智能体深度强化学习的虚拟光网络映射方法，其步骤为：

步骤一：执行底层物理网资源调度更新算法，在虚拟网请求业务R到达时间T_a，判断此时刻环境模块中底层物理网是否有其他虚拟网业务离去，若有，环境模块执行资源释放算法，对要离去的虚拟网业务占用的节点与链路资源进行释放，更新完成后进行下一步骤节点选择；若无其他虚拟网业务离去，则直接进行节点选择。

对于一个虚拟网请求业务R＝(N,C,B,T_a,T_l)，其中，N＝(n₁,n₂/n₁,n₂,n₃)为虚拟网各个节点编号，每次虚拟网请求随机2到3个虚拟节点。C＝(c₁,c₂/c₁,c₂,c₃)为虚拟网中各个虚拟节点请求的计算资源，B＝(b₁/b₁,b₂,b₃)为虚拟网中虚拟节点间请求的带宽资源，如b₁为虚拟节点n₁，n₂间的请求带宽。T_a和T_l分别为当前虚拟网请求业务R的到达时间与离去时间，用于表示虚拟网业务动态到达与离开，并服从泊松分布。

底层物理网资源调度更新算法主要为以下几个小步骤：

(1)环境模块建立时间轴T，每个事件刻度加1，下一时间刻度为T+1，建立离去业务队列D，每当有虚拟网请求业务到达时，把当前虚拟网请求业务R添加到离去业务队列D，并按离去时间T_l排序(小到大)。

(2)环境模块从时间刻度0开始，到最后一个虚拟网请求业务离去时间为止。每个时间刻度都对离去业务队列D中的第一个虚拟网请求业务R′的离去时间进行判断，若当前时刻T≥T_l，则对虚拟网请求业务R′占用的物理网节点与链路资源进行删除；若无则T+1。

(3)当有虚拟网请求业务到达时，通过步骤二-三的节点与链路选取确定当前虚拟网请求业务要映射的底层物理网节点与链路，判断是否被映射的底层物理网节点与链路资源充足，若底层物理网节点与链路资源≥R的请求的节点与链路资源，则对应的把被虚拟网请求业务R占用的底层物理节点与链路资源减去，并判定此时虚拟网映射成功，反之资源不充足，则不进行映射，并判定此时映射失败。

(4)最终，底层物理网完成资源的更新，并在步骤二中进行特征提取，在步骤三中做出节点选择。

步骤二：底层物理网资源更新后，对虚拟网请求业务R面对的当前物理网的节点与链路信息进行提取：节点智能体提取底层物理网所有节点及其周围链路的特征信息组成特征矩阵M，特征矩阵M作为节点状态输入节点智能体模块、是节点智能体模块策略网络的输入层；链路智能体从环境中提取源节点和目的节点间的链路特征信息组成特征向量V，特征向量V作为链路状态输入链路智能体模块、是链路智能体模块中网络的输入层。

如图2框架所示的数字标号1，在环境模块中，在描述NSFNET(美国国家科学基金网)网络时，节点智能体提取所有节点及其周围的特征信息，第i个节点的特征向量为v_i＝(ncc_i,deg_i,nfs_i,fsb_i,ads_i)，并组成特征矩阵M＝(v₁,v₂,v₃……v_n)作为节点状态并输入到智能体模块，其中，ncc_i、deg_i,、nfs_i、fsb_i、ads_i分别表示第i个节点的节点承载能力、节点度、节点周围链路的总频槽数、节点周围每个链路的总频槽数/频槽可用块数和节点到其他映射节点的平均距离。n代表底层物理网的节点个数。

综合考虑物理网的节点与链路的属性，对每一个虚拟网请求业务R面对的底层物理网环境，对所有物理网节点提取以下五个特征：

节点承载能力(NCC)：考虑节点承载情况，把物理网节点的cpu承载能力作为一个主要特征；它对虚拟网映射来说是一个重要的评估标准，物理网节点的cpu承载能力越高，则可以容纳更多的节点。

节点度(DEG)：考虑节点周围连通性，设置物理网节点的度作为一个基本特征；它代表了以当前节点为源节点到周围节点的链路数，表示了当前节点与周围节点的连通性，物理节点周围的链路数越多，则越容易找到其他物理节点。

节点周围链路的总频槽数(NFS)：考虑节点周围链路的承载能力，把物理网节点周围链路的总频槽数作为一个主要特征；它代表了当前节点是否能传输出去更多的链路请求，频槽数越多，则由当前节点请求的信息越多。

节点周围每个链路的总频槽数/频槽可用块数(FSB)：考虑节点周围链路的拥堵情况，设置物理网节点周围每个链路的总频槽数与频槽可用块数的比作为一个重要特征。它表示了节点周围链路的好坏，每个链路的总频槽数与频槽可用块数的比越大，表示能承载更大请求频槽数，道路更畅通无阻。

节点到其他映射节点的平均距离(NAD)：考虑节点映射的距离与位置因素，把虚拟网请求业务R要映射的物理节点到其他已经映射节点的平均距离作为一个重要特征，在同一个虚拟网请求业务R下，希望与其他映射的节点在其他一定的条件下之间距离近些，距离越近，则虚拟网请求业务R的频槽数越少，占用链路的频槽数越小，花费小代价传送信息。距离的计算是根据弗洛伊德算法得到的节点间最短距离。

链路智能体从环境中提取源节点和目的节点间的链路特征信息，两节点间最短路径中一段链路的特征向量为V_j＝(fs_j,blok_j,fir_j,fb_j,req_j)，作为链路状态并输入到链路智能体模块，其中，fs_j、blok_j、fir_j、fb_j、req_j分别表示源节点和目的节点间最短路径第j段链路的总的可用频槽、可用的频槽块数、第一块可用频槽位置、总可用频槽数/可用块数、两节点间请求的频槽数。

底层物理网的特征远远不止这么多，越多的特征则越能表示更加全面的物理网信息，但是本发明考虑尽可能用少的特征表示整个底层物理网的状态，以降低网络计算复杂度与网络模型，提高训练速度。因此，目前设置这五个特征来表示整个物理网的节点与链路信息。

步骤三：节点智能体利用节点策略网络对输入的特征矩阵进行计算，得到物理网每个节点为当前虚拟网请求业务R提供映射的概率分布，通过e-贪心算法和概率分布选取合适的节点作为当前虚拟网请求业务R要映射到的节点。最后判断虚拟网节点是否映射成功，若物理节点计算资源够用则虚拟节点映射成功；反之则映射失败。

如图2所示，节点策略网络的智能体模块主要由三层人工神经网络构成：

输入层为提取的特征矩阵M，行代表各个物理节点的特征向量v_i，列为各个物理节点，在描述NSFNET(美国国家科学基金网)网络时，特征矩阵大小为M＝(14,5)。

W＝(W_ncc,W_deg,W_nfs,W_fsb,W_ads)，其中，W_ncc、W_deg、W_nfs、W_fsb、W_ads分别表示对应节点承载能力、节点度、节点周围链路的总频槽数、节点周围每个链路的总频槽数/频槽可用块数和节点到其他映射节点的平均距离这五项特征的卷积值，根据不同特征的影响比重，设置不同的初始权重值：

w_ncc＝9*10^-2,w_deg＝1*10^-4,w_nfs＝5*10^-3,w_fsb＝5*10^-3,w_ads＝1*10^-3(分别是W_ncc、W_deg、W_nfs、W_fsb、W_ads的初始值)，通过卷积运算从特征向量中找出节点映射对应空间资源的内在联系，运算公式为：

L＝M*W+B (1)

其中，B为偏置常数，减小计算的差异性。通过公式(1)计算出由环境模块传进来的状态特征通过卷积矩阵运算后的值L，此时L代表物理网节点的被映射分布。

输出层为softmax层，输入的值L通过激活函数SoftMax输出当前的物理网节点的被映射的概率分布：P_θ＝(p₁·p₂·p₃…p_n)，其中，p₁、p₂、p₃…p_n分别是选择的节点1,2,3…n的概率，从而得到当前虚拟网请求业务R对物理网所有节点的映射的各个概率值。节点智能体根据概率分布P_θ使用随机与贪心策略相结合(e-贪心算法)进行节点的确定与选取。最后根据物理网资源调度更新算法确定节点是否映射成功。

虚拟网节点映射选取e-贪心算法的步骤为：

(1)设置初始e值为1，设置随机区间为

设置贪心区间为

设置每次训练迭代e的变化值λ＝1×10^-5。

(2)训练时，每轮迭代判断是否

若是则按概率分布P_θ随机选取，p₁、p₂、p₃…p_n概率高的被选可能性大，概率低的被选可能性低；反之则选取概率最高的节点作为映射节点。

(3)每轮迭代e＝e-λ。

步骤四：节点智能体通过步骤三映射虚拟网请求业务R成功后，记录下映射成功的节点动作，如图2的数字序列2链路智能体模块把同一虚拟网请求中成功映射的所有节点动作分批次接受，同时把当前映射的物理网源节点S与目的节点D同步骤二中获取的链路状态作为链路策略网的输入，并通过链路策略网的计算输出两节点间的最短路径的频槽概率选择分布，并选择出合适的频槽块来满足链路请求资源，若选择的可用的频槽块支持虚拟网请求业务R的带宽资源，则该最短路径对应的链路映射成功，否则当前虚拟网请求业务R映射失败。

链路智能体模块中的链路策略网结构与节点策略网相似，不作介绍。链路中频槽块的确定与选取以下步骤组成：

(1)链路智能体取得步骤三中选取的物理网映射节点集N，根据弗洛伊德最短距离算法(Floyd Shortest Path)找到映射节点集N中按随机获得的每一对源节点S和目的节点D间的最短路径path；

其中，b_vi为当前链路请求带宽，nus_FS为计算出当前请求的频槽数。

(3)最短路径path中的所有路径形成路径名列表，再根据路径名列表以及物理网此时的链路资源，根据底层物理网资源调度更新算法中链路的资源判断计算对于当前待映射路径的物理资源是否满足，若满足，返回所有可用的连续槽信息，包括所有连接槽的起始位置和连续长度。

(4)选择步骤(3)中计算得到所有连续槽中的第一个可用槽，进行链路映射，同时对该次映射进行记录，以便后继链路映射失败时进行释放。

(5)重复步骤(1)-(4)，直到映射节点集N所生成的链路请求都映射成功。若有任何一个接节点对映射失败，则将该次请求占用的资源全部释放，该次映射失败。

步骤五：经过步骤三和步骤四中执行的节点动作与链路动作的映射结果，评判模块依次得到从环境模块中获得的即时奖励r，对应动作的即时奖励如表1所示，在一个步长中重复步骤一到步骤四，在多步后计算累加奖励。

如图2中的数字序列4，评判模块从环境模块中得到节点状态与链路状态组成总状态，获取节点动作与链路动作组成连续动作，并同时将总状态与连续动作作为评价模块中评价网络的输入，评价网络根据汇总的状态与动作并根据节点与链路利用率反馈的奖励计算各自的评价值，对节点动作与链路动作评价。

如图2所示，智能体模块执行步骤三和步骤四的映射动作(Action)，在环境中使虚拟网请求业务R映射到底层物理网中，并从环境中得到即时奖励r，如表1所示，多步映射的累计奖励R_π如公式(2)所示：

评价网络的输出为l_q代表本映射步长整个映射过程的情况，评价模块根据节点与链路动作的评价函数Q_n(s,a)与Q_l(s,a)由公式(3)(4)分别计算出对本步长中节点动作的评价值Q_n(s,a)与对链路动作的评价函数Q_l(s,a)，其中根据公式(5)(6)计算出一个映射步长的节点与链路利用率U_n、U_l。

Q_n(s,a)＝l_q+U_n×R_π(s,a) (3)

Q_l(s,a)＝l_q+U_l×R_π(s,a) (4)

其中，R_π(s,a)为一个步长映射的累计奖励，N_u与L_u分别为底层物理网总的节点资源与链路资源，b为步骤五中定义的步长，n_b与l_b分别为经过步长b的底层物理网节点与链路资源占用率。

表1动作与奖励的对应关系

动作	奖励r
		节点映射失败，无链路动作	-1
节点映射成功，链路映射失败	0
		节点映射成功，链路映射失败	1

步骤六：链路智能体与节点智能体类似，以节点智能体为例，节点智能体接受评价模块通过评价函数Q_n(s,a)计算出的评价值。当有多个虚拟网请求业务时，重复步骤一到步骤五，并计算出累计奖励R_π(s,a)，评价模块根据评价函数Q_n(s,a)计算得到评价值从而对节点智能体模块的参数进行反馈更新。同样，评价模块根据计算评价函数Q_l(s,a)得到评价值从而对链路智能体模块的参数进行更新。

根据公式(7)计算每次节点策略网的损失函数，并由梯度公式(8)进行梯度更新。

L(θ)＝∑log_π(a|s,θ)Q_n (7)

其中，L(θ)为节点策略网的损失函数，θ为本次网络输出的概率分布，Q_n为节点的动作评价函数，若用到链路的动作评价函数需用评价函数Q_l替换评价函数Q_n，

为损失函数的梯度值。

由节点智能体模块从环境得到节点动作的评价函数Q_n并作用在网络更新中，使智能体对网络历史数据有效学习，从而对虚拟网请求业务R进行合适的映射。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多智能体深度强化学习的虚拟光网络映射方法，其特征在于，其步骤如下：

步骤六：评价模块根据累加奖励计算节点动作和链路动作的评价值，链路智能体和节点智能体均接受评价模块根据评价函数计算出的评价值，当有多个虚拟网请求业务时，评价模块根据评价值对智能体模块的参数进行更新。

2.根据权利要求1所述的基于多智能体深度强化学习的虚拟光网络映射方法，其特征在于，所述步骤一种底层物理网资源调度更新算法的实现方法为：

3.根据权利要求1或2所述的基于多智能体深度强化学习的虚拟光网络映射方法，其特征在于，所述节点智能体提取所有节点及其周围的特征信息：第i个节点的特征向量为v_i＝(ncc_i,deg_i,nfs_i,fsb_i,ads_i)，并组成特征矩阵M＝(v₁,v₂,v₃……v_n)作为节点状态并输入到节点智能体模块，其中，ncc_i、deg_i,、nfs_i、fsb_i、ads_i分别表示第i个节点的节点承载能力、节点度、节点周围链路的总频槽数、节点周围每个链路的总频槽数/频槽可用块数和节点到其他映射节点的平均距离，n代表底层物理网的节点个数；

4.根据权利要求3所述的基于多智能体深度强化学习的虚拟光网络映射方法，其特征在于，所述节点策略网络的节点智能体模块主要由三层人工神经网络构成：

L＝M*W+B (1)

5.根据权利要求4所述的基于多智能体深度强化学习的虚拟光网络映射方法，其特征在于，所述步骤三中节点智能体模块根据概率分布使用e-贪心算法进行节点的确定与选取，最后根据底层物理网资源调度更新算法确定节点是否映射成功；所述e-贪心算法进行虚拟网节点映射选取的步骤为：

(1)设置初始e值为1，设置随机区间为

设置贪心区间为

设置每次训练迭代e的变化值λ＝1×10^-5；

(2)训练时，每轮迭代判断是否

(3)每轮迭代e＝e-λ。

6.根据权利要求1或3所述的基于多智能体深度强化学习的虚拟光网络映射方法，其特征在于，所述链路智能体模块中链路中频槽块的确定与选取的步骤为：

7.根据权利要求1所述的基于多智能体深度强化学习的虚拟光网络映射方法，其特征在于，所述步骤五中多步映射的累计奖励R_π(s,a)表示为：

8.根据权利要求1或7所述的基于多智能体深度强化学习的虚拟光网络映射方法，其特征在于，所述评判模块从环境模块中得到节点状态与链路状态组成总状态，获取节点动作与链路动作组成连续动作，并同时将总状态与连续动作作为评价模块中评价网络的输入，评价网络根据汇总的状态与动作并根据节点与链路利用率反馈的奖励计算各自的评价值，对节点动作与链路动作评价。

9.根据权利要求8所述的基于多智能体深度强化学习的虚拟光网络映射方法，其特征在于，所述步骤六中评价模块根据节点动作与链路动作的价值值分别计算出对本步长中节点动作的评价函数Q_n(s，a)与链路动作的评价函数Q_l(s，a)：

Q_n(s，a)＝l_q+U_n×R_π(s，a) (3)

Q_l(s，a)＝l_q+U_l×R_π(s，a) (4)

其中，R_π(s，a)为一个步长映射当前动作a的累计奖励，N_u与L_u分别为底层物理网总的节点资源与链路资源，n_b与l_b分别为步长b中的底层物理网节点与链路资源占用率。

10.根据权利要求9所述的基于多智能体深度强化学习的虚拟光网络映射方法，其特征在于，所述评价模块根据评价值对节点智能体模块的参数进行更新的方法为：

计算每次节点策略网的损失函数：

L(θ)＝∑log_π(a|s，θ)Q_n(s，a) (7)

由梯度公式进行梯度更新：

其中，L(θ)为节点策略网的损失函数，θ为本次网络输出的概率分布与概率分布P_θ同分布，Q_n(s，a)为节点动作的评价函数，

为损失函数的梯度值，E_πθ为对奖励函数与概率分布函数取的两次差值取期望，log_π(a|s，θ)为网络输出的概率分布取log。