CN116684291A

CN116684291A - 一种适用通用化平台的服务功能链映射资源智能分配方法

Info

Publication number: CN116684291A
Application number: CN202310746993.6A
Authority: CN
Inventors: 黄万伟; 李松; 郑向雨; 梁辉; 黄敏; 陈明; 李玉华; 王昌海; 李璞; 张焕龙; 肖强勇; 张亚洲; 陈锐; 王博; 孙海燕
Original assignee: Zhengzhou University of Light Industry
Current assignee: Zhengzhou University of Light Industry
Priority date: 2023-06-21
Filing date: 2023-06-21
Publication date: 2023-09-01

Abstract

本发明提出了一种适用通用化平台的服务功能链映射资源智能分配方法，步骤为：建立SFC映射模型，将通用化平台中SFC映射过程分为物理拓扑资源层和虚拟网络功能请求层的两层结构，并对两层结构进行抽象参数表示；分析通用化平台中服务请求的处理过程，建立节点计算与链路带宽通信资源联合分配的处理时间的最小化数学模型；将最小化数学模型建模为马尔科夫过程，定义包含状态、动作、奖励的三元组；将三元组与异步优势动作评价算法相结合，以训练主网络为模板，利用多线程技术生成多个子网络用于并行训练，找寻最优资源分配策略。本发明通过智能分配节点计算资源与链路带宽通信资源，有效提高了SFC请求的处理速率。

Description

一种适用通用化平台的服务功能链映射资源智能分配方法

技术领域

本发明涉及移动通信的技术领域，尤其涉及一种适用通用化平台的服务功能链映射资源智能分配方法。

背景技术

随着通信网络技术的高速发展，网络用户的数量逐年暴增，用户所需的网络功能服务业务日趋多样化。传统网络架构中网络功能与专用硬件设备之间存在强耦合性，无法为用户提供灵活可定制的网络服务。网络功能虚拟化(Network FunctionsVirtualization，NFV)将网络功能虚拟软件化为虚拟网络功能(Virtualized NetworkFunction，VNF)并部署在通用化硬件平台上，并以服务功能链(Service Function Chain，SFC)的形式为用户提供定制化网络服务，提供了新的网络功能服务业务处理体系，并提高了网络服务的灵活性与可扩展性。在NFV中，SFC是指根据用户下发服务请求(SFC Request，SFCR)中VNF的先后逻辑顺序，引导网络流量依次通过网络链路传输至相应网络功能节点进行处理，从而完成网络业务处理的逻辑链式服务请求。其中，SFC映射是完成SFCR处理的关键过程，指将SFCR包含的VNF在通用化网络平台中进行实例化，并使流量按序经过相应网络功能的过程。在SFC映射过程中，主要涉及的网络资源为节点计算资源与链路带宽通信资源，两种资源在SFCR上分配的多少从根本上影响着SFCR的响应效率。而现有映射资源智能分配方法大多只针对单一节点计算资源或链路带宽通信资源分配进行优化，易造成另一种资源利用率低，资源分配失衡问题，且由于SFC映射动作复杂，存在收敛效率慢问题。因此，需要设计一种在通用化平台中联合节点计算资源和链路带宽通信资源优化，合理分配计算与通信相关资源，加快算法收敛效率的SFC映射资源智能分配方法，从而提高SFC映射率和资源使用率，加快SFCR处理效率，降低处理SFC的总处理时间。

申请号为201911399761.8的发明专利公开了一种基于环境感知的服务功能链低成本智能部署方法，步骤为：以用户无线端可达的无线速率作为SFC资源分配的依据，联合考虑SFC部署与无线子载波分配，建立在用户时延要求、无线速率需求以及资源约束下的SFC部署成本最小化模型；将上述优化问题转化为离散时间下的具有连续状态空间和高维度动作空间的马尔可夫决策过程；最后考虑到该MDP问题的高维性，利用DDPG强化算法获得SFC部署与子载波分配的联合优化策略，达到减少资源消耗，降低SFC部署成本的目的。本方法能够在保证用户时延要求和无线速率需求的同时，有效降低SFC部署的总成本；能够在每个时隙据当时的环境，做出使部署成本最低的子载波分配及SFC部署策略。上述方法根据SFC流速率为其分配相应的计算及虚拟链路带宽资源，虽然可以减少核心网的资源消耗，降低SFC部署成本。但是，这也意味着流速低的SFC所能分配的资源少，导致部分用户等待服务时间长，降低用户服务质量。且所使用的DDPG属于确定性策略梯度算法，特点为每次训练得到的结果反馈一定优于上次结果，但确定性策略意味着不能很好的探索状态-动作策略空间，在面对实时服务请求时，不利于虚拟功能映射动作策略的探索，很容易陷入局部策略最优。

发明内容

针对在通用化平台中服务功能链映射时存在节点计算资源与链路带宽通信资源两种资源分配失衡，造成资源浪费或资源不足，服务质量无法保证，无法支持新的业务需求等问题，且由于SFC映射过程资源分配动作复杂，现有分配方法存在收敛效率慢技术问题，本发明提出一种适用通用化平台的服务功能链映射资源智能分配方法(简称为SA3C)，将映射资源分配过程转化为马尔科夫决策模型，将节点资源分配和链路资源分配作为动作策略，总处理时间作为奖励值，并基于异步优势动作评价算法(Asynchronous AdvantageActor-Critic，A3C)中异步训练方式，以训练主网络为模板，利用多线程技术生成多个子网络用于并行训练，从而有效加速算法收敛效率。

为了达到上述目的，本发明的技术方案是这样实现的：一种适用通用化平台的服务功能链映射资源智能分配方法，其步骤如下：

步骤一：建立SFC映射模型，将通用化平台中SFC映射过程分为物理拓扑资源层和虚拟网络功能请求层的两层结构，并对两层结构进行抽象参数表示；

步骤二：分析通用化平台中服务请求的处理过程，建立节点计算与链路带宽通信资源联合分配的处理时间的最小化数学模型；

步骤三：将最小化数学模型建模为马尔科夫过程，定义包含状态、动作、奖励的三元组；

步骤四：将马尔科夫过程与图卷积神经网络进行结合，优化三元组，将状态的高维邻接信息变为低维向量表示；

步骤五：将步骤四中优化后的三元组与异步优势动作评价算法相结合，基于异步优势动作评价算法中异步训练方式，以训练主网络为模板，利用多线程技术生成多个子网络用于并行训练，找寻最优资源分配策略。

优选地，所述物理拓扑资源层用无向图G＝{N,L}表示，其中N＝{n₁,n₂...n_m}表示物理服务节点集合，m表示物理服务节点最大数，n₁,n₂...n_m为m个物理服务节点；L＝{l_i,j＝(n_i,n_j)|i,j≤m}表示物理链路集合，l_i,j为第i个物理服务节点n_i与第j个物理服务节点n_j之间的物理链路；物理服务节点的可用计算资源C＝[c₁,c₂...c_m]，其中c_i为物理服务节点n_i的可用计算资源；物理链路带宽通信资源B＝{b_i,j|i,j≤m}，b_i,j为物理服务节点n_i与物理服务节点n_j之间的物理链路带宽通信资源，若b_i,j＝0表示可用链路带宽通信资源为0或表示两点之间不存在物理链路连接；

所述虚拟网络功能请求为用户服务请求集合SFCs＝{f₁,f₂,...}，一个f代表一条具体的SFC请求，SFC请求用一个四元组f＝＜V_f,E_f,Data_f,P_f＞表示，其中V_f＝{v₁,v₂...v_v}表示虚拟网络功能请求序列，v表示用户所需的虚拟网络功能，E_f＝{e₁,e₂,...e_e}表示虚拟链路集合，其中e_u＝{v_p,v_q}表示虚拟网络功能v_p和虚拟网络功能v_q之间的虚拟链路，Data_f表示SFC请求f的传输数据量大小，P_f＝{p₁,p₂...p₅}表示SFC请求f的处理优先级集合，优先级p₁最低，优先级p₅最高。

优选地，所述最小化数学模型为：

其中，C1是处理虚拟网络功能请求集合总的最小化处理时间，表示每个VNF都必须映射到一个物理服务节点上；C2表示VNF在映射至物理服务节点时，所分配的计算资源受到该物理节点可用资源的容量限制；C3表示虚拟链路在映射至物理链路时，所分配的带宽资源受到该物理链路可用带宽资源的容量限制；其中，I为全为1的单位矩阵，|N|表示物理服务节点序列，|V_f|表示第f条SFC请求的虚拟网络功能请求序列，表示在时隙t时第f条SFC请求在物理服务节点映射状态，D^f为第f条SFC请求的节点总处理时间，C(t)为虚拟网络功能映射形成的二进制矩阵，B(t)为虚拟链路映射形成的二进制矩阵，/>为第f条SFC请求中第i个虚拟功能映射至物理拓扑中的时隙t内物理服务节点n_j的映射状态，为在时隙t时映射成功的物理服务节点为其所分配的节点计算资源，c_j表示当前第j个物理服务节点可用节点计算资源，/>表示第f条SFC中的第e条虚拟链路成功映射到物理拓扑中物理服务节点n_i与n_j之间的物理链路(n_i,n_j)上的链路映射状态，/>为在时隙t时映射成功的物理链路为其所分配的链路带宽通信资源，b_i,j表示物理链路可用带宽通信资源。

优选地，在映射过程中，所述第f条SFC请求的总处理时间D^f为物理服务节点处理总时间与链路处理总时间/>之和；

第f条SFC请求的物理服务节点总处理时间为：

其中，v_c表示第f条SFC请求所含的虚拟网络功能，N^f表示第f条SFC请求中虚拟功能映射的物理服务节点序列，第f条SFC请求在一个物理节点所停留的时间

第f条SFC请求在t时隙时的物理服务节点中的处理速率与该物理节点所分配的计算资源成正比，且：

其中，为转化因子，且/> 为在时隙t时映射成功的物理服务节点为其所分配的节点计算资源，且/>c_c表示该物理服务节点可用节点计算资源；Data_f表示SFC请求f的传输数据量大小；

第f条SFC请求的链路处理总处理时间为：

其中，第f条SFC请求在一个物理链路所停留的时间

第f条SFC请求在t时隙时的物理链路中的传输速率与该物理链路所分配的带宽资源成正比，且：/>

其中，η为转化因子，且η＞1，为在时隙t时映射成功的物理链路为其所分配的链路带宽通信资源，且/>b_p,q表示物理链路可用带宽通信资源。

优选地，将处理SFC请求的整个过程按处理时间分为若干个时隙，用T＝{1,2,...t}表示时隙集合，以一个时隙t为SFC映射处理周期；在虚拟功能映射至物理拓扑中的时隙t内，用表示服务节点映射状态，当/>时表示第f条SFC请求中的第i个虚拟网络功能v_i成功映射到物理拓扑中的第j个物理服务节点中，若映射失败，则/>当在第f条SFC请求中的虚拟网络功能均映射完成后，用/>表示虚拟网络功能映射形成的二进制矩阵；用/>表示链路映射状态，当/>时，表示第f条SFC请求中的第e条虚拟链路成功映射到物理拓扑中物理服务节点n_p与物理服务节点n_q之间的物理链路(n_p,n_q)上，若映射失败，则映射状态/>在第f条SFC请求中的虚拟链路均映射完成后，用/>表示其虚拟链路映射形成的二进制矩阵。

优选地，在映射过程中，优先级p_i也影响映射的先后顺序，每条SFC请求的优先级如无设定，默认为优先级p₃，优先级越高，所分配的计算资源与链路带宽通信资源比重越大，在相同数据量的情况下总处理时间越短。

优选地，所述马尔科夫过程为一个三元组M＝＜S,A,R＞，其中S是有限状态空间，A是有限动作空间，R是奖励空间；

所述状态空间S是由时隙t时各个SFC请求映射到通用化平台形成的物理拓扑中系统状态组成，因此t时隙的通用化平台系统状态为：s_t＝{s₁(t),s₂(t)...s_SFCs(t)}；

其中，状态表示时隙t时的物理拓扑资源信息，/>表示第x条SFC请求的特征；|SFCs|表示时隙t时SFC请求的数量。

所述动作空间A表示为当前通用化平台系统状态下SFC请求在映射时各类资源的分配方式，t时隙的动作为：a_t＝{a_c(t),a_b(t)}；

其中，a_c(t)表示物理节点计算资源的分配方式，a_b(t)表示物理链路带宽通信资源的分配方式；

当在时隙t时，基于状态s_t时采取动作a_t，将会进入下一状态s_t+1并获得即时奖励r_t，各个时隙t的即时奖励构成奖励空间R＝(r₁,r₂,r₃...)，其中，r₁,r₂,r₃...分别表示在第1、2、3个时间周期内根据相应状态s₁、s₂、s₃所采取动作a₁、a₂、a₃所得到的即使反馈奖励值；将处理时间的相反数设为奖励函数

优选地，将马尔科夫过程与图卷积神经网络进行结合，优化三元组的方法为：获取t时隙的通用化平台系统状态s_t＝{s₁(t),s₂(t)...s_SFCs(t)}，第x条SFC请求状态的物理拓扑资源层/>有|N_m|个节点，第x条SFC请求/>的功能序列|V_x|组成一个|N_m|*|V_x|维的特征矩阵X，并形成一个|N_m|*|N_m|的邻接矩阵A，通过两层图卷积操作完成激活函数Relu和归一化函数softmax整体的前向传播：/>其中/> 是度量矩阵；/>I是单位矩阵，/>是对称矩阵，W_S是有限状态空间的权重参数矩阵；

将有限动作空间a_t＝{a_c(t),a_b(t)}与图卷积神经网络进行结合，将高维度动作空间以低纬向量空间进行表示，修改后的有限动作集合公式为其中a_wi＝wi(a_c,a_b)，|V_x|表示第x条SFC请求的功能序列中功能的数量，W_A是有限动作空间的权重参数矩阵。

优选地，所述步骤五的实现方法为：将单条SFC请求作为一个子网络训练的智能体，在子网络中训练得到最优资源分配策略时的参数值，通过差分更新的方式与主网络参数进行同步；子网络与物理拓扑资源层进行交互学习更新子网络参数θ^μ′与θ^Q′，并使用差分跟新的方式与主网络的策略网络与价值网络的参数θ^μ与θ^Q进行同步；

定义子网络集合为M，并采用参数向量生成动作选择策略函数π(s)，用于根据状态s_t选择映射动作a_t，采用参数向量/>生成状态值函数V(s)，用于评价当前状态s_t的优劣；对于异步优势动作评价算法的网络架构，主网络与子网络均具有各自维护的一个网络的随机动作策略π(s)＝π(s_t,a_t|θ^μ)和状态值函数V(s_t)＝V(s_t|θ^Q)。

优选地，所述差分更新的方式的实现方法为：

定义策略π(s_t)的状态值函数

其中，γ∈(0,1)为折扣因子，表示动作策略π(s_t)的数学期望，V(s_t+1)表示状态s_t+1的状态值函数；

定义对动作策略π(s_t)的动作值函数Q(s_t,a_t)，用于评价当前动作对应的值相对于平均值的大小，且：

主网络中策略网络和价值网络参数以θ^μ与θ^Q表示，子网络中策略网络和价值网络的参数以θ^μ′与θ^Q′表示，策略网络Actor中参数θ^μ的更新遵循策略梯度为：

其中，δ为熵超参数，在开始时设置较大，在训练阶段逐渐减小，H()代表策略的熵，dθ^μ表示策略网络的参数θ^μ的微分，表示策略网络的参数θ^μ的全微分，/>表示策略网络参数θ^μ′的全微分，π(s_t|θ^μ′)表示状态为s_t、策略网络参数为θ^μ′时所产生的动作策略函数，dθ^μ′表示子网络参数θ^μ′的微分，α表示策略参数的学习率；

价值网络Critic中参数θ^Q更新遵循策略梯度为：

其中，β表示价值参数的学习率，dθ^Q表示价值网络的参数θ^Q的微分、dθ^Q′表示价值网络参数θ^Q′的微分、V(s_t|θ^Q′)表示状态s_t、价值网络参数θ^Q′时的状态值函数、表示价值网络的参数θ^Q′的偏导数。

与现有技术相比，本方法的有益效果：

(1)本发明分析通用化平台中SFC映射时资源分配与业务处理效率之间的关联并以公式化进行表示，为制定最优分配公式为更合理分配节点计算资源和链路带宽通信资源提供理论支撑；并将SFC映射过程资源分配建模为马尔科夫决策过程，引入A3C方法异步训练加速方法的收敛效率，有效提高SFC映射率和资源利用率，降低SFC的总处理时间，在通用化平台有限的资源中映射更多的SFC；在并行训练中，将每条SFC请求作为一个子网络训练的智能体，找寻最优资源分配策略，并通过差分更新的方式与主网络参数进行同步。

(2)本发明将马尔科夫决策过程三元组中有限状态空间与图卷积神经网络结合，将有限状态空间高维邻接信息以低维向量进行表示，有效降低了输入有限状态空间的复杂度，提高了方法的处理效率。

(3)本发明通过智能分配节点计算资源与链路带宽通信资源，有效提高了SFC请求的处理速率，相比于演员-评论家方法(Actor-Critic，AC)和策略梯度方法(PolicyGradient，PG)方法，至少提高了6.72％的映射率、9.85％的资源使用率以及至少降低了10.72％的总处理时间。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实例提供的SFC映射模型图。

图2为本发明实例提供的基于A3C的SFC映射资源分配模型图。

图3为本发明提供的映射率对比图。

图4为本发明提供的总处理时间对比图。

图5为本发明提供的资源使用率对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在通用化平台中SFC映射时，主要涉及的网络资源为节点计算资源与链路带宽通信资源，两种资源对SFCR的分配大小从根本上影响着通用化平台对用户服务的响应效率。而现有机器学习方法大多只针对单一节点计算资源或链路带宽通信资源分配进行优化，易造成另一种资源利用率低，资源分配失衡问题，且由于SFC映射动作复杂，存在收敛效率慢问题。因此，需要设计一种能够联合节点计算资源和链路带宽通信资源优化，并加快算法收敛效率的SFC通用化平台网络资源分配方法。本发明提出了一种适用通用化平台的服务功能链映射资源智能分配方法，具体工作流程步骤如下：

步骤一：建立SFC映射模型，将通用化平台中SFC映射过程分为物理拓扑资源层和虚拟网络功能请求层的两层结构，并对两层结构进行抽象参数表示。

SFC映射模型图如图1所示，具体内容为：

物理拓扑资源层可以用无向图G＝{N,L}表示，其中N＝{n₁,n₂...n_m}表示物理服务节点集合，m表示物理服务节点最大数，由通用化高性能服务器组成，用于接收、处理、封装用户网络服务请求，n₁,n₂...n_m为m个物理服务节点；L＝{l_i,j＝(n_i,n_j)|i,j≤m}表示物理链路集合，可以将用户网络服务请求传输到各个物理服务节点中，l_i,j为第i个物理服务节点n_i与第j个物理服务节点n_j之间的物理链路。其中，每个物理服务节点中可以部署多个VNF实例为用户提供网络服务，不同的VNF实例可以完成不同网络服务需求，可用VNFIsⁱ＝{vnf₁,vnf₂...}表示，是物理服务节点的可提供的网络功能序列，在虚拟功能映射物理服务节点时用于进行比对；且物理服务节点的可用计算资源用C＝[c₁,c₂...c_m]表示，其中c_i为物理服务节点n_i的可用计算资源。物理链路带宽通信资源用B＝{b_i,j|i,j≤m}表示，物理服务节点n_i与物理服务节点n_j之间的物理链路带宽通信资源用b_i,j表示，若b_i,j＝0则表示可用链路带宽通信资源为0或表示两点之间不存在物理链路连接。

虚拟网络功能请求集合用SFCs＝{f₁,f₂,...}表示，为用户服务请求集合，一个f代表一条具体的SFC请求，可以用一个四元组f＝＜V_f,E_f,Data_f,P_f＞表示，其中V_f＝{v₁,v₂...v_v}表示虚拟网络功能请求序列，v表示用户所需的虚拟网络功能，E_f＝{e₁,e₂,...e_i}表示虚拟链路集合，其中e_u＝{v_p,v_q}表示虚拟网络功能v_p和虚拟网络功能v_q之间的虚拟链路，表示数据流或业务流通过的方向，Data_f表示该服务SFC请求f的传输数据量大小，P_f＝{p₁,p₂...p₅}表示SFC请求f的处理优先级集合，优先级最低为p₁，最高为p₅。

步骤二：分析通用化平台中服务请求的处理过程，建立节点计算与链路带宽通信资源联合分配的处理时间最小化数学模型。

具体实现方法如下：将处理服务请求的整个过程按处理时间分为若干个时隙，用T＝{1,2,...t}表示时隙集合，以一个时隙t为SFC映射处理周期。在虚拟功能映射至物理拓扑中的时隙t内，用表示服务节点映射状态，当/>时表示第f条SFC请求中的第i个虚拟网络功能v_i成功映射到物理拓扑中的第j个物理服务节点中，若映射失败，则当在第f条SFC请求中的虚拟网络功能均映射完成后，可用/>表示其虚拟网络功能映射形成的二进制矩阵。用/>表示是链路映射状态，当/>时，表示第f条SFC请求中的第e条虚拟链路成功映射到物理拓扑中物理服务节点n_p与物理服务节点n_q之间的物理链路(n_p,n_q)上，若映射失败，则映射状态/>在第f条SFC请求中的虚拟链路均映射完成后，可用/>表示其虚拟链路映射形成的二进制矩阵。在映射过程中，第f条SFC请求在t时隙时的物理服务节点中的处理速率与该物理节点所分配的计算资源成正比，可用公式(1)描述为：

其中，为转化因子，且/> 为在时隙t时映射成功的物理服务节点为其所分配的节点计算资源，且/>c_c表示该物理服务节点剩余节点计算资源。因此，第f条SFC请求在该物理节点所停留的时间可用公式(2)表示为：

故，第f条SFC请求的节点总处理时间为：

其中，v_c表示第f条SFC请求所含的虚拟网络功能，N^f表示第f条SFC请求中虚拟功能映射的物理服务节点序列。

同理，第f条SFC请求在t时隙时的物理链路中的传输速率与该物理链路所分配的带宽资源成正比，可用公式(4)描述为：

其中，η为转化因子，且η＞1，为在时隙t时映射成功的物理链路为其所分配的链路带宽通信资源，且/>b_p,q表示物理链路剩余带宽通信资源。因此，第f条SFC请求在该物理链路所停留的时间可用公式(5)表示：

故第f条SFC请求的链路总处理时间为：

因此，第f条SFC请求的总处理时间D^f为物理服务节点处理总时间与链路处理总时间之和/>可用公式(7)表示。

在映射过程中，优先级p_i也将影响映射的先后顺序。每条SFC请求的优先级如无设定，默认为优先级p₃，优先级越高，所分配的计算资源与链路带宽通信资源比重越大，在相同数据量的情况下总处理时间越短。

综上所述，通用化平台SFC资源分配问题可以分为可建立为节点资源分配和链路带宽通信资源联合分配的处理时间最小化数学模型，且满足以下约束：

其中，C1是处理虚拟网络功能请求集合总的最小化处理时间，也是优化的目标，表示每个VNF都必须映射到一个物理服务节点上，其中I为全为1的单位矩阵，|N|表示物理服务节点序列，|V_f|表示第f条SFC请求的虚拟网络功能请求序列；C2表示VNF在映射至物理服务节点时，所分配的计算资源受到该物理节点可用资源的容量限制，c_j表示当前第j个物理服务节点可用节点计算资源；C3表示虚拟链路在映射至物理链路时，所分配的带宽资源受到该物理链路可用带宽资源的容量限制。

步骤三：将通用化平台服务功能链映射资源分配过程的最小化数学模型建模为马尔科夫过程，定义包含状态、动作、奖励的三元组。

具体内容为：本发明的目标是在通用化平台有限的资源中映射更多的SFC请求数量，根据步骤一中分析节点计算资源与链路带宽通信资源对SFC请求处理速率的影响分析，故通过为SFC请求分配物理服务节点计算资源和链路带宽通信资源调节SFC的处理时间，从而提高SFC处理效率。上述资源分配过程中映射环境状态是一个动态变化的过程，可以建模为马尔科夫过程(Markov Decision Process，MDP)。该映射资源分配过程建模成的MDP可以定义为一个三元组M＝＜S,A,R＞，其中S是有限状态空间，A是有限动作空间，R是奖励空间。

状态空间S是由时隙t时各个SFC请求映射到通用化平台形成的物理拓扑中系统状态组成，因此t时隙的通用化平台系统状态可以表示为：

s_t＝{s₁(t),s₂(t)...s_|SFCs|(t)} 式(9)

其中表示时隙t时的物理拓扑资源信息，/>表示第x条SFC请求的特征。|SFCs|表示时隙t时SFC请求的数量。

动作空间A表示为当前通用化平台系统状态下SFC请求在映射时各类资源的分配方式，因此t时隙的动作空间可以表示为：

a_t＝{a_c(t),a_b(t)} 式(10)

其中，a_c(t)表示物理节点计算资源的分配方式，a_b(t)表示物理链路带宽通信资源的分配方式。当在时隙t时，基于状态s_t时采取动作a_t，将会进入下一状态s_t+1并获得即时奖励r_t，各个时隙t的即时奖励构成奖励空间R＝(r₁,r₂,r₃...)，其中，r₁,r₂,r₃...分别表示在第1、2、3个时间周期内根据相应状态s₁、s₂、s₃所采取动作a₁、a₂、a₃所得到的即使反馈奖励值。由于本发明的优化目标是最小化SFC请求处理时间，因此将处理时间的相反数设为奖励函数，即：

步骤四：将马尔科夫过程与图卷积神经网络进行结合，优化三元组模型，将状态的高维邻接信息变为低维向量表示。

为了提高通用化平台的服务功能链映射资源智能分配方法的训练收敛效率，将图卷积神经网络方法与三元组有限状态空间与动作空间进行结合，将状态高维邻接信息以低维向量表示，提高智能分配方法的输入效率与映射动作响应速率。具体内容为：获取t时隙的通用化平台系统状态s_t＝{s₁(t),s₂(t)...s_|SFCs|(t)}，以第x条SFC请求状态为例，物理拓扑资源层/>有|N_m|个节点，第x条SFC请求/>的功能序列为|V_x|，组成一个|N_m|*|V_x|维的特征矩阵X，并形成一个|N_m|*|N_m|的邻接矩阵A。

通过两层图卷积操作，完成激活函数Relu和归一化函数softmax整体的前向传播：

其中是度量矩阵。/>I是单位矩阵，/>是对称矩阵。

将有限动作空间a_t＝{a_c(t),a_b(t)}与图卷积神经网络进行结合，将高维度动作空间以低纬向量空间进行表示，具体修改后的有限动作集合公式为其中a_wi＝wi(a_c,a_b)，|V_x|表示第x条SFC请求的功能序列中功能的数量，W_A是有限动作空间的权重参数矩阵。

步骤五：将步骤四中优化的MDP三元组与A3C结合，提出SA3C方法。基于异步优势动作评价算法中异步训练方式，以训练主网络为模板，利用多线程技术生成多个子网络用于并行训练，得到子网络训练学习后的优化参数，并通过差分更新的方式与主网络参数进行同步，加快参数收敛效率。本发明将单条SFC请求作为一个子网络训练的智能体，与物理拓扑资源层进行交互学习更新子网络参数θ^μ′与θ^Q′，并使用差分跟新的方式与主网络策略网络与价值网络的参数θ^μ与θ^Q进行同步，从而找寻最优资源分配策略。

基于A3C的SFC映射资源分配模型图如图2所示，具体内容为：定义子网络集合为M，并采用参数向量生成动作选择策略函数π(s)，用于根据状态s_t选择映射动作a_t，采用参数向量/>生成状态值函数V(s)，用于评价当前状态s_t的优劣。对于A3C网络架构，主网络与子网络均具有各自维护的一个网络的随机动作策略π(s)＝π(s_t,a_t|θ^μ)和状态值函数V(s_t)＝V(s_t|θ^Q)。

在使用A3C时，需要先定义策略π(s_t)的状态值函数V(s_t)，其本质是累计的期望折扣奖励，可以表示为公式(13)。

其中，γ∈(0,1)为折扣因子，代表未来决策对当前状态的影响程度，表示动作策略π(s_t)的数学期望，V(s_t+1)表示状态s_t+1的状态值函数。其次，需要对动作策略π(s_t)的动作值函数Q(s_t,a_t)进行定义，用于评价当前动作对应的值相对于平均值的大小，可以用公式(14)描述：

在A3C中，无论是主网络还是子网络，本质都是演员-评论家(Actor-Critic)网络结构，在更新时需更新策略网络参数与价值网络参数。因此，主网络中策略网络和价值网络参数以θ^μ与θ^Q表示，子网络中策略网络和价值网络的参数以θ^μ′与θ^Q′表示。Actor策略网络中参数θ^μ的更新遵循策略梯度公式如式(15)所示。

其中，δ为熵超参数，在开始时设置较大，在训练阶段逐渐减小，H()代表策略的熵，dθ^μ表示策略网络参数θ^μ的微分，表示策略网络参数θ^μ的全微分，/>表示策略网络参数θ^μ′的全微分，π(s_t|θ^μ′)表示状态为s_t、策略网络参数为θ^μ′时所产生的动作策略函数，dθ^μ′表示策略网络参数θ^μ′的微分，α表示策略参数的学习率。Critic价值网络中参数θ^Q更新遵循策略梯度式(16)如所示：

其中，β表示价值参数的学习率。dθ^Q表示价值网络参数θ^Q的微分，dθ^Q′表示价值网络参数θ^Q′的微分，V(s_t|θ^Q′)表示状态s_t、价值网络参数θ^Q′时的状态值函数，表示策略网络参数θ^Q′的偏导数。

SA3C方法在通过对子网络参数进行训练，并通过差分更新的方式与主网络同步参数。最终从映射率、总处理时间以及资源使用率三方面对所提方法进行有效性验证，并与演员-评论家方法(Actor-Critic，AC)方法和策略梯度(Policy Gradient,PG)方法进行对比，所用仿真网络拓扑具有24个节点和45条链路，具体内容为：

(1)映射率

SFC请求被成功映射到物理网络中进行处理的映射率可以定义为式(17)，其中Num(SFCs)表示当前SFC请求总数量，表示成功映射的数量。三种方法的映射率对比如图3所示，从图3中可以看出，在开始阶段，三种方法的映射率均从100％逐渐下降，这是因为随着SFC请求数量的增多，物理网络中节点计算资源与链路带宽通信资源均被逐渐占用，从而使得一些SFC由于没有分配到资源而映射失败，但SA3C方法的映射率下降速度明显小于AC和PG算法。在100条SFC请求时映射结束时，SA3C的映射率为75.74％，相比AC提高了6.72％，PG算法提高了16.7％。这是因为本发明SA3C使用了多个子网络并行学习，减少训练时间，加快收敛效率。

(2)总处理时间

根据步骤二中式(7)可以计算出当前SFC请求数量集合的总处理时间，如式(18)所示。三种方法的总处理时间对比如图4所示。从图4中可以看出，在三种方法的总处理时间均呈现上升趋势，这是因为随着SFC请求数量的增多，需要处理的数据量也逐渐加大，处理数据所使用的时间也会上升。但SA3C方法总处理时间的上升趋势明显小于AC和PG方法。在完成100条SFC请求的处理时，SA3C所需的总处理时间为1025.86个单位时间，相比AC的总处理时间降低了10.72％，相比PG算法降低了18.43％，这是因为SA3C将每条SFC都会送入一个子网络中进行学习训练，以达到最小化总处理时间的优化效果。

(3)资源使用率

SFC请求在映射到物理网络中时，需要占用一定的资源才能进行处理，当前SFC请求数量集合的资源使用率可以定义为公式(18)，其中表示物理节点计算资源，/>表示链路带宽通信资源，/>表示SFC请求所分配的物理节点和链路带宽的资源之和。三种方法的资源使用率对比如图5所示，从图5中可以看出，三种方法的资源使用率呈上升趋势，这是因为随着需要处理的SFC请求数量增多，可分配的物理节点计算资源与物理链路带宽通信资源逐渐减少，资源使用率将逐渐上升。由于SFC在映射时需要选择部署相应VNF的节点进行映射，若无可映射的VNF节点，则SFC映射失败，不会占用其余未部署相应VNF的节点资源，故资源使用率虽然呈上升趋势，但一般不会出现使用率满载情况。

从图5中看出，在对100条SFC请求进行映射处理时，本发明SA3C的资源使用率为69.31％，相比AC提高了9.85％，相比PG算法提高了17.08％。这是因为SA3C将物理节点计算资源与物理链路带宽通信资源的分配作为联合优化目标，在SFC映射时调节资源分配的权重，加快SFC的处理速率，从而释放资源用于处理更多的SFC。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种适用通用化平台的服务功能链映射资源智能分配方法，其特征在于，其步骤如下：

2.根据权利要求1所述的适用通用化平台的服务功能链映射资源智能分配方法，其特征在于，所述物理拓扑资源层用无向图G＝{N,L}表示，其中N＝{n₁,n₂...n_m}表示物理服务节点集合，m表示物理服务节点最大数，n₁,n₂...n_m为m个物理服务节点；L＝{l_i,j＝(n_i,n_j)|i,j≤m}表示物理链路集合，l_i,j为第i个物理服务节点n_i与第j个物理服务节点n_j之间的物理链路；物理服务节点的可用计算资源C＝[c₁,c₂...c_m]，其中c_i为物理服务节点n_i的可用计算资源；物理链路带宽通信资源B＝{b_i,j|i,j≤m}，b_i,j为物理服务节点n_i与物理服务节点n_j之间的物理链路带宽通信资源，若b_i,j＝0表示可用链路带宽通信资源为0或表示两点之间不存在物理链路连接；

3.根据权利要求2所述的适用通用化平台的服务功能链映射资源智能分配方法，其特征在于，所述最小化数学模型为：

4.根据权利要求3所述的适用通用化平台的服务功能链映射资源智能分配方法，其特征在于，在映射过程中，所述第f条SFC请求的总处理时间D^f为物理服务节点处理总时间与链路处理总时间/>之和；

第f条SFC请求的物理服务节点总处理时间为：

第f条SFC请求的链路处理总处理时间为：

其中，第f条SFC请求在一个物理链路所停留的时间

5.根据权利要求4所述的适用通用化平台的服务功能链映射资源智能分配方法，其特征在于，将处理SFC请求的整个过程按处理时间分为若干个时隙，用T＝{1,2,...t}表示时隙集合，以一个时隙t为SFC映射处理周期；在虚拟功能映射至物理拓扑中的时隙t内，用表示服务节点映射状态，当/>时表示第f条SFC请求中的第i个虚拟网络功能v_i成功映射到物理拓扑中的第j个物理服务节点中，若映射失败，则/>当在第f条SFC请求中的虚拟网络功能均映射完成后，用/>表示虚拟网络功能映射形成的二进制矩阵；用/>表示链路映射状态，当/>时，表示第f条SFC请求中的第e条虚拟链路成功映射到物理拓扑中物理服务节点n_p与物理服务节点n_q之间的物理链路(n_p,n_q)上，若映射失败，则映射状态/>在第f条SFC请求中的虚拟链路均映射完成后，用/>表示其虚拟链路映射形成的二进制矩阵。

6.根据权利要求4或5所述的适用通用化平台的服务功能链映射资源智能分配方法，其特征在于，在映射过程中，优先级p_i也影响映射的先后顺序，每条SFC请求的优先级如无设定，默认为优先级p₃，优先级越高，所分配的计算资源与链路带宽通信资源比重越大，在相同数据量的情况下总处理时间越短。

7.根据权利要求4或5所述的适用通用化平台的服务功能链映射资源智能分配方法，其特征在于，所述马尔科夫过程为一个三元组M＝＜S,A,R＞，其中S是有限状态空间，A是有限动作空间，R是奖励空间；

所述状态空间S是由时隙t时各个SFC请求映射到通用化平台形成的物理拓扑中系统状态组成，因此t时隙的通用化平台系统状态为：s_t＝{s₁(t),s₂(t)...s_|SFCs|(t)}；

其中，状态表示时隙t时的物理拓扑资源信息，/>表示第x条SFC请求的特征；|SFCs|表示时隙t时SFC请求的数量；

8.根据权利要求7所述的适用通用化平台的服务功能链映射资源智能分配方法，其特征在于，将马尔科夫过程与图卷积神经网络进行结合，优化三元组的方法为：获取t时隙的通用化平台系统状态s_t＝{s₁(t),s₂(t)...s_|SFCs|(t)}，第x条SFC请求状态的物理拓扑资源层/>有|N_m|个节点，第x条SFC请求/>的功能序列|V_x|组成一个|N_m|*|V_x|维的特征矩阵X，并形成一个|N_m|*|N_m|的邻接矩阵A，通过两层图卷积操作完成激活函数Relu和归一化函数softmax整体的前向传播：/>其中/> 是度量矩阵；/>I是单位矩阵，/>是对称矩阵，W_S是有限状态空间的权重参数矩阵；

9.根据权利要求7所述的适用通用化平台的服务功能链映射资源智能分配方法，其特征在于，所述步骤五的实现方法为：将单条SFC请求作为一个子网络训练的智能体，在子网络中训练得到最优资源分配策略时的参数值，通过差分更新的方式与主网络参数进行同步；子网络与物理拓扑资源层进行交互学习更新子网络参数θ^μ′与θ^Q′，并使用差分跟新的方式与主网络的策略网络与价值网络的参数θ^μ与θ^Q进行同步；

10.根据权利要求9所述的适用通用化平台的服务功能链映射资源智能分配方法，其特征在于，所述差分更新的方式的实现方法为：

定义策略π(s_t)的状态值函数

价值网络Critic中参数θ^Q更新遵循策略梯度为：