CN115580573B

CN115580573B - 服务功能链路径规划方法及相关设备

Info

Publication number: CN115580573B
Application number: CN202211158590.1A
Authority: CN
Inventors: 罗来龙; 郭得科; 仇常皓; 任棒棒
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2022-09-22
Filing date: 2022-09-22
Publication date: 2024-07-16
Anticipated expiration: 2042-09-22
Also published as: CN115580573A

Abstract

本申请提供了一种服务功能链路径规划方法及相关设备，其中，所述方法包括：构建网络拓扑模型；将服务功能链SFC的全部虚拟网络功能VNF需求以及所述网络拓扑模型输入至预先构建的深度强化学习神经网络模型；基于SFC路径规划决策利用所述深度强化学习神经网络输出所述SFC的路径规划，其中，所述SFC路径规划决策包括：根据网络中各节点为网络带来的最大链路利用率增量生成所述路径规划。本申请提供的方法能够解决大规模网络中的SFC路径规划问题，能够在复杂的网络环境中快速做出合理决策，并且能够大幅降低网络的最大链路利用率。

Description

服务功能链路径规划方法及相关设备

技术领域

本申请涉及互联网技术领域，尤其涉及一种服务功能链路径规划方法及相关设备。

背景技术

通过虚拟化技术，可以将一个或多个虚拟网络功能(Virtual Network Function，VNF)组成服务功能链(Service Function Chain，SFC)，不同的VNF通常部署在网络环境中的各个节点上，一组SFC流通过更改路由路径以访问多个所需的VNF，这些改变的路由路径则会导致网络不平衡。因此，需要一种智能的路由规划方法，在满足不同SFC的各种VNF需求的同时，最大限度地减少网络的最大链路利用率。

发明内容

有鉴于此，本申请的目的在于提出一种服务功能链路径规划方法及相关设备。

基于上述目的，本申请提供了一种服务功能链路径规划方法，包括：构建网络拓扑模型；将SFC的全部VNF需求以及所述网络拓扑模型输入至预先构建的深度强化学习神经网络模型；基于SFC路径规划决策利用所述深度强化学习神经网络输出所述SFC的路径规划，其中，所述SFC路径规划决策包括：根据网络中各节点为网络带来的最大链路利用率增量生成所述路径规划。

可选地，所述根据网络中各节点为网络带来的最大链路利用率增量生成所述路径规划包括：迭代执行第一过程，响应于首轮执行所述第一过程，所述第一过程包括：根据所述全部VNF需求，从所述网络拓扑模型的多个节点中确定多个候选节点，根据每个所述候选节点为网络带来的最大链路利用率增量，从所述多个候选节点中确定目标节点，并将该目标节点满足的VNF需求从所述全部VNF需求中删除，得到更新后的VNF需求；响应于非首轮执行所述第一过程，所述第一过程包括：根据上一轮更新后的VNF需求，从所述网络拓扑模型的多个节点中确定多个候选节点，根据每个所述候选节点为网络带来的最大链路利用率增量，从所述多个候选节点中确定目标节点，并将该目标节点满足的VNF需求从所述上一轮更新后的VNF需求中删除，得到更新后的VNF需求；响应于当前更新后的VNF需求为空，停止执行所述第一过程，并根据全部所述目标节点确定的顺序生成所述路径规划。

可选地，所述根据所述全部VNF需求或上一轮更新后的VNF需求，从所述网络拓扑模型的多个节点中确定多个候选节点，包括：根据所述全部VNF需求，判断所述SFC中是否存在VNF约束关系；响应于不存在所述VNF约束关系，将所述网络拓扑模型中满足至少一个所述SFC的全部VNF需求或上一轮更新后的VNF需求中的VNF需求的节点确定为所述候选节点。

可选地，所述约束关系包括VNF需求顺序，所述根据所述全部VNF需求或上一轮更新后的VNF需求，从所述网络拓扑模型的多个节点中确定多个候选节点，还包括：响应于存在所述VNF约束关系，根据所述VNF需求顺序，将所述网络拓扑模型中满足所述全部VNF需求或上一轮更新后的VNF需求中，首个VNF需求的节点确定为所述候选节点。

可选地，所述根据每个所述候选节点为网络带来的最大链路利用率增量，从所述多个候选节点中确定目标节点，包括：根据当前节点到每个所述候选节点的路径为网络带来的最大链路利用率增量，从所述多个候选节点中确定所述目标节点，其中，所述当前节点为根据已经确定的目标节点确定的，首次执行所述第一过程时，所述当前节点为预设的初始节点。

可选地，所述根据当前节点到每个所述候选节点的路径为网络带来的最大链路利用率增量，从所述多个候选节点中确定所述目标节点，包括：计算所述当前节点到每个所述候选节点的路径为网络带来的最大链路利用率增量；响应于最小的所述最大链路利用率增量对应的候选节点的数量为一个，则将该候选节点确定为所述目标节点；响应于最小的所述最大链路利用率增量对应的候选节点的数量为至少两个，则将所述最大链路利用率增量最小，且与所述当前节点距离最近的候选节点确定为所述目标节点。

可选地，所述方法还包括：响应于每确定一个目标节点，根据该目标节点为网络带来的最大链路利用率增量生成奖励反馈，并利用所述奖励反馈更新当前深度强化学习神经网络。

基于同一发明构思，本申请还提供了一种服务功能链路径规划装置，包括：构建模块，被配置为构建网络拓扑模型；输入模块，被配置为将SFC的全部VNF需求以及所述网络拓扑模型输入至预先构建的深度强化学习神经网络模型；输出模块，被配置为基于SFC路径规划决策利用所述深度强化学习神经网络输出所述SFC的路径规划，其中，所述SFC路径规划决策包括：根据网络中各节点为网络带来的最大链路利用率增量生成所述路径规划。

基于同一发明构思，本申请还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任意一项所述的方法。

基于同一发明构思，本申请还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使计算机执行任一所述方法。

从上面所述可以看出，本申请提供的服务功能链路径规划方法及相关设备，其中，所述方法包括：构建网络拓扑模型；将SFC的全部VNF需求以及所述网络拓扑模型输入至预先构建的深度强化学习神经网络模型；基于SFC路径规划决策利用所述深度强化学习神经网络输出所述SFC的路径规划，其中，所述SFC路径规划决策包括：根据网络中各节点为网络带来的最大链路利用率增量生成所述路径规划。本申请提供的方法能够解决大规模网络中的SFC路径规划问题，能够在复杂的网络环境中快速做出合理决策，并且能够大幅降低网络的最大链路利用率。

附图说明

为了更清楚地说明本申请或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例服务功能链路径规划方法的流程示意图；

图2为本申请实施例的仿真实验1的结果示意图；

图3为本申请实施例的仿真实验2的结果示意图；

图4为本申请另一个实施例的仿真实验2的结果示意图；

图5为本申请实施例的仿真实验3的结果示意图；

图6为本申请另一个实施例的仿真实验3的结果示意图；

图7为本申请实施例服务功能链路径规划装置的结构示意图；

图8为本申请实施例的电子设备硬件结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本申请进一步详细说明。

需要说明的是，除非另外定义，本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

为了便于理解，在此对本申请实施例中出现的部分名词进行解释：

VNF(Virtual Network Function，虚拟网络功能)：网络功能虚拟化可以将许多网络服务实现为VNF，VNF可以被整合在商品服务器或交换机上，以降低成本。

SFC(Service Function Chain，服务功能链)：多个VNF通常协同工作以提供高质量的网络服务，通常被称为服务功能链(SFC)。随着网络功能虚拟化的发展，SFC在网络安全、多媒体服务和应用服务等许多领域都占有重要地位。

SRv6(Segment Routing over IPv6，基于IPv6的段路由)：SRv6将SR(SegmentRouting，分段路由)与IPv6(Internet Protocol Version 6，互联网协议第6版)相结合。SRv6通过在IPv6报文中插入一个路由扩展头SRH(Segment Routing Header)，在SRH中压入一个显式的IPv6地址栈，并由中间节点不断的进行更新目的地址和偏移地址栈的操作来完成逐跳转发。

本申请的一个实施例提供了一种服务功能链路径规划方法，如图1所示，包括：

步骤S101、构建网络拓扑模型。一种具体的实施例中，使用单向图G(V,E,C,W)构建网络拓扑模型，其中V＝{v₁,v₂,…,v_n}为节点的集合，E＝{e_ij|i,j∈[1,n],i≠j}为单向链路的集合，c_ij∈C和w_ij∈W分别表示e_ij的容量和权重。构建网络拓扑模型能够将SFC路径规划问题转化为图上的边选择问题，降低模型的复杂性，便于后续计算。

步骤S102、将SFC的全部VNF需求以及所述网络拓扑模型输入至预先构建的深度强化学习神经网络模型。SFC的路径规划问题是一个难以在多项式时间内得出一个正确解的问题(NP-hard问题)，所以本申请实施例采用深度强化学习神经网络模型来进行SFC的路径规划。一种具体的实施例中，所述深度强化学习神经网络模型由两个神经网络组成，Q网络和目标Q网络，均为简单的多层感知机(MLP)，其中，Q网络用于与环境交互并获取动作，目标Q网络用于周期性固定神经网络的训练目标，以加快深度强化学习神经网络模型的收敛速度。

网络中的每个节点都可以部署一个或多个VNF，定义VNF＝{f₁,f₂,…}来表示不同种类的VNF的集合。用L表示所有SFC流的集合，对于每个流l_i∈L，有四个属性：s_i和d_i分别是源节点和目的节点，λ_i是l_i的大小，SFC_i是流l_i对应的SFC需求。SFC_i由不同的VNF组成，例如SFC_i＝{f₁,f₃,f₅}表示流l_i需要访问f₁、f₃和f₅三个不同的VNF。

步骤S103、基于SFC路径规划决策利用所述深度强化学习神经网络输出所述SFC的路径规划，其中，所述SFC路径规划决策包括：根据网络中各节点为网络带来的最大链路利用率增量生成所述路径规划。基于该SFC路径规划决策，能够在满足SFC的VNF需求的同时，最大限度地减少网络的最大链路利用率。

如果某个链路发送的数据接近信道容量c，则该链路的利用率接近1，就会导致该链路负担较大，其他链路则被闲置，网络中的最大资源利用率能够反映出网络是否将资源平均分配。本申请提供的方法能够解决大规模网络中的SFC路径规划问题，能够在复杂的网络环境中快速做出合理决策，并且能够大幅降低网络的最大链路利用率。

一种具体的实施例中，本申请选择SRv6作为本申请实施例方法的基础路由技术。SRv6可以引导SFC的数据包遍历路径中所有具有所需VNF的节点，并携带指令信息告诉中间节点执行相应的VNF，凭借SRv6的路由可编程能力和易操作性，我们可以在系统中实现路径的规划与修改，并轻松地将数据包引导至所需的路径。

在一些实施例中，所述根据网络中各节点为网络带来的最大链路利用率增量生成所述路径规划包括：

迭代执行第一过程，响应于首轮执行所述第一过程，所述第一过程包括：步骤S201、根据所述全部VNF需求，从所述网络拓扑模型的多个节点中确定多个候选节点；步骤S202、根据每个所述候选节点为网络带来的最大链路利用率增量，从所述多个候选节点中确定目标节点，并将该目标节点满足的VNF需求从所述全部VNF需求中删除，得到更新后的VNF需求；

响应于非首轮执行所述第一过程，所述第一过程包括：步骤S301、根据上一轮更新后的VNF需求，从所述网络拓扑模型的多个节点中确定多个候选节点；步骤302、根据每个所述候选节点为网络带来的最大链路利用率增量，从所述多个候选节点中确定目标节点，并将该目标节点满足的VNF需求从所述上一轮更新后的VNF需求中删除，得到更新后的VNF需求。

响应于当前更新后的VNF需求为空，停止执行所述第一过程，并根据全部所述目标节点确定的顺序生成所述路径规划。

本申请上述实施例提出了一种贪婪节点选择算法，即上述迭代执行所述第一过程，每一次迭代都从网络中所有可选节点(即候选节点)中选择一个可以用来进行SFC路径规划的目标节点，在这种算法下选择出的目标节点，不仅可以满足SFC的VNF需求，还可以进一步最小化网络的最大链路利用率。

在一些实施例中，所述步骤S201或S301包括：

根据所述全部VNF需求，判断所述SFC中是否存在VNF约束关系。由于某些SFC的VNF需要按照顺序执行，所以需要将约束关系也纳入考虑因素，本申请实施例此处VNF约束关系特指VNF执行顺序的约束关系(如下述式(1))，下述其他为了使模型通用而设置的约束关系不在此步骤中VNF约束关系的考虑范围之内(如下述式(2)至式(8))。

响应于不存在所述VNF约束关系，将所述网络拓扑模型中满足至少一个所述SFC的全部VNF需求或上一轮更新后的VNF需求中的VNF需求的节点确定为所述候选节点。

响应于存在所述VNF约束关系，根据所述VNF需求顺序，将所述网络拓扑模型中，满足所述全部VNF需求或上一轮更新后的VNF需求中首个VNF需求的节点，确定为所述候选节点。

上述过程进一步体现贪婪节点选择算法，当不存在VNF约束关系时，则将能够满足任一SFC的VNF需求的全部节点都纳入选择范围，当存在VNF约束关系，则将能够满足首个VNF需求的全部节点都纳入选择范围，能够在满足SFC的VNF需求同时进一步最小化网络的最大链路利用率。

为了使所述网络拓扑模型更通用，本申请一个具体的实施例中定义了如下约束关系，首先定义了一个二进制变量来表示VNF之间的约束关系，该模型可以表征全部或部分VNF受到执行顺序约束的SFC规划问题。表示SFC_i的j^thVNF是f_k。如果必须在之前完成，那么有式(1)的约束关系：

对于每个流l_i，SFC_i的所有VNF必须在s_i和d_i之间访问，并且每个VNF必须部署在某个确定的节点上，因此有式(2)与式(3)的约束关系：

其中，是二进制变量，如果f_k是j^thVNF，则是二进制变量，如果VNFf_k部署在节点v_h上，则

另外，本申请实施例定义一个二进制变量来表示SFC_i中执行的j^thVNF是否部署在节点v_h上，如式(4)所示：

其中，如果在流l_i中执行的j^thVNF部署在节点v_h上，则与不同，不考虑执行哪个VNF，只考虑VNF的顺序。此外，还应满足VNF的一致性约束，如式(5)所示：

此外，每个流必须沿着执行VNF的节点之间的最短路径进行路由，因此本申请实施例定义一个二进制变量如式(6)所示：

其中，为二进制变量，如果e_uv在v_h和v_q之间的最短路径的集合中，则为如果e_uv用于将流l_i从部署j^thVNF的节点路由到部署(j+1)^thVNF的节点，

如式(7)及式(8)所示，每个流l_i也需要沿着最短路径路由从源节点到部署第一个VNF的节点或从部署最后一个VNF的节点到目的地：

基于上述定义，最大链路利用率可以定义为式(9)：

U_max：＝max{z_uv/c_uv|e_uv∈E} (9)

其中，z_uv是遍历链路e_uv的所有流的总大小，c_uv表示所有流的容量。

在一些实施例中，所述步骤S202或S302包括：

根据当前节点到每个所述候选节点的路径为网络带来的最大链路利用率增量，从所述多个候选节点中确定所述目标节点，其中，所述当前节点为根据已经确定的目标节点确定的，首次执行所述第一过程时，所述当前节点为预设的初始节点。

在一些实施例中，所述步骤S202或S302还包括：

计算所述当前节点到每个所述候选节点的路径为网络带来的最大链路利用率增量；

响应于最小的所述最大链路利用率增量对应的候选节点的数量为一个，则将该候选节点确定为所述目标节点；

响应于最小的所述最大链路利用率增量对应的候选节点的数量为至少两个，则将所述最大链路利用率增量最小，且与所述当前节点距离最近的候选节点确定为所述目标节点。

上述过程更进一步体现贪婪节点选择算法，在所有候选节点中选择为网络带来的最大链路利用率增量最小的节点，并利用该节点规划路径，能够在满足SFC的VNF需求同时进一步最小化网络的最大链路利用率。

在一些实施例中，所述方法还包括：

步骤S104、响应于每确定一个目标节点，根据该目标节点为网络带来的最大链路利用率增量生成奖励反馈，并利用所述奖励反馈更新当前深度强化学习神经网络模型。

奖励反馈体现了决策智联，上述贪婪算法通常只关注实现局部决策的收益，而深度强化学习神经网络模型通过设置奖励机制可以更好地实现全局目标，奖励机制与贪婪算法相配合，能够进一步最小化全局网络的最大链路利用率。

一种具体的实施例中，我们通过式(10)及式(11)定义上述奖励反馈：

ΔU＝U_pre-U_crt (10)

reward＝F(ΔU) (11)

其中，U_pre为初始或上一次确定目标节点后的网络最大链路利用率，U_crt为确定当前目标节点后网络的最大链路利用率，reward为所述奖励反馈，ΔU为最大链路利用率增量，F(ΔU)表示奖励映射函数，增量越小，奖励越高。

一种具体的实施例中，所述方法还包括：当所述目标节点为网络中的中间节点，则选择该目标节点的奖励反馈减去N，其中N为预设的奖励负值。通过设置奖励负值限制深度强化学习神经网络模型在进行决策时对中间节点的滥用，能够进一步最小化网络的最大链路利用率。

深度强化学习神经网络模型在选择目标节点时，为了实现最小化最大链路利用率，避免拥塞链接，选中的目标节点与当前节点可能并非以最短路径相连，模型则会将流引导到某个不会满足任何VNF需求的节点以完成路径规划，这种情况则会增加上述奖励反馈，相比之下，导致与当前节点以最短路径相连的目标节点的奖励减少。一种具体的实施例中，所述方法还包括设置节点掩码，具体包括：为特定的节点设置特定的选中概率。利用节点掩码，能够将不希望被选择的节点的选择概率设置为0，进而提高整体决策效果。

一种具体的实施例中，为了让深度强化学习神经网络模型能够学习到更好的路径规划策略，本申请采用增量训练的方法来提高路径规划的质量。每当产生一个新的SCF流时，深度强化学习神经网络模型会在短时间内使用增量训练来学习当前的网络使用情况和新的SFC流特征(例如流需要满足的VNF)。增量训练方法可以使深度强化学习神经网络模型做出更好的路径规划。

前述内容提到，Q网络和目标Q网络均为简单的多层感知机(MLP)，其中，Q网络用于与环境交互并获取动作，目标Q网络用于周期性固定神经网络的训练目标，以加快深度强化学习神经网络模型的收敛速度。所述增量训练具体包括：首先将Q网络的参数θ_q和目标Q网络的参数θ_t初始化为保存的神经网络参数θ，同时初始化经验回放缓冲区以保存决策信息，利用目标Q网络更新周期N定期更新θ_t以加速Q网络的收敛。深度强化学习神经网络模型完成每个路径规划后，会将每个路径规划信息存储在经验回放缓冲区中，再从经验回放缓冲区中采样，并根据Q网络和目标Q网络之间的损失更新θ_q。路径规划完成后，深度强化学习神经网络模型会根据新的最大链路利用率判断模型的参数质量，并保存结果最好的模型。

但是，增量学习需要大量的时间，因此，我们采用持续训练和周期性更新的策略，即，对模型进行持续性增量训练，在需要进行新的路径规划时，仅使用当前保存的模型进行决策，持续训练后得到的新模型会在设定的一段时间后覆盖之前的模型，可以减少每个SFC路径的规划延迟，同时保证模型能够做出更好的决策。

本申请还设置了仿真实验，用以验证本申请提供的方法的性能。实验设置如下：

我们在三种不同网络拓扑模型下评估了本申请提供的方法中的深度强化学习神经网络模型性能：1)拓扑Synth50包含50个节点和138个边；2)拓扑Synth100包含100个节点和286条边；3)拓扑Synth200包含200个节点和524条边。在每个节点中，有多个不同的可以并行执行的VNF。在下面的实验中，网络中有十个不同的VNF，每个节点部署4到8个不同的VNF。

SFC流是随机生成的，即源节点和目的节点是从网络中随机选择的，流量大小从几Mbps到几十Mbps中选，每个SFC流的长度通常为3到5。

仿真实验1的结果如图2所示，实验1在拓扑Synth50上比较了具有不同属性的三个SFC流的规划，其中流A的SFC长度为3，大小为5Mbps；流B的SFC长度为5，大小为10Mbps；流C的SFC长度为10，大小为50Mbps。图中贪婪节点选择算法为仅使用贪婪算法得到的路径规划，SFCPlanner为本申请实施例的深度强化学习神经网络模型，MILP为商业求解器(下同)，如图2所示，本申请提供的方法得到的最大链路利用率明显优于贪婪节点算法，且接近于商业求解器，且商业求解器无法在合理的时间内获得大规模问题的最优解，本申请实施例提供的方法相比于现有技术有着明显的进步。

仿真实验2的结果如图3及图4所示。随着流的数量不断增加，商业求解器逐渐无法在合理时间内给出最优解。因此，我们在数量和大小逐渐增加的四个流集的情况下，比较了贪婪策略和本申请实施例的深度强化学习神经网络模型的性能。流的数量从几十到几百不等，流的大小从几Mbps到几十Mbps不等。如图3所示，通过多流的在线规划，本申请实施例的SFCPlanner的最大链路利用率比贪婪策略低37％-58％。

为了更好地观察SFCPlanner的处理性能，我们给出了SFCPlanner和贪婪策略在线规划200条流时最大链路利用率随流数增加的曲线，如图4所示。随着新流量的不断产生，SFCPlanner的最大链路利用率的增长率始终低于贪婪策略。实验结果表明，SFCPlanner可以很好地处理网络中复杂的流量，有效降低网络拥塞的风险。

仿真实验3的结果如图5及图6所示。我们比较了SFCPlanner在三个拓扑模型中的性能，进一步验证其在大型网络中的性能。如图5所示，随着拓扑图规模的增加，SFCPlanner的性能提升更加明显。当拓扑规模为200个节点和524条边时，SFCPlanner可以将最大链路利用率降低到贪婪策略的25％左右。为了达到负载均衡的目的，SFCPlanner通常将流量引导到那些相对空闲的链路上，如图6所示，与贪婪策略相比，本申请实施例的SFCPlanner网络利用率提高了近40％。

需要说明的是，本申请实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本申请实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是，上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种服务功能链路径规划装置，如图7所示，包括：

构建模块10，被配置为构建网络拓扑模型；

输入模块20，被配置为将SFC的全部VNF需求以及所述网络拓扑模型输入至预先构建的深度强化学习神经网络模型；

输出模块30，被配置为基于SFC路径规划决策利用所述深度强化学习神经网络输出所述SFC的路径规划，其中，所述SFC路径规划决策包括：根据网络中各节点为网络带来的最大链路利用率增量生成所述路径规划。

本申请提供的方法能够解决大规模网络中的SFC路径规划问题，能够在复杂的网络环境中快速做出合理决策，并且能够大幅降低网络的最大链路利用率。

迭代执行第一过程，响应于首轮执行所述第一过程，所述第一过程包括：根据所述全部VNF需求，从所述网络拓扑模型的多个节点中确定多个候选节点，根据每个所述候选节点为网络带来的最大链路利用率增量，从所述多个候选节点中确定目标节点，并将该目标节点满足的VNF需求从所述全部VNF需求中删除，得到更新后的VNF需求；

响应于非首轮执行所述第一过程，所述第一过程包括：根据上一轮更新后的VNF需求，从所述网络拓扑模型的多个节点中确定多个候选节点，根据每个所述候选节点为网络带来的最大链路利用率增量，从所述多个候选节点中确定目标节点，并将该目标节点满足的VNF需求从所述上一轮更新后的VNF需求中删除，得到更新后的VNF需求；

在一些实施例中，所述根据所述全部VNF需求或上一轮更新后的VNF需求，从所述网络拓扑模型的多个节点中确定多个候选节点，包括：

根据所述全部VNF需求，判断所述SFC中是否存在VNF约束关系；

在一些实施例中，所述约束关系包括VNF需求顺序，所述根据所述全部VNF需求或上一轮更新后的VNF需求，从所述网络拓扑模型的多个节点中确定多个候选节点，还包括：

响应于存在所述VNF约束关系，根据所述VNF需求顺序，将所述网络拓扑模型中满足所述全部VNF需求或上一轮更新后的VNF需求中，首个VNF需求的节点确定为所述候选节点。

在一些实施例中，所述根据每个所述候选节点为网络带来的最大链路利用率增量，从所述多个候选节点中确定目标节点，包括：

在一些实施例中，所述根据当前节点到每个所述候选节点的路径为网络带来的最大链路利用率增量，从所述多个候选节点中确定所述目标节点，包括：

在一些实施例中，所述装置还包括：

奖励模块，被配置为响应于每确定一个目标节点，根据该目标节点为网络带来的最大链路利用率增量生成奖励反馈，并利用所述奖励反馈更新当前深度强化学习神经网络。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述任一实施例中相应的服务功能链路径规划方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上任意一实施例所述的服务功能链路径规划方法。

图8示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现前述任一实施例中相应的服务功能链路径规划方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任一实施例所述的服务功能链路径规划方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的服务功能链路径规划方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本申请的范围(包括权利要求)被限于这些例子；在本申请的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本申请实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本申请实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本申请实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请实施例的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本申请的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请实施例。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本申请的具体实施例对本申请进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本申请实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本申请实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种服务功能链路径规划方法，其特征在于，包括：

构建网络拓扑模型；

将服务功能链SFC的全部虚拟网络功能VNF需求以及所述网络拓扑模型输入至预先构建的深度强化学习神经网络模型；

基于SFC路径规划决策利用所述深度强化学习神经网络输出所述SFC的路径规划，其中，所述SFC路径规划决策包括：根据网络中各节点为网络带来的最大链路利用率增量生成所述路径规划；

所根据网络中各节点为网络带来的最大链路利用率增量生成所述路径规划，包括：

响应于当前更新后的VNF需求为空，停止执行所述第一过程，并根据全部所述目标节点确定的顺序生成所述路径规划；

所述根据所述全部VNF需求或上一轮更新后的VNF需求，从所述网络拓扑模型的多个节点中确定多个候选节点，包括：

根据所述全部VNF需求，判断所述SFC中是否存在VNF约束关系；

响应于不存在所述VNF约束关系，将所述网络拓扑模型中满足至少一个所述SFC的全部VNF需求或上一轮更新后的VNF需求中的VNF需求的节点确定为所述候选节点；

响应于存在所述VNF约束关系，根据每个所述VNF必须在确定的节点上，则确定约束关系表示为：

其中，表示二元变量，当且仅当第i个SFC的第j个VNF是f_k且部署在节点v_h上时等于1，n表示网络中节点数量，v_h表示网络中编号为h的节点，是二元变量，当且仅当f_k部署在节点v_h上时等于1。

2.根据权利要求1所述的服务功能链路径规划方法，其特征在于，所述约束关系包括VNF需求顺序，所述根据所述全部VNF需求或上一轮更新后的VNF需求，从所述网络拓扑模型的多个节点中确定多个候选节点，还包括：

3.根据权利要求1所述的服务功能链路径规划方法，其特征在于，所述根据每个所述候选节点为网络带来的最大链路利用率增量，从所述多个候选节点中确定目标节点，包括：

4.根据权利要求3所述的服务功能链路径规划方法，其特征在于，所述根据当前节点到每个所述候选节点的路径为网络带来的最大链路利用率增量，从所述多个候选节点中确定所述目标节点，包括：

5.根据权利要求1所述的服务功能链路径规划方法，其特征在于，还包括：

响应于每确定一个目标节点，根据该目标节点为网络带来的最大链路利用率增量生成奖励反馈，并利用所述奖励反馈更新当前深度强化学习神经网络模型。

6.一种服务功能链路径规划装置，其特征在于，包括：

构建模块，被配置为构建网络拓扑模型；

输入模块，被配置为将SFC的全部VNF需求以及所述网络拓扑模型输入至预先构建的深度强化学习神经网络模型；

输出模块，被配置为基于SFC路径规划决策利用所述深度强化学习神经网络输出所述SFC的路径规划，其中，所述SFC路径规划决策包括：根据网络中各节点为网络带来的最大链路利用率增量生成所述路径规划；

所述根据网络中各节点为网络带来的最大链路利用率增量生成所述路径规划包括：

根据所述全部VNF需求，判断所述SFC中是否存在VNF约束关系；

7.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任意一项所述的方法。

8.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，其特征在于，所述计算机指令用于使计算机执行权利要求1至5任一所述方法。