CN113904937B

CN113904937B - 一种服务功能链迁移方法、装置、电子设备及存储介质

Info

Publication number: CN113904937B
Application number: CN202111472838.7A
Authority: CN
Inventors: 杨树杰; 许长桥; 张焘; 纪伟潇; 沈嘉浩; 张丙驰
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-12-06
Filing date: 2021-12-06
Publication date: 2022-03-29
Anticipated expiration: 2041-12-06
Also published as: CN113904937A

Abstract

本发明提供一种服务功能链迁移方法、装置、电子设备及存储介质。所述方法包括：基于可满足性模理论对服务功能链动作空间进行形式化，确定满足所述可满足性模理论约束条件的动作空间；将所述可满足性模理论约束条件的动作空间输入至深度强化学习模型中，得到所述服务功能链的最佳迁移策略。本发明首先通过对服务功能链动作空间进行形式化，去除了部分非法行动，其次基于深度强化学习对攻击事件进行学习来选择最优的服务功能链迁移策略，进一步缩减了服务功能链动作空间，减少了网络开销。

Description

一种服务功能链迁移方法、装置、电子设备及存储介质

技术领域

本发明涉及网络功能虚拟化领域，尤其涉及一种服务功能链迁移方法、装置、电子设备及存储介质。

背景技术

网络功能虚拟化NFV（Network Functions Virtualization）一种对于网络架构的概念，利用虚拟化技术，将网络节点阶层的功能，分割成几个功能区块，分别以软件方式实现，不再拘限于硬件架构。在NFV中，实体为虚拟网络功能实例VNF（VirtualNetworkFunction），服务功能链SFC（Service Function Chain）由一连串连接的VNF实例连接构成。

当一个物理节点由于故障或被攻击时，将影响所有托管的VNF变得不可用，然而现有技术除了向VNF提供一次性资源分配外并没有提供一种积极的防御方法，以避免侧信道和/或分布式拒绝服务DdoS（Distributed denial of service attack）攻击。因此，攻击者可以嗅探网络信息，并计划对正在提供服务的SFC进行毁灭性的攻击。

发明内容

为解决上述问题，本发明提供一种服务功能链迁移方法、装置、电子设备及存储介质，包括：

基于可满足性模理论对服务功能链动作空间进行形式化，确定满足所述可满足性模理论约束条件的动作空间；

将所述可满足性模理论约束条件的动作空间输入至深度强化学习模型中，得到所述服务功能链的最佳迁移策略；

其中，所述深度强化学习模型的训练过程如下：

步骤1，针对当前时隙服务功能链的动作空间和迁移周期，根据当前深度神经网络参数决策出迁移动作，并计算得到当前状态的即时奖励和下一时隙服务功能链的动作空间；

步骤2，将当前时隙服务功能链的动作空间、迁移动作、即时奖励和下一时隙服务功能链的动作空间存储至重放缓存区；

步骤3，随机从重放缓存区中抽取数据输入至深度神经网络中进行训练，更新深度神经网络参数，修正做出的迁移动作；

步骤4，当计算得到的即时奖励完成收敛时，得到所述服务功能链的最佳迁移策略，结束模型训练。

可选的，基于可满足性模理论对服务功能链动作空间进行形式化，确定满足所述可满足性模理论约束条件的动作空间，包括：

确定所述服务功能链动作空间，所述动作空间为虚拟功能实例在所述服务功能链底层路由上放置的第一总数；

基于可满足性模理论约束条件，计算虚拟功能实例在所述服务功能链路由上放置的第二总数，所述第二总数为满足所述可满足性模理论约束条件的动作空间。

可选的，所述可满足性模理论约束条件包括嵌入关系的可满足性模理论约束、中间件装置的可满足性模理论约束、服务质量的可满足性模理论约束、带宽的可满足性模理论约束、虚拟功能实例放置数量的可满足性模理论约束、预设引流顺序的可满足性模理论约束和负载满足的可满足性模理论约束中的一种或多种。

可选的，在基于可满足性模理论对服务功能链动作空间进行形式化，确定满足所述可满足性模理论约束条件的动作空间前，还包括：

建立基于服务功能链部署的网络模型；

将所述基于服务功能链部署的网络模型转化为具有连续状态空间和动作空间的马尔科夫决策过程。

可选的，计算得到当前状态的即时奖励和下一时隙服务功能链的动作空间，包括：

根据下面第一公式计算当前状态的即时奖励，以及根据第二公式计算下一时隙服务功能链的动作空间，所述第一公式为：

所述第二公式为：

其中，

为时间差分误差TD-误差，

为时隙t的状态动作值，α为0和1之间的学习率，

为从状态

移动到状态

时得到的奖励值，

为折扣系数，

为在动作空间上的期望最大奖励，

为时隙

的网络状态，

为动作

，

为时隙

的网络状态，

为时隙t采取的动作。

可选的，针对当前时隙服务功能链的动作空间和迁移周期，根据当前深度神经网络参数决策出迁移动作，包括：

初始化所述当前时隙服务功能链的迁移计数器；

确定所述当前时隙服务功能链的迁移周期，并判断所述迁移计数器是否等于所述迁移周期，若是，则根据当前深度神经网络参数决策出迁移动作。

可选的，随机从重放缓存区中抽取数据输入至深度神经网络中进行训练，更新深度神经网络参数，修正做出的迁移动作，包括：

根据下面第三公式计算所述深度神经网络的策略梯度，以及根据第四公式计算所述深度神经网络的价值函数梯度；

根据所述策略梯度和所述价值函数梯度，更新所述深度神经网络参数，修正作出的迁移动作；

其中，所述第三公式为：

所述第四公式为：

其中，

为策略函数，T为总时隙，

为新旧策略下的概率之比，

为在时隙t的估计优势，

为控制修剪范围超参数，

为评价函数，

为策略梯度网络输出值，

为时间差分误差目标值，

为时隙i的网络状态，

为价值函数权重。

本发明还提供一种服务功能链迁移装置，包括：

第一处理模块，用于基于可满足性模理论对服务功能链动作空间进行形式化，确定满足所述可满足性模理论约束条件的动作空间；

第二处理模块，用于将所述可满足性模理论约束条件的动作空间输入至深度强化学习模型中，得到所述服务功能链的最佳迁移策略；

其中，所述深度强化学习模型的训练过程如下：

针对当前时隙服务功能链的动作空间和迁移周期，根据当前深度神经网络参数决策出迁移动作，并计算得到当前状态的即时奖励和下一时隙服务功能链的动作空间；

将当前时隙服务功能链的动作空间、迁移动作、即时奖励和下一时隙服务功能链的动作空间存储至重放缓存区；

随机从重放缓存区中抽取数据输入至深度神经网络中进行训练，更新深度神经网络参数，修正做出的迁移动作；

当计算得到的即时奖励完成收敛时，得到所述服务功能链的最佳迁移策略，结束模型训练。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述服务功能链迁移方法的步骤。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述服务功能链迁移方法的步骤。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述高服务功能链迁移方法的步骤。

本发明提供的服务功能链迁移方法、装置、电子设备及存储介质，首先基于可满足性模理论对服务功能链动作空间进行形式化，确定满足所述可满足性模理论约束条件的动作空间，然后将所述可满足性模理论约束条件的动作空间输入至深度强化学习模型中，得到所述服务功能链的最佳迁移策略；其中，所述深度强化学习模型的训练过程如下：步骤1，针对当前时隙服务功能链的动作空间和迁移周期，根据当前深度神经网络参数决策出迁移动作，并计算得到当前状态的即时奖励和下一时隙服务功能链的动作空间；步骤2，将当前时隙服务功能链的动作空间、迁移动作、即时奖励和下一时隙服务功能链的动作空间存储至重放缓存区；步骤3，随机从重放缓存区中抽取数据输入至深度神经网络中进行训练，更新深度神经网络参数，修正做出的迁移动作；步骤4，当计算得到的即时奖励完成收敛时，得到所述服务功能链的最佳迁移策略，结束模型训练。由此可见，本发明首先通过对服务功能链动作空间进行形式化，去除了部分非法行动，其次基于深度强化学习对攻击事件进行学习来选择最优的服务功能链迁移策略，进一步缩减了服务功能链动作空间，减少了网络开销。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的服务功能链迁移方法的流程示意图；

图2是本发明提供的服务功能链请求部署示意图；

图3是本发明提供的服务功能链请求状态转换示意图；

图4是本发明提供的服务功能链动态迁移示意图；

图5是本发明提供的服务功能链迁移装置的结构示意图；

图6是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提供的一种服务功能链迁移方法，包括：

步骤101：基于可满足性模理论对服务功能链动作空间进行形式化，确定满足所述可满足性模理论约束条件的动作空间；

在本步骤中，需要说明的是，考虑到多种实际的网络要求，可行的SFC迁移被表述为一个约束满足问题。首先建立基于服务功能链部署的网络模型，然后将基于服务功能链部署（迁移）的网络模型转化为具有连续状态空间和动作空间的马尔科夫决策过程，MDP（Markov Decision Process）。这本步骤中，目标是将非法动作从MDP的动作空间中移除，通过事先基于可满足性模理论SMT（Satisfiability Modulo Theories）对SFC部署空间进行形式化，确定满足可满足性模理论约束条件的动作空间。

步骤102：将所述可满足性模理论约束条件的动作空间输入至深度强化学习模型中，得到所述服务功能链的最佳迁移策略；

其中，所述深度强化学习模型的训练过程如下：

在本步骤中，需要说明的是，在基于可满足性模理论对服务功能链动作空间进行形式化，确定满足可满足性模理论约束条件的动作空间后，减少了一定规模的动作空间。但是，随着SFC请求的增加，离散的行动空间将变得非常大。正如在MDP的定义中所解释的那样，状态空间几乎是

，随着SFC请求的增加也会非常大。因此，本发明提供了一种采用智能SFC迁移算法来减少网络开销。具体的，通过对攻击事件的学习来选择可行的SFC部署，以提高MTD的防御性能，同时减少网络开销。深度强化学习模型可以重复观察、行动和奖励，与未知环境互动，以获得最佳策略，模型训练具体过程包括：针对当前时隙服务功能链的动作空间和迁移周期，根据当前深度神经网络参数决策出迁移动作，并计算得到当前状态的即时奖励和下一时隙服务功能链的动作空间；将当前时隙服务功能链的动作空间、迁移动作、即时奖励和下一时隙服务功能链的动作空间存储至重放缓存区；随机从重放缓存区中抽取数据输入至深度神经网络中进行训练，更新深度神经网络参数，修正做出的迁移动作；当计算得到的即时奖励完成收敛时，得到所述服务功能链的最佳迁移策略，结束模型训练。可见，本发明提供了一种智能驱动的服务功能链迁移方法，首先对MDP进行建模，然，将SFC请求的到达或离开描述为状态转换。其次，为了从MDP的动作空间中去除非法动作，本发明将可行的SFC部署表述为一个约束满足问题。最后，对于智能的SFC迁移，本发明设计了一种深度强化学习DRL（Deep Reinforcement Learning）算法，可选的，称为基于模型的自适应近似策略优化MA-PPO（model-based adaptive proximal policy optimization），其目的是提高移动目标防御MTD（Moving Target Defense）的防御性能，同时减少网络开销。

本发明提供的服务功能链迁移方法，首先基于可满足性模理论对服务功能链动作空间进行形式化，确定满足所述可满足性模理论约束条件的动作空间，然后将所述可满足性模理论约束条件的动作空间输入至深度强化学习模型中，得到所述服务功能链的最佳迁移策略；其中，所述深度强化学习模型的训练过程如下：步骤1，针对当前时隙服务功能链的动作空间和迁移周期，根据当前深度神经网络参数决策出迁移动作，并计算得到当前状态的即时奖励和下一时隙服务功能链的动作空间；步骤2，将当前时隙服务功能链的动作空间、迁移动作、即时奖励和下一时隙服务功能链的动作空间存储至重放缓存区；步骤3，随机从重放缓存区中抽取数据输入至深度神经网络中进行训练，更新深度神经网络参数，修正做出的迁移动作；步骤4，当计算得到的即时奖励完成收敛时，得到所述服务功能链的最佳迁移策略，结束模型训练。由此可见，本发明首先通过对服务功能链动作空间进行形式化，去除了部分非法行动，其次基于深度强化学习对攻击事件进行学习来选择最优的服务功能链迁移策略，进一步缩减了服务功能链动作空间，减少了网络开销。

基于上述实施例的内容，在本实施例中，基于可满足性模理论对服务功能链动作空间进行形式化，确定满足所述可满足性模理论约束条件的动作空间，包括：

在本实施例中，需要说明的是，本发明的目的是在MDP的行动空间中去除非法行动，通过SMT对SFC迁移动作空间进行形式化。具体的，正式确定SFC迁移动作空间的过程有两个阶段：正式确定底层路由，将SFC嵌入物理网络；正式确定VNF在SFC路由上的放置。然后，使用定理检验器来解决约束满足问题。这个空间由所有可行的SFC部署组成，这些部署满足多个网络约束。例如，首先计算出不同网络状态下所有可行的SFC路由。假设状态

中 SFC路由的量化组合数为

。然后，对于每个SFC请求，进一步计算相应的可行的VNF放置。假设状态

中的SFC请求数为Z，而一个SFC请求的路由有

种可行VNFI放置，这也是MDP 中动作空间的规模。

基于上述实施例的内容，在本实施例中，所述可满足性模理论约束条件包括嵌入关系的可满足性模理论约束、中间件装置的可满足性模理论约束、服务质量的可满足性模理论约束、带宽的可满足性模理论约束、虚拟功能实例放置数量的可满足性模理论约束、预设引流顺序的可满足性模理论约束和负载满足的可满足性模理论约束中的一种或多种。

在本实施例中，需要说明的是，本发明考虑多种网络要求，可选的，包括嵌入关系的可满足性模理论约束、中间件装置的可满足性模理论约束、服务质量的可满足性模理论约束、带宽的可满足性模理论约束、虚拟功能实例放置数量的可满足性模理论约束、预设引流顺序的可满足性模理论约束和负载满足的可满足性模理论约束中的一种或多种。

基于上述实施例的内容，在本实施例中，在基于可满足性模理论对服务功能链动作空间进行形式化，确定满足所述可满足性模理论约束条件的动作空间前，还包括：

建立基于服务功能链部署的网络模型；

在本实施例中，需要说明的是，本发明通过MDP的模型来捕捉SFC迁移的动态。特别是，将网络状态定义为当前运行的SFC的组合，而状态转换为SFC请求的到达和离开。这样一来，动态的网络状态就可以持续地表达为MDP状态转换。

基于上述实施例的内容，在本实施例中，计算得到当前状态的即时奖励和下一时隙服务功能链的动作空间，包括：

所述第二公式为：

其中，

为时间差分误差TD-误差（Temporal-difference error），

时隙t的状态动作值，α为0和1之间的学习率，

为从状态

移动到状态

时得到的奖励值，

为折扣系数，

为在动作空间上的期望最大奖励，

为时隙

的网络状态，

为动作

，

为时隙

的网络状态，

为时隙t采取的动作。

基于上述实施例的内容，在本实施例中，针对当前时隙服务功能链的动作空间和迁移周期，根据当前深度神经网络参数决策出迁移动作，包括：

初始化所述当前时隙服务功能链的迁移计数器；

基于上述实施例的内容，在本实施例中，随机从重放缓存区中抽取数据输入至深度神经网络中进行训练，更新深度神经网络参数，修正做出的迁移动作，包括：

其中，所述第三公式为：

所述第四公式为：

其中，

为策略函数，T为总时隙，

为新旧策略下的概率之比，

为在时隙t的估计优势，

为控制修剪范围超参数，

为评价函数，

为策略梯度网络输出值，

为时间差分误差目标值，

为时隙i的网络状态，

为价值函数权重。

下面通过具体实施例进行说明：

实施例一：

在本实施例中，需要说明的是，现有技术中，为了应对虚拟资源静态分配给物理节点所产生的问题，MTD技术被提供来作为改变游戏规则的创新。MTD动态地调整网络属性，如资源分配机制或虚拟机的物理位置。例如，定期调整虚拟网络嵌入关系，以主动防御DDoS攻击，或将受保护的虚拟机从一个物理节点动态地迁移到另一个物理节点，这将避免共同驻留的侧信道攻击。然而，在MTD领域，仍然存在着三大挑战，这些挑战还没有被以前的工作完全解决。首先，由于SFC请求的随机到达和离开，网络状态通常表现出很大的变化，因此需要一个合适的模型来捕捉动态的网络状态转换。其次，传统的虚拟网络嵌入或虚拟机迁移的MTD技术不能直接应用于NFV架构，因为SFC请求有顺序要求，这意味着流量必须被引导穿过预定义的有序VNFI。第三，SFC迁移选择的盲目性，即对网络攻击造成的动态环境学习不足，对MTD技术的防御效益产生不利影响。

为了解决上述问题，本发明提供了一个智能驱动的服务功能链迁移方法。与现有的解决方案不同，本发明创新性地设计了一种基于DRL的动态SFC迁移方案，旨在避免攻击。值得注意的是，本发明提供了一个基于模型的自适应近似策略优化，而不是现有的DRL算法。特别的，本发明将网络状态定义为当前运行的SFC的组合，而状态转换为SFC请求的到达和离开。这样一来，动态的网络状态就可以持续地表达为MDP状态转换。2) 考虑到多种实际的网络要求，可行的SFC部署被表述为一个约束满足问题。目标是将非法动作从MDP的动作空间中移除。对于SFC的路由，本发明考虑嵌入关系、中间件设备、服务质量和带宽等网络约束。对于VNF的放置，本发明考虑了网络约束的数量、预定义的顺序和负载的满足。3）设计了一个扩展的DRL算法，以实现抗攻击的SFC迁移决策和基于模型的自适应迁移周期。本发明的目的是提高MTD的防御性能，同时减少网络开销。受益于基于模型的每个网络状态的发生率分析，在高概率的网络状态下，SFC迁移的冗余样本将在很大程度上被减少。

图2是本发明提供的服务功能链请求部署示意图，图3是本发明提供的服务功能链请求状态转换示意图，图4是本发明提供的服务功能链动态迁移示意图。如图2至图4所示，本发明首先引入NFV模型，建立NFV模型的具体过程此处不做详细介绍，其包括网络模型、威胁模型和MDP模型。其中，针对MDP模型，假设时间被划分成等长的间隔，长度为

，可以用索引

来表示不同的时隙。为了捕捉时变的网络状态，将SFC迁移表述为一个马尔科夫决策过程，其主要特征总结如下：

网络状态集：网络状态取决于SFC请求的存在情况。将网络状态表示为一个多维向量

，其中

表示系统中存在第

个SFC请求，否则

。假设物理网络同时支持的SFC请求类型个数为

，网络状态的总数为

，其中

。因此，网络状态的集合可以表示为

。

动作集合：SFC迁移的动作包含两个部分，一是SFC路由；二是 VNF放置，将把网络状态

在时隙

的动作表示为一个多维向量

。因此，其中SFC路由的动作表示为

，其中

表示节点

在时隙

被选入SFC路由，否则

。VNF放置的动作表示为

，其中

表示VNF被放置到节点

上，否则

。值得注意的是，动作的空间复杂度为

，随着SFC请求的数量呈指数增长。然而，上述空间中的大多数动作都是非法的，因为它们不满足某些网络约束。假设可行的SFC部署总数为

，动作集合表示为

。对于每个网络状态，动作集将是不一样的。

状态转换：任何SFC请求的到达或离开被认为是网络管理器的一个状态转换。SFC 请求的到达遵循泊松分布，SFC存在的时间是指数分布。以三种类型的SFC请求为例，将SFC 请求分别表示为

,

和

。所有的SFC请求都有到达率和离开率，它们分别定义为

。当只有请求

存在时，当前网络状态为

。以类似的方式，请求

和

分别为网络状态

和

。如果同时存在两个 SFC请求，这个条件将是一个新的状态。例如，网络状态

由请求

和

组成，网络状态

和

也类似。网络状态

由所有SFC请求组成。

奖励函数：为了准确评估防御性能，需要设计一个奖励函数生成带有奖励函数的最佳SFC迁移策略。在本发明中，为简单起见，在不丧失一般性的情况下，奖励函数定义如下。

（1）

其中

是一个系数，

是攻击者在

时隙的第

个SFC请求

中被破坏的节点数，

是一个正常数。这个奖励函数表明，如果SFC被成功攻击，奖励将承担一个与

成线性关系的负值。另一方面，如果SFC避免了攻击，奖励将是一个正常数。

在本实施例中，本发明考虑多种网络要求，如嵌入关系、中间件设备、QoS和带宽。定义二进制任务变量

，如果其值等于1则表示虚拟节点

嵌入到物理节点

中，否则为0。类似地，如果变量

的值等于1，则表示虚拟链路

嵌入到物理链路

中，否则为 0。在虚拟网络中，变量

是节点的索引，变量

是边的索引。在物理网络中，变量

是节点的索引，变量

是边的索引。

假设第

个到达的SFC通过

个虚拟节点，为

；通过

条链路，定义为

。嵌入关系的可满足性模理论表示:

（2）

（3）

（4）

（5）

（6）

公式（2）表示第

个到达的SFC中的任何VNFI

，必须嵌入到物理节点

上。不等式（3）表示可以将任何虚拟链接

嵌入到多个物理链接中。另一方面，不等式（4）表示在第

个到达的SFC中，物理节点

可能不携带任何虚拟节点

。类似地，不等式（5）指示物理链路

可能不携带任何虚拟链路

。等式（6）定义了变量

和

的值域。

中间件装置的可满足性模理论约束表示：

链式服务请求可能需要来自物理网络的某些专门服务（例如IPSec等）。通常，只有某些组件可以提供这种请求的功能。该约束条件确保链式服务必须经过这样的专用物理节点。假设

是此类专用物理节点的集合，则第个链式服务请求的可满足性模理论约束如下所示。

（7）

这里，公式保证链式服务路由必须经过一些专门的物理节点。

服务质量的可满足性模理论约束表示：

为简单起见，本发明假设网络相对同构，其中跳数可以与网络延迟成比例。因此，QoS约束可以形式化为：

（8）

其中

是系统中虚拟链路

的需求的可承受延迟阈值。对于整个系统可以是相同的，对于链式服务请求可以是不同的。另外，本发明允许用更复杂的约束来定义有界延迟。

带宽的可满足性模理论约束表示：

每个物理链路必须能够承载链式服务路由的流量负载。带宽约束形式化为：

（9）

其中，

表示虚拟链路

嵌入物理节点

时第

个链式服务请求的带宽要求，

是虚拟链路带宽的最大阈值。

接下来考虑在SFC路由上放置VNFI。假定选择的第

个到达的SFC的路由通过

个结点，并且具有定义为

序列的

个VNFI。本发明定义二进制赋值变量

，其值等于1表示VNFI

位于虚拟节点

上，否则为0。变量

和

是虚拟节点或VNFI索引。

数量的可满足性模理论约束表示：

每个VNFI将只被放置在所选SFC路由中的一个虚拟节点上。这种可满足性模理论形式化描述为:

（10）

这表明，某些VNFI可能被放置在同一个虚拟节点上。

预定义顺序的可满足性模理论约束表示：

需要引导流量以预定义的顺序穿过一系列指定的VNFI。可满足性模理论形式化描述为：

（11）

由上可知，无论

的值是多少，都必须满足上述不等式，以严格保证VNFI在虚拟节点上的排列顺序。

负载满足的可满足性模理论约束表示：

每个物理节点都必须能够满足分配给它的VNFI的内存或CPU负载。这些约束被形式化为如下条件：

（12）

（13）

其中，

表示当VNFI

被放置在虚拟节点

上的内存要求，

表示当 VNFI

被放置在虚拟节点

上的CPU要求。

实施例二：

在本实施例中，本发明提供了一种基于模型的自适应近似策略优化（MA-PPO）算法。MA-PPO将通过对攻击事件的学习来选择可行的SFC部署，以提高MTD的防御性能，同时减少网络开销。

在得到

之后，本发明可以通过对所有状态的详尽探索找到最优策略。然而，在某些情况下，转移动态性在数学上是不可行的。当

不可用时，RL是一种广泛使用的算法来学习最优策略。Q-learning是一种无模型的RL算法，可以有效地评估状态-动作值。

在本实施例中，需要说明的是，当DRL算法收敛时，在经验回放缓冲区中，高概率的网络状态的样本数量将非常大。一个样本代表了SFC迁移的一个动作，这将消耗网络资源。为了减少网络开销，同时保持DRL算法的收敛性，本发明提供了一个基于模型的自适应迁移周期，如算法1所示。

算法1：

1.设置参数

，

和

2.计算

3.设置基本迁移期

4.for

do

5.计算

6.end for

7.

8.for

do

9.调整迁移期

10．end for

11．返回

首先设定参数和基本的SFC迁移周期（第1-3行）。然后，计算不同数量SFC的网络状态的概率（第4-6行）。接下来，将选择最小概率作为基线，并通过与最小概率的比较来调整迁移周期（第7-10行）。最后，将返回不同数量SFC的适应性迁移期（第11行）。

考虑到当SFC请求的种类增加时，状态空间和动作空间会非常大，本发明提供了一种基于深度强化学习PPO（Proximal Policy Optimization）的智能SFC迁移算法。与现有的PPO算法相比，本发明提供的MA-PPO与基于模型的自适应迁移周期相结合，将更适合于这种情况。

与一般PPO算法一样，优势函数在MA-PPO中也是必要的，用于计算策略梯度。优势函数可以表示为：

其中，

是由样本估计的动作-价值函数，

是具有权重

的状态- 价值函数的近似。广义优势估计采用

步自展的线性组合来获得低偏差和低方差，表现为：

其中

用于调整方差和偏差之间的权衡，

是TD误差，定义如下：

其中，

是介于0和1之间的折扣系数。

MA-PPO的伪代码显示在算法2中。首先对参数、重放缓冲区和DNN进行初始化（第1- 5行）。网络状态的迁移计数器被初始化为零（第6行）。然后，在当前的网络情况下，算法1被用来提前确定每个网络状态的迁移期（第7行）。第8行开始了算法的主循环，它分为两个主要部分。第一部分描述了通过与环境互动产生样本的算法（第9-26行）。迭代从初始网络状态开始，直到

个时隙之后，这被称为一个回合（第9-10行）。在每个回合中，SFC以

的速度到达，以

的速度离开，这被认为是网络状态的转换（第11-12行）。如果迁移计数器等于迁移周期，网络管理器将运行策略

来选择迁移SFC的动作，然后观察受网络攻击影响的奖励（第13-18行）。该状态转换的样本被存储到重放缓冲区，优势函数和价值函数由广义的优势估计方法来估计（第19-23行）。第二部分描述了从样本中学习的算法。分别计算策略梯度和价值函数梯度，并更新相应的参数（第28-31行）。最后，选择策略也将被更新（第33行）。

算法2：

1.设置参数

，

和

2.设置批量大小

和小批量大小

3.初始化经验回放缓冲区

4.随机初始化评价网络

5.随机初始化演员网络

与权重

6.初始化迁移计数器

为0

7.采用算法1确定每种网络状态的迁移周期

8.for

do

9.for

do

10.for

do

11.SFC到达时是

，离开时是

12.获取当前状态

13.

14.if

then

15.

16.运行策略

，选择动作

17.执行SFC迁移

18.观察结果奖励

19.收集

20.存储到重放缓冲区

21.计算TD误差

22.

23.估计值目标为

24.end if

25.end for

26.end for

27.for

do

28.

29.通过

更新

30.

31.通过

更新

32.end for

33.

34.end for

下面对本发明提供的服务功能链迁移装置进行描述，下文描述的服务功能链迁移装置与上文描述的服务功能链迁移方法可相互对应参照。

如图5所示，本发明提供的一种服务功能链迁移装置，包括：

第一处理模块1，用于基于可满足性模理论对服务功能链动作空间进行形式化，确定满足所述可满足性模理论约束条件的动作空间；

第二处理模块2，用于将所述可满足性模理论约束条件的动作空间输入至深度强化学习模型中，得到所述服务功能链的最佳迁移策略；

其中，所述深度强化学习模型的训练过程如下：

本发明提供的服务功能链迁移装置，首先基于可满足性模理论对服务功能链动作空间进行形式化，确定满足所述可满足性模理论约束条件的动作空间，然后将所述可满足性模理论约束条件的动作空间输入至深度强化学习模型中，得到所述服务功能链的最佳迁移策略；其中，所述深度强化学习模型的训练过程如下：步骤1，针对当前时隙服务功能链的动作空间和迁移周期，根据当前深度神经网络参数决策出迁移动作，并计算得到当前状态的即时奖励和下一时隙服务功能链的动作空间；步骤2，将当前时隙服务功能链的动作空间、迁移动作、即时奖励和下一时隙服务功能链的动作空间存储至重放缓存区；步骤3，随机从重放缓存区中抽取数据输入至深度神经网络中进行训练，更新深度神经网络参数，修正做出的迁移动作；步骤4，当计算得到的即时奖励完成收敛时，得到所述服务功能链的最佳迁移策略，结束模型训练。由此可见，本发明首先通过对服务功能链动作空间进行形式化，去除了部分非法行动，其次基于深度强化学习对攻击事件进行学习来选择最优的服务功能链迁移策略，进一步缩减了服务功能链动作空间，减少了网络开销。

图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行服务功能链迁移方法，该方法包括：基于可满足性模理论对服务功能链动作空间进行形式化，确定满足所述可满足性模理论约束条件的动作空间；将所述可满足性模理论约束条件的动作空间输入至深度强化学习模型中，得到所述服务功能链的最佳迁移策略；其中，所述深度强化学习模型的训练过程如下：步骤1，针对当前时隙服务功能链的动作空间和迁移周期，根据当前深度神经网络参数决策出迁移动作，并计算得到当前状态的即时奖励和下一时隙服务功能链的动作空间；步骤2，将当前时隙服务功能链的动作空间、迁移动作、即时奖励和下一时隙服务功能链的动作空间存储至重放缓存区；步骤3，随机从重放缓存区中抽取数据输入至深度神经网络中进行训练，更新深度神经网络参数，修正做出的迁移动作；步骤4，当计算得到的即时奖励完成收敛时，得到所述服务功能链的最佳迁移策略，结束模型训练。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的服务功能链迁移方法，该方法包括：基于可满足性模理论对服务功能链动作空间进行形式化，确定满足所述可满足性模理论约束条件的动作空间；将所述可满足性模理论约束条件的动作空间输入至深度强化学习模型中，得到所述服务功能链的最佳迁移策略；其中，所述深度强化学习模型的训练过程如下：步骤1，针对当前时隙服务功能链的动作空间和迁移周期，根据当前深度神经网络参数决策出迁移动作，并计算得到当前状态的即时奖励和下一时隙服务功能链的动作空间；步骤2，将当前时隙服务功能链的动作空间、迁移动作、即时奖励和下一时隙服务功能链的动作空间存储至重放缓存区；步骤3，随机从重放缓存区中抽取数据输入至深度神经网络中进行训练，更新深度神经网络参数，修正做出的迁移动作；步骤4，当计算得到的即时奖励完成收敛时，得到所述服务功能链的最佳迁移策略，结束模型训练。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的服务功能链迁移方法，该方法包括：基于可满足性模理论对服务功能链动作空间进行形式化，确定满足所述可满足性模理论约束条件的动作空间；将所述可满足性模理论约束条件的动作空间输入至深度强化学习模型中，得到所述服务功能链的最佳迁移策略；其中，所述深度强化学习模型的训练过程如下：步骤1，针对当前时隙服务功能链的动作空间和迁移周期，根据当前深度神经网络参数决策出迁移动作，并计算得到当前状态的即时奖励和下一时隙服务功能链的动作空间；步骤2，将当前时隙服务功能链的动作空间、迁移动作、即时奖励和下一时隙服务功能链的动作空间存储至重放缓存区；步骤3，随机从重放缓存区中抽取数据输入至深度神经网络中进行训练，更新深度神经网络参数，修正做出的迁移动作；步骤4，当计算得到的即时奖励完成收敛时，得到所述服务功能链的最佳迁移策略，结束模型训练。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。