CN113904937B - 一种服务功能链迁移方法、装置、电子设备及存储介质 - Google Patents
一种服务功能链迁移方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113904937B CN113904937B CN202111472838.7A CN202111472838A CN113904937B CN 113904937 B CN113904937 B CN 113904937B CN 202111472838 A CN202111472838 A CN 202111472838A CN 113904937 B CN113904937 B CN 113904937B
- Authority
- CN
- China
- Prior art keywords
- service function
- function chain
- migration
- satisfiability
- action space
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/0893—Assignment of logical groups to network elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/142—Network analysis or design using statistical or mathematical methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/50—Network service management, e.g. ensuring proper service fulfilment according to agreements
- H04L41/5041—Network service management, e.g. ensuring proper service fulfilment according to agreements characterised by the time relationship between creation and deployment of a service
- H04L41/5054—Automatic deployment of services triggered by the service manager, e.g. service implementation by automatic configuration of network components
Abstract
本发明提供一种服务功能链迁移方法、装置、电子设备及存储介质。所述方法包括:基于可满足性模理论对服务功能链动作空间进行形式化,确定满足所述可满足性模理论约束条件的动作空间;将所述可满足性模理论约束条件的动作空间输入至深度强化学习模型中,得到所述服务功能链的最佳迁移策略。本发明首先通过对服务功能链动作空间进行形式化,去除了部分非法行动,其次基于深度强化学习对攻击事件进行学习来选择最优的服务功能链迁移策略,进一步缩减了服务功能链动作空间,减少了网络开销。
Description
技术领域
本发明涉及网络功能虚拟化领域,尤其涉及一种服务功能链迁移方法、装置、电子设备及存储介质。
背景技术
网络功能虚拟化NFV(Network Functions Virtualization)一种对于网络架构的概念,利用虚拟化技术,将网络节点阶层的功能,分割成几个功能区块,分别以软件方式实现,不再拘限于硬件架构。在NFV中,实体为虚拟网络功能实例VNF(VirtualNetworkFunction),服务功能链SFC(Service Function Chain)由一连串连接的VNF实例连接构成。
当一个物理节点由于故障或被攻击时,将影响所有托管的VNF变得不可用,然而现有技术除了向VNF提供一次性资源分配外并没有提供一种积极的防御方法,以避免侧信道和/或分布式拒绝服务DdoS(Distributed denial of service attack)攻击。因此,攻击者可以嗅探网络信息,并计划对正在提供服务的SFC进行毁灭性的攻击。
发明内容
为解决上述问题,本发明提供一种服务功能链迁移方法、装置、电子设备及存储介质,包括:
基于可满足性模理论对服务功能链动作空间进行形式化,确定满足所述可满足性模理论约束条件的动作空间;
将所述可满足性模理论约束条件的动作空间输入至深度强化学习模型中,得到所述服务功能链的最佳迁移策略;
其中,所述深度强化学习模型的训练过程如下:
步骤1,针对当前时隙服务功能链的动作空间和迁移周期,根据当前深度神经网络参数决策出迁移动作,并计算得到当前状态的即时奖励和下一时隙服务功能链的动作空间;
步骤2,将当前时隙服务功能链的动作空间、迁移动作、即时奖励和下一时隙服务功能链的动作空间存储至重放缓存区;
步骤3,随机从重放缓存区中抽取数据输入至深度神经网络中进行训练,更新深度神经网络参数,修正做出的迁移动作;
步骤4,当计算得到的即时奖励完成收敛时,得到所述服务功能链的最佳迁移策略,结束模型训练。
可选的,基于可满足性模理论对服务功能链动作空间进行形式化,确定满足所述可满足性模理论约束条件的动作空间,包括:
确定所述服务功能链动作空间,所述动作空间为虚拟功能实例在所述服务功能链底层路由上放置的第一总数;
基于可满足性模理论约束条件,计算虚拟功能实例在所述服务功能链路由上放置的第二总数,所述第二总数为满足所述可满足性模理论约束条件的动作空间。
可选的,所述可满足性模理论约束条件包括嵌入关系的可满足性模理论约束、中间件装置的可满足性模理论约束、服务质量的可满足性模理论约束、带宽的可满足性模理论约束、虚拟功能实例放置数量的可满足性模理论约束、预设引流顺序的可满足性模理论约束和负载满足的可满足性模理论约束中的一种或多种。
可选的,在基于可满足性模理论对服务功能链动作空间进行形式化,确定满足所述可满足性模理论约束条件的动作空间前,还包括:
建立基于服务功能链部署的网络模型;
将所述基于服务功能链部署的网络模型转化为具有连续状态空间和动作空间的马尔科夫决策过程。
可选的,计算得到当前状态的即时奖励和下一时隙服务功能链的动作空间,包括:
根据下面第一公式计算当前状态的即时奖励,以及根据第二公式计算下一时隙服务功能链的动作空间,所述第一公式为:
所述第二公式为:
其中,为时间差分误差TD-误差,为时隙t的状态动作值,α为0和1之间的学习
率,为从状态移动到状态时得到的奖励值,为折扣系数,为在动作空间上的
期望最大奖励,为时隙的网络状态,为动作,为时隙的网络状态,为时
隙t采取的动作。
可选的,针对当前时隙服务功能链的动作空间和迁移周期,根据当前深度神经网络参数决策出迁移动作,包括:
初始化所述当前时隙服务功能链的迁移计数器;
确定所述当前时隙服务功能链的迁移周期,并判断所述迁移计数器是否等于所述迁移周期,若是,则根据当前深度神经网络参数决策出迁移动作。
可选的,随机从重放缓存区中抽取数据输入至深度神经网络中进行训练,更新深度神经网络参数,修正做出的迁移动作,包括:
根据下面第三公式计算所述深度神经网络的策略梯度,以及根据第四公式计算所述深度神经网络的价值函数梯度;
根据所述策略梯度和所述价值函数梯度,更新所述深度神经网络参数,修正作出的迁移动作;
其中,所述第三公式为:
所述第四公式为:
本发明还提供一种服务功能链迁移装置,包括:
第一处理模块,用于基于可满足性模理论对服务功能链动作空间进行形式化,确定满足所述可满足性模理论约束条件的动作空间;
第二处理模块,用于将所述可满足性模理论约束条件的动作空间输入至深度强化学习模型中,得到所述服务功能链的最佳迁移策略;
其中,所述深度强化学习模型的训练过程如下:
针对当前时隙服务功能链的动作空间和迁移周期,根据当前深度神经网络参数决策出迁移动作,并计算得到当前状态的即时奖励和下一时隙服务功能链的动作空间;
将当前时隙服务功能链的动作空间、迁移动作、即时奖励和下一时隙服务功能链的动作空间存储至重放缓存区;
随机从重放缓存区中抽取数据输入至深度神经网络中进行训练,更新深度神经网络参数,修正做出的迁移动作;
当计算得到的即时奖励完成收敛时,得到所述服务功能链的最佳迁移策略,结束模型训练。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述服务功能链迁移方法的步骤。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述服务功能链迁移方法的步骤。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述高服务功能链迁移方法的步骤。
本发明提供的服务功能链迁移方法、装置、电子设备及存储介质,首先基于可满足性模理论对服务功能链动作空间进行形式化,确定满足所述可满足性模理论约束条件的动作空间,然后将所述可满足性模理论约束条件的动作空间输入至深度强化学习模型中,得到所述服务功能链的最佳迁移策略;其中,所述深度强化学习模型的训练过程如下:步骤1,针对当前时隙服务功能链的动作空间和迁移周期,根据当前深度神经网络参数决策出迁移动作,并计算得到当前状态的即时奖励和下一时隙服务功能链的动作空间;步骤2,将当前时隙服务功能链的动作空间、迁移动作、即时奖励和下一时隙服务功能链的动作空间存储至重放缓存区;步骤3,随机从重放缓存区中抽取数据输入至深度神经网络中进行训练,更新深度神经网络参数,修正做出的迁移动作;步骤4,当计算得到的即时奖励完成收敛时,得到所述服务功能链的最佳迁移策略,结束模型训练。由此可见,本发明首先通过对服务功能链动作空间进行形式化,去除了部分非法行动,其次基于深度强化学习对攻击事件进行学习来选择最优的服务功能链迁移策略,进一步缩减了服务功能链动作空间,减少了网络开销。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的服务功能链迁移方法的流程示意图;
图2是本发明提供的服务功能链请求部署示意图;
图3是本发明提供的服务功能链请求状态转换示意图;
图4是本发明提供的服务功能链动态迁移示意图;
图5是本发明提供的服务功能链迁移装置的结构示意图;
图6是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提供的一种服务功能链迁移方法,包括:
步骤101:基于可满足性模理论对服务功能链动作空间进行形式化,确定满足所述可满足性模理论约束条件的动作空间;
在本步骤中,需要说明的是,考虑到多种实际的网络要求,可行的SFC迁移被表述为一个约束满足问题。首先建立基于服务功能链部署的网络模型,然后将基于服务功能链部署(迁移)的网络模型转化为具有连续状态空间和动作空间的马尔科夫决策过程,MDP(Markov Decision Process)。这本步骤中,目标是将非法动作从MDP的动作空间中移除,通过事先基于可满足性模理论SMT(Satisfiability Modulo Theories)对SFC部署空间进行形式化,确定满足可满足性模理论约束条件的动作空间。
步骤102:将所述可满足性模理论约束条件的动作空间输入至深度强化学习模型中,得到所述服务功能链的最佳迁移策略;
其中,所述深度强化学习模型的训练过程如下:
步骤1,针对当前时隙服务功能链的动作空间和迁移周期,根据当前深度神经网络参数决策出迁移动作,并计算得到当前状态的即时奖励和下一时隙服务功能链的动作空间;
步骤2,将当前时隙服务功能链的动作空间、迁移动作、即时奖励和下一时隙服务功能链的动作空间存储至重放缓存区;
步骤3,随机从重放缓存区中抽取数据输入至深度神经网络中进行训练,更新深度神经网络参数,修正做出的迁移动作;
步骤4,当计算得到的即时奖励完成收敛时,得到所述服务功能链的最佳迁移策略,结束模型训练。
在本步骤中,需要说明的是,在基于可满足性模理论对服务功能链动作空间进行
形式化,确定满足可满足性模理论约束条件的动作空间后,减少了一定规模的动作空间。但
是,随着SFC请求的增加,离散的行动空间将变得非常大。正如在MDP的定义中所解释的那
样,状态空间几乎是,随着SFC请求的增加也会非常大。因此,本发明提供了一种采用智
能SFC迁移算法来减少网络开销。具体的,通过对攻击事件的学习来选择可行的SFC部署,以
提高MTD的防御性能,同时减少网络开销。深度强化学习模型可以重复观察、行动和奖励,与
未知环境互动,以获得最佳策略,模型训练具体过程包括:针对当前时隙服务功能链的动作
空间和迁移周期,根据当前深度神经网络参数决策出迁移动作,并计算得到当前状态的即
时奖励和下一时隙服务功能链的动作空间;将当前时隙服务功能链的动作空间、迁移动作、
即时奖励和下一时隙服务功能链的动作空间存储至重放缓存区;随机从重放缓存区中抽取
数据输入至深度神经网络中进行训练,更新深度神经网络参数,修正做出的迁移动作;当计
算得到的即时奖励完成收敛时,得到所述服务功能链的最佳迁移策略,结束模型训练。可
见,本发明提供了一种智能驱动的服务功能链迁移方法,首先对MDP进行建模,然,将SFC请
求的到达或离开描述为状态转换。其次,为了从MDP的动作空间中去除非法动作,本发明将
可行的SFC部署表述为一个约束满足问题。最后,对于智能的SFC迁移,本发明设计了一种深
度强化学习DRL(Deep Reinforcement Learning)算法,可选的,称为基于模型的自适应近
似策略优化MA-PPO(model-based adaptive proximal policy optimization),其目的是
提高移动目标防御MTD(Moving Target Defense)的防御性能,同时减少网络开销。
本发明提供的服务功能链迁移方法,首先基于可满足性模理论对服务功能链动作空间进行形式化,确定满足所述可满足性模理论约束条件的动作空间,然后将所述可满足性模理论约束条件的动作空间输入至深度强化学习模型中,得到所述服务功能链的最佳迁移策略;其中,所述深度强化学习模型的训练过程如下:步骤1,针对当前时隙服务功能链的动作空间和迁移周期,根据当前深度神经网络参数决策出迁移动作,并计算得到当前状态的即时奖励和下一时隙服务功能链的动作空间;步骤2,将当前时隙服务功能链的动作空间、迁移动作、即时奖励和下一时隙服务功能链的动作空间存储至重放缓存区;步骤3,随机从重放缓存区中抽取数据输入至深度神经网络中进行训练,更新深度神经网络参数,修正做出的迁移动作;步骤4,当计算得到的即时奖励完成收敛时,得到所述服务功能链的最佳迁移策略,结束模型训练。由此可见,本发明首先通过对服务功能链动作空间进行形式化,去除了部分非法行动,其次基于深度强化学习对攻击事件进行学习来选择最优的服务功能链迁移策略,进一步缩减了服务功能链动作空间,减少了网络开销。
基于上述实施例的内容,在本实施例中,基于可满足性模理论对服务功能链动作空间进行形式化,确定满足所述可满足性模理论约束条件的动作空间,包括:
确定所述服务功能链动作空间,所述动作空间为虚拟功能实例在所述服务功能链底层路由上放置的第一总数;
基于可满足性模理论约束条件,计算虚拟功能实例在所述服务功能链路由上放置的第二总数,所述第二总数为满足所述可满足性模理论约束条件的动作空间。
在本实施例中,需要说明的是,本发明的目的是在MDP的行动空间中去除非法行
动,通过SMT对SFC迁移动作空间进行形式化。具体的,正式确定SFC迁移动作空间的过程有
两个阶段:正式确定底层路由,将SFC嵌入物理网络;正式确定VNF在SFC路由上的放置。然
后,使用定理检验器来解决约束满足问题。这个空间由所有可行的SFC部署组成,这些部署
满足多个网络约束。例如,首先计算出不同网络状态下所有可行的SFC路由。假设状态中
SFC路由的量化组合数为。然后,对于每个SFC请求,进一步计算相应的可行的VNF放置。
假设状态中的SFC请求数为Z,而一个SFC请求的路由有种可行VNFI放置,这也是MDP
中动作空间的规模。
基于上述实施例的内容,在本实施例中,所述可满足性模理论约束条件包括嵌入关系的可满足性模理论约束、中间件装置的可满足性模理论约束、服务质量的可满足性模理论约束、带宽的可满足性模理论约束、虚拟功能实例放置数量的可满足性模理论约束、预设引流顺序的可满足性模理论约束和负载满足的可满足性模理论约束中的一种或多种。
在本实施例中,需要说明的是,本发明考虑多种网络要求,可选的,包括嵌入关系的可满足性模理论约束、中间件装置的可满足性模理论约束、服务质量的可满足性模理论约束、带宽的可满足性模理论约束、虚拟功能实例放置数量的可满足性模理论约束、预设引流顺序的可满足性模理论约束和负载满足的可满足性模理论约束中的一种或多种。
基于上述实施例的内容,在本实施例中,在基于可满足性模理论对服务功能链动作空间进行形式化,确定满足所述可满足性模理论约束条件的动作空间前,还包括:
建立基于服务功能链部署的网络模型;
将所述基于服务功能链部署的网络模型转化为具有连续状态空间和动作空间的马尔科夫决策过程。
在本实施例中,需要说明的是,本发明通过MDP的模型来捕捉SFC迁移的动态。特别是,将网络状态定义为当前运行的SFC的组合,而状态转换为SFC请求的到达和离开。这样一来,动态的网络状态就可以持续地表达为MDP状态转换。
基于上述实施例的内容,在本实施例中,计算得到当前状态的即时奖励和下一时隙服务功能链的动作空间,包括:
根据下面第一公式计算当前状态的即时奖励,以及根据第二公式计算下一时隙服务功能链的动作空间,所述第一公式为:
所述第二公式为:
其中,为时间差分误差TD-误差(Temporal-difference error),时隙t的状
态动作值,α为0和1之间的学习率,为从状态移动到状态时得到的奖励值,为折
扣系数,为在动作空间上的期望最大奖励,为时隙的网络状态,为动作,为时隙的网络状态,为时隙t采取的动作。
基于上述实施例的内容,在本实施例中,针对当前时隙服务功能链的动作空间和迁移周期,根据当前深度神经网络参数决策出迁移动作,包括:
初始化所述当前时隙服务功能链的迁移计数器;
确定所述当前时隙服务功能链的迁移周期,并判断所述迁移计数器是否等于所述迁移周期,若是,则根据当前深度神经网络参数决策出迁移动作。
基于上述实施例的内容,在本实施例中,随机从重放缓存区中抽取数据输入至深度神经网络中进行训练,更新深度神经网络参数,修正做出的迁移动作,包括:
根据下面第三公式计算所述深度神经网络的策略梯度,以及根据第四公式计算所述深度神经网络的价值函数梯度;
根据所述策略梯度和所述价值函数梯度,更新所述深度神经网络参数,修正作出的迁移动作;
其中,所述第三公式为:
所述第四公式为:
下面通过具体实施例进行说明:
实施例一:
在本实施例中,需要说明的是,现有技术中,为了应对虚拟资源静态分配给物理节点所产生的问题,MTD技术被提供来作为改变游戏规则的创新。MTD动态地调整网络属性,如资源分配机制或虚拟机的物理位置。例如,定期调整虚拟网络嵌入关系,以主动防御DDoS攻击,或将受保护的虚拟机从一个物理节点动态地迁移到另一个物理节点,这将避免共同驻留的侧信道攻击。然而,在MTD领域,仍然存在着三大挑战,这些挑战还没有被以前的工作完全解决。首先,由于SFC请求的随机到达和离开,网络状态通常表现出很大的变化,因此需要一个合适的模型来捕捉动态的网络状态转换。其次,传统的虚拟网络嵌入或虚拟机迁移的MTD技术不能直接应用于NFV架构,因为SFC请求有顺序要求,这意味着流量必须被引导穿过预定义的有序VNFI。第三,SFC迁移选择的盲目性,即对网络攻击造成的动态环境学习不足,对MTD技术的防御效益产生不利影响。
为了解决上述问题,本发明提供了一个智能驱动的服务功能链迁移方法。与现有的解决方案不同,本发明创新性地设计了一种基于DRL的动态SFC迁移方案,旨在避免攻击。值得注意的是,本发明提供了一个基于模型的自适应近似策略优化,而不是现有的DRL算法。特别的,本发明将网络状态定义为当前运行的SFC的组合,而状态转换为SFC请求的到达和离开。这样一来,动态的网络状态就可以持续地表达为MDP状态转换。2) 考虑到多种实际的网络要求,可行的SFC部署被表述为一个约束满足问题。目标是将非法动作从MDP的动作空间中移除。对于SFC的路由,本发明考虑嵌入关系、中间件设备、服务质量和带宽等网络约束。对于VNF的放置,本发明考虑了网络约束的数量、预定义的顺序和负载的满足。3)设计了一个扩展的DRL算法,以实现抗攻击的SFC迁移决策和基于模型的自适应迁移周期。本发明的目的是提高MTD的防御性能,同时减少网络开销。受益于基于模型的每个网络状态的发生率分析,在高概率的网络状态下,SFC迁移的冗余样本将在很大程度上被减少。
图2是本发明提供的服务功能链请求部署示意图,图3是本发明提供的服务功能链
请求状态转换示意图,图4是本发明提供的服务功能链动态迁移示意图。如图2至图4所示,
本发明首先引入NFV模型,建立NFV模型的具体过程此处不做详细介绍,其包括网络模型、威
胁模型和MDP模型。其中,针对MDP模型,假设时间被划分成等长的间隔,长度为,可以用
索引来表示不同的时隙。为了捕捉时变的网络状态,将SFC迁移表述为一个
马尔科夫决策过程,其主要特征总结如下:
网络状态集:网络状态取决于SFC请求的存在情况。将网络状态表示为一个多维向
量,其中表示系统中存在第个SFC请求,否
则。假设物理网络同时支持的SFC请求类型个数为,网络状态的总
数为,其中。因此,网络状态的集合可以表示为。
动作集合:SFC迁移的动作包含两个部分,一是SFC路由;二是 VNF放置,将把网络
状态在时隙的动作表示为一个多维向量。因此,其
中SFC路由的动作表示为,其中表示节点在时隙被
选入SFC路由,否则。VNF放置的动作表示为,其中表示VNF被放置到节点上,否则。值得注意的是,动作的空间复杂度
为,随着SFC请求的数量呈指数增长。然而,上述空间中的大多数动作都是非法的,因为
它们不满足某些网络约束。假设可行的SFC部署总数为,动作集合表示为。对于每个网络状态,动作集将是不一样的。
状态转换:任何SFC请求的到达或离开被认为是网络管理器的一个状态转换。SFC
请求的到达遵循泊松分布,SFC存在的时间是指数分布。以三种类型的SFC请求为例,将SFC
请求分别表示为, 和。所有的SFC请求都有到达率和离开率,它们分别定义为。当只有请求存在时,当前网络状态为。以类似的
方式,请求和分别为网络状态和。如果同时存在两个
SFC请求,这个条件将是一个新的状态。例如,网络状态由请求和组
成,网络状态和也类似。网络状态由所有SFC请
求组成。
奖励函数:为了准确评估防御性能,需要设计一个奖励函数生成带有奖励函数的最佳SFC迁移策略。在本发明中,为简单起见,在不丧失一般性的情况下,奖励函数定义如下。
其中是一个系数,是攻击者在时隙的第个SFC请求中被破坏的节点
数,是一个正常数。这个奖励函数表明,如果SFC被成功攻击,奖励将承担一个与成线
性关系的负值。另一方面,如果SFC避免了攻击,奖励将是一个正常数。
在本实施例中,本发明考虑多种网络要求,如嵌入关系、中间件设备、QoS和带宽。
定义二进制任务变量,如果其值等于1则表示虚拟节点嵌入到物理节点中,否则
为0。类似地,如果变量的值等于1,则表示虚拟链路嵌入到物理链路中,否则为
0。在虚拟网络中,变量是节点的索引,变量是边的索引。在物理网络中,变量是节点的
索引,变量是边的索引。
公式(2)表示第个到达的SFC中的任何VNFI,必须嵌入到物理节点上。不
等式(3)表示可以将任何虚拟链接嵌入到多个物理链接中。另一方面,不等式(4)表示
在第个到达的SFC中,物理节点可能不携带任何虚拟节点。类似地,不等式(5)指示
物理链路可能不携带任何虚拟链路。等式(6)定义了变量和的值域。
中间件装置的可满足性模理论约束表示:
链式服务请求可能需要来自物理网络的某些专门服务(例如IPSec等)。通常,只有
某些组件可以提供这种请求的功能。该约束条件确保链式服务必须经过这样的专用物理节
点。假设是此类专用物理节点的集合,则第个链式服务请求的可满足性模理论约束如下
所示。
这里,公式保证链式服务路由必须经过一些专门的物理节点。
服务质量的可满足性模理论约束表示:
为简单起见,本发明假设网络相对同构,其中跳数可以与网络延迟成比例。因此,QoS约束可以形式化为:
带宽的可满足性模理论约束表示:
每个物理链路必须能够承载链式服务路由的流量负载。带宽约束形式化为:
接下来考虑在SFC路由上放置VNFI。假定选择的第个到达的SFC的路由通过个
结点,并且具有定义为序列的个VNFI。本发明定义二进制赋值变量,其值等于1表示VNFI位于虚拟节点上,否则
为0。变量和是虚拟节点或VNFI索引。
数量的可满足性模理论约束表示:
每个VNFI将只被放置在所选SFC路由中的一个虚拟节点上。这种可满足性模理论形式化描述为:
这表明,某些VNFI可能被放置在同一个虚拟节点上。
预定义顺序的可满足性模理论约束表示:
需要引导流量以预定义的顺序穿过一系列指定的VNFI。可满足性模理论形式化描述为:
负载满足的可满足性模理论约束表示:
每个物理节点都必须能够满足分配给它的VNFI的内存或CPU负载。这些约束被形式化为如下条件:
实施例二:
在本实施例中,本发明提供了一种基于模型的自适应近似策略优化(MA-PPO)算法。MA-PPO将通过对攻击事件的学习来选择可行的SFC部署,以提高MTD的防御性能,同时减少网络开销。
在得到之后,本发明可以通过对所有状态的详尽探索找到最优策略。然而,
在某些情况下,转移动态性在数学上是不可行的。当不可用时,RL是一种广泛使用
的算法来学习最优策略。Q-learning是一种无模型的RL算法,可以有效地评估状态-动作
值。
在本实施例中,需要说明的是,当DRL算法收敛时,在经验回放缓冲区中,高概率的网络状态的样本数量将非常大。一个样本代表了SFC迁移的一个动作,这将消耗网络资源。为了减少网络开销,同时保持DRL算法的收敛性,本发明提供了一个基于模型的自适应迁移周期,如算法1所示。
算法1:
6.end for
10.end for
首先设定参数和基本的SFC迁移周期(第1-3行)。然后,计算不同数量SFC的网络状态的概率(第4-6行)。接下来,将选择最小概率作为基线,并通过与最小概率的比较来调整迁移周期(第7-10行)。最后,将返回不同数量SFC的适应性迁移期(第11行)。
考虑到当SFC请求的种类增加时,状态空间和动作空间会非常大,本发明提供了一种基于深度强化学习PPO(Proximal Policy Optimization)的智能SFC迁移算法。与现有的PPO算法相比,本发明提供的MA-PPO与基于模型的自适应迁移周期相结合,将更适合于这种情况。
与一般PPO算法一样,优势函数在MA-PPO中也是必要的,用于计算策略梯度。优势函数可以表示为:
MA-PPO的伪代码显示在算法2中。首先对参数、重放缓冲区和DNN进行初始化(第1-
5行)。网络状态的迁移计数器被初始化为零(第6行)。然后,在当前的网络情况下,算法1被
用来提前确定每个网络状态的迁移期(第7行)。第8行开始了算法的主循环,它分为两个主
要部分。第一部分描述了通过与环境互动产生样本的算法(第9-26行)。迭代从初始网络状
态开始,直到个时隙之后,这被称为一个回合(第9-10行)。在每个回合中,SFC以的速度
到达,以的速度离开,这被认为是网络状态的转换(第11-12行)。如果迁移计数器等于迁
移周期,网络管理器将运行策略来选择迁移SFC的动作,然后观察受网络攻击影响的
奖励(第13-18行)。该状态转换的样本被存储到重放缓冲区,优势函数和价值函数由广义的
优势估计方法来估计(第19-23行)。第二部分描述了从样本中学习的算法。分别计算策略梯
度和价值函数梯度,并更新相应的参数(第28-31行)。最后,选择策略也将被更新(第33行)。
算法2:
7.采用算法1确定每种网络状态的迁移周期
17.执行SFC迁移
24.end if
25.end for
26.end for
32.end for
34.end for
下面对本发明提供的服务功能链迁移装置进行描述,下文描述的服务功能链迁移装置与上文描述的服务功能链迁移方法可相互对应参照。
如图5所示,本发明提供的一种服务功能链迁移装置,包括:
第一处理模块1,用于基于可满足性模理论对服务功能链动作空间进行形式化,确定满足所述可满足性模理论约束条件的动作空间;
第二处理模块2,用于将所述可满足性模理论约束条件的动作空间输入至深度强化学习模型中,得到所述服务功能链的最佳迁移策略;
其中,所述深度强化学习模型的训练过程如下:
针对当前时隙服务功能链的动作空间和迁移周期,根据当前深度神经网络参数决策出迁移动作,并计算得到当前状态的即时奖励和下一时隙服务功能链的动作空间;
将当前时隙服务功能链的动作空间、迁移动作、即时奖励和下一时隙服务功能链的动作空间存储至重放缓存区;
随机从重放缓存区中抽取数据输入至深度神经网络中进行训练,更新深度神经网络参数,修正做出的迁移动作;
当计算得到的即时奖励完成收敛时,得到所述服务功能链的最佳迁移策略,结束模型训练。
本发明提供的服务功能链迁移装置,首先基于可满足性模理论对服务功能链动作空间进行形式化,确定满足所述可满足性模理论约束条件的动作空间,然后将所述可满足性模理论约束条件的动作空间输入至深度强化学习模型中,得到所述服务功能链的最佳迁移策略;其中,所述深度强化学习模型的训练过程如下:步骤1,针对当前时隙服务功能链的动作空间和迁移周期,根据当前深度神经网络参数决策出迁移动作,并计算得到当前状态的即时奖励和下一时隙服务功能链的动作空间;步骤2,将当前时隙服务功能链的动作空间、迁移动作、即时奖励和下一时隙服务功能链的动作空间存储至重放缓存区;步骤3,随机从重放缓存区中抽取数据输入至深度神经网络中进行训练,更新深度神经网络参数,修正做出的迁移动作;步骤4,当计算得到的即时奖励完成收敛时,得到所述服务功能链的最佳迁移策略,结束模型训练。由此可见,本发明首先通过对服务功能链动作空间进行形式化,去除了部分非法行动,其次基于深度强化学习对攻击事件进行学习来选择最优的服务功能链迁移策略,进一步缩减了服务功能链动作空间,减少了网络开销。
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行服务功能链迁移方法,该方法包括:基于可满足性模理论对服务功能链动作空间进行形式化,确定满足所述可满足性模理论约束条件的动作空间;将所述可满足性模理论约束条件的动作空间输入至深度强化学习模型中,得到所述服务功能链的最佳迁移策略;其中,所述深度强化学习模型的训练过程如下:步骤1,针对当前时隙服务功能链的动作空间和迁移周期,根据当前深度神经网络参数决策出迁移动作,并计算得到当前状态的即时奖励和下一时隙服务功能链的动作空间;步骤2,将当前时隙服务功能链的动作空间、迁移动作、即时奖励和下一时隙服务功能链的动作空间存储至重放缓存区;步骤3,随机从重放缓存区中抽取数据输入至深度神经网络中进行训练,更新深度神经网络参数,修正做出的迁移动作;步骤4,当计算得到的即时奖励完成收敛时,得到所述服务功能链的最佳迁移策略,结束模型训练。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的服务功能链迁移方法,该方法包括:基于可满足性模理论对服务功能链动作空间进行形式化,确定满足所述可满足性模理论约束条件的动作空间;将所述可满足性模理论约束条件的动作空间输入至深度强化学习模型中,得到所述服务功能链的最佳迁移策略;其中,所述深度强化学习模型的训练过程如下:步骤1,针对当前时隙服务功能链的动作空间和迁移周期,根据当前深度神经网络参数决策出迁移动作,并计算得到当前状态的即时奖励和下一时隙服务功能链的动作空间;步骤2,将当前时隙服务功能链的动作空间、迁移动作、即时奖励和下一时隙服务功能链的动作空间存储至重放缓存区;步骤3,随机从重放缓存区中抽取数据输入至深度神经网络中进行训练,更新深度神经网络参数,修正做出的迁移动作;步骤4,当计算得到的即时奖励完成收敛时,得到所述服务功能链的最佳迁移策略,结束模型训练。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的服务功能链迁移方法,该方法包括:基于可满足性模理论对服务功能链动作空间进行形式化,确定满足所述可满足性模理论约束条件的动作空间;将所述可满足性模理论约束条件的动作空间输入至深度强化学习模型中,得到所述服务功能链的最佳迁移策略;其中,所述深度强化学习模型的训练过程如下:步骤1,针对当前时隙服务功能链的动作空间和迁移周期,根据当前深度神经网络参数决策出迁移动作,并计算得到当前状态的即时奖励和下一时隙服务功能链的动作空间;步骤2,将当前时隙服务功能链的动作空间、迁移动作、即时奖励和下一时隙服务功能链的动作空间存储至重放缓存区;步骤3,随机从重放缓存区中抽取数据输入至深度神经网络中进行训练,更新深度神经网络参数,修正做出的迁移动作;步骤4,当计算得到的即时奖励完成收敛时,得到所述服务功能链的最佳迁移策略,结束模型训练。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (7)
1.一种服务功能链迁移方法,其特征在于,包括:
基于可满足性模理论对服务功能链动作空间进行形式化,确定满足所述可满足性模理论约束条件的动作空间;
将所述可满足性模理论约束条件的动作空间输入至深度强化学习模型中,得到所述服务功能链的最佳迁移策略;
其中,所述深度强化学习模型的训练过程如下:
步骤1,针对当前时隙服务功能链的动作空间和自适应迁移周期,根据当前深度神经网络参数决策出迁移动作,并计算得到当前状态的即时奖励和下一时隙服务功能链的动作空间;
步骤2,将当前时隙服务功能链的动作空间、迁移动作、即时奖励和下一时隙服务功能链的动作空间存储至重放缓存区;
步骤3,随机从重放缓存区中抽取数据输入至深度神经网络中进行训练,更新深度神经网络参数,修正做出的迁移动作;
步骤4,当计算得到的即时奖励完成收敛时,得到所述服务功能链的最佳迁移策略,结束模型训练;
其中,基于可满足性模理论对服务功能链动作空间进行形式化,确定满足所述可满足性模理论约束条件的动作空间,包括:
确定所述服务功能链动作空间,所述动作空间为虚拟功能实例在所述服务功能链底层路由上放置的第一总数;
基于可满足性模理论约束条件,计算虚拟功能实例在所述服务功能链路由上放置的第二总数,所述第二总数为满足所述可满足性模理论约束条件的动作空间;
其中,所述可满足性模理论约束条件包括嵌入关系的可满足性模理论约束、中间件装置的可满足性模理论约束、服务质量的可满足性模理论约束、带宽的可满足性模理论约束、虚拟功能实例放置数量的可满足性模理论约束、预设引流顺序的可满足性模理论约束和负载满足的可满足性模理论约束中的一种或多种;
其中,针对当前时隙服务功能链的动作空间和自适应迁移周期,根据当前深度神经网络参数决策出迁移动作,包括:
初始化所述当前时隙服务功能链的迁移计数器;
确定所述当前时隙服务功能链的自适应迁移周期,并判断所述迁移计数器是否等于所述自适应迁移周期,若是,则根据当前深度神经网络参数决策出迁移动作;
其中,确定所述当前时隙服务功能链的自适应迁移周期,包括:
设置参数和基本服务功能链迁移周期;
计算不同数量服务功能链的网络状态的概率,并选择最小概率作为基线,通过与最小概率的比较来调整迁移周期。
2.根据权利要求1所述的服务功能链迁移方法,其特征在于,在基于可满足性模理论对服务功能链动作空间进行形式化,确定满足所述可满足性模理论约束条件的动作空间前,还包括:
建立基于服务功能链部署的网络模型;
将所述基于服务功能链部署的网络模型转化为具有连续状态空间和动作空间的马尔科夫决策过程。
5.一种服务功能链迁移装置,其特征在于,
第一处理模块,用于基于可满足性模理论对服务功能链动作空间进行形式化,确定满足所述可满足性模理论约束条件的动作空间;
第二处理模块,用于将所述可满足性模理论约束条件的动作空间输入至深度强化学习模型中,得到所述服务功能链的最佳迁移策略;
其中,所述深度强化学习模型的训练过程如下:
针对当前时隙服务功能链的动作空间和自适应迁移周期,根据当前深度神经网络参数决策出迁移动作,并计算得到当前状态的即时奖励和下一时隙服务功能链的动作空间;
将当前时隙服务功能链的动作空间、迁移动作、即时奖励和下一时隙服务功能链的动作空间存储至重放缓存区;
随机从重放缓存区中抽取数据输入至深度神经网络中进行训练,更新深度神经网络参数,修正做出的迁移动作;
当计算得到的即时奖励完成收敛时,得到所述服务功能链的最佳迁移策略,结束模型训练;
其中,所述第一处理模块,具体用于:
确定所述服务功能链动作空间,所述动作空间为虚拟功能实例在所述服务功能链底层路由上放置的第一总数;
基于可满足性模理论约束条件,计算虚拟功能实例在所述服务功能链路由上放置的第二总数,所述第二总数为满足所述可满足性模理论约束条件的动作空间;
其中,所述可满足性模理论约束条件包括嵌入关系的可满足性模理论约束、中间件装置的可满足性模理论约束、服务质量的可满足性模理论约束、带宽的可满足性模理论约束、虚拟功能实例放置数量的可满足性模理论约束、预设引流顺序的可满足性模理论约束和负载满足的可满足性模理论约束中的一种或多种;
其中,所述第二处理模块还具体用于:
初始化所述当前时隙服务功能链的迁移计数器;
确定所述当前时隙服务功能链的自适应迁移周期,并判断所述迁移计数器是否等于所述自适应迁移周期,若是,则根据当前深度神经网络参数决策出迁移动作;
其中,所述第二处理模块还具体用于:
设置参数和基本服务功能链迁移周期;
计算不同数量服务功能链的网络状态的概率,并选择最小概率作为基线,通过与最小概率的比较来调整迁移周期。
6.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-4任一项所述服务功能链迁移方法的步骤。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-4任一项所述服务功能链迁移方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111472838.7A CN113904937B (zh) | 2021-12-06 | 2021-12-06 | 一种服务功能链迁移方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111472838.7A CN113904937B (zh) | 2021-12-06 | 2021-12-06 | 一种服务功能链迁移方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113904937A CN113904937A (zh) | 2022-01-07 |
CN113904937B true CN113904937B (zh) | 2022-03-29 |
Family
ID=79195340
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111472838.7A Active CN113904937B (zh) | 2021-12-06 | 2021-12-06 | 一种服务功能链迁移方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113904937B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115361288B (zh) * | 2022-08-19 | 2023-06-23 | 南京工业大学 | 一种空天地一体化场景下的服务功能链动态重构方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110602062A (zh) * | 2019-08-27 | 2019-12-20 | 北京邮电大学 | 基于强化学习的网络主动防御方法及装置 |
CN113098714A (zh) * | 2021-03-29 | 2021-07-09 | 南京邮电大学 | 一种基于深度强化学习的低时延网络切片的方法 |
-
2021
- 2021-12-06 CN CN202111472838.7A patent/CN113904937B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110602062A (zh) * | 2019-08-27 | 2019-12-20 | 北京邮电大学 | 基于强化学习的网络主动防御方法及装置 |
CN113098714A (zh) * | 2021-03-29 | 2021-07-09 | 南京邮电大学 | 一种基于深度强化学习的低时延网络切片的方法 |
Non-Patent Citations (2)
Title |
---|
《运营商网络中基于深度强化学习的服务功能链迁移机制》;陈卓等;《电子与信息学报》;20200930;全文 * |
基于深度强化学习的虚拟网络功能部署及迁移优化算法研究;贺兰钦;《中国优秀硕士学位论文全文数据库》;20210228;第3-4章 * |
Also Published As
Publication number | Publication date |
---|---|
CN113904937A (zh) | 2022-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11461145B2 (en) | Building neural networks for resource allocation for iterative workloads using reinforcement learning | |
CN110995858B (zh) | 一种基于深度q网络的边缘网络请求调度决策方法 | |
CN110460465B (zh) | 面向移动边缘计算的服务功能链部署方法 | |
CN110401675B (zh) | 一种传感云环境下不确定性DDoS攻击防御方法 | |
US9769268B2 (en) | Systems and methods for consensus protocol selection based on delay analysis | |
Abdel-Basset et al. | Federated threat-hunting approach for microservice-based industrial cyber-physical system | |
Rivetti et al. | Load-aware shedding in stream processing systems | |
CN111314235B (zh) | 一种基于虚拟网络功能资源需求预测的网络延时优化方法 | |
US11150999B2 (en) | Method, device, and computer program product for scheduling backup jobs | |
CN110247795B (zh) | 一种基于意图的云网资源服务链编排方法及系统 | |
CN113904937B (zh) | 一种服务功能链迁移方法、装置、电子设备及存储介质 | |
Soualah et al. | An efficient algorithm for virtual network function placement and chaining | |
Cai et al. | SARM: service function chain active reconfiguration mechanism based on load and demand prediction | |
van Leeuwen et al. | CoCoA: A non-iterative approach to a local search (A) DCOP solver | |
GR1010062B (el) | Συνεχης μερισμος δικτυου σε ενα κυψελοειδες δικτυο επικοινωνιων 5g μεσω ενος αλγοριθμου βαθεως ντετερμινιστικης βαθμιδας πολιτικης με καθυστερηση | |
EP2884453A1 (en) | A computer implemented method, a system and computer program product for partitioning a graph representative of a communication network | |
Zhang et al. | Towards attack-resistant service function chain migration: A model-based adaptive proximal policy optimization approach | |
Garg et al. | Heuristic and reinforcement learning algorithms for dynamic service placement on mobile edge cloud | |
Hirayama et al. | Sparse regression model-based relearning architecture for shortening learning time in traffic prediction | |
JP2020003860A (ja) | 学習システム、処理装置、処理方法、およびプログラム | |
CN115220818A (zh) | 基于深度强化学习的实时依赖型任务卸载方法 | |
CN113608830A (zh) | 基于故障预测的vnf迁移方法及装置 | |
Talebi et al. | ACEP: an adaptive strategy for proactive and elastic processing of complex events | |
Singh et al. | Exact analysis of the state-dependent polling model | |
CN112199153A (zh) | 一种虚拟网络功能vnf实例部署方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |