CN113904937B - 一种服务功能链迁移方法、装置、电子设备及存储介质 - Google Patents

一种服务功能链迁移方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113904937B
CN113904937B CN202111472838.7A CN202111472838A CN113904937B CN 113904937 B CN113904937 B CN 113904937B CN 202111472838 A CN202111472838 A CN 202111472838A CN 113904937 B CN113904937 B CN 113904937B
Authority
CN
China
Prior art keywords
service function
function chain
migration
satisfiability
action space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111472838.7A
Other languages
English (en)
Other versions
CN113904937A (zh
Inventor
杨树杰
许长桥
张焘
纪伟潇
沈嘉浩
张丙驰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202111472838.7A priority Critical patent/CN113904937B/zh
Publication of CN113904937A publication Critical patent/CN113904937A/zh
Application granted granted Critical
Publication of CN113904937B publication Critical patent/CN113904937B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0893Assignment of logical groups to network elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/5041Network service management, e.g. ensuring proper service fulfilment according to agreements characterised by the time relationship between creation and deployment of a service
    • H04L41/5054Automatic deployment of services triggered by the service manager, e.g. service implementation by automatic configuration of network components

Abstract

本发明提供一种服务功能链迁移方法、装置、电子设备及存储介质。所述方法包括:基于可满足性模理论对服务功能链动作空间进行形式化,确定满足所述可满足性模理论约束条件的动作空间;将所述可满足性模理论约束条件的动作空间输入至深度强化学习模型中,得到所述服务功能链的最佳迁移策略。本发明首先通过对服务功能链动作空间进行形式化,去除了部分非法行动,其次基于深度强化学习对攻击事件进行学习来选择最优的服务功能链迁移策略,进一步缩减了服务功能链动作空间,减少了网络开销。

Description

一种服务功能链迁移方法、装置、电子设备及存储介质
技术领域
本发明涉及网络功能虚拟化领域,尤其涉及一种服务功能链迁移方法、装置、电子设备及存储介质。
背景技术
网络功能虚拟化NFV(Network Functions Virtualization)一种对于网络架构的概念,利用虚拟化技术,将网络节点阶层的功能,分割成几个功能区块,分别以软件方式实现,不再拘限于硬件架构。在NFV中,实体为虚拟网络功能实例VNF(VirtualNetworkFunction),服务功能链SFC(Service Function Chain)由一连串连接的VNF实例连接构成。
当一个物理节点由于故障或被攻击时,将影响所有托管的VNF变得不可用,然而现有技术除了向VNF提供一次性资源分配外并没有提供一种积极的防御方法,以避免侧信道和/或分布式拒绝服务DdoS(Distributed denial of service attack)攻击。因此,攻击者可以嗅探网络信息,并计划对正在提供服务的SFC进行毁灭性的攻击。
发明内容
为解决上述问题,本发明提供一种服务功能链迁移方法、装置、电子设备及存储介质,包括:
基于可满足性模理论对服务功能链动作空间进行形式化,确定满足所述可满足性模理论约束条件的动作空间;
将所述可满足性模理论约束条件的动作空间输入至深度强化学习模型中,得到所述服务功能链的最佳迁移策略;
其中,所述深度强化学习模型的训练过程如下:
步骤1,针对当前时隙服务功能链的动作空间和迁移周期,根据当前深度神经网络参数决策出迁移动作,并计算得到当前状态的即时奖励和下一时隙服务功能链的动作空间;
步骤2,将当前时隙服务功能链的动作空间、迁移动作、即时奖励和下一时隙服务功能链的动作空间存储至重放缓存区;
步骤3,随机从重放缓存区中抽取数据输入至深度神经网络中进行训练,更新深度神经网络参数,修正做出的迁移动作;
步骤4,当计算得到的即时奖励完成收敛时,得到所述服务功能链的最佳迁移策略,结束模型训练。
可选的,基于可满足性模理论对服务功能链动作空间进行形式化,确定满足所述可满足性模理论约束条件的动作空间,包括:
确定所述服务功能链动作空间,所述动作空间为虚拟功能实例在所述服务功能链底层路由上放置的第一总数;
基于可满足性模理论约束条件,计算虚拟功能实例在所述服务功能链路由上放置的第二总数,所述第二总数为满足所述可满足性模理论约束条件的动作空间。
可选的,所述可满足性模理论约束条件包括嵌入关系的可满足性模理论约束、中间件装置的可满足性模理论约束、服务质量的可满足性模理论约束、带宽的可满足性模理论约束、虚拟功能实例放置数量的可满足性模理论约束、预设引流顺序的可满足性模理论约束和负载满足的可满足性模理论约束中的一种或多种。
可选的,在基于可满足性模理论对服务功能链动作空间进行形式化,确定满足所述可满足性模理论约束条件的动作空间前,还包括:
建立基于服务功能链部署的网络模型;
将所述基于服务功能链部署的网络模型转化为具有连续状态空间和动作空间的马尔科夫决策过程。
可选的,计算得到当前状态的即时奖励和下一时隙服务功能链的动作空间,包括:
根据下面第一公式计算当前状态的即时奖励,以及根据第二公式计算下一时隙服务功能链的动作空间,所述第一公式为:
Figure 674211DEST_PATH_IMAGE001
所述第二公式为:
Figure 681481DEST_PATH_IMAGE002
其中,
Figure 816927DEST_PATH_IMAGE003
为时间差分误差TD-误差,
Figure 800802DEST_PATH_IMAGE004
为时隙t的状态动作值,α为0和1之间的学习 率,
Figure 705304DEST_PATH_IMAGE005
为从状态
Figure 382010DEST_PATH_IMAGE006
移动到状态
Figure 739173DEST_PATH_IMAGE007
时得到的奖励值,
Figure 231466DEST_PATH_IMAGE008
为折扣系数,
Figure 489010DEST_PATH_IMAGE009
为在动作空间上的 期望最大奖励,
Figure 838082DEST_PATH_IMAGE007
为时隙
Figure 181077DEST_PATH_IMAGE010
的网络状态,
Figure 8219DEST_PATH_IMAGE011
为动作
Figure 152892DEST_PATH_IMAGE011
Figure 171401DEST_PATH_IMAGE006
为时隙
Figure 503157DEST_PATH_IMAGE012
的网络状态,
Figure 835787DEST_PATH_IMAGE013
为时 隙t采取的动作。
可选的,针对当前时隙服务功能链的动作空间和迁移周期,根据当前深度神经网络参数决策出迁移动作,包括:
初始化所述当前时隙服务功能链的迁移计数器;
确定所述当前时隙服务功能链的迁移周期,并判断所述迁移计数器是否等于所述迁移周期,若是,则根据当前深度神经网络参数决策出迁移动作。
可选的,随机从重放缓存区中抽取数据输入至深度神经网络中进行训练,更新深度神经网络参数,修正做出的迁移动作,包括:
根据下面第三公式计算所述深度神经网络的策略梯度,以及根据第四公式计算所述深度神经网络的价值函数梯度;
根据所述策略梯度和所述价值函数梯度,更新所述深度神经网络参数,修正作出的迁移动作;
其中,所述第三公式为:
Figure 303808DEST_PATH_IMAGE014
所述第四公式为:
Figure 260263DEST_PATH_IMAGE015
其中,
Figure 577850DEST_PATH_IMAGE016
为策略函数,T为总时隙,
Figure 12373DEST_PATH_IMAGE017
为新旧策略下的概率之比,
Figure 600480DEST_PATH_IMAGE018
为 在时隙t的估计优势,
Figure 898476DEST_PATH_IMAGE019
为控制修剪范围超参数,
Figure 470402DEST_PATH_IMAGE020
为评价函数,
Figure 675993DEST_PATH_IMAGE021
为策略梯度网 络输出值,
Figure 649766DEST_PATH_IMAGE022
为时间差分误差目标值,
Figure 416865DEST_PATH_IMAGE023
为时隙i的网络状态,
Figure 732481DEST_PATH_IMAGE024
为价值函数权重。
本发明还提供一种服务功能链迁移装置,包括:
第一处理模块,用于基于可满足性模理论对服务功能链动作空间进行形式化,确定满足所述可满足性模理论约束条件的动作空间;
第二处理模块,用于将所述可满足性模理论约束条件的动作空间输入至深度强化学习模型中,得到所述服务功能链的最佳迁移策略;
其中,所述深度强化学习模型的训练过程如下:
针对当前时隙服务功能链的动作空间和迁移周期,根据当前深度神经网络参数决策出迁移动作,并计算得到当前状态的即时奖励和下一时隙服务功能链的动作空间;
将当前时隙服务功能链的动作空间、迁移动作、即时奖励和下一时隙服务功能链的动作空间存储至重放缓存区;
随机从重放缓存区中抽取数据输入至深度神经网络中进行训练,更新深度神经网络参数,修正做出的迁移动作;
当计算得到的即时奖励完成收敛时,得到所述服务功能链的最佳迁移策略,结束模型训练。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述服务功能链迁移方法的步骤。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述服务功能链迁移方法的步骤。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述高服务功能链迁移方法的步骤。
本发明提供的服务功能链迁移方法、装置、电子设备及存储介质,首先基于可满足性模理论对服务功能链动作空间进行形式化,确定满足所述可满足性模理论约束条件的动作空间,然后将所述可满足性模理论约束条件的动作空间输入至深度强化学习模型中,得到所述服务功能链的最佳迁移策略;其中,所述深度强化学习模型的训练过程如下:步骤1,针对当前时隙服务功能链的动作空间和迁移周期,根据当前深度神经网络参数决策出迁移动作,并计算得到当前状态的即时奖励和下一时隙服务功能链的动作空间;步骤2,将当前时隙服务功能链的动作空间、迁移动作、即时奖励和下一时隙服务功能链的动作空间存储至重放缓存区;步骤3,随机从重放缓存区中抽取数据输入至深度神经网络中进行训练,更新深度神经网络参数,修正做出的迁移动作;步骤4,当计算得到的即时奖励完成收敛时,得到所述服务功能链的最佳迁移策略,结束模型训练。由此可见,本发明首先通过对服务功能链动作空间进行形式化,去除了部分非法行动,其次基于深度强化学习对攻击事件进行学习来选择最优的服务功能链迁移策略,进一步缩减了服务功能链动作空间,减少了网络开销。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的服务功能链迁移方法的流程示意图;
图2是本发明提供的服务功能链请求部署示意图;
图3是本发明提供的服务功能链请求状态转换示意图;
图4是本发明提供的服务功能链动态迁移示意图;
图5是本发明提供的服务功能链迁移装置的结构示意图;
图6是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提供的一种服务功能链迁移方法,包括:
步骤101:基于可满足性模理论对服务功能链动作空间进行形式化,确定满足所述可满足性模理论约束条件的动作空间;
在本步骤中,需要说明的是,考虑到多种实际的网络要求,可行的SFC迁移被表述为一个约束满足问题。首先建立基于服务功能链部署的网络模型,然后将基于服务功能链部署(迁移)的网络模型转化为具有连续状态空间和动作空间的马尔科夫决策过程,MDP(Markov Decision Process)。这本步骤中,目标是将非法动作从MDP的动作空间中移除,通过事先基于可满足性模理论SMT(Satisfiability Modulo Theories)对SFC部署空间进行形式化,确定满足可满足性模理论约束条件的动作空间。
步骤102:将所述可满足性模理论约束条件的动作空间输入至深度强化学习模型中,得到所述服务功能链的最佳迁移策略;
其中,所述深度强化学习模型的训练过程如下:
步骤1,针对当前时隙服务功能链的动作空间和迁移周期,根据当前深度神经网络参数决策出迁移动作,并计算得到当前状态的即时奖励和下一时隙服务功能链的动作空间;
步骤2,将当前时隙服务功能链的动作空间、迁移动作、即时奖励和下一时隙服务功能链的动作空间存储至重放缓存区;
步骤3,随机从重放缓存区中抽取数据输入至深度神经网络中进行训练,更新深度神经网络参数,修正做出的迁移动作;
步骤4,当计算得到的即时奖励完成收敛时,得到所述服务功能链的最佳迁移策略,结束模型训练。
在本步骤中,需要说明的是,在基于可满足性模理论对服务功能链动作空间进行 形式化,确定满足可满足性模理论约束条件的动作空间后,减少了一定规模的动作空间。但 是,随着SFC请求的增加,离散的行动空间将变得非常大。正如在MDP的定义中所解释的那 样,状态空间几乎是
Figure 712069DEST_PATH_IMAGE025
,随着SFC请求的增加也会非常大。因此,本发明提供了一种采用智 能SFC迁移算法来减少网络开销。具体的,通过对攻击事件的学习来选择可行的SFC部署,以 提高MTD的防御性能,同时减少网络开销。深度强化学习模型可以重复观察、行动和奖励,与 未知环境互动,以获得最佳策略,模型训练具体过程包括:针对当前时隙服务功能链的动作 空间和迁移周期,根据当前深度神经网络参数决策出迁移动作,并计算得到当前状态的即 时奖励和下一时隙服务功能链的动作空间;将当前时隙服务功能链的动作空间、迁移动作、 即时奖励和下一时隙服务功能链的动作空间存储至重放缓存区;随机从重放缓存区中抽取 数据输入至深度神经网络中进行训练,更新深度神经网络参数,修正做出的迁移动作;当计 算得到的即时奖励完成收敛时,得到所述服务功能链的最佳迁移策略,结束模型训练。可 见,本发明提供了一种智能驱动的服务功能链迁移方法,首先对MDP进行建模,然,将SFC请 求的到达或离开描述为状态转换。其次,为了从MDP的动作空间中去除非法动作,本发明将 可行的SFC部署表述为一个约束满足问题。最后,对于智能的SFC迁移,本发明设计了一种深 度强化学习DRL(Deep Reinforcement Learning)算法,可选的,称为基于模型的自适应近 似策略优化MA-PPO(model-based adaptive proximal policy optimization),其目的是 提高移动目标防御MTD(Moving Target Defense)的防御性能,同时减少网络开销。
本发明提供的服务功能链迁移方法,首先基于可满足性模理论对服务功能链动作空间进行形式化,确定满足所述可满足性模理论约束条件的动作空间,然后将所述可满足性模理论约束条件的动作空间输入至深度强化学习模型中,得到所述服务功能链的最佳迁移策略;其中,所述深度强化学习模型的训练过程如下:步骤1,针对当前时隙服务功能链的动作空间和迁移周期,根据当前深度神经网络参数决策出迁移动作,并计算得到当前状态的即时奖励和下一时隙服务功能链的动作空间;步骤2,将当前时隙服务功能链的动作空间、迁移动作、即时奖励和下一时隙服务功能链的动作空间存储至重放缓存区;步骤3,随机从重放缓存区中抽取数据输入至深度神经网络中进行训练,更新深度神经网络参数,修正做出的迁移动作;步骤4,当计算得到的即时奖励完成收敛时,得到所述服务功能链的最佳迁移策略,结束模型训练。由此可见,本发明首先通过对服务功能链动作空间进行形式化,去除了部分非法行动,其次基于深度强化学习对攻击事件进行学习来选择最优的服务功能链迁移策略,进一步缩减了服务功能链动作空间,减少了网络开销。
基于上述实施例的内容,在本实施例中,基于可满足性模理论对服务功能链动作空间进行形式化,确定满足所述可满足性模理论约束条件的动作空间,包括:
确定所述服务功能链动作空间,所述动作空间为虚拟功能实例在所述服务功能链底层路由上放置的第一总数;
基于可满足性模理论约束条件,计算虚拟功能实例在所述服务功能链路由上放置的第二总数,所述第二总数为满足所述可满足性模理论约束条件的动作空间。
在本实施例中,需要说明的是,本发明的目的是在MDP的行动空间中去除非法行 动,通过SMT对SFC迁移动作空间进行形式化。具体的,正式确定SFC迁移动作空间的过程有 两个阶段:正式确定底层路由,将SFC嵌入物理网络;正式确定VNF在SFC路由上的放置。然 后,使用定理检验器来解决约束满足问题。这个空间由所有可行的SFC部署组成,这些部署 满足多个网络约束。例如,首先计算出不同网络状态下所有可行的SFC路由。假设状态
Figure 507725DEST_PATH_IMAGE026
中 SFC路由的量化组合数为
Figure 711304DEST_PATH_IMAGE027
。然后,对于每个SFC请求,进一步计算相应的可行的VNF放置。 假设状态
Figure 726665DEST_PATH_IMAGE026
中的SFC请求数为Z,而一个SFC请求的路由有
Figure 805217DEST_PATH_IMAGE028
种可行VNFI放置,这也是MDP 中动作空间的规模。
基于上述实施例的内容,在本实施例中,所述可满足性模理论约束条件包括嵌入关系的可满足性模理论约束、中间件装置的可满足性模理论约束、服务质量的可满足性模理论约束、带宽的可满足性模理论约束、虚拟功能实例放置数量的可满足性模理论约束、预设引流顺序的可满足性模理论约束和负载满足的可满足性模理论约束中的一种或多种。
在本实施例中,需要说明的是,本发明考虑多种网络要求,可选的,包括嵌入关系的可满足性模理论约束、中间件装置的可满足性模理论约束、服务质量的可满足性模理论约束、带宽的可满足性模理论约束、虚拟功能实例放置数量的可满足性模理论约束、预设引流顺序的可满足性模理论约束和负载满足的可满足性模理论约束中的一种或多种。
基于上述实施例的内容,在本实施例中,在基于可满足性模理论对服务功能链动作空间进行形式化,确定满足所述可满足性模理论约束条件的动作空间前,还包括:
建立基于服务功能链部署的网络模型;
将所述基于服务功能链部署的网络模型转化为具有连续状态空间和动作空间的马尔科夫决策过程。
在本实施例中,需要说明的是,本发明通过MDP的模型来捕捉SFC迁移的动态。特别是,将网络状态定义为当前运行的SFC的组合,而状态转换为SFC请求的到达和离开。这样一来,动态的网络状态就可以持续地表达为MDP状态转换。
基于上述实施例的内容,在本实施例中,计算得到当前状态的即时奖励和下一时隙服务功能链的动作空间,包括:
根据下面第一公式计算当前状态的即时奖励,以及根据第二公式计算下一时隙服务功能链的动作空间,所述第一公式为:
Figure 222423DEST_PATH_IMAGE001
所述第二公式为:
Figure 95439DEST_PATH_IMAGE002
其中,
Figure 863674DEST_PATH_IMAGE003
为时间差分误差TD-误差(Temporal-difference error),
Figure 981803DEST_PATH_IMAGE029
时隙t的状 态动作值,α为0和1之间的学习率,
Figure 752051DEST_PATH_IMAGE005
为从状态
Figure 297433DEST_PATH_IMAGE006
移动到状态
Figure 287386DEST_PATH_IMAGE007
时得到的奖励值,
Figure 645423DEST_PATH_IMAGE008
为折 扣系数,
Figure 833959DEST_PATH_IMAGE009
为在动作空间上的期望最大奖励,
Figure 252040DEST_PATH_IMAGE007
为时隙
Figure 729289DEST_PATH_IMAGE010
的网络状态,
Figure 189220DEST_PATH_IMAGE011
为动作
Figure 934060DEST_PATH_IMAGE011
Figure 821245DEST_PATH_IMAGE006
为时隙
Figure 18745DEST_PATH_IMAGE012
的网络状态,
Figure 282368DEST_PATH_IMAGE013
为时隙t采取的动作。
基于上述实施例的内容,在本实施例中,针对当前时隙服务功能链的动作空间和迁移周期,根据当前深度神经网络参数决策出迁移动作,包括:
初始化所述当前时隙服务功能链的迁移计数器;
确定所述当前时隙服务功能链的迁移周期,并判断所述迁移计数器是否等于所述迁移周期,若是,则根据当前深度神经网络参数决策出迁移动作。
基于上述实施例的内容,在本实施例中,随机从重放缓存区中抽取数据输入至深度神经网络中进行训练,更新深度神经网络参数,修正做出的迁移动作,包括:
根据下面第三公式计算所述深度神经网络的策略梯度,以及根据第四公式计算所述深度神经网络的价值函数梯度;
根据所述策略梯度和所述价值函数梯度,更新所述深度神经网络参数,修正作出的迁移动作;
其中,所述第三公式为:
Figure 383179DEST_PATH_IMAGE014
所述第四公式为:
Figure 939800DEST_PATH_IMAGE015
其中,
Figure 391641DEST_PATH_IMAGE016
为策略函数,T为总时隙,
Figure 193375DEST_PATH_IMAGE017
为新旧策略下的概率之比,
Figure 647228DEST_PATH_IMAGE018
为在时隙t的估计优势,
Figure 938532DEST_PATH_IMAGE019
为控制修剪范围超参数,
Figure 313887DEST_PATH_IMAGE020
为评价函数,
Figure 716050DEST_PATH_IMAGE021
为策略梯 度网络输出值,
Figure 525874DEST_PATH_IMAGE022
为时间差分误差目标值,
Figure 689877DEST_PATH_IMAGE023
为时隙i的网络状态,
Figure 850731DEST_PATH_IMAGE024
为价值函数权重。
下面通过具体实施例进行说明:
实施例一:
在本实施例中,需要说明的是,现有技术中,为了应对虚拟资源静态分配给物理节点所产生的问题,MTD技术被提供来作为改变游戏规则的创新。MTD动态地调整网络属性,如资源分配机制或虚拟机的物理位置。例如,定期调整虚拟网络嵌入关系,以主动防御DDoS攻击,或将受保护的虚拟机从一个物理节点动态地迁移到另一个物理节点,这将避免共同驻留的侧信道攻击。然而,在MTD领域,仍然存在着三大挑战,这些挑战还没有被以前的工作完全解决。首先,由于SFC请求的随机到达和离开,网络状态通常表现出很大的变化,因此需要一个合适的模型来捕捉动态的网络状态转换。其次,传统的虚拟网络嵌入或虚拟机迁移的MTD技术不能直接应用于NFV架构,因为SFC请求有顺序要求,这意味着流量必须被引导穿过预定义的有序VNFI。第三,SFC迁移选择的盲目性,即对网络攻击造成的动态环境学习不足,对MTD技术的防御效益产生不利影响。
为了解决上述问题,本发明提供了一个智能驱动的服务功能链迁移方法。与现有的解决方案不同,本发明创新性地设计了一种基于DRL的动态SFC迁移方案,旨在避免攻击。值得注意的是,本发明提供了一个基于模型的自适应近似策略优化,而不是现有的DRL算法。特别的,本发明将网络状态定义为当前运行的SFC的组合,而状态转换为SFC请求的到达和离开。这样一来,动态的网络状态就可以持续地表达为MDP状态转换。2) 考虑到多种实际的网络要求,可行的SFC部署被表述为一个约束满足问题。目标是将非法动作从MDP的动作空间中移除。对于SFC的路由,本发明考虑嵌入关系、中间件设备、服务质量和带宽等网络约束。对于VNF的放置,本发明考虑了网络约束的数量、预定义的顺序和负载的满足。3)设计了一个扩展的DRL算法,以实现抗攻击的SFC迁移决策和基于模型的自适应迁移周期。本发明的目的是提高MTD的防御性能,同时减少网络开销。受益于基于模型的每个网络状态的发生率分析,在高概率的网络状态下,SFC迁移的冗余样本将在很大程度上被减少。
图2是本发明提供的服务功能链请求部署示意图,图3是本发明提供的服务功能链 请求状态转换示意图,图4是本发明提供的服务功能链动态迁移示意图。如图2至图4所示, 本发明首先引入NFV模型,建立NFV模型的具体过程此处不做详细介绍,其包括网络模型、威 胁模型和MDP模型。其中,针对MDP模型,假设时间被划分成等长的间隔,长度为
Figure 994267DEST_PATH_IMAGE030
,可以用 索引
Figure 422712DEST_PATH_IMAGE031
来表示不同的时隙。为了捕捉时变的网络状态,将SFC迁移表述为一个 马尔科夫决策过程,其主要特征总结如下:
网络状态集:网络状态取决于SFC请求的存在情况。将网络状态表示为一个多维向 量
Figure 259081DEST_PATH_IMAGE032
,其中
Figure 641652DEST_PATH_IMAGE033
表示系统中存在第
Figure 290677DEST_PATH_IMAGE034
个SFC请求,否 则
Figure 340673DEST_PATH_IMAGE035
。假设物理网络同时支持的SFC请求类型个数为
Figure 580899DEST_PATH_IMAGE036
,网络状态的总 数为
Figure 716345DEST_PATH_IMAGE037
,其中
Figure 201684DEST_PATH_IMAGE038
。因此,网络状态的集合可以表示为
Figure 628159DEST_PATH_IMAGE039
动作集合:SFC迁移的动作包含两个部分,一是SFC路由;二是 VNF放置,将把网络 状态
Figure 540751DEST_PATH_IMAGE040
在时隙
Figure 662029DEST_PATH_IMAGE041
的动作表示为一个多维向量
Figure 951059DEST_PATH_IMAGE042
。因此,其 中SFC路由的动作表示为
Figure 710067DEST_PATH_IMAGE043
,其中
Figure 354413DEST_PATH_IMAGE044
表示节点
Figure 198872DEST_PATH_IMAGE045
在时隙
Figure 26014DEST_PATH_IMAGE041
被 选入SFC路由,否则
Figure 403644DEST_PATH_IMAGE046
。VNF放置的动作表示为
Figure 658038DEST_PATH_IMAGE047
,其中
Figure 989794DEST_PATH_IMAGE048
表示VNF被放置到节点
Figure 119162DEST_PATH_IMAGE045
上,否则
Figure 587183DEST_PATH_IMAGE049
。值得注意的是,动作的空间复杂度 为
Figure 42173DEST_PATH_IMAGE050
,随着SFC请求的数量呈指数增长。然而,上述空间中的大多数动作都是非法的,因为 它们不满足某些网络约束。假设可行的SFC部署总数为
Figure 595645DEST_PATH_IMAGE051
,动作集合表示为
Figure 764590DEST_PATH_IMAGE052
。对于每个网络状态,动作集将是不一样的。
状态转换:任何SFC请求的到达或离开被认为是网络管理器的一个状态转换。SFC 请求的到达遵循泊松分布,SFC存在的时间是指数分布。以三种类型的SFC请求为例,将SFC 请求分别表示为
Figure 851232DEST_PATH_IMAGE053
,
Figure 713009DEST_PATH_IMAGE054
Figure 19356DEST_PATH_IMAGE055
。所有的SFC请求都有到达率和离开率,它们分别定义为
Figure 490527DEST_PATH_IMAGE056
。当只有请求
Figure 933140DEST_PATH_IMAGE053
存在时,当前网络状态为
Figure 464354DEST_PATH_IMAGE057
。以类似的 方式,请求
Figure 257997DEST_PATH_IMAGE054
Figure 565482DEST_PATH_IMAGE055
分别为网络状态
Figure 626717DEST_PATH_IMAGE058
Figure 830296DEST_PATH_IMAGE059
。如果同时存在两个 SFC请求,这个条件将是一个新的状态。例如,网络状态
Figure 845656DEST_PATH_IMAGE060
由请求
Figure 924209DEST_PATH_IMAGE053
Figure 341415DEST_PATH_IMAGE054
组 成,网络状态
Figure 715895DEST_PATH_IMAGE061
Figure 717087DEST_PATH_IMAGE062
也类似。网络状态
Figure 569637DEST_PATH_IMAGE063
由所有SFC请 求组成。
奖励函数:为了准确评估防御性能,需要设计一个奖励函数生成带有奖励函数的最佳SFC迁移策略。在本发明中,为简单起见,在不丧失一般性的情况下,奖励函数定义如下。
Figure 605463DEST_PATH_IMAGE064
(1)
其中
Figure 311437DEST_PATH_IMAGE066
是一个系数,
Figure 967678DEST_PATH_IMAGE067
是攻击者在
Figure 359476DEST_PATH_IMAGE068
时隙的第
Figure 574294DEST_PATH_IMAGE069
个SFC请求
Figure 317122DEST_PATH_IMAGE070
中被破坏的节点 数,
Figure 777054DEST_PATH_IMAGE071
是一个正常数。这个奖励函数表明,如果SFC被成功攻击,奖励将承担一个与
Figure 521893DEST_PATH_IMAGE067
成线 性关系的负值。另一方面,如果SFC避免了攻击,奖励将是一个正常数。
在本实施例中,本发明考虑多种网络要求,如嵌入关系、中间件设备、QoS和带宽。 定义二进制任务变量
Figure 409078DEST_PATH_IMAGE072
,如果其值等于1则表示虚拟节点
Figure 630016DEST_PATH_IMAGE073
嵌入到物理节点
Figure 628059DEST_PATH_IMAGE074
中,否则 为0。类似地,如果变量
Figure 994450DEST_PATH_IMAGE075
的值等于1,则表示虚拟链路
Figure 285492DEST_PATH_IMAGE076
嵌入到物理链路
Figure 737333DEST_PATH_IMAGE077
中,否则为 0。在虚拟网络中,变量
Figure 539067DEST_PATH_IMAGE078
是节点的索引,变量
Figure 992919DEST_PATH_IMAGE079
是边的索引。在物理网络中,变量
Figure 487486DEST_PATH_IMAGE080
是节点的 索引,变量
Figure 659579DEST_PATH_IMAGE081
是边的索引。
假设第
Figure 999424DEST_PATH_IMAGE069
个到达的SFC通过
Figure 74828DEST_PATH_IMAGE082
个虚拟节点,为
Figure 238831DEST_PATH_IMAGE083
;通过
Figure 134106DEST_PATH_IMAGE084
条链 路,定义为
Figure 543221DEST_PATH_IMAGE085
。嵌入关系的可满足性模理论表示:
Figure 971666DEST_PATH_IMAGE086
(2)
Figure 987344DEST_PATH_IMAGE087
(3)
Figure 217523DEST_PATH_IMAGE088
(4)
Figure 593195DEST_PATH_IMAGE089
(5)
Figure 747151DEST_PATH_IMAGE090
(6)
公式(2)表示第
Figure 282486DEST_PATH_IMAGE069
个到达的SFC中的任何VNFI
Figure 70051DEST_PATH_IMAGE073
,必须嵌入到物理节点
Figure 829059DEST_PATH_IMAGE074
上。不 等式(3)表示可以将任何虚拟链接
Figure 411088DEST_PATH_IMAGE091
嵌入到多个物理链接中。另一方面,不等式(4)表示 在第
Figure 255547DEST_PATH_IMAGE069
个到达的SFC中,物理节点
Figure 348268DEST_PATH_IMAGE074
可能不携带任何虚拟节点
Figure 460319DEST_PATH_IMAGE073
。类似地,不等式(5)指示 物理链路
Figure 980293DEST_PATH_IMAGE077
可能不携带任何虚拟链路
Figure 46469DEST_PATH_IMAGE091
。等式(6)定义了变量
Figure 175837DEST_PATH_IMAGE072
Figure 909437DEST_PATH_IMAGE075
的值域。
中间件装置的可满足性模理论约束表示:
链式服务请求可能需要来自物理网络的某些专门服务(例如IPSec等)。通常,只有 某些组件可以提供这种请求的功能。该约束条件确保链式服务必须经过这样的专用物理节 点。假设
Figure 98848DEST_PATH_IMAGE092
是此类专用物理节点的集合,则第个链式服务请求的可满足性模理论约束如下 所示。
Figure 917899DEST_PATH_IMAGE093
(7)
这里,公式保证链式服务路由必须经过一些专门的物理节点。
服务质量的可满足性模理论约束表示:
为简单起见,本发明假设网络相对同构,其中跳数可以与网络延迟成比例。因此,QoS约束可以形式化为:
Figure 439065DEST_PATH_IMAGE094
(8)
其中
Figure 300842DEST_PATH_IMAGE095
是系统中虚拟链路
Figure 607190DEST_PATH_IMAGE091
的需求的可承受延迟阈值。对于整个系统可以 是相同的,对于链式服务请求可以是不同的。另外,本发明允许用更复杂的约束来定义有界 延迟。
带宽的可满足性模理论约束表示:
每个物理链路必须能够承载链式服务路由的流量负载。带宽约束形式化为:
Figure 78360DEST_PATH_IMAGE096
(9)
其中,
Figure 75625DEST_PATH_IMAGE097
表示虚拟链路
Figure 338110DEST_PATH_IMAGE091
嵌入物理节点
Figure 114436DEST_PATH_IMAGE077
时第
Figure 175671DEST_PATH_IMAGE069
个链式服务请求的带宽要 求,
Figure 379250DEST_PATH_IMAGE098
是虚拟链路带宽的最大阈值。
接下来考虑在SFC路由上放置VNFI。假定选择的第
Figure 394610DEST_PATH_IMAGE069
个到达的SFC的路由通过
Figure 207583DEST_PATH_IMAGE099
个 结点,并且具有定义为
Figure 624789DEST_PATH_IMAGE100
序列的
Figure 497805DEST_PATH_IMAGE101
个VNFI。本发明定义二进制赋值变量
Figure 462DEST_PATH_IMAGE102
,其值等于1表示VNFI
Figure 118591DEST_PATH_IMAGE103
位于虚拟节点
Figure 154417DEST_PATH_IMAGE104
上,否则 为0。变量
Figure 699799DEST_PATH_IMAGE105
Figure 424173DEST_PATH_IMAGE106
是虚拟节点或VNFI索引。
数量的可满足性模理论约束表示:
每个VNFI将只被放置在所选SFC路由中的一个虚拟节点上。这种可满足性模理论形式化描述为:
Figure 844528DEST_PATH_IMAGE107
(10)
这表明,某些VNFI可能被放置在同一个虚拟节点上。
预定义顺序的可满足性模理论约束表示:
需要引导流量以预定义的顺序穿过一系列指定的VNFI。可满足性模理论形式化描述为:
Figure 451144DEST_PATH_IMAGE108
(11)
由上可知,无论
Figure 122745DEST_PATH_IMAGE109
的值是多少,都必须满足上述不等式,以严格保证VNFI在虚拟节 点上的排列顺序。
负载满足的可满足性模理论约束表示:
每个物理节点都必须能够满足分配给它的VNFI的内存或CPU负载。这些约束被形式化为如下条件:
Figure 664323DEST_PATH_IMAGE110
(12)
Figure 516052DEST_PATH_IMAGE111
(13)
其中,
Figure 379021DEST_PATH_IMAGE112
表示当VNFI
Figure 437107DEST_PATH_IMAGE103
被放置在虚拟节点
Figure 325166DEST_PATH_IMAGE104
上的内存要求,
Figure 923638DEST_PATH_IMAGE113
表示当 VNFI
Figure 643070DEST_PATH_IMAGE103
被放置在虚拟节点
Figure 872057DEST_PATH_IMAGE104
上的CPU要求。
实施例二:
在本实施例中,本发明提供了一种基于模型的自适应近似策略优化(MA-PPO)算法。MA-PPO将通过对攻击事件的学习来选择可行的SFC部署,以提高MTD的防御性能,同时减少网络开销。
在得到
Figure 545615DEST_PATH_IMAGE114
之后,本发明可以通过对所有状态的详尽探索找到最优策略。然而, 在某些情况下,转移动态性在数学上是不可行的。当
Figure 649575DEST_PATH_IMAGE114
不可用时,RL是一种广泛使用 的算法来学习最优策略。Q-learning是一种无模型的RL算法,可以有效地评估状态-动作 值。
在本实施例中,需要说明的是,当DRL算法收敛时,在经验回放缓冲区中,高概率的网络状态的样本数量将非常大。一个样本代表了SFC迁移的一个动作,这将消耗网络资源。为了减少网络开销,同时保持DRL算法的收敛性,本发明提供了一个基于模型的自适应迁移周期,如算法1所示。
算法1:
1.设置参数
Figure 724978DEST_PATH_IMAGE115
Figure 124867DEST_PATH_IMAGE116
Figure 784256DEST_PATH_IMAGE117
2.计算
Figure 927792DEST_PATH_IMAGE118
3.设置基本迁移期
Figure 356237DEST_PATH_IMAGE119
4.for
Figure 192606DEST_PATH_IMAGE120
do
5.计算
Figure 840756DEST_PATH_IMAGE121
6.end for
7.
Figure 286519DEST_PATH_IMAGE122
8.for
Figure 70935DEST_PATH_IMAGE123
do
9.调整迁移期
Figure 78206DEST_PATH_IMAGE124
10.end for
11.返回
Figure 446608DEST_PATH_IMAGE125
首先设定参数和基本的SFC迁移周期(第1-3行)。然后,计算不同数量SFC的网络状态的概率(第4-6行)。接下来,将选择最小概率作为基线,并通过与最小概率的比较来调整迁移周期(第7-10行)。最后,将返回不同数量SFC的适应性迁移期(第11行)。
考虑到当SFC请求的种类增加时,状态空间和动作空间会非常大,本发明提供了一种基于深度强化学习PPO(Proximal Policy Optimization)的智能SFC迁移算法。与现有的PPO算法相比,本发明提供的MA-PPO与基于模型的自适应迁移周期相结合,将更适合于这种情况。
与一般PPO算法一样,优势函数在MA-PPO中也是必要的,用于计算策略梯度。优势函数可以表示为:
Figure 931947DEST_PATH_IMAGE126
其中,
Figure 170922DEST_PATH_IMAGE127
是由样本估计的动作-价值函数,
Figure 83514DEST_PATH_IMAGE128
是具有权重
Figure 440677DEST_PATH_IMAGE129
的状态- 价值函数的近似。广义优势估计采用
Figure 228242DEST_PATH_IMAGE130
步自展的线性组合来获得低偏差和低方差,表现为:
Figure 987251DEST_PATH_IMAGE131
其中
Figure 336324DEST_PATH_IMAGE132
用于调整方差和偏差之间的权衡,
Figure 679318DEST_PATH_IMAGE133
是TD误差,定义如下:
Figure 149669DEST_PATH_IMAGE134
其中,
Figure 669643DEST_PATH_IMAGE135
是介于0和1之间的折扣系数。
MA-PPO的伪代码显示在算法2中。首先对参数、重放缓冲区和DNN进行初始化(第1- 5行)。网络状态的迁移计数器被初始化为零(第6行)。然后,在当前的网络情况下,算法1被 用来提前确定每个网络状态的迁移期(第7行)。第8行开始了算法的主循环,它分为两个主 要部分。第一部分描述了通过与环境互动产生样本的算法(第9-26行)。迭代从初始网络状 态开始,直到
Figure 1398DEST_PATH_IMAGE136
个时隙之后,这被称为一个回合(第9-10行)。在每个回合中,SFC以
Figure 130766DEST_PATH_IMAGE137
的速度 到达,以
Figure 864367DEST_PATH_IMAGE138
的速度离开,这被认为是网络状态的转换(第11-12行)。如果迁移计数器等于迁 移周期,网络管理器将运行策略
Figure 289663DEST_PATH_IMAGE139
来选择迁移SFC的动作,然后观察受网络攻击影响的 奖励(第13-18行)。该状态转换的样本被存储到重放缓冲区,优势函数和价值函数由广义的 优势估计方法来估计(第19-23行)。第二部分描述了从样本中学习的算法。分别计算策略梯 度和价值函数梯度,并更新相应的参数(第28-31行)。最后,选择策略也将被更新(第33行)。
算法2:
1.设置参数
Figure 607250DEST_PATH_IMAGE132
Figure 41773DEST_PATH_IMAGE140
Figure 128416DEST_PATH_IMAGE141
2.设置批量大小
Figure 724613DEST_PATH_IMAGE136
和小批量大小
Figure 765381DEST_PATH_IMAGE142
3.初始化经验回放缓冲区
Figure 236552DEST_PATH_IMAGE143
4.随机初始化评价网络
Figure 944745DEST_PATH_IMAGE128
5.随机初始化演员网络
Figure 977423DEST_PATH_IMAGE144
与权重
Figure 4022DEST_PATH_IMAGE145
6.初始化迁移计数器
Figure 780349DEST_PATH_IMAGE146
为0
7.采用算法1确定每种网络状态的迁移周期
8.for
Figure 841583DEST_PATH_IMAGE147
do
9.for
Figure 45163DEST_PATH_IMAGE148
do
10.for
Figure 60523DEST_PATH_IMAGE149
do
11.SFC到达时是
Figure 670234DEST_PATH_IMAGE137
,离开时是
Figure 87440DEST_PATH_IMAGE138
12.获取当前状态
Figure 665183DEST_PATH_IMAGE150
13.
Figure 666375DEST_PATH_IMAGE151
14.if
Figure 784503DEST_PATH_IMAGE152
then
15.
Figure 852953DEST_PATH_IMAGE153
16.运行策略
Figure 896870DEST_PATH_IMAGE139
,选择动作
Figure 90086DEST_PATH_IMAGE154
17.执行SFC迁移
18.观察结果奖励
Figure 307178DEST_PATH_IMAGE155
19.收集
Figure 433397DEST_PATH_IMAGE156
20.存储到重放缓冲区
Figure 149680DEST_PATH_IMAGE157
21.计算TD误差
Figure 125464DEST_PATH_IMAGE158
22.
Figure 585396DEST_PATH_IMAGE159
23.估计值目标为
Figure 831700DEST_PATH_IMAGE160
24.end if
25.end for
26.end for
27.for
Figure 420682DEST_PATH_IMAGE161
do
28.
Figure 181965DEST_PATH_IMAGE162
29.通过
Figure 701981DEST_PATH_IMAGE163
更新
Figure 802792DEST_PATH_IMAGE145
30.
Figure 126457DEST_PATH_IMAGE164
31.通过
Figure 811254DEST_PATH_IMAGE165
更新
Figure 612988DEST_PATH_IMAGE129
32.end for
33.
Figure 568305DEST_PATH_IMAGE166
34.end for
下面对本发明提供的服务功能链迁移装置进行描述,下文描述的服务功能链迁移装置与上文描述的服务功能链迁移方法可相互对应参照。
如图5所示,本发明提供的一种服务功能链迁移装置,包括:
第一处理模块1,用于基于可满足性模理论对服务功能链动作空间进行形式化,确定满足所述可满足性模理论约束条件的动作空间;
第二处理模块2,用于将所述可满足性模理论约束条件的动作空间输入至深度强化学习模型中,得到所述服务功能链的最佳迁移策略;
其中,所述深度强化学习模型的训练过程如下:
针对当前时隙服务功能链的动作空间和迁移周期,根据当前深度神经网络参数决策出迁移动作,并计算得到当前状态的即时奖励和下一时隙服务功能链的动作空间;
将当前时隙服务功能链的动作空间、迁移动作、即时奖励和下一时隙服务功能链的动作空间存储至重放缓存区;
随机从重放缓存区中抽取数据输入至深度神经网络中进行训练,更新深度神经网络参数,修正做出的迁移动作;
当计算得到的即时奖励完成收敛时,得到所述服务功能链的最佳迁移策略,结束模型训练。
本发明提供的服务功能链迁移装置,首先基于可满足性模理论对服务功能链动作空间进行形式化,确定满足所述可满足性模理论约束条件的动作空间,然后将所述可满足性模理论约束条件的动作空间输入至深度强化学习模型中,得到所述服务功能链的最佳迁移策略;其中,所述深度强化学习模型的训练过程如下:步骤1,针对当前时隙服务功能链的动作空间和迁移周期,根据当前深度神经网络参数决策出迁移动作,并计算得到当前状态的即时奖励和下一时隙服务功能链的动作空间;步骤2,将当前时隙服务功能链的动作空间、迁移动作、即时奖励和下一时隙服务功能链的动作空间存储至重放缓存区;步骤3,随机从重放缓存区中抽取数据输入至深度神经网络中进行训练,更新深度神经网络参数,修正做出的迁移动作;步骤4,当计算得到的即时奖励完成收敛时,得到所述服务功能链的最佳迁移策略,结束模型训练。由此可见,本发明首先通过对服务功能链动作空间进行形式化,去除了部分非法行动,其次基于深度强化学习对攻击事件进行学习来选择最优的服务功能链迁移策略,进一步缩减了服务功能链动作空间,减少了网络开销。
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行服务功能链迁移方法,该方法包括:基于可满足性模理论对服务功能链动作空间进行形式化,确定满足所述可满足性模理论约束条件的动作空间;将所述可满足性模理论约束条件的动作空间输入至深度强化学习模型中,得到所述服务功能链的最佳迁移策略;其中,所述深度强化学习模型的训练过程如下:步骤1,针对当前时隙服务功能链的动作空间和迁移周期,根据当前深度神经网络参数决策出迁移动作,并计算得到当前状态的即时奖励和下一时隙服务功能链的动作空间;步骤2,将当前时隙服务功能链的动作空间、迁移动作、即时奖励和下一时隙服务功能链的动作空间存储至重放缓存区;步骤3,随机从重放缓存区中抽取数据输入至深度神经网络中进行训练,更新深度神经网络参数,修正做出的迁移动作;步骤4,当计算得到的即时奖励完成收敛时,得到所述服务功能链的最佳迁移策略,结束模型训练。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的服务功能链迁移方法,该方法包括:基于可满足性模理论对服务功能链动作空间进行形式化,确定满足所述可满足性模理论约束条件的动作空间;将所述可满足性模理论约束条件的动作空间输入至深度强化学习模型中,得到所述服务功能链的最佳迁移策略;其中,所述深度强化学习模型的训练过程如下:步骤1,针对当前时隙服务功能链的动作空间和迁移周期,根据当前深度神经网络参数决策出迁移动作,并计算得到当前状态的即时奖励和下一时隙服务功能链的动作空间;步骤2,将当前时隙服务功能链的动作空间、迁移动作、即时奖励和下一时隙服务功能链的动作空间存储至重放缓存区;步骤3,随机从重放缓存区中抽取数据输入至深度神经网络中进行训练,更新深度神经网络参数,修正做出的迁移动作;步骤4,当计算得到的即时奖励完成收敛时,得到所述服务功能链的最佳迁移策略,结束模型训练。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的服务功能链迁移方法,该方法包括:基于可满足性模理论对服务功能链动作空间进行形式化,确定满足所述可满足性模理论约束条件的动作空间;将所述可满足性模理论约束条件的动作空间输入至深度强化学习模型中,得到所述服务功能链的最佳迁移策略;其中,所述深度强化学习模型的训练过程如下:步骤1,针对当前时隙服务功能链的动作空间和迁移周期,根据当前深度神经网络参数决策出迁移动作,并计算得到当前状态的即时奖励和下一时隙服务功能链的动作空间;步骤2,将当前时隙服务功能链的动作空间、迁移动作、即时奖励和下一时隙服务功能链的动作空间存储至重放缓存区;步骤3,随机从重放缓存区中抽取数据输入至深度神经网络中进行训练,更新深度神经网络参数,修正做出的迁移动作;步骤4,当计算得到的即时奖励完成收敛时,得到所述服务功能链的最佳迁移策略,结束模型训练。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (7)

1.一种服务功能链迁移方法,其特征在于,包括:
基于可满足性模理论对服务功能链动作空间进行形式化,确定满足所述可满足性模理论约束条件的动作空间;
将所述可满足性模理论约束条件的动作空间输入至深度强化学习模型中,得到所述服务功能链的最佳迁移策略;
其中,所述深度强化学习模型的训练过程如下:
步骤1,针对当前时隙服务功能链的动作空间和自适应迁移周期,根据当前深度神经网络参数决策出迁移动作,并计算得到当前状态的即时奖励和下一时隙服务功能链的动作空间;
步骤2,将当前时隙服务功能链的动作空间、迁移动作、即时奖励和下一时隙服务功能链的动作空间存储至重放缓存区;
步骤3,随机从重放缓存区中抽取数据输入至深度神经网络中进行训练,更新深度神经网络参数,修正做出的迁移动作;
步骤4,当计算得到的即时奖励完成收敛时,得到所述服务功能链的最佳迁移策略,结束模型训练;
其中,基于可满足性模理论对服务功能链动作空间进行形式化,确定满足所述可满足性模理论约束条件的动作空间,包括:
确定所述服务功能链动作空间,所述动作空间为虚拟功能实例在所述服务功能链底层路由上放置的第一总数;
基于可满足性模理论约束条件,计算虚拟功能实例在所述服务功能链路由上放置的第二总数,所述第二总数为满足所述可满足性模理论约束条件的动作空间;
其中,所述可满足性模理论约束条件包括嵌入关系的可满足性模理论约束、中间件装置的可满足性模理论约束、服务质量的可满足性模理论约束、带宽的可满足性模理论约束、虚拟功能实例放置数量的可满足性模理论约束、预设引流顺序的可满足性模理论约束和负载满足的可满足性模理论约束中的一种或多种;
其中,针对当前时隙服务功能链的动作空间和自适应迁移周期,根据当前深度神经网络参数决策出迁移动作,包括:
初始化所述当前时隙服务功能链的迁移计数器;
确定所述当前时隙服务功能链的自适应迁移周期,并判断所述迁移计数器是否等于所述自适应迁移周期,若是,则根据当前深度神经网络参数决策出迁移动作;
其中,确定所述当前时隙服务功能链的自适应迁移周期,包括:
设置参数和基本服务功能链迁移周期;
计算不同数量服务功能链的网络状态的概率,并选择最小概率作为基线,通过与最小概率的比较来调整迁移周期。
2.根据权利要求1所述的服务功能链迁移方法,其特征在于,在基于可满足性模理论对服务功能链动作空间进行形式化,确定满足所述可满足性模理论约束条件的动作空间前,还包括:
建立基于服务功能链部署的网络模型;
将所述基于服务功能链部署的网络模型转化为具有连续状态空间和动作空间的马尔科夫决策过程。
3.根据权利要求1所述的服务功能链迁移方法,其特征在于,计算得到当前状态的即时奖励和下一时隙服务功能链的动作空间,包括:
根据下面第一公式计算当前状态的即时奖励,以及根据第二公式计算下一时隙服务功能链的动作空间,所述第一公式为:
Figure 505486DEST_PATH_IMAGE001
所述第二公式为:
Figure 827883DEST_PATH_IMAGE002
其中,
Figure 375539DEST_PATH_IMAGE003
为时间差分误差,
Figure 214795DEST_PATH_IMAGE004
时隙t的状态动作值,α为0和1之间的学习率,
Figure 455283DEST_PATH_IMAGE005
为从 状态
Figure 999397DEST_PATH_IMAGE006
移动到状态
Figure 350744DEST_PATH_IMAGE007
时得到的奖励值,
Figure 47435DEST_PATH_IMAGE008
为折扣系数,
Figure 193246DEST_PATH_IMAGE009
为在动作空间上的期望最大 奖励,
Figure 224656DEST_PATH_IMAGE007
为时隙
Figure 114115DEST_PATH_IMAGE010
的网络状态,
Figure 930892DEST_PATH_IMAGE011
为动作
Figure 513183DEST_PATH_IMAGE011
Figure 766310DEST_PATH_IMAGE012
为时隙
Figure 334826DEST_PATH_IMAGE013
的网络状态,
Figure 599585DEST_PATH_IMAGE014
为时隙t采取 的动作。
4.根据权利要求1所述的服务功能链迁移方法,其特征在于,随机从重放缓存区中抽取数据输入至深度神经网络中进行训练,更新深度神经网络参数,修正做出的迁移动作,包括:
根据下面第三公式计算所述深度神经网络的策略梯度,以及根据第四公式计算所述深度神经网络的价值函数梯度;
根据所述策略梯度和所述价值函数梯度,更新所述深度神经网络参数,修正作出的迁移动作;
其中,所述第三公式为:
Figure 211832DEST_PATH_IMAGE015
所述第四公式为:
Figure 971496DEST_PATH_IMAGE016
其中,
Figure 468336DEST_PATH_IMAGE017
为策略函数,T为总时隙,
Figure 977815DEST_PATH_IMAGE018
为新旧策略下的概率之比,
Figure 636330DEST_PATH_IMAGE019
为在时隙t 的估计优势,
Figure 880360DEST_PATH_IMAGE020
为控制修剪范围超参数,
Figure 915312DEST_PATH_IMAGE021
为评价函数,
Figure 810456DEST_PATH_IMAGE022
为策略梯度网络输出值,
Figure 639872DEST_PATH_IMAGE023
为时间差分误差目标值,
Figure 371198DEST_PATH_IMAGE024
为时隙i的网络状态,
Figure 68896DEST_PATH_IMAGE025
为价值函数权重。
5.一种服务功能链迁移装置,其特征在于,
第一处理模块,用于基于可满足性模理论对服务功能链动作空间进行形式化,确定满足所述可满足性模理论约束条件的动作空间;
第二处理模块,用于将所述可满足性模理论约束条件的动作空间输入至深度强化学习模型中,得到所述服务功能链的最佳迁移策略;
其中,所述深度强化学习模型的训练过程如下:
针对当前时隙服务功能链的动作空间和自适应迁移周期,根据当前深度神经网络参数决策出迁移动作,并计算得到当前状态的即时奖励和下一时隙服务功能链的动作空间;
将当前时隙服务功能链的动作空间、迁移动作、即时奖励和下一时隙服务功能链的动作空间存储至重放缓存区;
随机从重放缓存区中抽取数据输入至深度神经网络中进行训练,更新深度神经网络参数,修正做出的迁移动作;
当计算得到的即时奖励完成收敛时,得到所述服务功能链的最佳迁移策略,结束模型训练;
其中,所述第一处理模块,具体用于:
确定所述服务功能链动作空间,所述动作空间为虚拟功能实例在所述服务功能链底层路由上放置的第一总数;
基于可满足性模理论约束条件,计算虚拟功能实例在所述服务功能链路由上放置的第二总数,所述第二总数为满足所述可满足性模理论约束条件的动作空间;
其中,所述可满足性模理论约束条件包括嵌入关系的可满足性模理论约束、中间件装置的可满足性模理论约束、服务质量的可满足性模理论约束、带宽的可满足性模理论约束、虚拟功能实例放置数量的可满足性模理论约束、预设引流顺序的可满足性模理论约束和负载满足的可满足性模理论约束中的一种或多种;
其中,所述第二处理模块还具体用于:
初始化所述当前时隙服务功能链的迁移计数器;
确定所述当前时隙服务功能链的自适应迁移周期,并判断所述迁移计数器是否等于所述自适应迁移周期,若是,则根据当前深度神经网络参数决策出迁移动作;
其中,所述第二处理模块还具体用于:
设置参数和基本服务功能链迁移周期;
计算不同数量服务功能链的网络状态的概率,并选择最小概率作为基线,通过与最小概率的比较来调整迁移周期。
6.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-4任一项所述服务功能链迁移方法的步骤。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-4任一项所述服务功能链迁移方法的步骤。
CN202111472838.7A 2021-12-06 2021-12-06 一种服务功能链迁移方法、装置、电子设备及存储介质 Active CN113904937B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111472838.7A CN113904937B (zh) 2021-12-06 2021-12-06 一种服务功能链迁移方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111472838.7A CN113904937B (zh) 2021-12-06 2021-12-06 一种服务功能链迁移方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113904937A CN113904937A (zh) 2022-01-07
CN113904937B true CN113904937B (zh) 2022-03-29

Family

ID=79195340

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111472838.7A Active CN113904937B (zh) 2021-12-06 2021-12-06 一种服务功能链迁移方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113904937B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115361288B (zh) * 2022-08-19 2023-06-23 南京工业大学 一种空天地一体化场景下的服务功能链动态重构方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110602062A (zh) * 2019-08-27 2019-12-20 北京邮电大学 基于强化学习的网络主动防御方法及装置
CN113098714A (zh) * 2021-03-29 2021-07-09 南京邮电大学 一种基于深度强化学习的低时延网络切片的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110602062A (zh) * 2019-08-27 2019-12-20 北京邮电大学 基于强化学习的网络主动防御方法及装置
CN113098714A (zh) * 2021-03-29 2021-07-09 南京邮电大学 一种基于深度强化学习的低时延网络切片的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《运营商网络中基于深度强化学习的服务功能链迁移机制》;陈卓等;《电子与信息学报》;20200930;全文 *
基于深度强化学习的虚拟网络功能部署及迁移优化算法研究;贺兰钦;《中国优秀硕士学位论文全文数据库》;20210228;第3-4章 *

Also Published As

Publication number Publication date
CN113904937A (zh) 2022-01-07

Similar Documents

Publication Publication Date Title
US11461145B2 (en) Building neural networks for resource allocation for iterative workloads using reinforcement learning
CN110995858B (zh) 一种基于深度q网络的边缘网络请求调度决策方法
CN110460465B (zh) 面向移动边缘计算的服务功能链部署方法
CN110401675B (zh) 一种传感云环境下不确定性DDoS攻击防御方法
US9769268B2 (en) Systems and methods for consensus protocol selection based on delay analysis
Abdel-Basset et al. Federated threat-hunting approach for microservice-based industrial cyber-physical system
Rivetti et al. Load-aware shedding in stream processing systems
CN111314235B (zh) 一种基于虚拟网络功能资源需求预测的网络延时优化方法
US11150999B2 (en) Method, device, and computer program product for scheduling backup jobs
CN110247795B (zh) 一种基于意图的云网资源服务链编排方法及系统
CN113904937B (zh) 一种服务功能链迁移方法、装置、电子设备及存储介质
Soualah et al. An efficient algorithm for virtual network function placement and chaining
Cai et al. SARM: service function chain active reconfiguration mechanism based on load and demand prediction
van Leeuwen et al. CoCoA: A non-iterative approach to a local search (A) DCOP solver
GR1010062B (el) Συνεχης μερισμος δικτυου σε ενα κυψελοειδες δικτυο επικοινωνιων 5g μεσω ενος αλγοριθμου βαθεως ντετερμινιστικης βαθμιδας πολιτικης με καθυστερηση
EP2884453A1 (en) A computer implemented method, a system and computer program product for partitioning a graph representative of a communication network
Zhang et al. Towards attack-resistant service function chain migration: A model-based adaptive proximal policy optimization approach
Garg et al. Heuristic and reinforcement learning algorithms for dynamic service placement on mobile edge cloud
Hirayama et al. Sparse regression model-based relearning architecture for shortening learning time in traffic prediction
JP2020003860A (ja) 学習システム、処理装置、処理方法、およびプログラム
CN115220818A (zh) 基于深度强化学习的实时依赖型任务卸载方法
CN113608830A (zh) 基于故障预测的vnf迁移方法及装置
Talebi et al. ACEP: an adaptive strategy for proactive and elastic processing of complex events
Singh et al. Exact analysis of the state-dependent polling model
CN112199153A (zh) 一种虚拟网络功能vnf实例部署方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant