CN115361288B - 一种空天地一体化场景下的服务功能链动态重构方法 - Google Patents

一种空天地一体化场景下的服务功能链动态重构方法 Download PDF

Info

Publication number
CN115361288B
CN115361288B CN202211002471.7A CN202211002471A CN115361288B CN 115361288 B CN115361288 B CN 115361288B CN 202211002471 A CN202211002471 A CN 202211002471A CN 115361288 B CN115361288 B CN 115361288B
Authority
CN
China
Prior art keywords
node
sfc
network
migration
instance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211002471.7A
Other languages
English (en)
Other versions
CN115361288A (zh
Inventor
孙永亮
陈沁柔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Tech University
Original Assignee
Nanjing Tech University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Tech University filed Critical Nanjing Tech University
Priority to CN202211002471.7A priority Critical patent/CN115361288B/zh
Publication of CN115361288A publication Critical patent/CN115361288A/zh
Application granted granted Critical
Publication of CN115361288B publication Critical patent/CN115361288B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0823Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability
    • H04L41/0833Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability for reduction of network energy consumption
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/1851Systems using a satellite or space-based relay
    • H04B7/18519Operations control, administration or maintenance
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0893Assignment of logical groups to network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/12Discovery or management of network topologies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Astronomy & Astrophysics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种空天地一体化场景下的服务功能链动态重构方法。本发明首先将需要迁移的VNF实例寻找目标节点的过程建模为马尔可夫决策过程,然后,提出基于近端策略优化的深度强化学习框架的服务功能链动态重构方法。为了更好地提取可用资源与资源需求的特征,在神经网络中加入了注意力机制,并利用mask操作过滤无法满足问题约束的动作。本发明提高了服务功能链重构成功率,并维持了较低的迁移能耗。

Description

一种空天地一体化场景下的服务功能链动态重构方法
技术领域
本发明涉及移动通信技术领域,具体是一种空天地一体化场景下的服务功能链动态重构方法。
背景技术
空天地一体化网络(Space-Air-Ground Integrated Networks,SAGIN)作为一个新兴的网络架构,具有很高的研究价值。SAGIN架构的设计思想是地基网络为基础,天基网络和空基网络作为补充和延伸,为广域空间范围内的各种网络应用提供泛在、智能、协同、高效的信息保障,因此被广泛认为是未来无线通信系统的发展方向。
网络切片作为未来通信的一个关键技术,其核心在于针对不同应用场景的差异执行定制化服务。网络切片通过网络虚拟化(Network Function Virtualization,NFV)技术在通用的物理平台上构建多个专用的、互相隔离的虚拟网络,每一个虚拟网络可以看作是一条服务功能链(Service Function Chain,SFC),一条服务功能链由多个有序的虚拟网络功能(Virtualized Network Function,VNF)组成。
为了适应未来通信场景,需要考虑到在空天地一体化网络中部署SFC的情况,由于卫星与空中节点可以作为地面节点的覆盖范围、计算资源与通信资源的扩展与补充,将会在服务范围、服务质量(Quality of Service,QoS)等方面更好地为用户提供服务。但是,由于在SAGIN场景中,包含卫星节点与空中节点的网络拓扑会随着时间动态变化,当仍有未结束的SFC使用某个即将离开服务范围的节点上所部署的VNF实例,将会由于节点的离开导致部分SFC中断,除此之外,也存在多条SFC共享一个VNF实例的情况,因此一个实例的迁移将会影响多条SFC的QoS。
综上所述,节点的动态移动给SFC的持续服务带来了巨大的挑战。如果不能根据节点的动态离开对VNF实例进行迁移,则会导致SFC中断,用户无法继续享受服务,运营商的收益也会减少。
目前,已经有一些通过优化不同目标对VNF实例进行迁移的研究。传统基于启发式算法的方法通常在实例资源需求变化或负载不均衡的情况下,逐一计算实例迁移到每个候选节点所引起的负载和时延变化来选择最合适的迁移目标节点,进行VNF实例的迁移,从而均衡负载或减少时延。但是基于启发式算法的大部分研究都没有着眼于节点不可用的情况,并且面对复杂多变的网络环境难以获得理想效果,因此利用人工智能方法实现服务功能链重构更为高效、可行。
发明内容
针对现有技术的上述不足,本发明提供的一种空天地一体化场景下的服务功能链动态重构方法解决了网络拓扑动态性导致服务功能链无法持续服务的问题。
为实现上述目的,本发明采用如下的技术方案:
1)读取当前网络状态和已经离开可见范围的卫星节点上需要迁移的VNF实例的资源需求;
2)将为需要迁移的VNF实例寻找目标节点的过程建模为马尔可夫决策过程(Markov Decision Process,MDP);
3)提出基于近端策略优化(Proximal Policy Optimization,PPO)的服务功能链动态重构方法解决步骤2)中提出的MDP问题,从而最大化可持续服务的服务功能链数量、最小化时延变化率与网络能耗开销;
4)根据步骤3)中得出的目标节点迁移每个待迁移实例,并更新受影响的SFC的部署决策与时延。
进一步地,步骤2)中,将为第i个需要迁移的VNF实例寻找目标节点的过程建模为马尔可夫决策过程,该MDP的状态
Figure BSA00002818925000000214
可表示为/>
Figure BSA0000281892500000021
其中,/>
Figure BSA0000281892500000022
表示网络中每个节点的可用资源,/>
Figure BSA0000281892500000023
表示网络中每条链路的可用带宽,/>
Figure BSA0000281892500000024
表示网络的时延矩阵,/>
Figure BSA0000281892500000025
表示当前需要迁移的实例的资源需求,/>
Figure BSA0000281892500000026
表示使用了当前需要迁移的实例的SFC集合,/>
Figure BSA0000281892500000027
表示当前时刻每个节点的持续可用时间。每个实例迁移后获得的奖励r由四个参数决定:
Figure BSA0000281892500000028
第一个参数
Figure BSA0000281892500000029
是成功迁移的SFC数量。只有节点资源和带宽资源约束都满足的情况下,才视为SFC成功迁移。
第二个参数
Figure BSA00002818925000000210
是SFC的平均时延变化率奖励。dq表示迁移前SFC q的时延,/>
Figure BSA00002818925000000211
表示迁移后q的时延,q迁移前后的时延的比值为/>
Figure BSA00002818925000000212
由于迁移后的时延小于迁移前的时延可以提升用户体验,新时延等于旧时延可以维持用户体验不变,因此对drq乘以权重系数,以减小迁移后的时延从而获得更大的奖励值:
Figure BSA00002818925000000213
其中,k1、k2为设置的时延变化率权重系数,并且k1>k2。将变换后的值相加求平均,得:
Figure BSA0000281892500000031
其中,Qn(t)表示t时刻使用了已经离开可见范围的卫星节点n上所部署实例的SFC集合,|Qn(t)|表示Qn(t)中SFC的数量。
第三个参数
Figure BSA0000281892500000032
是能耗开销奖励。单个卫星迁移所有实例后引起的能耗开销为Etotal(t),由于高奖励值表示决策合理,而低能耗开销对于环境的负面影响小,并且可以节省网络运营商的运营费用,因此能耗开销奖励与能耗开销成反比关系:
Figure BSA0000281892500000033
其中,k3为设置的能耗开销权重系数。
第四个参数
Figure BSA00002818925000000311
是SFC的完成数量奖励。判断在SFC的剩余服务时间内,所迁移的目标节点是否无需再次迁移就可以完成该SFC所需的服务。如果可以完成,那么会给予奖励值:
Figure BSA0000281892500000034
其中,若SFC q在剩余服务时间内无需再次迁移VNF,τq值为1,否则值为0。k4为设置的SFC完成数量权重系数。
进一步地,在步骤3)中,基于PPO的深度强化学习框架中使用了三层全连接的神经网络提取连续状态空间中的特征,并且在神经网络结构中加入了注意力机制。由于网络节点的可用资源
Figure BSA0000281892500000035
与需要迁移的VNF实例的资源需求/>
Figure BSA0000281892500000036
密切相关,因此将/>
Figure BSA0000281892500000037
与/>
Figure BSA0000281892500000038
在经过一层全连接网络后得到的特征向量作为参与注意力机制运算的特征向量x,注意力机制的计算过程如下:
(1)将特征向量x分别与Wq、Wk、Wv三个权重矩阵相乘,得到yq、yk、yv三个向量;
(2)点乘yq、yk向量,并将计算得出的矩阵除以yk向量的维度
Figure BSA0000281892500000039
(3)对步骤(2)中得到的矩阵使用softmax归一化,并点乘yv向量,得到线性加权后的输出向量,计算过程如下:
Figure BSA00002818925000000310
进一步地,在步骤3)中,在基于PPO的深度强化学习框架中加入了mask操作以过滤无法满足约束的动作。由于卫星的移动性,有一部分卫星节点无法提供服务,并且由于节点资源限制,对于有不同资源需求的待迁移实例,一部分节点也没有充足的资源作为迁移的目标节点,因此将这两类节点的动作的选择概率调整为0。使用mask向量maski(t)记录在t时刻迁移第i个实例时需要过滤的动作,maski(t)可由下式计算:
maski(t)=un(t)+rni. (7)
在maski(t)中,处于可见范围且可用资源满足第i个实例需求的节点所对应的元素为0,否则为1。
un(t)表示t时刻节点的可见性向量,计算公式如下:
un(t)=~(ρ1(t),ρ2(t),...,ρ|N|(t)), (8)
其中,ρi(t),i=1,2,...,|N|表示第i个节点在t时刻是否处于服务区域范围内,N为网络中的节点集合,|N|表示节点的总数。若节点处于服务区域范围内,则值为1,否则值为0。~表示取反操作,该向量将t时刻不在可见范围内的卫星所对应的元素设置为1。
rni表示迁移第i个实例时节点的资源可用性向量,计算公式如下:
Figure BSA0000281892500000041
其中,cui,j,j=1,2,...,|N|表示第j个节点的可用资源是否满足第i个待迁移实例的资源需求,若不满足资源需求,则值为1,否则值为0。
最后,将神经网络的输出向量y减去mask向量与一个正数的乘积,从而使得y中需要过滤的动作的值远远小于其他动作的值,并使用softmax归一化得出每个节点的选择概率。
与现有技术相比,本发明具有的有益效果:
适用场景广泛。本发明以卫星节点的移动离开为问题背景,进行服务功能链的动态重构,在此基础上也适用于地面网络中节点故障、资源不足所导致的服务功能链的动态重构问题。
重构成功率高。本发明通过收集环境历史数据对智能体进行强化学习,引入注意力机制让智能体更好地学习到节点可用资源与VNF资源请求之间的关系,并且奖励函数中的参数包括成功重构的服务功能链数量,使得智能体在获取网络状态与服务功能链信息后可以智能地做出决策,使得重构成功率最大化。
网络能耗低。本发明通过收集环境历史数据对智能体进行强化学习,奖励函数中的参数包括重构引起的网络能耗,使得智能体倾向于选择重构服务功能链时能耗更低的节点。
附图说明
图1为本发明的应用场景示意图;
图2为本发明的算法流程图;
图3为仿真场景下的服务功能链重构成功率;
图4为仿真场景下的网络能耗开销。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
参见图2,一种空天地一体化场景下的服务功能链重构方法,包括以下步骤:
1)读取当前网络状态和已经离开可见范围的卫星节点上的各个VNF实例的资源需求。
获取当前时刻的网络拓扑结构G=(N,L),由于空天地一体化场景包含有地面节点与卫星节点,在本场景中将地面节点的集合表示为NG,卫星节点的集合表示为NS,地面链路的集合表示为LG,星间链路的集合表示为LS,星地链路的集合表示为LSG,因此,N=NG∪NS,L=LG∪LS∪LSG。将时间跨度T分为时间片,卫星的移动性使得不同时刻的网络拓扑结构产生变化,但在一个时间片内,拓扑结构保持不变。而为SFC计算迁移决策并分配资源的耗时很短,因此在迁移VNF实例时,网络拓扑是静态的。
t时刻需要迁移实例的卫星集合为NM(t),表示当前时刻集合中的卫星已经离开可见区域,并且在t时刻仍旧有SFC在使用卫星上的VNF实例,该集合为NS的子集。
2)将为各个需要迁移的VNF实例寻找目标节点的过程建模为马尔可夫决策过程。
在t时刻,对于NM(t)中的每一个节点n,都有至少1个VNF实例需要寻找迁移的目标节点。在为第i个实例做迁移决策时,系统状态只与迁移第i-1个实例的系统状态有关,因此对于为n上所有的实例寻找对应迁移目标节点的过程可以看作是一个马尔科夫决策过程。马尔科夫决策过程可以使用一个四元组
Figure BSA0000281892500000051
来表示,S表示状态空间,/>
Figure BSA0000281892500000052
表示动作空间,/>
Figure BSA0000281892500000053
表示状态转移概率,/>
Figure BSA0000281892500000054
表示奖励函数。
对于迁移第i个实例时的状态si,使用一个向量
Figure BSA0000281892500000055
来描述。其中,/>
Figure BSA0000281892500000056
表示网络中每个节点的可用资源,具体分为/>
Figure BSA0000281892500000057
和/>
Figure BSA0000281892500000058
分别表示节点的可用CPU资源、RAM资源以及节点中部署的实例i的可用处理资源,/>
Figure BSA0000281892500000059
表示网络中每条链路的可用带宽,/>
Figure BSA00002818925000000510
表示网络链路的传播时延矩阵,/>
Figure BSA00002818925000000511
表示实例i的资源需求,/>
Figure BSA00002818925000000512
表示使用了实例i的SFC集合,/>
Figure BSA00002818925000000513
表示当前时刻每个节点的持续可用时间,卫星节点的持续时间为剩余可见时间与/>
Figure BSA00002818925000000514
中SFC的最长剩余持续时间的比值,若该比值大于1,则将其值限制为1。地面节点由于其位置固定,因此持续时间为1。
每一个动作a表示物理网络中的一个节点。首先将网络中所有节点按序标号,首先为地面节点标号,然后为卫星节点标号,每个节点的标号都是整数值。
Figure BSA0000281892500000061
其中
Figure BSA0000281892500000062
表示对应标号的物理节点,ai表示实例i迁移的目标节点。
当在状态si下,选择了动作时ai,对应的状态转移概率表示为P(si+1|si,ai),由于确定了迁移的节点,因此转移到对应状态的概率为1,其他状态的概率为0。
每个实例迁移后获得的奖励r由四个参数决定:
Figure BSA0000281892500000063
第一个参数
Figure BSA0000281892500000064
是成功迁移的SFC数量。只有节点资源和带宽资源约束都满足的情况下,才视为SFC成功迁移;
第二个参数
Figure BSA0000281892500000065
是SFC的平均时延变化率奖励。dq表示迁移前SFC q的时延,/>
Figure BSA0000281892500000066
表示迁移后q的时延,q迁移前后的时延的比值为/>
Figure BSA0000281892500000067
由于迁移后的时延小于迁移前的时延可以提升用户体验,新时延等于旧时延可以维持用户体验不变,因此对drq乘以权重系数,使得SFC迁移后的时延越小获得的奖励值越大:
Figure BSA0000281892500000068
其中,k1、k2为设置的时延变化率权重系数,并且k1>k2,分别取值200和10;将变换后的值相加求平均,得:
Figure BSA0000281892500000069
其中,|Qn(t)|表示t时刻使用了已经离开可见范围的卫星节点n上所部署实例的SFC的数量。
第三个参数
Figure BSA00002818925000000610
是能耗开销奖励。单个卫星迁移所有实例后引起的能耗开销为Etotal(t).由于高奖励值表示决策合理,而低能耗开销对于环境的负面影响小,并且可以节省网络运营商的运营费用,因此能耗开销奖励与能耗开销成反比关系:
Figure BSA00002818925000000611
其中,k3为设置的能耗开销权重系数,取值4000。
第四个参数
Figure BSA00002818925000000612
是SFC的完成数量奖励。判断在SFC的剩余服务时间内,所迁移的目标节点是否无需再次迁移就可以完成该SFC所需的服务。如果可以完成,那么会给予奖励值:
Figure BSA0000281892500000071
其中,若SFC q在剩余服务时间内无需再次迁移VNF,τq值为1,否则值为0。k4为设置的SFC完成数量权重系数,取值20。
3)提出基于PPO的深度强化学习框架的服务功能链动态重构方法解决上述MDP问题,从而最大化可持续服务的服务功能链数量、最小化时延变化率与网络能耗开销。
网络模型使用了三层全连接的神经网络提取连续状态空间中的特征,并且在神经网络结构中加入了注意力机制。由于网络节点的可用资源
Figure BSA0000281892500000072
与需要迁移的VNF实例的资源需求/>
Figure BSA0000281892500000073
关系密切,因此将/>
Figure BSA0000281892500000074
与/>
Figure BSA0000281892500000075
在经过一层全连接网络后得到的特征向量按照资源类型分为x1、x2和x3,分别作为参与注意力机制运算的特征向量xi,注意力机制的计算过程如下:
(1)将特征向量xi分别与Wq、Wk、Wv三个权重矩阵相乘,得到yq、yk、yv三个向量;
(2)点乘yq、yk向量,并将计算得出的矩阵除以
Figure BSA0000281892500000076
其中,dimk表示yk向量的维度;
(3)对步骤(2)中得到的矩阵使用softmax归一化,并点乘yv向量,得到线性加权后的输出向量:
Figure BSA0000281892500000077
本实施例中,具体计算过程如下:
将状态中的
Figure BSA0000281892500000078
分为/>
Figure BSA0000281892500000079
与/>
Figure BSA00002818925000000710
分为/>
Figure BSA00002818925000000711
然后将/>
Figure BSA00002818925000000712
和/>
Figure BSA00002818925000000713
拼接成x1,将/>
Figure BSA00002818925000000714
和/>
Figure BSA00002818925000000715
拼接成x2,将/>
Figure BSA00002818925000000716
和/>
Figure BSA00002818925000000717
拼接成x3。xi,i=1,2,3分别作为参与注意力计算的特征向量得出输出向量yi,i=1,2,3。最后,拼接输出向量y1、y2与y3,再与状态中其他进行线性变化后的特征拼接,输入网络的下一层隐藏层。
然后,使用mask向量maski(t)记录在t时刻迁移第i个实例时需要过滤的动作,maski(t)可由下式计算:
maski(t)=un(t)+rmi. (7)
在maski(t)中,处于可见范围且可用资源满足第i个实例需求的节点所对应的元素为0,否则为1。
un(t)表示t时刻节点的可见性向量,计算公式如下:
un(t)=~(ρ1(t),ρ2(t),...,ρ|N|(t)), (8)
其中,ρi(t),i=1,2,...,|N|表示第i个节点在t时刻是否处于服务区域范围内,N为网络中的节点集合,|N|表示节点的总数。若节点处于服务区域范围内,则值为1,否则值为0。~表示取反操作,该向量将t时刻不在可见范围内的卫星所对应的元素设置为1。
rni表示迁移第i个实例时节点的资源可用性向量,计算公式如下:
rni=(cui,1,cui,2,...,cui,|N|), (9)
其中,cui,j,j=1,2,...,|N|表示第j个节点的可用资源是否满足第i个待迁移实例的资源需求,若不满足资源需求,则值为1,否则值为0。
最后,将神经网络的输出向量y减去mask向量与100000的乘积,从而使得y中需要过滤的动作的值远远小于其他动作的值,并使用softmax归一化得出每个节点的选择概率。
4)根据步骤3)中得出的目标节点对每个待迁移实例进行迁移,每个目标节点为需要迁移的VNF实例分配其需要的资源,修改受影响的SFC中VNF请求的部署节点,重映射物理链路,并更新受影响的SFC的时延。
实施例的参数设置参见表1。
表1
Figure BSA0000281892500000081
实验设置16000秒的仿真时间,在仿真时间内,卫星的拓扑会产生变化。请求到达所服从的泊松分布的λ分别设置为0.02、0.04、0.06、0.08和0.10,也就是每100秒服务请求出现的平均次数分别为2、4、6、8、10。
由图3看出,在不同的泊松强度下,本算法的实例迁移使得SFC成功继续服务的次数占比高于贪婪算法,在不同的泊松强度下维持着75%至100%的成功率。
由图4看出,在维持高SFC成功重构率的情况下,本算法一直保持着较低的迁移能耗开销,在每100时间单位的请求平均数量为2时能耗开销为141W,并且随着服务请求到达的频率增加,能耗会降低。

Claims (4)

1.一种空天地一体化场景下的服务功能链动态重构方法,其特征在于,包括以下步骤:
1)读取当前网络状态和已经离开可见范围的卫星节点上需要迁移的虚拟网络功能(Virtual Network Function,VNF)实例的资源需求;
2)将为需要迁移的VNF实例寻找目标节点的过程建模为马尔可夫决策过程(MarkovDecision Process,MDP);
3)提出基于近端策略优化(Proximal Policy Optimization,PPO)的深度强化学习框架的服务功能链动态重构算法解决步骤2)中提出的MDP问题,从而最大化可持续服务的服务功能链(Service Function Chain,SFC)数量、最小化时延变化率与网络能耗开销;
4)根据步骤3)中得出的目标节点对每个待迁移实例进行迁移,并更新受影响的SFC的部署决策与时延。
2.根据权利要求1所述的一种空天地一体化场景下的服务功能链动态重构方法,其特征在于,步骤2)中,将为各个需要迁移的VNF实例寻找目标节点的过程建模为马尔可夫决策过程,该MDP的状态si∈S可表示为
Figure FSA0000281892490000011
其中,/>
Figure FSA0000281892490000012
表示网络中每个节点的可用资源,/>
Figure FSA0000281892490000013
表示网络中每条链路的可用带宽,/>
Figure FSA0000281892490000014
表示网络的时延矩阵,/>
Figure FSA0000281892490000015
表示当前需要迁移的实例的资源需求,/>
Figure FSA0000281892490000016
表示使用了当前需要迁移的实例的SFC集合,/>
Figure FSA0000281892490000017
表示当前时刻每个节点的持续可用时间,每个实例迁移后获得的奖励r由四个参数决定:
Figure FSA0000281892490000018
第一个参数
Figure FSA0000281892490000019
是成功迁移的SFC数量,只有节点资源和带宽资源约束都满足的情况下,才视为SFC成功迁移;
第二个参数
Figure FSA00002818924900000110
是SFC的平均时延变化率奖励,dq表示迁移前SFC q的时延,/>
Figure FSA00002818924900000111
表示迁移后q的时延,q迁移前后的时延的比值为/>
Figure FSA00002818924900000112
由于迁移后的时延小于迁移前的时延可以提升用户体验,新时延等于旧时延可以维持用户体验不变,因此对drq乘以权重系数,以减小迁移后的时延从而获得更大的奖励值:
Figure FSA00002818924900000113
其中,k1、k2为设置的时延变化率权重系数,并且k1>k2,将变换后的值相加求平均,得:
Figure FSA00002818924900000114
其中,Qn(t)表示t时刻使用了已经离开可见范围的卫星节点n上所部署实例的SFC集合,|Qn(t)|表示Qn(t)中SFC的数量;
第三个参数
Figure FSA0000281892490000021
是能耗开销奖励,单个卫星迁移所有实例后引起的能耗开销为Etotal(t),由于高奖励值表示决策合理,而低能耗开销对于环境的负面影响小,并且可以节省网络运营商的运营费用,因此能耗开销奖励与能耗开销成反比关系:
Figure FSA0000281892490000022
其中,k3为设置的能耗开销权重系数;
第四个参数
Figure FSA00002818924900000210
是SFC的完成数量奖励,判断在SFC的剩余服务时间内,所迁移的目标节点是否无需再次迁移就可以完成该SFC所需的服务,如果可以完成,那么会给予奖励值:
Figure FSA0000281892490000023
其中,若SFC q在剩余服务时间内无需再次迁移VNF,τq值为1,否则值为0,k4为设置的SFC完成数量权重系数。
3.根据权利要求1所述的一种空天地一体化场景下的服务功能链动态重构方法,其特征在于,步骤3)中,基于PPO的强化学习框架中使用了三层全连接的神经网络提取连续状态空间中的特征,并且在神经网络结构中加入了注意力机制,由于网络节点的可用资源
Figure FSA0000281892490000024
与需要迁移的VNF实例的资源需求/>
Figure FSA0000281892490000025
密切相关,因此将/>
Figure FSA0000281892490000026
与/>
Figure FSA0000281892490000027
在经过一层全连接网络后得到的特征向量作为参与注意力机制运算的特征向量x,注意力机制的计算过程如下:
(1)将特征向量x分别与Wq、Wk、Wv三个权重矩阵相乘,得到yq、yk、yv三个向量;
(2)点乘yq、yk向量,并将计算得出的矩阵除以yk向量的维度
Figure FSA0000281892490000028
(3)对步骤(2)中得到的矩阵使用softmax归一化,并点乘yv向量,得到线性加权后的输出向量,计算过程如下:
Figure FSA0000281892490000029
4.根据权利要求1所述的一种空天地一体化场景下的服务功能链动态重构方法,其特征在于,步骤3)中,在基于PPO的强化学习框架中加入了mask操作以过滤无法满足约束的动作;由于卫星的移动性,有一部分卫星节点无法提供服务,并且由于节点资源限制,对于有不同资源需求的待迁移实例,一部分节点也没有充足的资源作为迁移的目标节点,因此将这两类节点的动作的选择概率调整为0,使用mask向量maski(t)记录在t时刻迁移第i个实例时需要过滤的动作,maski(t)可由下式计算:
maski(t)=un(t)+rni. (7)
在maski(t)中,处于可见范围且可用资源满足第i个实例需求的节点所对应的元素为0,否则为1;
un(t)表示t时刻节点的可见性向量,计算公式如下:
un(t)=~(ρ1(t),ρ2(t),...,ρ|N|(t)), (8)
其中,ρi(t),i=1,2,...,|N|表示第i个节点在t时刻是否处于服务区域范围内,N为网络中的节点集合,|N|表示节点的总数,若节点处于服务区域范围内,则值为1,否则值为0,~表示取反操作,该向量将t时刻不在可见范围内的卫星所对应的元素设置为1;
rni表示迁移第i个实例时节点的资源可用性向量,计算公式如下:
rni=(cui,1,cui,2,...,cui,|N|), (9)
其中,cui,j,j=1,2,...,|N|表示第j个节点的可用资源是否满足第i个待迁移实例的资源需求,若不满足资源需求,则值为1,否则值为0;
最后,将神经网络的输出向量y减去mask向量与一个正数的乘积,从而使得y中需要过滤的动作的值远远小于其他动作的值,并使用softmax归一化得出每个节点的选择概率。
CN202211002471.7A 2022-08-19 2022-08-19 一种空天地一体化场景下的服务功能链动态重构方法 Active CN115361288B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211002471.7A CN115361288B (zh) 2022-08-19 2022-08-19 一种空天地一体化场景下的服务功能链动态重构方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211002471.7A CN115361288B (zh) 2022-08-19 2022-08-19 一种空天地一体化场景下的服务功能链动态重构方法

Publications (2)

Publication Number Publication Date
CN115361288A CN115361288A (zh) 2022-11-18
CN115361288B true CN115361288B (zh) 2023-06-23

Family

ID=84001734

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211002471.7A Active CN115361288B (zh) 2022-08-19 2022-08-19 一种空天地一体化场景下的服务功能链动态重构方法

Country Status (1)

Country Link
CN (1) CN115361288B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110275758A (zh) * 2019-05-09 2019-09-24 重庆邮电大学 一种虚拟网络功能智能迁移方法
CN111093203A (zh) * 2019-12-30 2020-05-01 重庆邮电大学 一种基于环境感知的服务功能链低成本智能部署方法
CN113490254A (zh) * 2021-08-11 2021-10-08 重庆邮电大学 一种基于联邦学习双向gru资源需求预测的vnf迁移方法
CN113904937A (zh) * 2021-12-06 2022-01-07 北京邮电大学 一种服务功能链迁移方法、装置、电子设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018178033A1 (en) * 2017-03-27 2018-10-04 British Telecommunications Public Limited Company Virtualised network function deployment

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110275758A (zh) * 2019-05-09 2019-09-24 重庆邮电大学 一种虚拟网络功能智能迁移方法
CN111093203A (zh) * 2019-12-30 2020-05-01 重庆邮电大学 一种基于环境感知的服务功能链低成本智能部署方法
CN113490254A (zh) * 2021-08-11 2021-10-08 重庆邮电大学 一种基于联邦学习双向gru资源需求预测的vnf迁移方法
CN113904937A (zh) * 2021-12-06 2022-01-07 北京邮电大学 一种服务功能链迁移方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
天地一体化网络多维虚拟资源管理;陈丹阳;西安电子科技大学硕士学位论文;全文 *

Also Published As

Publication number Publication date
CN115361288A (zh) 2022-11-18

Similar Documents

Publication Publication Date Title
CN111835827B (zh) 物联网边缘计算任务卸载方法及系统
Wei et al. Joint optimization of caching, computing, and radio resources for fog-enabled IoT using natural actor–critic deep reinforcement learning
CN112118601B (zh) 一种减少6g数字孪生边缘计算网络任务卸载延迟的方法
CN113794494B (zh) 一种面向低轨卫星网络的边缘计算系统及计算卸载优化方法
CN113098714B (zh) 基于强化学习的低时延网络切片方法
CN110427261A (zh) 一种基于深度蒙特卡洛树搜索的边缘计算任务分配方法
WO2021036414A1 (zh) 一种低轨移动卫星星座下星地下行链路同频干扰预测方法
CN115659803A (zh) 一种无人机孪生网络映射误差情况下计算任务智能卸载方法
Huang et al. An overview of intelligent wireless communications using deep reinforcement learning
CN113590232B (zh) 一种基于数字孪生的中继边缘网络任务卸载方法
Alsuhli et al. Mobility load management in cellular networks: A deep reinforcement learning approach
Yang et al. Deep reinforcement learning based wireless network optimization: A comparative study
CN116489708B (zh) 面向元宇宙的云边端协同的移动边缘计算任务卸载方法
CN116321293A (zh) 基于多智能体强化学习的边缘计算卸载和资源分配方法
CN113676357B (zh) 面向电力物联网中边缘数据处理的决策方法及其应用
CN115361288B (zh) 一种空天地一体化场景下的服务功能链动态重构方法
Peng et al. Hmm-lstm for proactive traffic prediction in 6g wireless networks
CN117395687A (zh) 一种星地融合网络节点资源部署方法、系统及电子设备
Zhang et al. On-device intelligence for 5g ran: Knowledge transfer and federated learning enabled ue-centric traffic steering
CN115361453B (zh) 一种面向边缘服务网络的负载公平卸载与迁移方法
CN115865168A (zh) 一种低轨星座中基于强化学习的星地测控链路规划方法
Lei Artificial intelligence empowered traffic control for Internet of Things with mobile edge computing
Qi et al. Edge-edge Collaboration Based Micro-service Deployment in Edge Computing Networks
Zhuang et al. When multi-access edge computing meets multi-area intelligent reflecting surface: A multi-agent reinforcement learning approach
CN113572647A (zh) 一种基于强化学习的区块链-边缘计算联合系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant