CN116614394A - 一种基于多目标深度强化学习的服务功能链放置方法 - Google Patents

一种基于多目标深度强化学习的服务功能链放置方法 Download PDF

Info

Publication number
CN116614394A
CN116614394A CN202310550450.7A CN202310550450A CN116614394A CN 116614394 A CN116614394 A CN 116614394A CN 202310550450 A CN202310550450 A CN 202310550450A CN 116614394 A CN116614394 A CN 116614394A
Authority
CN
China
Prior art keywords
weight
network
sub
function
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310550450.7A
Other languages
English (en)
Inventor
邢焕来
蒲雨彤
肖智文
王心汉
冯力
张新有
滕飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Jiaotong University
Original Assignee
Southwest Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Jiaotong University filed Critical Southwest Jiaotong University
Priority to CN202310550450.7A priority Critical patent/CN116614394A/zh
Publication of CN116614394A publication Critical patent/CN116614394A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/40Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using virtualisation of network functions or resources, e.g. SDN or NFV entities
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于多目标深度强化学习的服务功能链放置方法,具体为:生成需要放置的服务功能链实例以及用户服务需求;将用户服务需求映射为子问题,并为每个优化指标分配权重偏好;判断权重偏好是否在以往时间步出现,检索当前权重偏好对应的问题最优神经网络模型;否则,初始化当前权重偏好下的神经网络模型;获取当前物理网络环境信息输入时空编码器中进行信息编码;将编码信息输入分布式强化学习智能体中,智能体神经网络进行决策计算并生成决策函数;保存并更新当前权重下的神经网络模型参数,执行分布式强化学习中所有智能体的联合决策;服务功能链放置任务完成。本发明提高了在不同动态网络环境下放置服务功能链的资源分配能力。

Description

一种基于多目标深度强化学习的服务功能链放置方法
技术领域
本发明属于动态网络环境资源分配技术,尤其涉及一种基于多目标深度强化学习的服务功能链放置方法。
背景技术
网络功能虚拟化(NFV)是一种能快速灵活地满足5G业务的服务质量(QoS)需求的技术。它将网络服务分解为虚拟网络功能(VNF)序列,并串联为服务功能链(SFC)。在网络虚拟化基础设施上部署SFC所需的最佳资源分配,并满足用户QoS需求,被定义为SFC放置问题。
针对移动边缘计算中的SFC放置问题,目前的研究仍未给出充分有效的解决方案,导致资源浪费。现有方法主要分为两类,一类是单目标优化方法,指仅考虑一个准则(如时延),建模简单但适用场景受限;另一类是多目标优化方法,指考虑多个冲突或影响的准则(如时延和网络拥塞),建模复杂但适用场景广泛。然而,多目标优化问题的建模与求解都面临巨大挑战,主要是因为网络中的节点与服务数量的增加,导致模型的可扩展性降低,求解最优解变得复杂。
为了解决多目标问题,现有方法主要有两类:一类是基于进化算法或启发式算法,这类方法在高维或连续的空间上受限,计算开销大,而且难以适应动态环境;另一类是深度强化学习(DRL)算法,这类方法能够有效利用环境信息和反馈,通过探索和利用的权衡来更新策略,通过神经网络处理空间的迭代。此类多目标DRL方法是目前研究的主流,学者们对其进行了各种改进,主要有两个方向:一是通过新兴的机器学习模型改进,例如,Zhang等人[1]提出了一种用Transformer模型对输入DRL智能体的状态信息进行编码的架构;二是通过增加DRL智能体的数量并重新定义智能体间的交互方式进行改进,例如,Wang等人[2]提出了一种名为MRPDeep的分布式架构,为每个智能体分配一个优化目标。
现有技术只考虑单目标优化,为对服务功能链放置进行多目标问题建模。而多目标问题建模更贴合实际应用场景。未将多种改进方法进行结合,例如将新兴的机器学习技术与分布式的强化学习结合。此外,在SFC放置问题上应用DRL进行多目标优化,还需解决以下三个挑战:1)如何减少不同权重偏好对智能体训练的干扰;2)如何充分挖掘网络数据中的时空相关性;3)如何提高算法框架的普适性。
参考文献:
[1]Zhang K,Lin X,Li M.Transformer-Based Reinforcement Learning forPickup and Delivery Problems With Late Penalties[J].IEEE Transactions onIntelligent Transportation Systems,2022,23(12):24649-24661.
[2]Wang Q,Liu J,Liu C,et al.MPRdeep:Multi-Objective Joint OptimalNode Positioning and Resource Allocation for FANETs with Deep Reinforcementlearning[C]//2021IEEE 46th Conference on Local Computer Networks(LCN).IEEE,2021:315-318.
[3]Chen Y.Convolutional neural network for sentence classification[D].University of Waterloo,2015.
[4]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[J].Advances in neural information processing systems,2017,30.
[5]Chung J,Gulcehre C,Cho K H,et al.Empirical evaluation of gatedrecurrent neural networks on sequence modeling[J].arXiv preprint arXiv:1412.3555,2014.
发明内容
针对上述问题,本发明提供一种基于多目标深度强化学习的服务功能链放置方法。
本发明的一种基于多目标深度强化学习的服务功能链放置方法,包括以下步骤:
步骤1:生成需要放置的服务功能链SFC实例,以及用户服务需求。
步骤2:同权重预训练:将用户服务需求映射为子问题,并为每个优化指标分配一个权重偏好;根据分配好的权重偏好组合,在历史训练记录中寻找是否存在当前权重已训练的情况;如果已训练,则直接抽取当前权重组合在上一时间的最优神经网络模型;否则,初始化当前权重组合的神经网络模型。
步骤3:获取当前物理网络环境信息。
步骤4:时空编码:将获取的环境信息输入时空编码器中进行信息编码。
步骤5:分布式强化学习:将编码后的信息作为状态输入DDRL-STE智能体中,智能体神经网络进行决策计算,并生成决策函数;保存并更新当前权重下的神经网络模型参数,执行DDRL-STE中所有智能体的联合决策。
步骤6:服务功能链SFC放置任务完成。
上述同权重预训练具体为:
将不同的服务功能链SFC定义为多个具有不同权重的子问题I,用字符i∈[1,|I|]来表示第i类权重组合的子问题;其中,每个子问题都被建模为神经网络,通过θi来表示其网络参数,而则表示求得的最优子问题。
首先,将任务映射为不同权重的子问题i;接着,对在训练过的神经网络库中检索是否存在预训练神经网络参数/>如果存在,则直接加载/>继续训练;如果不存在,则初始化当前时间步下的网络参数θi,k,t用于训练;最后,在子问题i的序列决策全部完成后,将能够获得最大长期期望累积奖励LTECR的网络模型/>进行存储。
进一步的,时空编码采用时空编码器(STE,Spatio-Temporal Encoder)。
时空编码器STE的输入:对于每个SFCs的放置子问题,将所有的服务请求集合表示为其中/>表示为总服务请求集合中第r条需要放置的SFC属于SFC类别中的第s类并且映射为第i类权重组合的子问题;而每个服务请求由VNFs组成,即/> 其中/>表示第i类权重组合的子问题中第s类SFC中的第o个VNF;在时间步t下t∈[1,|T|],物理网络中节点资源集合表示为/>n∈[1,|N|];同样地,链路资源集合表示为Bt={B1,t,...,Bl,t},l∈[1,|L|];在时间步t-1时,放置VNF的物理节点表示为nt-1;STE的输入Xt定义如下:
时空编码器STE的结构设计:STE的结构分为三层,分别是一维卷积神经网络层、Transformer编码层和门控循环单元层。
1)一维卷积神经网络层:使用一维卷积神经网络层保留Xt时序结构特征的同时降低训练参数量与计算量;经过两层一维卷积层后的输出OCt定义如公式(2)所示,其中σ为ReLU激活函数,b1和b2为偏差,和/>为两个可学习权重矩阵。
2)Transformer编码层:采用Transformer编码器,实现输入序列的并行计算和全位置信息处理,提高模型训练效率;经过Transformer编码层后的输出OEt定义如公式(3)所示,其中LayerMH为多头注意力函数层,LayerFF为前馈网络函数层。
OEt=LayerFF(LayerMH(OCt)+OCt)+LayerMH(OCt) (3)
3)门控循环单元层:用门控机制调整编码序列位置权重,用其隐藏状态ht为Transformer编码器的输出提供更加紧凑高效的特征;其中ht的更新如公式(4)所示,为可学习权重矩阵,z为更新门控信号;经过门控循环单元层后的输出OGt定义如公式(5)所示;
OGt=GRU(OEt,ht-1) (5)
时空编码器STE的输出:STE输出X′t的维度与输入Xt的维度完全相同,即
分布式强化学习包括多目标马尔可夫决策过程的制定和分布式强化学习结构。
多目标马尔可夫决策过程:
一个多目标马尔可夫决策过程MOMDP用元组表示为其中/>表示状态空间,/>表示动作空间,/>表示状态转移概率矩阵,/>为奖励函数合集,/>表示权重偏好空间,f表示将策略π映射为标量值的函数。
1)状态:状态是所有智能体能够感知的物理网络信息与网络服务需求的集合,经过STE编码后的状态信息Xt′作为智能体的输入信息,即当时间步为t时输入智能体的状态信息/>可以表示为/>
2)动作:面对连续动态变化的网络状态,将动作定义为离散的;当前时间步t下,被决策用来放置VNF/>的物理网络基础设施节点nt,记为动作at,/>其定义如公式(7)所示。
3)奖励:是所有智能体的奖励函数集合;在状态/>时采用动作at,智能体会通过与网络环境的交互来获取奖励/> 奖励值的大小用来评估动作是否值得选择;这里将奖励值设置为负,奖励/>包括两个部分,第一部分是关于VNF放置合法性的奖励,第二部分是关于VNF放置时产生的消耗的奖励;针对放置的合法性奖励,记为/>在放置前需要判断物理网络节点nt中的剩余资源/>是否满足当前VNF的请求资源,以及(nt-1,nt)节点间链路的剩余带宽资源/>是否满足SFC的请求资源,如果两者均满足,则表示当前动作at是合法的,奖励值为0;否则将奖励值/>设置为极小值,终止当前VNF的放置动作,并将之前SFC/>中已经放置的VNF/>释放,表示为请求拒绝;如果动作at是合法的,则需要进一步计算放置中资源消耗的奖励,即优化目标的消耗,这一部分的奖励会根据智能体的不同而产生变化,具体来说,包含的智能体具有不同的优化目标,根据前文定义的优化目标,分别是端到端时延Dtotal与网络拥塞率Ures,其将奖励值/>分别是/>和/>其定义如公式(8)所示。
智能体获取的奖励值定义如公式(9)所示;
4)策略更新:在MOMDP中,策略是一个特定的状态到动作的映射智能体通过与相应的环境交互来学习最优策略,以获得LTECR。
策略π的行动值函数用表示,指t时在状态/>下次采取行动at的值,其定义如公式(10)所示,遵循策略π的预期回报。
将权重组合和经验/>一起存入智能体的经验池中,其中的Q网络用来近似优化目标k的Q函数,状态/>下优化目标k的Q值向量表示为/>其定义如公式(11)所示,其中/>为其偏好权重。
对于Q函数的更新,如公式(12)所定义,α为步长标量,为目标Q函数,其定义如公式(13)所示,其中θt和θt′分别表示Q值函数的网络参数权重与目标Q值函数的网络参数权重;
分布式强化学习结构:
分布式强化学习结构中设置了k个智能体,考虑了两个优化目标,端到端时延与网络拥塞率,即k∈[0,1];整个分布式结构的设计有两个核心,分别是Q值与动作的重映射,动态权重机制与多样性经验回放。
1)Q值与动作的重映射:
采用了z-score标准化方法对进行标准化,其定义如公式(14)所示,其中,μ代表Q值向量/>的平均值,σ则表示标准差,其定义如公式(15)(16)所示。
2)动态权重机制与多样性经验回放:
将不同服务请求的任务映射为具有不同权重的SFC放置子问题i,并对其分配特定的权重组合权重组合中的值加权和为1,权重组合中的值/>代表了当前子问题i中用户对不同优化目标k的偏好程度,对于联合的Q值向量,其定义如公式(17)所示。
智能体通过ε-greedy策略来选择动作,其定义如公式(18)所示。
其中prob.是概率的简写形式,ε,ε∈[0,1]是随着时间步长的随机探索和退火概率。
本发明的有益技术效果为:
本发明提出了同权重预训练方法,利用前一步的优化结果作为下一步的初始条件,降低了权重变化的干扰;设计了序列时空编码机制,提取服务请求与网络资源信息的关系;采用了分布式的深度强化学习结构,每个智能体只观测一个目标,优化相对独立,动态适应网络与服务请求;提高了在不同动态网络环境下放置服务功能链的资源分配能力。
附图说明
图1为本发明基于多目标深度强化学习的服务功能链放置方法流程图。
图2为本发明整体概念图。
图3为同权重预训练机制的概念流程图。
图4为序列时空编码机制结构图。
图5为智能体内部结构图。
具体实施方式
下面结合附图和具体实施方法对本发明做进一步详细说明。
本发明的一种基于多目标深度强化学习的服务功能链放置方法流程图如图1所示,包括以下步骤:
步骤1:生成需要放置的服务功能链SFC实例,以及用户服务需求(如低时延低花费、低时延高花费等)。
步骤2:同权重预训练:将用户服务需求映射为子问题,并为每个优化指标(时延、开销、负载均衡等)分配一个权重偏好;根据分配好的权重偏好组合,在历史训练记录中寻找是否存在当前权重已训练的情况;如果已训练,则直接抽取当前权重组合在上一时间的最优神经网络模型;否则,初始化当前权重组合的神经网络模型。
步骤3:获取当前物理网络环境信息。
步骤4:时空编码:将获取的环境信息输入时空编码器中进行信息编码。
步骤5:分布式强化学习:将编码后的信息作为状态输入DDRL-STE智能体中,智能体神经网络进行决策计算,并生成决策函数;保存并更新当前权重下的神经网络模型参数,执行DDRL-STE中所有智能体的联合决策。
步骤6:服务功能链SFC放置任务完成。
本发明的包含3个核心设计,分别是同权重预训练机制、时空编码器(STE)结构、分布式强化学习结构。整体概念图如图2所示。
同权重预训练机制:
采用标量化的方法将不同的服务功能链SFC定义为多个具有不同权重的子问题I,用字符i∈[1,|I|]来表示第i类权重组合的子问题;其中,每个子问题都被建模为神经网络,通过θi来表示其网络参数,而则表示求得的最优子问题。
首先,将任务映射为不同权重的子问题i;接着,对在训练过的神经网络库中检索是否存在预训练神经网络参数/>如果存在,则直接加载/>继续训练;如果不存在,则初始化当前时间步下的网络参数θi,k,t用于训练;最后,在子问题i的序列决策全部完成后,将能够获得最大长期期望累积奖励LTECR的网络模型/>进行存储,流程如图3所示。
时空编码器STE。将从STE网络的输入、结构、输出三个方面进行详细阐述。
时空编码器STE的输入:对于每个SFCs的放置子问题,将所有的服务请求集合表示为其中/>表示为总服务请求集合中第r条需要放置的SFC属于SFC类别中的第s类并且映射为第i类权重组合的子问题;而每个服务请求由VNFs组成,即/> 其中/>表示第i类权重组合的子问题中第s类SFC中的第o个VNF;在时间步t下t∈[1,|T|],物理网络中节点资源集合表示为/>n∈[1,|N|];同样地,链路资源集合表示为Bt={B1,t,...,Bl,t},l∈[1,|L|];在时间步t-1时,放置VNF的物理节点表示为nt-1;STE的输入Xt定义如下:
时空编码器STE的结构设计:STE的结构分为三层,分别是一维卷积神经网络层、Transformer编码层和门控循环单元层,如图4所示,下面将进行详细介绍。
1)一维卷积神经网络层:受到文献TextCNN[3]启发,使用一维卷积神经网络层保留Xt时序结构特征的同时降低训练参数量与计算量;经过两层一维卷积层后的输出OCt定义如公式(2)所示,其中σ为ReLU激活函数,b1和b2为偏差,和/>为两个可学习权重矩阵。
2)Transformer编码层:受到Transformer中的多头注意力机制[4]的启发,采用Transformer编码器,实现输入序列的并行计算和全位置信息处理,提高模型训练效率;经过Transformer编码层后的输出OEt定义如公式(3)所示,其中LayerMH为多头注意力函数层,LayerFF为前馈网络函数层,为了公式符号简洁,省略了偏差的表达。
OEt=LayerFF(LayerMH(OCt)+OCt)+LayerMH(OCt) (3)
3)门控循环单元层:参考GRU[5],用门控机制调整编码序列位置权重,用其隐藏状态ht为Transformer编码器的输出提供更加紧凑高效的特征;其中ht的更新如公式(4)所示,为可学习权重矩阵,z为更新门控信号;经过门控循环单元层后的输出OGt定义如公式(5)所示;
OGt=GRU(OEt,ht-1) (5)
时空编码器STE的输出:STE输出Xt′的维度与输入Xt的维度完全相同,即
分布式强化学习包括多目标马尔可夫决策过程的制定和分布式强化学习结构。
多目标马尔可夫决策过程:
一个多目标马尔可夫决策过程MOMDP用元组表示为其中/>表示状态空间,/>表示动作空间,/>表示状态转移概率矩阵,/>为奖励函数合集,/>表示权重偏好空间,f表示将策略π映射为标量值的函数。
1)状态(state):状态是所有智能体能够感知的物理网络信息与网络服务需求的集合,经过STE编码后的状态信息X′t作为智能体的输入信息,即当时间步为t时输入智能体的状态信息/>可以表示为/>
2)动作(action):面对连续动态变化的网络状态,将动作定义为离散的;当前时间步t下,被决策用来放置VNF/>的物理网络基础设施节点nt,记为动作at,/>其定义如公式(7)所示。
顺序执行决策能够保证SFC中的VNF能够有序被放置在物理网络中。状态信息/>经过STE处理后作为智能体神经网络的输入,每个智能体结构是基于D3QN结构设计的,能够更好区分不同状态重要性与不同动作的相对优劣的同时,减少DQN网络中Q值过高估计的问题,保证学习的稳定性。输出则是与动作维度相同的Q值向量,表示可能采取的动作的概率估值大小。
3)奖励(reward):是所有智能体的奖励函数集合;在状态/>时采用动作at,智能体会通过与网络环境的交互来获取奖励/> 奖励值的大小用来评估动作是否值得选择;为了让智能体进行有效学习,从而获得最大长期期望累积奖励(LTECR),本文将奖励值设置为负。奖励/>包括两个部分,第一部分是关于VNF放置合法性的奖励,第二部分是关于VNF放置时产生的消耗的奖励;针对放置的合法性奖励,记为/>在放置前需要判断物理网络节点nt中的剩余资源/>是否满足当前VNF的请求资源,以及(nt-1,nt)节点间链路的剩余带宽资源/>是否满足SFC的请求资源,如果两者均满足,则表示当前动作at是合法的,奖励值为0;否则将奖励值/>设置为极小值,终止当前VNF的放置动作,并将之前SFC/>中已经放置的VNF/>释放,表示为请求拒绝;如果动作at是合法的,则需要进一步计算放置中资源消耗的奖励,即优化目标的消耗,这一部分的奖励会根据智能体的不同而产生变化,具体来说,包含的智能体具有不同的优化目标,根据前文定义的优化目标,分别是端到端时延Dtotal与网络拥塞率Ures,其将奖励值/>分别是/>和/>其定义如公式(8)所示。
智能体获取的奖励值定义如公式(9)所示;
4)策略更新(policy update):在MOMDP中,策略是一个特定的状态到动作的映射智能体通过与相应的环境交互来学习最优策略,以获得LTECR。
策略π的行动值函数用表示,指t时在状态/>下次采取行动at的值,其定义如公式(10)所示,遵循策略π的预期回报。
每个智能体结构是基于D3QN设计的,由于Q函数会因频繁变化的权重值而在训练时难以收敛。将权重组合和经验/>一起存入智能体的经验池中,其中的Q网络用来近似优化目标k的Q函数,状态/>下优化目标k的Q值向量表示为/>其定义如公式(11)所示,其中/>为其偏好权重。
对于Q函数的更新,如公式(12)所定义,α为步长标量,为目标Q函数,其定义如公式(13)所示,其中θt和θ′t分别表示Q值函数的网络参数权重与目标Q值函数的网络参数权重。这种随机梯度下降的更新方式,使得/>一直朝着/>的目标方向进行更新,降低标准DQN中出现的高估值可能。
分布式强化学习结构:
分布式强化学习结构中设置了k个智能体(智能体内部结构如图5所示),考虑了两个优化目标,端到端时延与网络拥塞率,即k∈[0,1];整个分布式结构的设计有两个核心,分别是Q值与动作的重映射,动态权重机制与多样性经验回放。
1)Q值与动作的重映射:
为了找到优化目标矛盾前提下的最优动作at,本文没有通过某一个Q值函数的映射来找到最优动作。采用了z-score标准化方法对进行标准化,其定义如公式(14)所示,其中,μ代表Q值向量/>的平均值,σ则表示标准差,其定义如公式(15)(16)所示。
2)动态权重机制与多样性经验回放:
由于网络环境与服务需求的动态变化,在对SFC放置的多目标问题进行建模时不能使用单一的权重组合来对每个智能体输出的进行取舍。将不同服务请求的任务映射为具有不同权重的SFC放置子问题i,并对其分配特定的权重组合/>权重组合中的值加权和为1,权重组合中的值/>代表了当前子问题i中用户对不同优化目标k的偏好程度,对于联合的Q值向量,其定义如公式(17)所示。
智能体通过ε-greedy策略来选择动作,其定义如公式(18)所示。
其中prob.是概率的简写形式,ε,ε∈[0,1]是随着时间步长的随机探索和退火概率。

Claims (4)

1.一种基于多目标深度强化学习的服务功能链放置方法,其特征在于,包括以下步骤:
步骤1:生成需要放置的服务功能链SFC实例,以及用户服务需求;
步骤2:同权重预训练:将用户服务需求映射为子问题,并为每个优化指标分配一个权重偏好;根据分配好的权重偏好组合,在历史训练记录中寻找是否存在当前权重已训练的情况;如果已训练,则直接抽取当前权重组合在上一时间的最优神经网络模型;否则,初始化当前权重组合的神经网络模型;
步骤3:获取当前物理网络环境信息;
步骤4:时空编码:将获取的环境信息输入时空编码器中进行信息编码;
步骤5:分布式强化学习:将编码后的信息作为状态输入DDRL-STE智能体中,智能体神经网络进行决策计算,并生成决策函数;保存并更新当前权重下的神经网络模型参数,执行DDRL-STE中所有智能体的联合决策;
步骤6:服务功能链SFC放置任务完成。
2.根据权利要求1所述的一种基于多目标深度强化学习的服务功能链放置方法,其特征在于,所述同权重预训练具体为:
将不同的服务功能链SFC定义为多个具有不同权重的子问题I,用字符i∈[1,|I|]来表示第i类权重组合的子问题;其中,每个子问题都被建模为神经网络,通过θi来表示其网络参数,而则表示求得的最优子问题;
首先,将任务映射为不同权重的子问题i;接着,对在训练过的神经网络库中检索是否存在预训练神经网络参数/>如果存在,则直接加载/>继续训练;如果不存在,则初始化当前时间步下的网络参数θi,k,t用于训练;最后,在子问题i的序列决策全部完成后,将能够获得最大长期期望累积奖励LTECR的网络模型/>进行存储。
3.根据权利要求2所述的一种基于多目标深度强化学习的服务功能链放置方法,其特征在于,所述时空编码采用时空编码器STE;
时空编码器STE的输入:对于每个SFCs的放置子问题,将所有的服务请求集合表示为其中/>表示为总服务请求集合中第r条需要放置的SFC属于SFC类别中的第s类并且映射为第i类权重组合的子问题;而每个服务请求由VNFs组成,即/> 其中fi s,o表示第i类权重组合的子问题中第s类SFC中的第o个VNF;在时间步t下t∈[1,|T|],物理网络中节点资源集合表示为/>同样地,链路资源集合表示为Bt={B1,t,...,Bl,t},l∈[1,|L|];在时间步t-1时,放置VNF的物理节点表示为nt-1;STE的输入Xt定义如下:
时空编码器STE的结构设计:STE的结构分为三层,分别是一维卷积神经网络层、Transformer编码层和门控循环单元层;
1)一维卷积神经网络层:使用一维卷积神经网络层保留Xt时序结构特征的同时降低训练参数量与计算量;经过两层一维卷积层后的输出OCt定义如公式(2)所示,其中σ为ReLU激活函数,b1和b2为偏差,和/>为两个可学习权重矩阵;
2)Transformer编码层:采用Transformer编码器,实现输入序列的并行计算和全位置信息处理,提高模型训练效率;经过Transformer编码层后的输出OEt定义如公式(3)所示,其中LayerMH为多头注意力函数层,LayerFF为前馈网络函数层;
OEt=LayerFF(LayerMH(OCt)+OCt)+LayerMH(OCt) (3)
3)门控循环单元层:用门控机制调整编码序列位置权重,用其隐藏状态ht为Transformer编码器的输出提供更加紧凑高效的特征;其中ht的更新如公式(4)所示,为可学习权重矩阵,/>为更新门控信号;经过门控循环单元层后的输出OGt定义如公式(5)所示;
OGt=GRU(OEt,ht-1) (5)
时空编码器STE的输出:STE输出Xt 的维度与输入Xt的维度完全相同,即
4.根据权利要求3所述的一种基于多目标深度强化学习的服务功能链放置方法,其特征在于,所述分布式强化学习包括多目标马尔可夫决策过程的制定和分布式强化学习结构;
多目标马尔可夫决策过程:
一个多目标马尔可夫决策过程MOMDP用元组表示为其中/>表示状态空间,/>表示动作空间,/>表示状态转移概率矩阵,/>为奖励函数合集,/>表示权重偏好空间,f表示将策略π映射为标量值的函数;
1)状态:状态是所有智能体能够感知的物理网络信息与网络服务需求的集合,经过STE编码后的状态信息X′t作为智能体的输入信息,即当时间步为t时输入智能体的状态信息/>可以表示为/>
2)动作:面对连续动态变化的网络状态,将动作定义为离散的;当前时间步t下,被决策用来放置VNF/>的物理网络基础设施节点nt,记为动作/> 其定义如公式(7)所示;
3)奖励:是所有智能体的奖励函数集合;在状态/>时采用动作/>智能体会通过与网络环境的交互来获取奖励/> 奖励值的大小用来评估动作是否值得选择;这里将奖励值设置为负,奖励/>包括两个部分,第一部分是关于VNF放置合法性的奖励,第二部分是关于VNF放置时产生的消耗的奖励;针对放置的合法性奖励,记为/>在放置前需要判断物理网络节点nt中的剩余资源/>是否满足当前VNF的请求资源,以及(nt-1,nt)节点间链路的剩余带宽资源/>是否满足SFC的请求资源,如果两者均满足,则表示当前动作/>是合法的,奖励值为0;否则将奖励值/>设置为极小值,终止当前VNF的放置动作,并将之前SFC/>中已经放置的VNF fi s,o释放,表示为请求拒绝;如果动作/>是合法的,则需要进一步计算放置中资源消耗的奖励,即优化目标的消耗,这一部分的奖励会根据智能体的不同而产生变化,具体来说,包含的智能体具有不同的优化目标,根据前文定义的优化目标,分别是端到端时延Dtotal与网络拥塞率Ures,其将奖励值/>分别是/>和/>其定义如公式(8)所示;
智能体获取的奖励值定义如公式(9)所示;
4)策略更新:在MOMDP中,策略是一个特定的状态到动作的映射π:智能体通过与相应的环境交互来学习最优策略,以获得LTECR;
策略π的行动值函数用表示,指t时在状态/>下次采取行动/>的值,其定义如公式(10)所示,遵循策略π的预期回报;
将权重组合和经验/>一起存入智能体的经验池中,其中的Q网络用来近似优化目标k的Q函数,状态/>下优化目标k的Q值向量表示为/>其定义如公式(11)所示,其中/>为其偏好权重;
对于Q函数的更新,如公式(12)所定义,α为步长标量,为目标Q函数,其定义如公式(13)所示,其中θt和θ′t分别表示Q值函数的网络参数权重与目标Q值函数的网络参数权重;
分布式强化学习结构:
分布式强化学习结构中设置了k个智能体,考虑了两个优化目标,端到端时延与网络拥塞率,即k∈[0,1];整个分布式结构的设计有两个核心,分别是Q值与动作的重映射,动态权重机制与多样性经验回放;
1)Q值与动作的重映射:
采用了z-score标准化方法对进行标准化,其定义如公式(14)所示,其中,μ代表Q值向量/>的平均值,σ则表示标准差,其定义如公式(15)(16)所示;
2)动态权重机制与多样性经验回放:
将不同服务请求的任务映射为具有不同权重的SFC放置子问题i,并对其分配特定的权重组合权重组合中的值加权和为1,权重组合中的值/>代表了当前子问题i中用户对不同优化目标k的偏好程度,对于联合的Q值向量,其定义如公式(17)所示:
智能体通过ε-greedy策略来选择动作,其定义如公式(18)所示:
其中prob.是概率的简写形式,ε,ε∈[0,1]是随着时间步长的随机探索和退火概率。
CN202310550450.7A 2023-05-16 2023-05-16 一种基于多目标深度强化学习的服务功能链放置方法 Pending CN116614394A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310550450.7A CN116614394A (zh) 2023-05-16 2023-05-16 一种基于多目标深度强化学习的服务功能链放置方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310550450.7A CN116614394A (zh) 2023-05-16 2023-05-16 一种基于多目标深度强化学习的服务功能链放置方法

Publications (1)

Publication Number Publication Date
CN116614394A true CN116614394A (zh) 2023-08-18

Family

ID=87682875

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310550450.7A Pending CN116614394A (zh) 2023-05-16 2023-05-16 一种基于多目标深度强化学习的服务功能链放置方法

Country Status (1)

Country Link
CN (1) CN116614394A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117041330A (zh) * 2023-10-10 2023-11-10 三峡高科信息技术有限责任公司 一种基于强化学习的边缘微服务细粒度部署方法及系统
CN117499491A (zh) * 2023-12-27 2024-02-02 杭州海康威视数字技术股份有限公司 基于双智能体深度强化学习的物联网服务编排方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117041330A (zh) * 2023-10-10 2023-11-10 三峡高科信息技术有限责任公司 一种基于强化学习的边缘微服务细粒度部署方法及系统
CN117041330B (zh) * 2023-10-10 2023-12-15 三峡高科信息技术有限责任公司 一种基于强化学习的边缘微服务细粒度部署方法及系统
CN117499491A (zh) * 2023-12-27 2024-02-02 杭州海康威视数字技术股份有限公司 基于双智能体深度强化学习的物联网服务编排方法及装置
CN117499491B (zh) * 2023-12-27 2024-03-26 杭州海康威视数字技术股份有限公司 基于双智能体深度强化学习的物联网服务编排方法及装置

Similar Documents

Publication Publication Date Title
Qi et al. Knowledge-driven service offloading decision for vehicular edge computing: A deep reinforcement learning approach
Jiang et al. AI driven heterogeneous MEC system with UAV assistance for dynamic environment: Challenges and solutions
CN111625361B (zh) 一种基于云端服务器和IoT设备协同的联合学习框架
CN109753751B (zh) 一种基于机器学习的mec随机任务迁移方法
CN116614394A (zh) 一种基于多目标深度强化学习的服务功能链放置方法
Jiang et al. Distributed resource scheduling for large-scale MEC systems: A multiagent ensemble deep reinforcement learning with imitation acceleration
CN113361680B (zh) 一种神经网络架构搜索方法、装置、设备及介质
CN109818786B (zh) 一种云数据中心应用可感知的分布式多资源组合路径最优选取方法
WO2021254114A1 (zh) 构建多任务学习模型的方法、装置、电子设备及存储介质
Wu et al. Mobility-aware deep reinforcement learning with glimpse mobility prediction in edge computing
CN112990485A (zh) 基于强化学习的知识策略选择方法与装置
CN116743635B (zh) 一种网络预测与调控方法及网络调控系统
CN113784410A (zh) 基于强化学习td3算法的异构无线网络垂直切换方法
CN115065728B (zh) 一种基于多策略强化学习的多目标内容存储方法
CN114710439B (zh) 基于深度强化学习的网络能耗与吞吐量联合优化路由方法
Xu et al. Living with artificial intelligence: A paradigm shift toward future network traffic control
CN114885388A (zh) 联合rss预测的多业务类型自适应切换判决方法
Chen et al. Traffic prediction-assisted federated deep reinforcement learning for service migration in digital twins-enabled MEC networks
CN116709290A (zh) 一种基于无人机边缘计算的灾害地区应急通信方法及系统
CN116367231A (zh) 基于ddpg算法的边缘计算车联网资源管理联合优化方法
CN113691334B (zh) 一种基于次用户群体协作的认知无线电动态功率分配方法
Zhou et al. Distilling arbitration logic from traces using machine learning: A case study on NoC
Shi et al. Deep reinforcement learning based computation offloading for mobility-aware edge computing
CN114615183B (zh) 基于资源预测的路由方法、装置、计算机设备及存储介质
Tang et al. Digital Twin-Enabled Efficient Federated Learning for Collision Warning in Intelligent Driving

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination