CN116614394A

CN116614394A - 一种基于多目标深度强化学习的服务功能链放置方法

Info

Publication number: CN116614394A
Application number: CN202310550450.7A
Authority: CN
Inventors: 邢焕来; 蒲雨彤; 肖智文; 王心汉; 冯力; 张新有; 滕飞
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2023-05-16
Filing date: 2023-05-16
Publication date: 2023-08-18

Abstract

本发明公开了一种基于多目标深度强化学习的服务功能链放置方法，具体为：生成需要放置的服务功能链实例以及用户服务需求；将用户服务需求映射为子问题，并为每个优化指标分配权重偏好；判断权重偏好是否在以往时间步出现，检索当前权重偏好对应的问题最优神经网络模型；否则，初始化当前权重偏好下的神经网络模型；获取当前物理网络环境信息输入时空编码器中进行信息编码；将编码信息输入分布式强化学习智能体中，智能体神经网络进行决策计算并生成决策函数；保存并更新当前权重下的神经网络模型参数，执行分布式强化学习中所有智能体的联合决策；服务功能链放置任务完成。本发明提高了在不同动态网络环境下放置服务功能链的资源分配能力。

Description

一种基于多目标深度强化学习的服务功能链放置方法

技术领域

本发明属于动态网络环境资源分配技术，尤其涉及一种基于多目标深度强化学习的服务功能链放置方法。

背景技术

网络功能虚拟化(NFV)是一种能快速灵活地满足5G业务的服务质量(QoS)需求的技术。它将网络服务分解为虚拟网络功能(VNF)序列，并串联为服务功能链(SFC)。在网络虚拟化基础设施上部署SFC所需的最佳资源分配，并满足用户QoS需求，被定义为SFC放置问题。

针对移动边缘计算中的SFC放置问题，目前的研究仍未给出充分有效的解决方案，导致资源浪费。现有方法主要分为两类，一类是单目标优化方法，指仅考虑一个准则(如时延)，建模简单但适用场景受限；另一类是多目标优化方法，指考虑多个冲突或影响的准则(如时延和网络拥塞)，建模复杂但适用场景广泛。然而，多目标优化问题的建模与求解都面临巨大挑战，主要是因为网络中的节点与服务数量的增加，导致模型的可扩展性降低，求解最优解变得复杂。

为了解决多目标问题，现有方法主要有两类：一类是基于进化算法或启发式算法，这类方法在高维或连续的空间上受限，计算开销大，而且难以适应动态环境；另一类是深度强化学习(DRL)算法，这类方法能够有效利用环境信息和反馈，通过探索和利用的权衡来更新策略，通过神经网络处理空间的迭代。此类多目标DRL方法是目前研究的主流，学者们对其进行了各种改进，主要有两个方向：一是通过新兴的机器学习模型改进，例如，Zhang等人[1]提出了一种用Transformer模型对输入DRL智能体的状态信息进行编码的架构；二是通过增加DRL智能体的数量并重新定义智能体间的交互方式进行改进，例如，Wang等人[2]提出了一种名为MRPDeep的分布式架构，为每个智能体分配一个优化目标。

现有技术只考虑单目标优化，为对服务功能链放置进行多目标问题建模。而多目标问题建模更贴合实际应用场景。未将多种改进方法进行结合，例如将新兴的机器学习技术与分布式的强化学习结合。此外，在SFC放置问题上应用DRL进行多目标优化，还需解决以下三个挑战：1)如何减少不同权重偏好对智能体训练的干扰；2)如何充分挖掘网络数据中的时空相关性；3)如何提高算法框架的普适性。

参考文献：

[1]Zhang K,Lin X,Li M.Transformer-Based Reinforcement Learning forPickup and Delivery Problems With Late Penalties[J].IEEE Transactions onIntelligent Transportation Systems,2022,23(12):24649-24661.

[2]Wang Q,Liu J,Liu C,et al.MPRdeep:Multi-Objective Joint OptimalNode Positioning and Resource Allocation for FANETs with Deep Reinforcementlearning[C]//2021IEEE 46th Conference on Local Computer Networks(LCN).IEEE,2021:315-318.

[3]Chen Y.Convolutional neural network for sentence classification[D].University of Waterloo,2015.

[4]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[J].Advances in neural information processing systems,2017,30.

[5]Chung J,Gulcehre C,Cho K H,et al.Empirical evaluation of gatedrecurrent neural networks on sequence modeling[J].arXiv preprint arXiv:1412.3555,2014.

发明内容

针对上述问题，本发明提供一种基于多目标深度强化学习的服务功能链放置方法。

本发明的一种基于多目标深度强化学习的服务功能链放置方法，包括以下步骤：

步骤1：生成需要放置的服务功能链SFC实例，以及用户服务需求。

步骤2：同权重预训练：将用户服务需求映射为子问题，并为每个优化指标分配一个权重偏好；根据分配好的权重偏好组合，在历史训练记录中寻找是否存在当前权重已训练的情况；如果已训练，则直接抽取当前权重组合在上一时间的最优神经网络模型；否则，初始化当前权重组合的神经网络模型。

步骤3：获取当前物理网络环境信息。

步骤4：时空编码：将获取的环境信息输入时空编码器中进行信息编码。

步骤5：分布式强化学习：将编码后的信息作为状态输入DDRL-STE智能体中，智能体神经网络进行决策计算，并生成决策函数；保存并更新当前权重下的神经网络模型参数，执行DDRL-STE中所有智能体的联合决策。

步骤6：服务功能链SFC放置任务完成。

上述同权重预训练具体为：

将不同的服务功能链SFC定义为多个具有不同权重的子问题I，用字符i∈[1,|I|]来表示第i类权重组合的子问题；其中，每个子问题都被建模为神经网络，通过θ_i来表示其网络参数，而则表示求得的最优子问题。

首先，将任务映射为不同权重的子问题i；接着，对在训练过的神经网络库中检索是否存在预训练神经网络参数/>如果存在，则直接加载/>继续训练；如果不存在，则初始化当前时间步下的网络参数θ_i,k,t用于训练；最后，在子问题i的序列决策全部完成后，将能够获得最大长期期望累积奖励LTECR的网络模型/>进行存储。

进一步的，时空编码采用时空编码器(STE，Spatio-Temporal Encoder)。

时空编码器STE的输入：对于每个SFCs的放置子问题，将所有的服务请求集合表示为其中/>表示为总服务请求集合中第r条需要放置的SFC属于SFC类别中的第s类并且映射为第i类权重组合的子问题；而每个服务请求由VNFs组成，即/> 其中/>表示第i类权重组合的子问题中第s类SFC中的第o个VNF；在时间步t下t∈[1,|T|]，物理网络中节点资源集合表示为/>n∈[1,|N|]；同样地，链路资源集合表示为B_t＝{B_1,t,...,B_l,t}，l∈[1,|L|]；在时间步t-1时，放置VNF的物理节点表示为n_t-1；STE的输入X_t定义如下：

时空编码器STE的结构设计：STE的结构分为三层，分别是一维卷积神经网络层、Transformer编码层和门控循环单元层。

1)一维卷积神经网络层：使用一维卷积神经网络层保留X_t时序结构特征的同时降低训练参数量与计算量；经过两层一维卷积层后的输出OC_t定义如公式(2)所示，其中σ为ReLU激活函数，b₁和b₂为偏差，和/>为两个可学习权重矩阵。

2)Transformer编码层：采用Transformer编码器，实现输入序列的并行计算和全位置信息处理，提高模型训练效率；经过Transformer编码层后的输出OE_t定义如公式(3)所示，其中Layer_MH为多头注意力函数层，Layer_FF为前馈网络函数层。

OE_t＝Layer_FF(Layer_MH(OC_t)+OC_t)+Layer_MH(OC_t) (3)

3)门控循环单元层：用门控机制调整编码序列位置权重，用其隐藏状态h_t为Transformer编码器的输出提供更加紧凑高效的特征；其中h_t的更新如公式(4)所示，为可学习权重矩阵，z为更新门控信号；经过门控循环单元层后的输出OG_t定义如公式(5)所示；

OG_t＝GRU(OE_t,h_t-1) (5)

时空编码器STE的输出：STE输出X′_t的维度与输入X_t的维度完全相同，即

分布式强化学习包括多目标马尔可夫决策过程的制定和分布式强化学习结构。

多目标马尔可夫决策过程：

一个多目标马尔可夫决策过程MOMDP用元组表示为其中/>表示状态空间，/>表示动作空间，/>表示状态转移概率矩阵，/>为奖励函数合集，/>表示权重偏好空间，f表示将策略π映射为标量值的函数。

1)状态：状态是所有智能体能够感知的物理网络信息与网络服务需求的集合，经过STE编码后的状态信息X_t′作为智能体的输入信息，即当时间步为t时输入智能体的状态信息/>可以表示为/>

2)动作：面对连续动态变化的网络状态，将动作定义为离散的；当前时间步t下，被决策用来放置VNF/>的物理网络基础设施节点n_t，记为动作a_t，/>其定义如公式(7)所示。

3)奖励：是所有智能体的奖励函数集合；在状态/>时采用动作a_t，智能体会通过与网络环境的交互来获取奖励/> 奖励值的大小用来评估动作是否值得选择；这里将奖励值设置为负，奖励/>包括两个部分，第一部分是关于VNF放置合法性的奖励，第二部分是关于VNF放置时产生的消耗的奖励；针对放置的合法性奖励，记为/>在放置前需要判断物理网络节点n_t中的剩余资源/>是否满足当前VNF的请求资源，以及(n_t-1,n_t)节点间链路的剩余带宽资源/>是否满足SFC的请求资源，如果两者均满足，则表示当前动作a_t是合法的，奖励值为0；否则将奖励值/>设置为极小值，终止当前VNF的放置动作，并将之前SFC/>中已经放置的VNF/>释放，表示为请求拒绝；如果动作a_t是合法的，则需要进一步计算放置中资源消耗的奖励，即优化目标的消耗，这一部分的奖励会根据智能体的不同而产生变化，具体来说，包含的智能体具有不同的优化目标，根据前文定义的优化目标，分别是端到端时延D^total与网络拥塞率U^res，其将奖励值/>分别是/>和/>其定义如公式(8)所示。

智能体获取的奖励值定义如公式(9)所示；

4)策略更新：在MOMDP中，策略是一个特定的状态到动作的映射智能体通过与相应的环境交互来学习最优策略，以获得LTECR。

策略π的行动值函数用表示，指t时在状态/>下次采取行动a_t的值，其定义如公式(10)所示，遵循策略π的预期回报。

将权重组合和经验/>一起存入智能体的经验池中，其中的Q网络用来近似优化目标k的Q函数，状态/>下优化目标k的Q值向量表示为/>其定义如公式(11)所示，其中/>为其偏好权重。

对于Q函数的更新，如公式(12)所定义，α为步长标量，为目标Q函数，其定义如公式(13)所示，其中θ_t和θ_t′分别表示Q值函数的网络参数权重与目标Q值函数的网络参数权重；

分布式强化学习结构：

分布式强化学习结构中设置了k个智能体，考虑了两个优化目标，端到端时延与网络拥塞率，即k∈[0,1]；整个分布式结构的设计有两个核心，分别是Q值与动作的重映射，动态权重机制与多样性经验回放。

1)Q值与动作的重映射：

采用了z-score标准化方法对进行标准化，其定义如公式(14)所示，其中，μ代表Q值向量/>的平均值，σ则表示标准差，其定义如公式(15)(16)所示。

2)动态权重机制与多样性经验回放：

将不同服务请求的任务映射为具有不同权重的SFC放置子问题i，并对其分配特定的权重组合权重组合中的值加权和为1，权重组合中的值/>代表了当前子问题i中用户对不同优化目标k的偏好程度，对于联合的Q值向量，其定义如公式(17)所示。

智能体通过ε-greedy策略来选择动作，其定义如公式(18)所示。

其中prob.是概率的简写形式，ε，ε∈[0,1]是随着时间步长的随机探索和退火概率。

本发明的有益技术效果为：

本发明提出了同权重预训练方法，利用前一步的优化结果作为下一步的初始条件，降低了权重变化的干扰；设计了序列时空编码机制，提取服务请求与网络资源信息的关系；采用了分布式的深度强化学习结构，每个智能体只观测一个目标，优化相对独立，动态适应网络与服务请求；提高了在不同动态网络环境下放置服务功能链的资源分配能力。

附图说明

图1为本发明基于多目标深度强化学习的服务功能链放置方法流程图。

图2为本发明整体概念图。

图3为同权重预训练机制的概念流程图。

图4为序列时空编码机制结构图。

图5为智能体内部结构图。

具体实施方式

下面结合附图和具体实施方法对本发明做进一步详细说明。

本发明的一种基于多目标深度强化学习的服务功能链放置方法流程图如图1所示，包括以下步骤：

步骤1：生成需要放置的服务功能链SFC实例，以及用户服务需求(如低时延低花费、低时延高花费等)。

步骤2：同权重预训练：将用户服务需求映射为子问题，并为每个优化指标(时延、开销、负载均衡等)分配一个权重偏好；根据分配好的权重偏好组合，在历史训练记录中寻找是否存在当前权重已训练的情况；如果已训练，则直接抽取当前权重组合在上一时间的最优神经网络模型；否则，初始化当前权重组合的神经网络模型。

步骤3：获取当前物理网络环境信息。

步骤6：服务功能链SFC放置任务完成。

本发明的包含3个核心设计，分别是同权重预训练机制、时空编码器(STE)结构、分布式强化学习结构。整体概念图如图2所示。

同权重预训练机制：

采用标量化的方法将不同的服务功能链SFC定义为多个具有不同权重的子问题I，用字符i∈[1,|I|]来表示第i类权重组合的子问题；其中，每个子问题都被建模为神经网络，通过θ_i来表示其网络参数，而则表示求得的最优子问题。

首先，将任务映射为不同权重的子问题i；接着，对在训练过的神经网络库中检索是否存在预训练神经网络参数/>如果存在，则直接加载/>继续训练；如果不存在，则初始化当前时间步下的网络参数θ_i,k,t用于训练；最后，在子问题i的序列决策全部完成后，将能够获得最大长期期望累积奖励LTECR的网络模型/>进行存储，流程如图3所示。

时空编码器STE。将从STE网络的输入、结构、输出三个方面进行详细阐述。

时空编码器STE的结构设计：STE的结构分为三层，分别是一维卷积神经网络层、Transformer编码层和门控循环单元层，如图4所示，下面将进行详细介绍。

1)一维卷积神经网络层：受到文献TextCNN[3]启发，使用一维卷积神经网络层保留X_t时序结构特征的同时降低训练参数量与计算量；经过两层一维卷积层后的输出OC_t定义如公式(2)所示，其中σ为ReLU激活函数，b₁和b₂为偏差，和/>为两个可学习权重矩阵。

2)Transformer编码层：受到Transformer中的多头注意力机制[4]的启发，采用Transformer编码器，实现输入序列的并行计算和全位置信息处理，提高模型训练效率；经过Transformer编码层后的输出OE_t定义如公式(3)所示，其中Layer_MH为多头注意力函数层，Layer_FF为前馈网络函数层，为了公式符号简洁，省略了偏差的表达。

OE_t＝Layer_FF(Layer_MH(OC_t)+OC_t)+Layer_MH(OC_t) (3)

3)门控循环单元层：参考GRU[5]，用门控机制调整编码序列位置权重，用其隐藏状态h_t为Transformer编码器的输出提供更加紧凑高效的特征；其中h_t的更新如公式(4)所示，为可学习权重矩阵，z为更新门控信号；经过门控循环单元层后的输出OG_t定义如公式(5)所示；

OG_t＝GRU(OE_t,h_t-1) (5)

时空编码器STE的输出：STE输出X_t′的维度与输入X_t的维度完全相同，即

多目标马尔可夫决策过程：

1)状态(state)：状态是所有智能体能够感知的物理网络信息与网络服务需求的集合，经过STE编码后的状态信息X′_t作为智能体的输入信息，即当时间步为t时输入智能体的状态信息/>可以表示为/>

2)动作(action)：面对连续动态变化的网络状态，将动作定义为离散的；当前时间步t下，被决策用来放置VNF/>的物理网络基础设施节点n_t，记为动作a_t，/>其定义如公式(7)所示。

顺序执行决策能够保证SFC中的VNF能够有序被放置在物理网络中。状态信息/>经过STE处理后作为智能体神经网络的输入，每个智能体结构是基于D3QN结构设计的，能够更好区分不同状态重要性与不同动作的相对优劣的同时，减少DQN网络中Q值过高估计的问题，保证学习的稳定性。输出则是与动作维度相同的Q值向量，表示可能采取的动作的概率估值大小。

3)奖励(reward)：是所有智能体的奖励函数集合；在状态/>时采用动作a_t，智能体会通过与网络环境的交互来获取奖励/> 奖励值的大小用来评估动作是否值得选择；为了让智能体进行有效学习，从而获得最大长期期望累积奖励(LTECR)，本文将奖励值设置为负。奖励/>包括两个部分，第一部分是关于VNF放置合法性的奖励，第二部分是关于VNF放置时产生的消耗的奖励；针对放置的合法性奖励，记为/>在放置前需要判断物理网络节点n_t中的剩余资源/>是否满足当前VNF的请求资源，以及(n_t-1,n_t)节点间链路的剩余带宽资源/>是否满足SFC的请求资源，如果两者均满足，则表示当前动作a_t是合法的，奖励值为0；否则将奖励值/>设置为极小值，终止当前VNF的放置动作，并将之前SFC/>中已经放置的VNF/>释放，表示为请求拒绝；如果动作a_t是合法的，则需要进一步计算放置中资源消耗的奖励，即优化目标的消耗，这一部分的奖励会根据智能体的不同而产生变化，具体来说，包含的智能体具有不同的优化目标，根据前文定义的优化目标，分别是端到端时延D^total与网络拥塞率U^res，其将奖励值/>分别是/>和/>其定义如公式(8)所示。

智能体获取的奖励值定义如公式(9)所示；

4)策略更新(policy update)：在MOMDP中，策略是一个特定的状态到动作的映射智能体通过与相应的环境交互来学习最优策略，以获得LTECR。

每个智能体结构是基于D3QN设计的，由于Q函数会因频繁变化的权重值而在训练时难以收敛。将权重组合和经验/>一起存入智能体的经验池中，其中的Q网络用来近似优化目标k的Q函数，状态/>下优化目标k的Q值向量表示为/>其定义如公式(11)所示，其中/>为其偏好权重。

对于Q函数的更新，如公式(12)所定义，α为步长标量，为目标Q函数，其定义如公式(13)所示，其中θ_t和θ′_t分别表示Q值函数的网络参数权重与目标Q值函数的网络参数权重。这种随机梯度下降的更新方式，使得/>一直朝着/>的目标方向进行更新，降低标准DQN中出现的高估值可能。

分布式强化学习结构：

分布式强化学习结构中设置了k个智能体(智能体内部结构如图5所示)，考虑了两个优化目标，端到端时延与网络拥塞率，即k∈[0,1]；整个分布式结构的设计有两个核心，分别是Q值与动作的重映射，动态权重机制与多样性经验回放。

1)Q值与动作的重映射：

为了找到优化目标矛盾前提下的最优动作a_t，本文没有通过某一个Q值函数的映射来找到最优动作。采用了z-score标准化方法对进行标准化，其定义如公式(14)所示，其中，μ代表Q值向量/>的平均值，σ则表示标准差，其定义如公式(15)(16)所示。

2)动态权重机制与多样性经验回放：

由于网络环境与服务需求的动态变化，在对SFC放置的多目标问题进行建模时不能使用单一的权重组合来对每个智能体输出的进行取舍。将不同服务请求的任务映射为具有不同权重的SFC放置子问题i，并对其分配特定的权重组合/>权重组合中的值加权和为1，权重组合中的值/>代表了当前子问题i中用户对不同优化目标k的偏好程度，对于联合的Q值向量，其定义如公式(17)所示。

智能体通过ε-greedy策略来选择动作，其定义如公式(18)所示。

Claims

1.一种基于多目标深度强化学习的服务功能链放置方法，其特征在于，包括以下步骤：

步骤1：生成需要放置的服务功能链SFC实例，以及用户服务需求；

步骤2：同权重预训练：将用户服务需求映射为子问题，并为每个优化指标分配一个权重偏好；根据分配好的权重偏好组合，在历史训练记录中寻找是否存在当前权重已训练的情况；如果已训练，则直接抽取当前权重组合在上一时间的最优神经网络模型；否则，初始化当前权重组合的神经网络模型；

步骤3：获取当前物理网络环境信息；

步骤4：时空编码：将获取的环境信息输入时空编码器中进行信息编码；

步骤5：分布式强化学习：将编码后的信息作为状态输入DDRL-STE智能体中，智能体神经网络进行决策计算，并生成决策函数；保存并更新当前权重下的神经网络模型参数，执行DDRL-STE中所有智能体的联合决策；

步骤6：服务功能链SFC放置任务完成。

2.根据权利要求1所述的一种基于多目标深度强化学习的服务功能链放置方法，其特征在于，所述同权重预训练具体为：

将不同的服务功能链SFC定义为多个具有不同权重的子问题I，用字符i∈[1,|I|]来表示第i类权重组合的子问题；其中，每个子问题都被建模为神经网络，通过θ_i来表示其网络参数，而则表示求得的最优子问题；

3.根据权利要求2所述的一种基于多目标深度强化学习的服务功能链放置方法，其特征在于，所述时空编码采用时空编码器STE；

时空编码器STE的输入：对于每个SFCs的放置子问题，将所有的服务请求集合表示为其中/>表示为总服务请求集合中第r条需要放置的SFC属于SFC类别中的第s类并且映射为第i类权重组合的子问题；而每个服务请求由VNFs组成，即/> 其中f_i ^s,o表示第i类权重组合的子问题中第s类SFC中的第o个VNF；在时间步t下t∈[1,|T|]，物理网络中节点资源集合表示为/>同样地，链路资源集合表示为B_t＝{B_1,t,...,B_l,t}，l∈[1,|L|]；在时间步t-1时，放置VNF的物理节点表示为n_t-1；STE的输入X_t定义如下：

时空编码器STE的结构设计：STE的结构分为三层，分别是一维卷积神经网络层、Transformer编码层和门控循环单元层；

1)一维卷积神经网络层：使用一维卷积神经网络层保留X_t时序结构特征的同时降低训练参数量与计算量；经过两层一维卷积层后的输出OC_t定义如公式(2)所示，其中σ为ReLU激活函数，b₁和b₂为偏差，和/>为两个可学习权重矩阵；

2)Transformer编码层：采用Transformer编码器，实现输入序列的并行计算和全位置信息处理，提高模型训练效率；经过Transformer编码层后的输出OE_t定义如公式(3)所示，其中Layer_MH为多头注意力函数层，Layer_FF为前馈网络函数层；

OE_t＝Layer_FF(Layer_MH(OC_t)+OC_t)+Layer_MH(OC_t) (3)

3)门控循环单元层：用门控机制调整编码序列位置权重，用其隐藏状态h_t为Transformer编码器的输出提供更加紧凑高效的特征；其中h_t的更新如公式(4)所示，为可学习权重矩阵，/>为更新门控信号；经过门控循环单元层后的输出OG_t定义如公式(5)所示；

OG_t＝GRU(OE_t,h_t-1) (5)

时空编码器STE的输出：STE输出X_t ^′的维度与输入X_t的维度完全相同，即

4.根据权利要求3所述的一种基于多目标深度强化学习的服务功能链放置方法，其特征在于，所述分布式强化学习包括多目标马尔可夫决策过程的制定和分布式强化学习结构；

多目标马尔可夫决策过程：

一个多目标马尔可夫决策过程MOMDP用元组表示为其中/>表示状态空间，/>表示动作空间，/>表示状态转移概率矩阵，/>为奖励函数合集，/>表示权重偏好空间，f表示将策略π映射为标量值的函数；

1)状态：状态是所有智能体能够感知的物理网络信息与网络服务需求的集合，经过STE编码后的状态信息X′_t作为智能体的输入信息，即当时间步为t时输入智能体的状态信息/>可以表示为/>

2)动作：面对连续动态变化的网络状态，将动作定义为离散的；当前时间步t下，被决策用来放置VNF/>的物理网络基础设施节点n_t，记为动作/> 其定义如公式(7)所示；

3)奖励：是所有智能体的奖励函数集合；在状态/>时采用动作/>智能体会通过与网络环境的交互来获取奖励/> 奖励值的大小用来评估动作是否值得选择；这里将奖励值设置为负，奖励/>包括两个部分，第一部分是关于VNF放置合法性的奖励，第二部分是关于VNF放置时产生的消耗的奖励；针对放置的合法性奖励，记为/>在放置前需要判断物理网络节点n_t中的剩余资源/>是否满足当前VNF的请求资源，以及(n_t-1,n_t)节点间链路的剩余带宽资源/>是否满足SFC的请求资源，如果两者均满足，则表示当前动作/>是合法的，奖励值为0；否则将奖励值/>设置为极小值，终止当前VNF的放置动作，并将之前SFC/>中已经放置的VNF f_i ^s,o释放，表示为请求拒绝；如果动作/>是合法的，则需要进一步计算放置中资源消耗的奖励，即优化目标的消耗，这一部分的奖励会根据智能体的不同而产生变化，具体来说，包含的智能体具有不同的优化目标，根据前文定义的优化目标，分别是端到端时延D^total与网络拥塞率U^res，其将奖励值/>分别是/>和/>其定义如公式(8)所示；

智能体获取的奖励值定义如公式(9)所示；

4)策略更新：在MOMDP中，策略是一个特定的状态到动作的映射π:智能体通过与相应的环境交互来学习最优策略，以获得LTECR；

策略π的行动值函数用表示，指t时在状态/>下次采取行动/>的值，其定义如公式(10)所示，遵循策略π的预期回报；

将权重组合和经验/>一起存入智能体的经验池中，其中的Q网络用来近似优化目标k的Q函数，状态/>下优化目标k的Q值向量表示为/>其定义如公式(11)所示，其中/>为其偏好权重；

对于Q函数的更新，如公式(12)所定义，α为步长标量，为目标Q函数，其定义如公式(13)所示，其中θ_t和θ′_t分别表示Q值函数的网络参数权重与目标Q值函数的网络参数权重；

分布式强化学习结构：

分布式强化学习结构中设置了k个智能体，考虑了两个优化目标，端到端时延与网络拥塞率，即k∈[0,1]；整个分布式结构的设计有两个核心，分别是Q值与动作的重映射，动态权重机制与多样性经验回放；

1)Q值与动作的重映射：

采用了z-score标准化方法对进行标准化，其定义如公式(14)所示，其中，μ代表Q值向量/>的平均值，σ则表示标准差，其定义如公式(15)(16)所示；

2)动态权重机制与多样性经验回放：

将不同服务请求的任务映射为具有不同权重的SFC放置子问题i，并对其分配特定的权重组合权重组合中的值加权和为1，权重组合中的值/>代表了当前子问题i中用户对不同优化目标k的偏好程度，对于联合的Q值向量，其定义如公式(17)所示：

智能体通过ε-greedy策略来选择动作，其定义如公式(18)所示：