CN112769594A

CN112769594A - 一种基于多智能体强化学习的网内服务功能部署方法

Info

Publication number: CN112769594A
Application number: CN202011470782.7A
Authority: CN
Inventors: 姚海鹏; 朱玉超; 买天乐; 忻向军; 张尼; 江亮; 刘韵洁
Original assignee: China Communications Communication Network Technology Co ltd; Beijing University of Posts and Telecommunications
Current assignee: China Communications Communication Network Technology Co ltd; Beijing University of Posts and Telecommunications
Priority date: 2020-12-14
Filing date: 2020-12-14
Publication date: 2021-05-07

Abstract

本发明公开了一种基于多智能体强化学习的网内服务功能部署方法，包括以下步骤：S1、每个参与者分别更新策略π的参数；S2、每个评论家分别更新动作Q值参数；S3、定义θ＝{θ₁,θ₂,....θ_N}为N个agent(actor)的参数，相应的π＝{π₁,π₂,....π_N}分别表示其策略；S4、对于在SFC部署过程中的用户，将第i个agent的累计预期奖励的策略梯度定义；S5、每个agent的Q_i是相互独立进行训练学习的，其更新方法可以表示为：S6、定义

来表示第i个agent的策略对第j个agent策略的函数近似，它的近似代价是一个带有熵正则化器的对数代价函数。本发明能够综合分布式和集中式方法的优点，既能够快速反应用户需求，保护用户隐私，提高用户服务体验。又能够考虑服务提供商运营成本，促使网络负载均衡，提高网络资源利用率。

Description

一种基于多智能体强化学习的网内服务功能部署方法

技术领域

本发明涉及服务功能链技术领域，尤其涉及一种基于多智能体强化学习的网内服务功能部署方法。

背景技术

服务功能链(service function chain，SFC)是一组具有特定排序约束的抽象服务函数集。传统上，服务商以部署硬件中间盒来为用户提供服务。为了提高服务提供商部署新网络功能的适应性和灵活性，NFV为网络服务的设计、协调和管理提供了新的思路。虚拟网络功能(VNF)不需要安装额外的特定硬件设备。它可以利用现有的网络资源来实例化网络服务。这不仅为服务提供商创建、修改和删除服务链提供了极大的灵活性，而且大大降低了其部署成本。每个服务链的不同VNF服务可以部署在分布在不同地理位置的服务器节点上。 SFC部署的一个基本问题是如何实例化服务链的VNF，以获得最大的用户满意度和最小的资源成本。

在分布式式服务链部署策略中，引用将服务链部署问题建模为一个具有特定于玩家成本函数的加权拥塞博弈，使用非合作博弈理论实现一种分布式策略，可以解决可伸缩性和隐私问题。然而，这种解决方案仍然需要大量的计算和通信资源。

一般情况下，集中式方法需要获取全局网络状态和系统参数。然而，集中式方法通常依赖于集中式控制器和协调器，这给网络的可扩展性带来了极大的不便。且集中式解决方案目的通常是优化服务提供商的成本，但没有考虑网络用户的具体行为和隐私问题。此外，集中式方法容易发生连接故障，而分布式方法可以提供更大的可扩展性和可靠性。但是，传统的分布式算法趋于收敛太慢，并且可能无法获得全局最优解，导致网络资源利用率低和用户体验差。

发明内容

基于背景技术存在的集中式方法容易发生连接故障，而传统的分布式算法趋于收敛太慢，并且可能无法获得全局最优解，导致网络资源利用率低和用户体验差的技术问题，本发明提出了一种基于多智能体强化学习的网内服务功能部署方法，通过设计了一种新的“分布式 +集中式“混合控制架构，以提高系统的鲁棒性，减少时延和拥塞。

本发明提出的一种基于多智能体强化学习的网内服务功能部署方法，包括以下步骤：

S1、每个参与者分别更新策略π的参数；

S2、每个评论家分别更新动作Q值参数；

S3、定义θ＝{θ₁,θ₂,....θ_N}为N个agent(actor)的参数，相应的π＝{π₁,π₂,....π_N}分别表示其策略；

S4、对于在SFC部署过程中的用户，将第i个agent的累计预期奖励的策略梯度定义为

其中x＝{o₁,o₂,....o_N}表示观测的状态集合，a_i表示第i个agent 的动作；

S5、每个agent的Q_i是相互独立进行训练学习的，其更新方法可以表示为：

Where

其中μ'＝{μ₁',μ₂',....μ_N'}是目标策略参数，

表示目标动作值函数；

S6、定义

来表示第i个agent的策略对第j个agent策略的函数近似，它的近似代价是一个带有熵正则化器的对数代价函数，其代价函数可以写成：

其中，

是熵正则化函数；

S7、在近似策略下，上面等式中的y可以替换为：

其中γ是累计折扣系数，

使用神经网络来近似估计

在更新

之前，使用重放缓冲区的采样数据来更新

的参数。

优选地，还包括策略集机制，第i个agent的策略由K子策略组成，每个训练阶段只使用子策略

中的一个。

优选地，对于每个agent，其策略集的最大回报定义为：

优选地，第i个代理的第k个子策略构造重放缓冲存储器D_i(k)， i代理的每个子策略

的梯度更新为：

where

优选地，每个参与者收集数据(s,α＝π(s),r,s')，并将其存储在回放缓冲内存中。

优选地，当缓冲池的数量大于预热阈值时，学习开始。

优选地，critic都可以获得actor收集的所有信息，在更新参数时，将考虑所有参与者生成的数据。

与现有技术相比，本发明的有益效果为：通过提出集中训练和分布式执行的多智能体强化学习服务链部署机制，结合了分布式解决方案和集中式解决方案的优点，能够快速、灵活地响应用户的请求，并且能够在不陷入分布式系统中可能出现的局部最优问题的情况下获得全局最优部署方案。

本发明能够综合分布式和集中式方法的优点，既能够快速反应用户需求，保护用户隐私，提高用户服务体验。又能够考虑服务提供商运营成本，促使网络负载均衡，提高网络资源利用率。

附图说明

图1为本发明提出的一种基于多智能体强化学习的网内服务功能部署方法中混合控制架构的示意图；

图2为本发明提出的一种基于多智能体强化学习的网内服务功能部署方法中服务链路节点走向图；

图3为本发明提出的一种基于多智能体强化学习的网内服务功能部署方法中多用户通过网络域使用服务链的示意图；

图4为本发明提出的一种基于多智能体强化学习的网内服务功能部署方法中集中和分布式的算法框图；

图5为本发明提出的一种基于多智能体强化学习的网内服务功能部署方法中策略集机制的算法图；

图6为本发明提出的一种基于多智能体强化学习的网内服务功能部署方法中策略集机制的算法流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本文中，术语“包括”、“包含”、“具有”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括……”或“包含……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。

实施例

参照图1-6，本发明提出的一种基于多智能体强化学习的网内服务功能部署方法，包括以下步骤：每个参与者收集数据 (s,α＝π(s),r,s')，并将其存储在回放缓冲内存中。当缓冲池的数量大于预热阈值时，学习开始。每个参与者分别更新策略π的参数。与DDPG 算法一样，当代理需要选择操作时，只需要当前的(s,α＝π(s))。每个评论家分别更新动作Q值参数。请注意，critic都可以获得actor收集的所有信息。在更新参数时，它将考虑所有参与者生成的数据。定义θ＝{θ₁,θ₂,....θ_N}为N个agent(actor)的参数，相应的π＝{π₁,π₂,....π_N}分别表示其策略。对于在SFC部署过程中的用户，可以将第i个agent的累计预期奖励的策略梯度定义为

其中x＝{o₁,o₂,....o_N}表示观测的状态集合，a_i表示第i个agent的动作。每个agent的Q_i是相互独立进行训练学习的，其更新方法可以表示为：

Where

其中μ'＝{μ₁',μ₂',....μ_N'}是目标策略参数，

表示目标动作值函数。

在该算法中，不需要获取其他智能体的策略，却需要对其进行参数估计。每个agent都需要保持其他agent的策略逼近函数，定义

来表示第i个agent的策略对第j个agent策略的函数近似。它的近似代价是一个带有熵正则化器的对数代价函数，其代价函数可以写成：

其中，

是熵正则化函数。只要最小化第j个agent的代价函数的对数概率，就可以得到其它agent的策略。

因此，在近似策略下，上面等式中的y可以替换为：

其中γ是累计折扣系数，

使用神经网络来近似估计

在更新

之前，该算法使用重放缓冲区的采样数据来更新

的参数。

agent策略变化引起的环境不稳定是多agent强化学习的一个突出问题。竞争性任务中出现的问题尤其严重，这会导致agent对策略的过度适应。当竞争对手的策略被更新和改变时，会降低代理的泛化能力。为了提高agent策略的泛化能力，多智能体强化学习算法提出了一种策略集机制。第i个agent的策略由K子策略组成，每个训练阶段只使用子策略

中的一个。

对于每个agent，其策略集的最大回报定义为：

为第i个代理的第k个子策略构造了一个重放缓冲存储器D_i(k) (memory)。为了优化策略集的整体性能，i代理的每个子策略

的梯度更新为：

where

算法如图5所示、算法流程如图6所示。

本发明设计了一种与前文设计的算法相对应的混合部署架构，如图1所示，算法的‘critic’部分与架构中的‘集中控制器’相对应；‘actor N’部分分别对应于架构中的‘控制器N’，也可以用agent N来表示。actor在从环境中获得观察值后执行动作，然后将获得的数据存储在回放缓冲存储器‘memory’中。Critic模块从memory中提取数据来进行训练学习。

每个agent可以以分布式的形式独立地与环境交互，集中式控制器中的critic在数据学习后指导actor修改策略。

为解决SFC的部署问题，还提出一种新的“分布式+集中式“混合控制架构。该架构的优化目的主要是能够集中和分布式的优势。为了能够快速、灵活地响应用户的请求，并且能够在不陷入分布式系统中可能出现的局部最优问题的情况下获得全局最优部署方案。

如图1所示，该架构中的控制器能够分别获得网络环境拓扑结构、网络环境信息。当用户请求部署服务链时，每个控制器会分别为用户计算部署方案。

关于网络环境模块：在不损失一般性的前提下，将网络模型描述为一个连通的无向图G＝{V，E}，其中包括n＝|V|个节点，m＝|E|条链路。网络具有有限的IT资源，例如计算资源和带宽资源。

服务功能链的具体任务可能包括防火墙(FW)、代码转换、网络地址转换(NAT)、视频优化控制器(VOC)等，假设Γ＝{F₁，F₂，...,F_f}定义为服务功能链模型，其中包括f个有序序列的VNF。

如图2所示，一条服务链由源节点s，流需要依此经过Network AddressTranslator(NAT)、Firewall、Traffic Shaper，这三个网络功能到达节点d。则可以将这条服务链抽象为Γ'＝{F₁，F₂，F₃}，其中 F₁分别代表上述虚拟网络功能VNF。

当一片网络区域内时，所有的用户，同时需要同一个网络域来提供服务链服务时，他们之间会形成资源竞争，进行博弈。

如图3所示，假设用户1，用户2，用户3同时需要进行视频传输服务。网络域的服务提供商一方面需要考虑自己成本，同时还需要考虑用户的服务体验。

因此，对上述问题，即网络域的服务提供商为用户提供服务时，对所给出的部署方案，可以获得相应的利润和报酬。可以综合服务提供商和用户角度，设计一个优化函数，进行目标优化。例如，一条服务链的延迟可以表示为：

其中s表示当前网络状态，a表示服务链部署方案。

表示链路延迟，

表示节点处理数据包的延迟。从服务商的角度考虑，服务商希望在其网络域内能够尽可能地网络负载均衡。则网络均衡函数可以表示为：

其中CVF表示虚拟网络功能VNF所需要的节点计算资源，BeL表示服务链链路需要的带宽资源，而CF和BL分别表示所部署的网络节点和链路的剩余资源。则在网络环境状态s的条件下，执行动作a部署方式所获得的服务商和用户的联合奖励函数可以表示为：

r(a，s)＝r_a·revenue(s，a)-r_β·d(s，a).。

本发明是一种以基于actor-critic的深度确定性策略梯度 (DDPG)算法为基本结构来求解多智能体博弈问题的算法。该算法利用所有actor的数据来更新Q值，使系统能够顺利地进行优化。它的框架不受环境的限制，每个代理都可以有自己的奖励机制，决定合作还是竞争。对于每一个agent，在测试过程中只需要当前状态数据来进行预测，而训练数据和测试数据并不完全一致。独立采样和统一学习是优化SFC部署问题所需要的。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。