CN112769594A - 一种基于多智能体强化学习的网内服务功能部署方法 - Google Patents
一种基于多智能体强化学习的网内服务功能部署方法 Download PDFInfo
- Publication number
- CN112769594A CN112769594A CN202011470782.7A CN202011470782A CN112769594A CN 112769594 A CN112769594 A CN 112769594A CN 202011470782 A CN202011470782 A CN 202011470782A CN 112769594 A CN112769594 A CN 112769594A
- Authority
- CN
- China
- Prior art keywords
- agent
- policy
- function
- strategy
- reinforcement learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000006870 function Effects 0.000 title claims abstract description 50
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000002787 reinforcement Effects 0.000 title claims abstract description 21
- 230000009471 action Effects 0.000 claims abstract description 12
- 230000008569 process Effects 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims abstract description 9
- 239000003795 chemical substances by application Substances 0.000 claims description 65
- 230000007246 mechanism Effects 0.000 claims description 7
- 230000001186 cumulative effect Effects 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000010438 heat treatment Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000001154 acute effect Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/0893—Assignment of logical groups to network elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/12—Avoiding congestion; Recovering from congestion
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于多智能体强化学习的网内服务功能部署方法,包括以下步骤:S1、每个参与者分别更新策略π的参数;S2、每个评论家分别更新动作Q值参数;S3、定义θ={θ1,θ2,....θN}为N个agent(actor)的参数,相应的π={π1,π2,....πN}分别表示其策略;S4、对于在SFC部署过程中的用户,将第i个agent的累计预期奖励的策略梯度定义;S5、每个agent的Qi是相互独立进行训练学习的,其更新方法可以表示为:S6、定义来表示第i个agent的策略对第j个agent策略的函数近似,它的近似代价是一个带有熵正则化器的对数代价函数。本发明能够综合分布式和集中式方法的优点,既能够快速反应用户需求,保护用户隐私,提高用户服务体验。又能够考虑服务提供商运营成本,促使网络负载均衡,提高网络资源利用率。
Description
技术领域
本发明涉及服务功能链技术领域,尤其涉及一种基于多智能体强化学习的网内服务功能部署方法。
背景技术
服务功能链(service function chain,SFC)是一组具有特定排序约束的抽象服务函数集。传统上,服务商以部署硬件中间盒来为用户提供服务。为了提高服务提供商部署新网络功能的适应性和灵活性,NFV为网络服务的设计、协调和管理提供了新的思路。虚拟网络功能(VNF)不需要安装额外的特定硬件设备。它可以利用现有的网络资源来实例化网络服务。这不仅为服务提供商创建、修改和删除服务链提供了极大的灵活性,而且大大降低了其部署成本。每个服务链的不同VNF服务可以部署在分布在不同地理位置的服务器节点上。 SFC部署的一个基本问题是如何实例化服务链的VNF,以获得最大的用户满意度和最小的资源成本。
在分布式式服务链部署策略中,引用将服务链部署问题建模为一个具有特定于玩家成本函数的加权拥塞博弈,使用非合作博弈理论实现一种分布式策略,可以解决可伸缩性和隐私问题。然而,这种解决方案仍然需要大量的计算和通信资源。
一般情况下,集中式方法需要获取全局网络状态和系统参数。然而,集中式方法通常依赖于集中式控制器和协调器,这给网络的可扩展性带来了极大的不便。且集中式解决方案目的通常是优化服务提供商的成本,但没有考虑网络用户的具体行为和隐私问题。此外,集中式方法容易发生连接故障,而分布式方法可以提供更大的可扩展性和可靠性。但是,传统的分布式算法趋于收敛太慢,并且可能无法获得全局最优解,导致网络资源利用率低和用户体验差。
发明内容
基于背景技术存在的集中式方法容易发生连接故障,而传统的分布式算法趋于收敛太慢,并且可能无法获得全局最优解,导致网络资源利用率低和用户体验差的技术问题,本发明提出了一种基于多智能体强化学习的网内服务功能部署方法,通过设计了一种新的“分布式 +集中式“混合控制架构,以提高系统的鲁棒性,减少时延和拥塞。
本发明提出的一种基于多智能体强化学习的网内服务功能部署方法,包括以下步骤:
S1、每个参与者分别更新策略π的参数;
S2、每个评论家分别更新动作Q值参数;
S3、定义θ={θ1,θ2,....θN}为N个agent(actor)的参数,相应的π={π1,π2,....πN}分别表示其策略;
S4、对于在SFC部署过程中的用户,将第i个agent的累计预期奖励的策略梯度定义为
其中x={o1,o2,....oN}表示观测的状态集合,ai表示第i个agent 的动作;
S5、每个agent的Qi是相互独立进行训练学习的,其更新方法可以表示为:
Where
S7、在近似策略下,上面等式中的y可以替换为:
优选地,对于每个agent,其策略集的最大回报定义为:
where
优选地,每个参与者收集数据(s,α=π(s),r,s'),并将其存储在回放缓冲内存中。
优选地,当缓冲池的数量大于预热阈值时,学习开始。
优选地,critic都可以获得actor收集的所有信息,在更新参数时,将考虑所有参与者生成的数据。
与现有技术相比,本发明的有益效果为:通过提出集中训练和分布式执行的多智能体强化学习服务链部署机制,结合了分布式解决方案和集中式解决方案的优点,能够快速、灵活地响应用户的请求,并且能够在不陷入分布式系统中可能出现的局部最优问题的情况下获得全局最优部署方案。
本发明能够综合分布式和集中式方法的优点,既能够快速反应用户需求,保护用户隐私,提高用户服务体验。又能够考虑服务提供商运营成本,促使网络负载均衡,提高网络资源利用率。
附图说明
图1为本发明提出的一种基于多智能体强化学习的网内服务功能部署方法中混合控制架构的示意图;
图2为本发明提出的一种基于多智能体强化学习的网内服务功能部署方法中服务链路节点走向图;
图3为本发明提出的一种基于多智能体强化学习的网内服务功能部署方法中多用户通过网络域使用服务链的示意图;
图4为本发明提出的一种基于多智能体强化学习的网内服务功能部署方法中集中和分布式的算法框图;
图5为本发明提出的一种基于多智能体强化学习的网内服务功能部署方法中策略集机制的算法图;
图6为本发明提出的一种基于多智能体强化学习的网内服务功能部署方法中策略集机制的算法流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本文中,术语“包括”、“包含”、“具有”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括……”或“包含……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。
实施例
参照图1-6,本发明提出的一种基于多智能体强化学习的网内服务功能部署方法,包括以下步骤:每个参与者收集数据 (s,α=π(s),r,s'),并将其存储在回放缓冲内存中。当缓冲池的数量大于预热阈值时,学习开始。每个参与者分别更新策略π的参数。与DDPG 算法一样,当代理需要选择操作时,只需要当前的(s,α=π(s))。每个评论家分别更新动作Q值参数。请注意,critic都可以获得actor收集的所有信息。在更新参数时,它将考虑所有参与者生成的数据。定义θ={θ1,θ2,....θN}为N个agent(actor)的参数,相应的π={π1,π2,....πN}分别表示其策略。对于在SFC部署过程中的用户,可以将第i个agent的累计预期奖励的策略梯度定义为
其中x={o1,o2,....oN}表示观测的状态集合,ai表示第i个agent的动作。每个agent的Qi是相互独立进行训练学习的,其更新方法可以表示为:
Where
在该算法中,不需要获取其他智能体的策略,却需要对其进行参数估计。每个agent都需要保持其他agent的策略逼近函数,定义来表示第i个agent的策略对第j个agent策略的函数近似。它的近似代价是一个带有熵正则化器的对数代价函数,其代价函数可以写成:
因此,在近似策略下,上面等式中的y可以替换为:
agent策略变化引起的环境不稳定是多agent强化学习的一个突出问题。竞争性任务中出现的问题尤其严重,这会导致agent对策略的过度适应。当竞争对手的策略被更新和改变时,会降低代理的泛化能力。为了提高agent策略的泛化能力,多智能体强化学习算法提出了一种策略集机制。第i个agent的策略由K子策略组成,每个训练阶段只使用子策略中的一个。
对于每个agent,其策略集的最大回报定义为:
where
算法如图5所示、算法流程如图6所示。
本发明设计了一种与前文设计的算法相对应的混合部署架构,如图1所示,算法的‘critic’部分与架构中的‘集中控制器’相对应;‘actor N’部分分别对应于架构中的‘控制器N’,也可以用agent N来表示。actor在从环境中获得观察值后执行动作,然后将获得的数据存储在回放缓冲存储器‘memory’中。Critic模块从memory中提取数据来进行训练学习。
每个agent可以以分布式的形式独立地与环境交互,集中式控制器中的critic在数据学习后指导actor修改策略。
为解决SFC的部署问题,还提出一种新的“分布式+集中式“混合控制架构。该架构的优化目的主要是能够集中和分布式的优势。为了能够快速、灵活地响应用户的请求,并且能够在不陷入分布式系统中可能出现的局部最优问题的情况下获得全局最优部署方案。
如图1所示,该架构中的控制器能够分别获得网络环境拓扑结构、网络环境信息。当用户请求部署服务链时,每个控制器会分别为用户计算部署方案。
关于网络环境模块:在不损失一般性的前提下,将网络模型描述为一个连通的无向图G={V,E},其中包括n=|V|个节点,m=|E|条链路。网络具有有限的IT资源,例如计算资源和带宽资源。
服务功能链的具体任务可能包括防火墙(FW)、代码转换、网络地址转换(NAT)、视频优化控制器(VOC)等,假设Γ={F1,F2,...,Ff}定义为服务功能链模型,其中包括f个有序序列的VNF。
如图2所示,一条服务链由源节点s,流需要依此经过Network AddressTranslator(NAT)、Firewall、Traffic Shaper,这三个网络功能到达节点d。则可以将这条服务链抽象为Γ'={F1,F2,F3},其中 F1分别代表上述虚拟网络功能VNF。
当一片网络区域内时,所有的用户,同时需要同一个网络域来提供服务链服务时,他们之间会形成资源竞争,进行博弈。
如图3所示,假设用户1,用户2,用户3同时需要进行视频传输服务。网络域的服务提供商一方面需要考虑自己成本,同时还需要考虑用户的服务体验。
因此,对上述问题,即网络域的服务提供商为用户提供服务时,对所给出的部署方案,可以获得相应的利润和报酬。可以综合服务提供商和用户角度,设计一个优化函数,进行目标优化。例如,一条服务链的延迟可以表示为:
其中CVF表示虚拟网络功能VNF所需要的节点计算资源,BeL表示服务链链路需要的带宽资源,而CF和BL分别表示所部署的网络节点和链路的剩余资源。则在网络环境状态s的条件下,执行动作a部署方式所获得的服务商和用户的联合奖励函数可以表示为:
r(a,s)=ra·revenue(s,a)-rβ·d(s,a).。
本发明是一种以基于actor-critic的深度确定性策略梯度 (DDPG)算法为基本结构来求解多智能体博弈问题的算法。该算法利用所有actor的数据来更新Q值,使系统能够顺利地进行优化。它的框架不受环境的限制,每个代理都可以有自己的奖励机制,决定合作还是竞争。对于每一个agent,在测试过程中只需要当前状态数据来进行预测,而训练数据和测试数据并不完全一致。独立采样和统一学习是优化SFC部署问题所需要的。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (7)
1.一种基于多智能体强化学习的网内服务功能部署方法,其特征在于,包括以下步骤:
S1、每个参与者分别更新策略π的参数;
S2、每个评论家分别更新动作Q值参数;
S3、定义θ={θ1,θ2,....θN}为N个agent(actor)的参数,相应的π={π1,π2,....πN}分别表示其策略;
S4、对于在SFC部署过程中的用户,将第i个agent的累计预期奖励的策略梯度定义为
其中x={o1,o2,....oN}表示观测的状态集合,ai表示第i个agent的动作;
S5、每个agent的Qi是相互独立进行训练学习的,其更新方法可以表示为:
Where
S7、在近似策略下,上面等式中的y可以替换为:
5.根据权利要求1所述的一种基于多智能体强化学习的网内服务功能部署方法,其特征在于,每个参与者收集数据(s,α=π(s),r,s'),并将其存储在回放缓冲内存中。
6.根据权利要求4所述的一种基于多智能体强化学习的网内服务功能部署方法,其特征在于,当缓冲池的数量大于预热阈值时,学习开始。
7.根据权利要求1所述的一种基于多智能体强化学习的网内服务功能部署方法,其特征在于,critic都可以获得actor收集的所有信息,在更新参数时,将考虑所有参与者生成的数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011470782.7A CN112769594A (zh) | 2020-12-14 | 2020-12-14 | 一种基于多智能体强化学习的网内服务功能部署方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011470782.7A CN112769594A (zh) | 2020-12-14 | 2020-12-14 | 一种基于多智能体强化学习的网内服务功能部署方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112769594A true CN112769594A (zh) | 2021-05-07 |
Family
ID=75693677
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011470782.7A Pending CN112769594A (zh) | 2020-12-14 | 2020-12-14 | 一种基于多智能体强化学习的网内服务功能部署方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112769594A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113794748A (zh) * | 2021-08-03 | 2021-12-14 | 华中科技大学 | 一种性能感知的服务功能链智能部署方法及装置 |
CN114666840A (zh) * | 2022-03-28 | 2022-06-24 | 东南大学 | 基于多智能体强化学习的负载均衡方法 |
CN115225512A (zh) * | 2022-05-20 | 2022-10-21 | 广东技术师范大学 | 基于节点负载预测的多域服务链主动重构机制 |
CN116112938A (zh) * | 2022-11-22 | 2023-05-12 | 重庆邮电大学 | 一种基于多智能体强化学习的sfc部署方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070203871A1 (en) * | 2006-01-23 | 2007-08-30 | Tesauro Gerald J | Method and apparatus for reward-based learning of improved systems management policies |
CN111464335A (zh) * | 2020-03-10 | 2020-07-28 | 北京邮电大学 | 一种内生可信网络的服务智能定制方法及系统 |
-
2020
- 2020-12-14 CN CN202011470782.7A patent/CN112769594A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070203871A1 (en) * | 2006-01-23 | 2007-08-30 | Tesauro Gerald J | Method and apparatus for reward-based learning of improved systems management policies |
CN111464335A (zh) * | 2020-03-10 | 2020-07-28 | 北京邮电大学 | 一种内生可信网络的服务智能定制方法及系统 |
Non-Patent Citations (3)
Title |
---|
RYAN LOWE等: "Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments", 《ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS》 * |
TAO TANG等: "A Hybrid Learning Framework for Service Function Chaining Across Geo-Distributed Data Centers", 《IEEE》 * |
TIANLE MAI等: "A Distributed Reinforcement Learning Approach to In-network Congestion Control", 《IEEE》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113794748A (zh) * | 2021-08-03 | 2021-12-14 | 华中科技大学 | 一种性能感知的服务功能链智能部署方法及装置 |
CN113794748B (zh) * | 2021-08-03 | 2022-07-12 | 华中科技大学 | 一种性能感知的服务功能链智能部署方法及装置 |
CN114666840A (zh) * | 2022-03-28 | 2022-06-24 | 东南大学 | 基于多智能体强化学习的负载均衡方法 |
CN115225512A (zh) * | 2022-05-20 | 2022-10-21 | 广东技术师范大学 | 基于节点负载预测的多域服务链主动重构机制 |
CN115225512B (zh) * | 2022-05-20 | 2023-09-12 | 广东技术师范大学 | 基于节点负载预测的多域服务链主动重构机制 |
CN116112938A (zh) * | 2022-11-22 | 2023-05-12 | 重庆邮电大学 | 一种基于多智能体强化学习的sfc部署方法 |
CN116112938B (zh) * | 2022-11-22 | 2024-04-19 | 深圳赛雷文化传媒有限公司 | 一种基于多智能体强化学习的sfc部署方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112769594A (zh) | 一种基于多智能体强化学习的网内服务功能部署方法 | |
Sonmez et al. | Fuzzy workload orchestration for edge computing | |
Quang et al. | Multi-domain non-cooperative VNF-FG embedding: A deep reinforcement learning approach | |
CN111147307A (zh) | 基于深度强化学习的服务功能链可靠部署方法 | |
Derbel et al. | ANEMA: Autonomic network management architecture to support self-configuration and self-optimization in IP networks | |
CN110995858A (zh) | 一种基于深度q网络的边缘网络请求调度决策方法 | |
JP2021083091A (ja) | マルチエージェント強化学習を介してセルラーネットワークにおいてユーザ機器を関連付けるための方法 | |
Gu et al. | Deep reinforcement learning based VNF management in geo-distributed edge computing | |
CN117041330B (zh) | 一种基于强化学习的边缘微服务细粒度部署方法及系统 | |
CN111211984B (zh) | 优化cdn网络的方法、装置及电子设备 | |
Yu et al. | Collaborative computation offloading for multi-access edge computing | |
Ben-Ameur et al. | Cache allocation in multi-tenant edge computing via online reinforcement learning | |
Moon et al. | Smart manufacturing scheduling system: DQN based on cooperative edge computing | |
Zahedi et al. | A power-efficient and performance-aware online virtual network function placement in SDN/NFV-enabled networks | |
CN114281718A (zh) | 一种工业互联网边缘服务缓存决策方法及系统 | |
Toumi et al. | On using deep reinforcement learning for multi-domain SFC placement | |
Henna et al. | Distributed and collaborative high-speed inference deep learning for mobile edge with topological dependencies | |
Alhussein et al. | Dynamic topology design of NFV-enabled services using deep reinforcement learning | |
Amiri et al. | Deep reinforcement learning for robust vnf reconfigurations in o-ran | |
Psaromanolakis et al. | MLOps meets edge computing: an edge platform with embedded intelligence towards 6G systems | |
Zhang et al. | A service migration method based on dynamic awareness in mobile edge computing | |
CN115225512B (zh) | 基于节点负载预测的多域服务链主动重构机制 | |
CN116156565A (zh) | 一种基于多智能体近端策略优化的sfc可靠部署方法 | |
Haw et al. | A context-aware content delivery framework for QoS in mobile cloud | |
Pham et al. | Multi-domain non-cooperative VNF-FG embedding: A deep reinforcement learning approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210507 |