CN112769594A - 一种基于多智能体强化学习的网内服务功能部署方法 - Google Patents

一种基于多智能体强化学习的网内服务功能部署方法 Download PDF

Info

Publication number
CN112769594A
CN112769594A CN202011470782.7A CN202011470782A CN112769594A CN 112769594 A CN112769594 A CN 112769594A CN 202011470782 A CN202011470782 A CN 202011470782A CN 112769594 A CN112769594 A CN 112769594A
Authority
CN
China
Prior art keywords
agent
policy
function
strategy
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011470782.7A
Other languages
English (en)
Inventor
姚海鹏
朱玉超
买天乐
忻向军
张尼
江亮
刘韵洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Communications Communication Network Technology Co ltd
Beijing University of Posts and Telecommunications
Original Assignee
China Communications Communication Network Technology Co ltd
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Communications Communication Network Technology Co ltd, Beijing University of Posts and Telecommunications filed Critical China Communications Communication Network Technology Co ltd
Priority to CN202011470782.7A priority Critical patent/CN112769594A/zh
Publication of CN112769594A publication Critical patent/CN112769594A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0893Assignment of logical groups to network elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/12Avoiding congestion; Recovering from congestion

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于多智能体强化学习的网内服务功能部署方法,包括以下步骤:S1、每个参与者分别更新策略π的参数;S2、每个评论家分别更新动作Q值参数;S3、定义θ={θ12,....θN}为N个agent(actor)的参数,相应的π={π12,....πN}分别表示其策略;S4、对于在SFC部署过程中的用户,将第i个agent的累计预期奖励的策略梯度定义;S5、每个agent的Qi是相互独立进行训练学习的,其更新方法可以表示为:S6、定义
Figure RE-DDA0003005141020000011
来表示第i个agent的策略对第j个agent策略的函数近似,它的近似代价是一个带有熵正则化器的对数代价函数。本发明能够综合分布式和集中式方法的优点,既能够快速反应用户需求,保护用户隐私,提高用户服务体验。又能够考虑服务提供商运营成本,促使网络负载均衡,提高网络资源利用率。

Description

一种基于多智能体强化学习的网内服务功能部署方法
技术领域
本发明涉及服务功能链技术领域,尤其涉及一种基于多智能体强化学习的网内服务功能部署方法。
背景技术
服务功能链(service function chain,SFC)是一组具有特定排序约束的抽象服务函数集。传统上,服务商以部署硬件中间盒来为用户提供服务。为了提高服务提供商部署新网络功能的适应性和灵活性,NFV为网络服务的设计、协调和管理提供了新的思路。虚拟网络功能(VNF)不需要安装额外的特定硬件设备。它可以利用现有的网络资源来实例化网络服务。这不仅为服务提供商创建、修改和删除服务链提供了极大的灵活性,而且大大降低了其部署成本。每个服务链的不同VNF服务可以部署在分布在不同地理位置的服务器节点上。 SFC部署的一个基本问题是如何实例化服务链的VNF,以获得最大的用户满意度和最小的资源成本。
在分布式式服务链部署策略中,引用将服务链部署问题建模为一个具有特定于玩家成本函数的加权拥塞博弈,使用非合作博弈理论实现一种分布式策略,可以解决可伸缩性和隐私问题。然而,这种解决方案仍然需要大量的计算和通信资源。
一般情况下,集中式方法需要获取全局网络状态和系统参数。然而,集中式方法通常依赖于集中式控制器和协调器,这给网络的可扩展性带来了极大的不便。且集中式解决方案目的通常是优化服务提供商的成本,但没有考虑网络用户的具体行为和隐私问题。此外,集中式方法容易发生连接故障,而分布式方法可以提供更大的可扩展性和可靠性。但是,传统的分布式算法趋于收敛太慢,并且可能无法获得全局最优解,导致网络资源利用率低和用户体验差。
发明内容
基于背景技术存在的集中式方法容易发生连接故障,而传统的分布式算法趋于收敛太慢,并且可能无法获得全局最优解,导致网络资源利用率低和用户体验差的技术问题,本发明提出了一种基于多智能体强化学习的网内服务功能部署方法,通过设计了一种新的“分布式 +集中式“混合控制架构,以提高系统的鲁棒性,减少时延和拥塞。
本发明提出的一种基于多智能体强化学习的网内服务功能部署方法,包括以下步骤:
S1、每个参与者分别更新策略π的参数;
S2、每个评论家分别更新动作Q值参数;
S3、定义θ={θ12,....θN}为N个agent(actor)的参数,相应的π={π12,....πN}分别表示其策略;
S4、对于在SFC部署过程中的用户,将第i个agent的累计预期奖励的策略梯度定义为
Figure RE-GDA0003005141010000021
其中x={o1,o2,....oN}表示观测的状态集合,ai表示第i个agent 的动作;
S5、每个agent的Qi是相互独立进行训练学习的,其更新方法可以表示为:
Figure RE-GDA0003005141010000031
Where
Figure RE-GDA0003005141010000032
其中μ'={μ1',μ2',....μN'}是目标策略参数,
Figure RE-GDA0003005141010000033
表示目标动作值函数;
S6、定义
Figure RE-GDA0003005141010000034
来表示第i个agent的策略对第j个agent策略的函数近似,它的近似代价是一个带有熵正则化器的对数代价函数,其代价函数可以写成:
Figure RE-GDA0003005141010000035
其中,
Figure RE-GDA0003005141010000036
是熵正则化函数;
S7、在近似策略下,上面等式中的y可以替换为:
Figure RE-GDA0003005141010000037
其中γ是累计折扣系数,
Figure RE-GDA0003005141010000038
使用神经网络来近似估计
Figure RE-GDA0003005141010000039
在更新
Figure RE-GDA00030051410100000310
之前,使用重放缓冲区的采样数据来更新
Figure RE-GDA00030051410100000311
的参数。
优选地,还包括策略集机制,第i个agent的策略由K子策略组成,每个训练阶段只使用子策略
Figure RE-GDA00030051410100000312
中的一个。
优选地,对于每个agent,其策略集的最大回报定义为:
Figure RE-GDA0003005141010000041
优选地,第i个代理的第k个子策略构造重放缓冲存储器Di(k), i代理的每个子策略
Figure RE-GDA0003005141010000042
的梯度更新为:
Figure RE-GDA0003005141010000043
where
Figure RE-GDA0003005141010000044
优选地,每个参与者收集数据(s,α=π(s),r,s'),并将其存储在回放缓冲内存中。
优选地,当缓冲池的数量大于预热阈值时,学习开始。
优选地,critic都可以获得actor收集的所有信息,在更新参数时,将考虑所有参与者生成的数据。
与现有技术相比,本发明的有益效果为:通过提出集中训练和分布式执行的多智能体强化学习服务链部署机制,结合了分布式解决方案和集中式解决方案的优点,能够快速、灵活地响应用户的请求,并且能够在不陷入分布式系统中可能出现的局部最优问题的情况下获得全局最优部署方案。
本发明能够综合分布式和集中式方法的优点,既能够快速反应用户需求,保护用户隐私,提高用户服务体验。又能够考虑服务提供商运营成本,促使网络负载均衡,提高网络资源利用率。
附图说明
图1为本发明提出的一种基于多智能体强化学习的网内服务功能部署方法中混合控制架构的示意图;
图2为本发明提出的一种基于多智能体强化学习的网内服务功能部署方法中服务链路节点走向图;
图3为本发明提出的一种基于多智能体强化学习的网内服务功能部署方法中多用户通过网络域使用服务链的示意图;
图4为本发明提出的一种基于多智能体强化学习的网内服务功能部署方法中集中和分布式的算法框图;
图5为本发明提出的一种基于多智能体强化学习的网内服务功能部署方法中策略集机制的算法图;
图6为本发明提出的一种基于多智能体强化学习的网内服务功能部署方法中策略集机制的算法流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本文中,术语“包括”、“包含”、“具有”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括……”或“包含……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。
实施例
参照图1-6,本发明提出的一种基于多智能体强化学习的网内服务功能部署方法,包括以下步骤:每个参与者收集数据 (s,α=π(s),r,s'),并将其存储在回放缓冲内存中。当缓冲池的数量大于预热阈值时,学习开始。每个参与者分别更新策略π的参数。与DDPG 算法一样,当代理需要选择操作时,只需要当前的(s,α=π(s))。每个评论家分别更新动作Q值参数。请注意,critic都可以获得actor收集的所有信息。在更新参数时,它将考虑所有参与者生成的数据。定义θ={θ12,....θN}为N个agent(actor)的参数,相应的π={π12,....πN}分别表示其策略。对于在SFC部署过程中的用户,可以将第i个agent的累计预期奖励的策略梯度定义为
Figure RE-GDA0003005141010000061
其中x={o1,o2,....oN}表示观测的状态集合,ai表示第i个agent的动作。每个agent的Qi是相互独立进行训练学习的,其更新方法可以表示为:
Figure RE-GDA0003005141010000071
Where
Figure RE-GDA0003005141010000072
其中μ'={μ1',μ2',....μN'}是目标策略参数,
Figure RE-GDA0003005141010000073
表示目标动作值函数。
在该算法中,不需要获取其他智能体的策略,却需要对其进行参数估计。每个agent都需要保持其他agent的策略逼近函数,定义
Figure RE-GDA0003005141010000074
来表示第i个agent的策略对第j个agent策略的函数近似。它的近似代价是一个带有熵正则化器的对数代价函数,其代价函数可以写成:
Figure RE-GDA0003005141010000075
其中,
Figure RE-GDA0003005141010000076
是熵正则化函数。只要最小化第j个agent的代价函数的对数概率,就可以得到其它agent的策略。
因此,在近似策略下,上面等式中的y可以替换为:
Figure RE-GDA0003005141010000077
其中γ是累计折扣系数,
Figure RE-GDA0003005141010000078
使用神经网络来近似估计
Figure RE-GDA0003005141010000079
在更新
Figure RE-GDA00030051410100000710
之前,该算法使用重放缓冲区的采样数据来更新
Figure RE-GDA00030051410100000711
的参数。
agent策略变化引起的环境不稳定是多agent强化学习的一个突出问题。竞争性任务中出现的问题尤其严重,这会导致agent对策略的过度适应。当竞争对手的策略被更新和改变时,会降低代理的泛化能力。为了提高agent策略的泛化能力,多智能体强化学习算法提出了一种策略集机制。第i个agent的策略由K子策略组成,每个训练阶段只使用子策略
Figure RE-GDA0003005141010000081
中的一个。
对于每个agent,其策略集的最大回报定义为:
Figure RE-GDA0003005141010000082
为第i个代理的第k个子策略构造了一个重放缓冲存储器Di(k) (memory)。为了优化策略集的整体性能,i代理的每个子策略
Figure RE-GDA0003005141010000083
的梯度更新为:
Figure RE-GDA0003005141010000084
where
Figure RE-GDA0003005141010000085
算法如图5所示、算法流程如图6所示。
本发明设计了一种与前文设计的算法相对应的混合部署架构,如图1所示,算法的‘critic’部分与架构中的‘集中控制器’相对应;‘actor N’部分分别对应于架构中的‘控制器N’,也可以用agent N来表示。actor在从环境中获得观察值后执行动作,然后将获得的数据存储在回放缓冲存储器‘memory’中。Critic模块从memory中提取数据来进行训练学习。
每个agent可以以分布式的形式独立地与环境交互,集中式控制器中的critic在数据学习后指导actor修改策略。
为解决SFC的部署问题,还提出一种新的“分布式+集中式“混合控制架构。该架构的优化目的主要是能够集中和分布式的优势。为了能够快速、灵活地响应用户的请求,并且能够在不陷入分布式系统中可能出现的局部最优问题的情况下获得全局最优部署方案。
如图1所示,该架构中的控制器能够分别获得网络环境拓扑结构、网络环境信息。当用户请求部署服务链时,每个控制器会分别为用户计算部署方案。
关于网络环境模块:在不损失一般性的前提下,将网络模型描述为一个连通的无向图G={V,E},其中包括n=|V|个节点,m=|E|条链路。网络具有有限的IT资源,例如计算资源和带宽资源。
服务功能链的具体任务可能包括防火墙(FW)、代码转换、网络地址转换(NAT)、视频优化控制器(VOC)等,假设Γ={F1,F2,...,Ff}定义为服务功能链模型,其中包括f个有序序列的VNF。
如图2所示,一条服务链由源节点s,流需要依此经过Network AddressTranslator(NAT)、Firewall、Traffic Shaper,这三个网络功能到达节点d。则可以将这条服务链抽象为Γ'={F1,F2,F3},其中 F1分别代表上述虚拟网络功能VNF。
当一片网络区域内时,所有的用户,同时需要同一个网络域来提供服务链服务时,他们之间会形成资源竞争,进行博弈。
如图3所示,假设用户1,用户2,用户3同时需要进行视频传输服务。网络域的服务提供商一方面需要考虑自己成本,同时还需要考虑用户的服务体验。
因此,对上述问题,即网络域的服务提供商为用户提供服务时,对所给出的部署方案,可以获得相应的利润和报酬。可以综合服务提供商和用户角度,设计一个优化函数,进行目标优化。例如,一条服务链的延迟可以表示为:
Figure RE-GDA0003005141010000101
其中s表示当前网络状态,a表示服务链部署方案。
Figure RE-GDA0003005141010000102
表示链路延迟,
Figure RE-GDA0003005141010000103
表示节点处理数据包的延迟。从服务商的角度考虑,服务商希望在其网络域内能够尽可能地网络负载均衡。则网络均衡函数可以表示为:
Figure RE-GDA0003005141010000104
其中CVF表示虚拟网络功能VNF所需要的节点计算资源,BeL表示服务链链路需要的带宽资源,而CF和BL分别表示所部署的网络节点和链路的剩余资源。则在网络环境状态s的条件下,执行动作a部署方式所获得的服务商和用户的联合奖励函数可以表示为:
r(a,s)=ra·revenue(s,a)-rβ·d(s,a).。
本发明是一种以基于actor-critic的深度确定性策略梯度 (DDPG)算法为基本结构来求解多智能体博弈问题的算法。该算法利用所有actor的数据来更新Q值,使系统能够顺利地进行优化。它的框架不受环境的限制,每个代理都可以有自己的奖励机制,决定合作还是竞争。对于每一个agent,在测试过程中只需要当前状态数据来进行预测,而训练数据和测试数据并不完全一致。独立采样和统一学习是优化SFC部署问题所需要的。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (7)

1.一种基于多智能体强化学习的网内服务功能部署方法,其特征在于,包括以下步骤:
S1、每个参与者分别更新策略π的参数;
S2、每个评论家分别更新动作Q值参数;
S3、定义θ={θ1,θ2,....θN}为N个agent(actor)的参数,相应的π={π1,π2,....πN}分别表示其策略;
S4、对于在SFC部署过程中的用户,将第i个agent的累计预期奖励的策略梯度定义为
Figure RE-FDA0003005141000000011
其中x={o1,o2,....oN}表示观测的状态集合,ai表示第i个agent的动作;
S5、每个agent的Qi是相互独立进行训练学习的,其更新方法可以表示为:
Figure RE-FDA0003005141000000012
Where
Figure RE-FDA0003005141000000013
其中μ'={μ1',μ2',....μN'}是目标策略参数,
Figure RE-FDA0003005141000000014
表示目标动作值函数;
S6、定义
Figure RE-FDA0003005141000000021
来表示第i个agent的策略对第j个agent策略的函数近似,它的近似代价是一个带有熵正则化器的对数代价函数,其代价函数可以写成:
Figure RE-FDA0003005141000000022
其中,
Figure RE-FDA0003005141000000023
是熵正则化函数;
S7、在近似策略下,上面等式中的y可以替换为:
Figure RE-FDA0003005141000000024
其中γ是累计折扣系数,
Figure RE-FDA0003005141000000025
使用神经网络来近似估计
Figure RE-FDA0003005141000000026
在更新
Figure RE-FDA0003005141000000027
之前,使用重放缓冲区的采样数据来更新
Figure RE-FDA0003005141000000028
的参数。
2.根据权利要求1所述的一种基于多智能体强化学习的网内服务功能部署方法,其特征在于,还包括策略集机制,第i个agent的策略由K子策略组成,每个训练阶段只使用子策略
Figure FDA0002833635480000025
中的一个。
3.根据权利要求2所述的一种基于多智能体强化学习的网内服务功能部署方法,其特征在于,对于每个agent,其策略集的最大回报定义为:
Figure FDA0002833635480000026
4.根据权利要求3所述的一种基于多智能体强化学习的网内服务功能部署方法,其特征在于,第i个代理的第k个子策略构造重放缓冲存储器Di(k),i代理的每个子策略
Figure FDA0002833635480000027
的梯度更新为:
Figure FDA0002833635480000031
where
Figure FDA0002833635480000032
5.根据权利要求1所述的一种基于多智能体强化学习的网内服务功能部署方法,其特征在于,每个参与者收集数据(s,α=π(s),r,s'),并将其存储在回放缓冲内存中。
6.根据权利要求4所述的一种基于多智能体强化学习的网内服务功能部署方法,其特征在于,当缓冲池的数量大于预热阈值时,学习开始。
7.根据权利要求1所述的一种基于多智能体强化学习的网内服务功能部署方法,其特征在于,critic都可以获得actor收集的所有信息,在更新参数时,将考虑所有参与者生成的数据。
CN202011470782.7A 2020-12-14 2020-12-14 一种基于多智能体强化学习的网内服务功能部署方法 Pending CN112769594A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011470782.7A CN112769594A (zh) 2020-12-14 2020-12-14 一种基于多智能体强化学习的网内服务功能部署方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011470782.7A CN112769594A (zh) 2020-12-14 2020-12-14 一种基于多智能体强化学习的网内服务功能部署方法

Publications (1)

Publication Number Publication Date
CN112769594A true CN112769594A (zh) 2021-05-07

Family

ID=75693677

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011470782.7A Pending CN112769594A (zh) 2020-12-14 2020-12-14 一种基于多智能体强化学习的网内服务功能部署方法

Country Status (1)

Country Link
CN (1) CN112769594A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113794748A (zh) * 2021-08-03 2021-12-14 华中科技大学 一种性能感知的服务功能链智能部署方法及装置
CN114666840A (zh) * 2022-03-28 2022-06-24 东南大学 基于多智能体强化学习的负载均衡方法
CN115225512A (zh) * 2022-05-20 2022-10-21 广东技术师范大学 基于节点负载预测的多域服务链主动重构机制
CN116112938A (zh) * 2022-11-22 2023-05-12 重庆邮电大学 一种基于多智能体强化学习的sfc部署方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070203871A1 (en) * 2006-01-23 2007-08-30 Tesauro Gerald J Method and apparatus for reward-based learning of improved systems management policies
CN111464335A (zh) * 2020-03-10 2020-07-28 北京邮电大学 一种内生可信网络的服务智能定制方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070203871A1 (en) * 2006-01-23 2007-08-30 Tesauro Gerald J Method and apparatus for reward-based learning of improved systems management policies
CN111464335A (zh) * 2020-03-10 2020-07-28 北京邮电大学 一种内生可信网络的服务智能定制方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
RYAN LOWE等: "Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments", 《ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS》 *
TAO TANG等: "A Hybrid Learning Framework for Service Function Chaining Across Geo-Distributed Data Centers", 《IEEE》 *
TIANLE MAI等: "A Distributed Reinforcement Learning Approach to In-network Congestion Control", 《IEEE》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113794748A (zh) * 2021-08-03 2021-12-14 华中科技大学 一种性能感知的服务功能链智能部署方法及装置
CN113794748B (zh) * 2021-08-03 2022-07-12 华中科技大学 一种性能感知的服务功能链智能部署方法及装置
CN114666840A (zh) * 2022-03-28 2022-06-24 东南大学 基于多智能体强化学习的负载均衡方法
CN115225512A (zh) * 2022-05-20 2022-10-21 广东技术师范大学 基于节点负载预测的多域服务链主动重构机制
CN115225512B (zh) * 2022-05-20 2023-09-12 广东技术师范大学 基于节点负载预测的多域服务链主动重构机制
CN116112938A (zh) * 2022-11-22 2023-05-12 重庆邮电大学 一种基于多智能体强化学习的sfc部署方法
CN116112938B (zh) * 2022-11-22 2024-04-19 深圳赛雷文化传媒有限公司 一种基于多智能体强化学习的sfc部署方法

Similar Documents

Publication Publication Date Title
CN112769594A (zh) 一种基于多智能体强化学习的网内服务功能部署方法
Sonmez et al. Fuzzy workload orchestration for edge computing
Quang et al. Multi-domain non-cooperative VNF-FG embedding: A deep reinforcement learning approach
CN111147307A (zh) 基于深度强化学习的服务功能链可靠部署方法
Derbel et al. ANEMA: Autonomic network management architecture to support self-configuration and self-optimization in IP networks
CN110995858A (zh) 一种基于深度q网络的边缘网络请求调度决策方法
JP2021083091A (ja) マルチエージェント強化学習を介してセルラーネットワークにおいてユーザ機器を関連付けるための方法
Gu et al. Deep reinforcement learning based VNF management in geo-distributed edge computing
CN117041330B (zh) 一种基于强化学习的边缘微服务细粒度部署方法及系统
CN111211984B (zh) 优化cdn网络的方法、装置及电子设备
Yu et al. Collaborative computation offloading for multi-access edge computing
Ben-Ameur et al. Cache allocation in multi-tenant edge computing via online reinforcement learning
Moon et al. Smart manufacturing scheduling system: DQN based on cooperative edge computing
Zahedi et al. A power-efficient and performance-aware online virtual network function placement in SDN/NFV-enabled networks
CN114281718A (zh) 一种工业互联网边缘服务缓存决策方法及系统
Toumi et al. On using deep reinforcement learning for multi-domain SFC placement
Henna et al. Distributed and collaborative high-speed inference deep learning for mobile edge with topological dependencies
Alhussein et al. Dynamic topology design of NFV-enabled services using deep reinforcement learning
Amiri et al. Deep reinforcement learning for robust vnf reconfigurations in o-ran
Psaromanolakis et al. MLOps meets edge computing: an edge platform with embedded intelligence towards 6G systems
Zhang et al. A service migration method based on dynamic awareness in mobile edge computing
CN115225512B (zh) 基于节点负载预测的多域服务链主动重构机制
CN116156565A (zh) 一种基于多智能体近端策略优化的sfc可靠部署方法
Haw et al. A context-aware content delivery framework for QoS in mobile cloud
Pham et al. Multi-domain non-cooperative VNF-FG embedding: A deep reinforcement learning approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210507