CN113193999B - 一种基于深度确定性策略梯度的虚拟网络映射方法 - Google Patents

一种基于深度确定性策略梯度的虚拟网络映射方法 Download PDF

Info

Publication number
CN113193999B
CN113193999B CN202110475268.0A CN202110475268A CN113193999B CN 113193999 B CN113193999 B CN 113193999B CN 202110475268 A CN202110475268 A CN 202110475268A CN 113193999 B CN113193999 B CN 113193999B
Authority
CN
China
Prior art keywords
virtual
network
mapping
action
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110475268.0A
Other languages
English (en)
Other versions
CN113193999A (zh
Inventor
宗悦
于尧
徐天明
郭磊
Original Assignee
东北大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 东北大学 filed Critical 东北大学
Priority to CN202110475268.0A priority Critical patent/CN113193999B/zh
Publication of CN113193999A publication Critical patent/CN113193999A/zh
Application granted granted Critical
Publication of CN113193999B publication Critical patent/CN113193999B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0823Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0896Bandwidth or capacity management, i.e. automatically increasing or decreasing capacities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/12Shortest path evaluation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于深度确定性策略梯度的虚拟网络映射方法,包括以下步骤:S1:将虚拟网络映射问题建模为马尔科夫过程;S2:对当前网络状态,使用深度确定性策略梯度算法进行物理节点的选择,进行虚拟节点映射;S3:对步骤S2中映射的虚拟节点相邻的虚拟链路使用最短路径算法进行链路映射,并在进行链路映射时满足虚拟链路的时延要求;S4:返回当前网络状态对应的奖励值及下一个网络状态,将经验存储到经验库中;深度确定性策略梯度算法智能体从经验库中抽取一批经验进行训练,对深度确定性策略梯度算法中目标网络的参数进行更新。本发明解决了现有技术中的在大规模网络上进行虚拟资源分配时资源利用率有限、不够智能的问题。

Description

一种基于深度确定性策略梯度的虚拟网络映射方法
技术领域
本发明涉及通信领域与强化学习技术领域,具体而言,尤其涉及一种基于深度确定性策略梯度的虚拟网络映射方法。
背景技术
随着5G新型的AR/VR、在线游戏、视频渲染等高带宽低时延等业务的产生,云计算和移动互联网的高速发展,未来移动数据流量将出现爆炸式增长,联网设备越来越多且越来越智能,数据量和数据节点不断增加,不仅会占用大量网络带宽,而且会增加核心光网络的负担,现有的网络规模及技术不足以支撑流量的爆炸式增长及用户的要求。网络虚拟化是一种有效解决网络僵化的问题的方法,是未来互联网的关键特性之一。网络虚拟化可以将服务运营商与基础设施提供商解耦,可以实现多租户,多服务的资源共享,为用户提供差异化服务。
虚拟网络映射是实现网络虚拟化资源分配的一个重要挑战,能够实现将底层网络资源分配给虚拟网络请求。对于光数据中心网络的虚拟网络映射,即在数据中心节点分配计算资源,在光纤链路上分配带宽资源,同时要满足用户对于节点位置、链路时延等约束。现有的基于深度强化学习的方法(如深度Q学习)无法解决高维度的状态空间或大规模的动作空间的动态虚拟网络映射决策问题。深度Q学习算法在选择节点映射策略的过程,可能会导致过优估计,从而映射到整体的虚拟网络映射方案,导致整体的网络性能变差。
发明内容
为了解决在大规模网络上进行虚拟资源分配时资源利用率有限、不够智能的问题,而提供一种基于深度确定性策略梯度的虚拟网络映射方法,采用深度确定性策略梯度强化学习框架,通过智能体与物理网络和请求环境中交互学习,获得每次映射的奖励值,从而优化下一次动作的算法,使整体的大规模虚拟网络请求达到最优映射,最大化基础设施服务提供商的长期收益。
本发明采用的技术手段如下:
一种基于深度确定性策略梯度的虚拟网络映射方法,包括以下步骤:
S1:将虚拟网络映射问题建模为马尔科夫过程;
S2:对当前网络状态,使用深度确定性策略梯度算法进行物理节点的选择,进行虚拟节点映射;
S3:对步骤S2中映射的虚拟节点相邻的虚拟链路使用最短路径算法进行链路映射,并在进行链路映射时满足虚拟链路的时延要求;
S4:返回当前网络状态对应的奖励值及下一个网络状态,将经验存储到经验库中,经验包括当前网络状态、当前网络状态对应的奖励值和下一个网络状态;深度确定性策略梯度算法智能体从经验库中抽取一批经验进行训练,对深度确定性策略梯度算法中目标网络的参数进行更新,直到对所有虚拟网络请求映射到达设定的最大学习回合,得到最优的映射分配方案。
进一步地,步骤S1具体包括以下步骤:
S1-1:将虚拟网络映射问题建模成马尔科夫过程其中,/>表示状态空间,/>表示动作空间,/>表示奖励函数,/>表示转移概率,γ∈[0,1]表示折扣因子;马尔科夫过程中,通过智能体与环境交互来获得最大的平均奖励值/>其中,r(st,at)表示在t时刻的状态st执行动作at之后的奖励值;智能体的目标是找到最优策略π*来最大化平均奖励值,/>s表示状态,a表示动作;
S1-2:定义状态空间
在虚拟网络映射问题中,在构建状态空间时,从虚拟网络中提取的特征如下:
物理节点k包括的特征:1)剩余的CPU资源ck;2)节点度dk;3)当前物理节点相邻的物理链路剩余带宽之和:
其中Lk表示物理节点k相邻的物理链路集合,b(ls)表示物理节点k的相邻链路ls的剩余带宽;
虚拟请求r中虚拟节点u包括的特征:1)请求的CPU资源2)虚拟节点的节点度3)当前虚拟节点相邻的虚拟链路的带宽资源请求之和:
其中,表示虚拟节点u的相邻的虚拟链路集合,b(lv)表示虚拟节点u的相邻虚拟链路lv请求的带宽;
在特征提取之后,状态空间内在时刻t的状态st可以定义为向量:
其中,N表示物理节点集合;
S1-3:定义动作空间
一个动作是指一个映射过程将虚拟节点映射到物理节点,动作空间内t时刻的动作向量定义为/>其中/>表示对于当前虚拟节点选择物理节点k进行映射的概率,N表示物理节点集合;
S1-4:定义奖励函数
其中Rr表示第r个虚拟网络请求的收益。
进一步地,步骤S2具体包括以下步骤:
S2-1:对当前网络状态,使用深度确定性策略梯度算法进行物理节点的选择at
S2-2:环境执行动作at选择物理节点,在选择的物理节点满足虚拟节点的计算资源请求及位置约束时即进行虚拟节点映射。
进一步地,步骤S3具体包括以下步骤:
S3-1:对于步骤S2中映射的虚拟节点所有的相邻虚拟链路进行检查,若虚拟链路的两端的虚拟节点都成功映射,则执行链路映射,若虚拟节点映射失败,则进入步骤S4;
S3-2:对于成功映射的虚拟链路,进行链路资源分配;若虚拟链路映射失败,则进入步骤S4。
进一步地,步骤S4具体包括以下步骤:
S4-1:返回当前网络状态对应的奖励值及下一个网络状态;
S4-2:将经验存储到经验库中;
S4-3:深度确定性策略梯度算法智能体从经验库中抽取一批经验,计算估计的Q目标值yi=ri+γQ′(si+1,μ′(si+1μ′)|θQ′),其中,ri是经验中保存的值,经验保存的是当前网络状态si、执行选择的动作ai之后得到的奖励值ri以及下一个网络状态si+1;μ′(si+1μ′)表示参数为θμ′目标动作网络在预测输入为si+1时选择的动作,参数为θQ的评价网络根据下个状态si+1及预测的动作对动作计算评价值Q′,通过最小化均方差损失函数L更新深度确定性策略梯度算法中评价网络的参数θQ
L=E[(yi-Q(si,aiQ))2]
其中,E表示的是求平均;Q表示评价网络在参数为θQ时,在网络状态si时,对选择的动作ai进行评价;
S4-4:通过策略梯度更新深度确定性策略梯度算法中动作网络的参数θμ
其中,J是基于θμ与动作网络相关函数,表示对函数J对参数θμ求梯度;/>表示从经验库中抽取经验的数量;
S4-5:根据更新后的评价网络的参数θQ和动作网络的参数θμ,更新深度确定性策略梯度算法中目标评价网络的参数θQ′和目标动作网络的参数θμ′
θQ′←τθQ+(1-τcQ′
θμ′←τθμ+(1-τaμ′
其中,θQ为评价网络的参数,τc为更新系数,θQ′为目标评价网络的参数;θμ为动作网络的参数,τa为更新系数,θμ′为目标动作网络的参数;
S4-6:重复步骤S2-S4,直到对所有虚拟网络请求映射到达设定的最大学习回合,得到最优的映射分配方案。
较现有技术相比,本发明具有以下优点:
本发明提供的基于深度确定性策略梯度的虚拟网络映射方法,通过将虚拟网络映射问题建模为马尔科夫决策过程,通过深度确定性策略梯度算法对当前虚拟节点状态获取进行节点映射的物理节点;通过对该虚拟节点相邻的虚拟链路进行链路映射;将得到的奖励值和下一个状态存储到经验存储库中。深度确定性策略梯度算法的智能体从经验库中抽取一些样本进行训练,更新网络参数,直到所有的回合结束,对于大规模的虚拟网络请求得到最优的资源分配方案;相比于现有的启发式算法和基于深度Q学习等算法,这种深度确定性策略梯度算法的虚拟网络映射方法,可以进一步提高虚拟网络请求的接收率,提高基础设施提供商的收益,比传统方法更灵活更智能。
基于上述理由本发明可在通信领域与强化学习领域广泛推广。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所述基于深度确定性策略梯度的虚拟网络映射方法的网络架构图。
图2为本发明所述深度确定性策略梯度算法的原理图。
图3为本发明所述基于深度确定性策略梯度的虚拟网络映射方法流程图。
图4为本发明所述基于深度确定性策略梯度的虚拟网络映射方法奖励值随训练回合增加的收敛结果图。
图5为本发明所述基于深度确定性策略梯度的虚拟网络映射方法网络请求接收率随训练回合增加的仿真图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
如图3所示,本发明提供了一种基于深度确定性策略梯度的虚拟网络映射方法,包括以下步骤:
S1:将虚拟网络映射问题建模为马尔科夫过程;
S2:对当前网络状态,使用深度确定性策略梯度算法进行物理节点的选择,进行虚拟节点映射;
S3:对步骤S2中映射的虚拟节点相邻的虚拟链路使用最短路径算法进行链路映射,并在进行链路映射时满足虚拟链路的时延要求;
S4:返回当前网络状态对应的奖励值及下一个网络状态,将经验存储到经验库中,经验包括当前网络状态、当前网络状态对应的奖励值和下一个网络状态;深度确定性策略梯度算法智能体从经验库中抽取一批经验进行训练,对深度确定性策略梯度算法中目标网络的参数进行更新,直到对所有虚拟网络请求映射到达设定的最大学习回合,得到最优的映射分配方案。
进一步地,步骤S1具体包括以下步骤:
S1-1:将虚拟网络映射问题建模成马尔科夫过程其中,/>表示状态空间,/>表示动作空间,/>表示奖励函数,/>表示转移概率,γ∈[0,1]表示折扣因子;马尔科夫过程中,通过智能体与环境交互来获得最大的平均奖励值/>其中,r(st,at)表示在t时刻的状态st执行动作at之后的奖励值;智能体的目标是找到最优策略π*来最大化平均奖励值,/>s表示状态,a表示动作;最优策略就是指在状态s下,选择的动作a是使奖励值最大的动作;
S1-2:定义状态空间
在虚拟网络映射问题中,在构建状态空间时,从虚拟网络中提取的特征如下:
物理节点k包括的特征:1)剩余的CPU资源ck;2)节点度dk;3)当前物理节点相邻的物理链路剩余带宽之和:
其中Lk表示物理节点k相邻的物理链路集合,b(ls)表示物理节点k的相邻链路ls的剩余带宽;
虚拟请求r中虚拟节点u包括的特征:1)请求的CPU资源2)虚拟节点的节点度3)当前虚拟节点相邻的虚拟链路的带宽资源请求之和:
其中,表示虚拟节点u的相邻的虚拟链路集合,b(lv)表示虚拟节点u的相邻虚拟链路lv请求的带宽;
在特征提取之后,状态空间内在时刻t的状态st可以定义为向量:
其中,N表示物理节点集合;
S1-3:定义动作空间
一个动作是指一个映射过程将虚拟节点映射到物理节点,动作空间内t时刻的动作向量定义为/>其中/>表示对于当前虚拟节点选择物理节点k进行映射的概率,N表示物理节点集合;
S1-4:定义奖励函数
其中Rr表示第r个虚拟网络请求的收益。
进一步地,步骤S2具体包括以下步骤:
S2-1:对当前网络状态,使用深度确定性策略梯度算法进行物理节点的选择at
S2-2:环境执行动作at选择物理节点,在选择的物理节点满足虚拟节点的计算资源请求及位置约束时即进行虚拟节点映射。
进一步地,步骤S3具体包括以下步骤:
S3-1:对于步骤S2中映射的虚拟节点所有的相邻虚拟链路进行检查,若虚拟链路的两端的虚拟节点都成功映射,则执行链路映射,若虚拟节点映射失败,则进入步骤S4;
S3-2:对于成功映射的虚拟链路,进行链路资源分配;若虚拟链路映射失败,则进入步骤S4。
进一步地,步骤S4具体包括以下步骤:
S4-1:返回当前网络状态对应的奖励值及下一个网络状态;
S4-2:将经验存储到经验库中;
S4-3:深度确定性策略梯度算法智能体从经验库中抽取一批经验,计算估计的Q目标值yi=ri+γQ′(si+1,μ′(si+1μ′)|θQ′),其中,ri是经验中保存的值,经验保存的是当前网络状态si、执行选择的动作ai之后得到的奖励值ri以及下一个网络状态si+1;μ′(si+1μ′)表示参数为θμ′目标动作网络在预测输入为si+1时选择的动作,参数为θQ的评价网络根据下个状态si+1及预测的动作对动作计算评价值Q′,通过最小化均方差损失函数L更新深度确定性策略梯度算法中评价网络的参数θQ:评价网络用于评价选择的动作at是否是最优的或者长期最优的;通过最小化L的值,来更新参数θQ
L=E[(yi-Q(si,aiQ))2]
其中,E表示的是求平均;Q表示评价网络在参数为θQ时,在网络状态si时,对选择的动作ai进行评价;
S4-4:通过策略梯度更新深度确定性策略梯度算法中动作网络的参数θμ:动作网络用于根据输入的状态选择要执行的动作at
其中,J是基于θμ与动作网络相关函数,表示对函数J对参数θμ求梯度;/>表示从经验库中抽取经验的数量;从/>得到根据数学求梯度的性质可得;
S4-5:根据更新后的评价网络的参数θQ和动作网络的参数θμ,更新深度确定性策略梯度算法中目标评价网络的参数θQ′和目标动作网络的参数θμ′
θQ′←τθQ+(1-τcQ′
θμ′←τθμ+(1-τaμ′
其中,θQ为评价网络的参数,τc为更新系数,θQ′为目标评价网络的参数;θμ为动作网络的参数,τa为更新系数,θμ′为目标动作网络的参数;
S4-6:重复步骤S2-S4,直到对所有虚拟网络请求映射到达设定的最大学习回合,得到最优的映射分配方案。
图2为深度确定性策略梯度算法的原理图,动作网络参数通过策略梯度方法来更新,评价网络参数通过损失函数来更新,目标动作网络和目标评价网络的参数通过系数τ对网络参数进行软更新,利于训练网络的稳定性。
如图1所示为基于深度确定性策略梯度的虚拟网络映射方法对应的网络架构图,如图1所示,主要包括物理层、控制层和虚拟网络请求层。本实施例中在线虚拟网络请求,将网络相关请求发送到控制层,控制层从物理层获取当前的物理网络状态,控制器将物理和虚拟网络的相关信息发送给虚拟网络管理器,基于深度确定性策略梯度的智能体将计算出的映射方案反馈给控制器,再进行虚拟网络映射及资源分配。
如图4-5所示,对发明提供的方法进行性能分析,图4为100个训练回合的奖励值的收敛趋势图,可以看出,随着训练回合数量的增加,环境反馈给智能体的奖励值趋于稳定,基于深度确定性策略梯度的智能体得到较稳定的网络参数,智能体学习到当前的一组虚拟网络请求的映射的最优策略。图5为100个训练回合虚拟网络请求接收率的仿真图,在回合80-100,虚拟网络请求的接收率保持在95%以上,可以看出,采用本发明提供的方法可以训练出较好的网络参数使得虚拟网络映射策略最优,提供更加智能的映射策略进一步满足用户的需求。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims (4)

1.一种基于深度确定性策略梯度的虚拟网络映射方法,其特征在于,包括以下步骤:
S1:将虚拟网络映射问题建模为马尔科夫过程;
S2:对当前网络状态,使用深度确定性策略梯度算法进行物理节点的选择,进行虚拟节点映射;
S3:对步骤S2中映射的虚拟节点相邻的虚拟链路使用最短路径算法进行链路映射,并在进行链路映射时满足虚拟链路的时延要求;
S4:返回当前网络状态对应的奖励值及下一个网络状态,将经验存储到经验库中,经验包括当前网络状态、当前网络状态对应的奖励值和下一个网络状态;深度确定性策略梯度算法智能体从经验库中抽取一批经验进行训练,对深度确定性策略梯度算法中目标网络的参数进行更新,直到对所有虚拟网络请求映射到达设定的最大学习回合,得到最优的映射分配方案;
步骤S1具体包括以下步骤:
S1-1:将虚拟网络映射问题建模成马尔科夫过程其中,/>表示状态空间,/>表示动作空间,/>表示奖励函数,/>表示转移概率,γ∈[0,1]表示折扣因子;马尔科夫过程中,通过智能体与环境交互来获得最大的平均奖励值/>其中,r(st,at)表示在t时刻的状态st执行动作at之后的奖励值;智能体的目标是找到最优策略π*来最大化平均奖励值,/>s表示状态,a表示动作;
S1-2:定义状态空间
在虚拟网络映射问题中,在构建状态空间时,从虚拟网络中提取的特征如下:
物理节点k包括的特征:1)剩余的CPU资源ck;2)节点度dk;3)当前物理节点相邻的物理链路剩余带宽之和:
其中Lk表示物理节点k相邻的物理链路集合,b(ls)表示物理节点k的相邻链路ls的剩余带宽;
虚拟请求r中虚拟节点u包括的特征:1)请求的CPU资源2)虚拟节点的节点度/>3)当前虚拟节点相邻的虚拟链路的带宽资源请求之和:
其中,表示虚拟节点u的相邻的虚拟链路集合,b(lv)表示虚拟节点u的相邻虚拟链路lv请求的带宽;
在特征提取之后,状态空间内在时刻t的状态st可以定义为向量:
其中,N表示物理节点集合;
S1-3:定义动作空间
一个动作是指一个映射过程将虚拟节点映射到物理节点,动作空间内t时刻的动作向量定义为/>其中/>表示对于当前虚拟节点选择物理节点k进行映射的概率,N表示物理节点集合;
S1-4:定义奖励函数
其中Rr表示第r个虚拟网络请求的收益。
2.根据权利要求1所述的基于深度确定性策略梯度的虚拟网络映射方法,其特征在于,步骤S2具体包括以下步骤:
S2-1:对当前网络状态,使用深度确定性策略梯度算法进行物理节点的选择at
S2-2:环境执行动作at选择物理节点,在选择的物理节点满足虚拟节点的计算资源请求及位置约束时即进行虚拟节点映射。
3.根据权利要求2所述的基于深度确定性策略梯度的虚拟网络映射方法,其特征在于,步骤S3具体包括以下步骤:
S3-1:对于步骤S2中映射的虚拟节点所有的相邻虚拟链路进行检查,若虚拟链路的两端的虚拟节点都成功映射,则执行链路映射,若虚拟节点映射失败,则进入步骤S4;
S3-2:对于成功映射的虚拟链路,进行链路资源分配;若虚拟链路映射失败,则进入步骤S4。
4.根据权利要求1所述的基于深度确定性策略梯度的虚拟网络映射方法,其特征在于,步骤S4具体包括以下步骤:
S4-1:返回当前网络状态对应的奖励值及下一个网络状态;
S4-2:将经验存储到经验库中;
S4-3:深度确定性策略梯度算法智能体从经验库中抽取一批经验,计算估计的Q目标值yi=ri+γQ′(si+1,μ′(si+1μ′)|θQ′),其中,ri是经验中保存的值,经验保存的是当前网络状态si、执行选择的动作ai之后得到的奖励值ri以及下一个网络状态si+1;μ′(si+1μ′)表示参数为θμ′目标动作网络在预测输入为si+1时选择的动作,参数为θQ的评价网络根据下个状态si+1及预测的动作对动作计算评价值Q′,通过最小化均方差损失函数L更新深度确定性策略梯度算法中评价网络的参数θQ
L=Ε[(yi-Q(si,aiQ))2]
其中,E表示的是求平均;Q表示评价网络在参数为θQ时,在网络状态si时,对选择的动作ai进行评价;
S4-4:通过策略梯度更新深度确定性策略梯度算法中动作网络的参数θμ
其中,J是基于θμ与动作网络相关函数,表示对函数J对参数θμ求梯度;/>表示从经验库中抽取经验的数量;
S4-5:根据更新后的评价网络的参数θQ和动作网络的参数θμ,更新深度确定性策略梯度算法中目标评价网络的参数θQ′和目标动作网络的参数θμ′
θQ′←τθQ+(1-τcQ′
θμ′←τθμ+(1-τaμ′
其中,θQ为评价网络的参数,τc为更新系数,θQ′为目标评价网络的参数;θμ为动作网络的参数,τa为更新系数,θμ′为目标动作网络的参数;
S4-6:重复步骤S2-S4,直到对所有虚拟网络请求映射到达设定的最大学习回合,得到最优的映射分配方案。
CN202110475268.0A 2021-04-29 2021-04-29 一种基于深度确定性策略梯度的虚拟网络映射方法 Active CN113193999B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110475268.0A CN113193999B (zh) 2021-04-29 2021-04-29 一种基于深度确定性策略梯度的虚拟网络映射方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110475268.0A CN113193999B (zh) 2021-04-29 2021-04-29 一种基于深度确定性策略梯度的虚拟网络映射方法

Publications (2)

Publication Number Publication Date
CN113193999A CN113193999A (zh) 2021-07-30
CN113193999B true CN113193999B (zh) 2023-12-26

Family

ID=76980891

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110475268.0A Active CN113193999B (zh) 2021-04-29 2021-04-29 一种基于深度确定性策略梯度的虚拟网络映射方法

Country Status (1)

Country Link
CN (1) CN113193999B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114050961B (zh) * 2021-11-08 2022-10-18 南京大学 一种大规模网络仿真系统及资源动态调度分配方法
CN115412401B (zh) * 2022-08-26 2024-04-19 京东科技信息技术有限公司 训练虚拟网络嵌入模型及虚拟网络嵌入的方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108650191A (zh) * 2018-04-20 2018-10-12 重庆邮电大学 一种虚拟化网络中映射策略的决策方法
CN110233763A (zh) * 2019-07-19 2019-09-13 重庆大学 一种基于时序差分学习的虚拟网络嵌入算法
CN110365568A (zh) * 2019-06-18 2019-10-22 西安交通大学 一种基于深度强化学习的虚拟网络映射方法
CN111130904A (zh) * 2019-12-30 2020-05-08 重庆邮电大学 一种基于深度确定性策略梯度的虚拟网络功能迁移优化算法
CN111147307A (zh) * 2019-12-30 2020-05-12 重庆邮电大学 基于深度强化学习的服务功能链可靠部署方法
CN111585811A (zh) * 2020-05-06 2020-08-25 郑州大学 一种基于多智能体深度强化学习的虚拟光网络映射方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11205103B2 (en) * 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US11295208B2 (en) * 2017-12-04 2022-04-05 International Business Machines Corporation Robust gradient weight compression schemes for deep learning applications

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108650191A (zh) * 2018-04-20 2018-10-12 重庆邮电大学 一种虚拟化网络中映射策略的决策方法
CN110365568A (zh) * 2019-06-18 2019-10-22 西安交通大学 一种基于深度强化学习的虚拟网络映射方法
CN110233763A (zh) * 2019-07-19 2019-09-13 重庆大学 一种基于时序差分学习的虚拟网络嵌入算法
CN111130904A (zh) * 2019-12-30 2020-05-08 重庆邮电大学 一种基于深度确定性策略梯度的虚拟网络功能迁移优化算法
CN111147307A (zh) * 2019-12-30 2020-05-12 重庆邮电大学 基于深度强化学习的服务功能链可靠部署方法
CN111585811A (zh) * 2020-05-06 2020-08-25 郑州大学 一种基于多智能体深度强化学习的虚拟光网络映射方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Yue Zong等.Location-aware energy efficient virtual network embedding in software-defined optical data center networks.《Journal of Optical Communications and Networking 》.2018,全文. *
基于网络安全态势感知的主动防御技术研究;刘世文;马多耀;雷程;尹少东;张红旗;;计算机工程与科学(第06期);全文 *
康朝海 ; 孙超 ; 荣垂霆 ; 刘鹏云 ; .基于动态延迟策略更新的TD3算法.吉林大学学报(信息科学版).2020,(第04期),全文. *
贺兰钦.基于深度强化学习的虚拟网络功能部署及迁移优化算法研究.《硕士电子期刊》.2021,(第2期),第2-4章. *

Also Published As

Publication number Publication date
CN113193999A (zh) 2021-07-30

Similar Documents

Publication Publication Date Title
CN111147307B (zh) 基于深度强化学习的服务功能链可靠部署方法
CN113193999B (zh) 一种基于深度确定性策略梯度的虚拟网络映射方法
CN110365514B (zh) 基于强化学习的sdn多级虚拟网络映射方法和装置
Liu et al. Dynamic service function chain orchestration for NFV/MEC-enabled IoT networks: A deep reinforcement learning approach
CN110460465B (zh) 面向移动边缘计算的服务功能链部署方法
CN113098714A (zh) 一种基于深度强化学习的低时延网络切片的方法
CN108684046B (zh) 一种基于随机学习的接入网服务功能链部署方法
CN114338504A (zh) 一种基于网络边缘系统的微服务部署和路由方法
CN110247795B (zh) 一种基于意图的云网资源服务链编排方法及系统
CN111585811B (zh) 一种基于多智能体深度强化学习的虚拟光网络映射方法
CN115665258B (zh) 一种基于深度强化学习的多目标服务功能链的优先级感知部署方法
EP4024212B1 (en) Method for scheduling inference workloads on edge network resources
CN116137593A (zh) 一种数字孪生辅助动态资源需求预测的虚拟网络功能迁移方法
CN115686846B (zh) 边缘计算中融合图神经网络和强化学习的容器集群在线部署方法
CN113037546A (zh) 基于深度强化学习的安全性虚拟网络映射方法
CN111629218A (zh) 一种vanet中基于时变线性的加速强化学习边缘缓存方法
Xu et al. Living with artificial intelligence: A paradigm shift toward future network traffic control
CN111885493A (zh) 一种基于改进布谷鸟搜索算法的微云部署方法
CN113064907B (zh) 一种基于深度强化学习的内容更新方法
CN107749801B (zh) 一种基于种群增量学习算法的虚拟网络功能放置方法
CN114125595A (zh) Otn网络资源优化方法、装置、计算机设备和介质
CN116156565A (zh) 一种基于多智能体近端策略优化的sfc可靠部署方法
CN110392377A (zh) 一种5g超密集组网资源分配方法及装置
CN116367190A (zh) 一种面向6g移动网络的数字孪生功能虚拟化方法
CN114006827B (zh) 时间触发调度模型的训练、时间触发调度方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant