CN113015219A - 基于策略梯度的网络资源选择方法、装置以及存储介质 - Google Patents

基于策略梯度的网络资源选择方法、装置以及存储介质 Download PDF

Info

Publication number
CN113015219A
CN113015219A CN201911315915.0A CN201911315915A CN113015219A CN 113015219 A CN113015219 A CN 113015219A CN 201911315915 A CN201911315915 A CN 201911315915A CN 113015219 A CN113015219 A CN 113015219A
Authority
CN
China
Prior art keywords
network
service
model
module
updating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911315915.0A
Other languages
English (en)
Other versions
CN113015219B (zh
Inventor
王浩彬
李晨
黄芬芬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN201911315915.0A priority Critical patent/CN113015219B/zh
Publication of CN113015219A publication Critical patent/CN113015219A/zh
Application granted granted Critical
Publication of CN113015219B publication Critical patent/CN113015219B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/16Central resource management; Negotiation of resources or communication parameters, e.g. negotiating bandwidth or QoS [Quality of Service]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/5003Managing SLA; Interaction between SLA and QoS
    • H04L41/5019Ensuring fulfilment of SLA
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/16Central resource management; Negotiation of resources or communication parameters, e.g. negotiating bandwidth or QoS [Quality of Service]
    • H04W28/24Negotiating SLA [Service Level Agreement]; Negotiating QoS [Quality of Service]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/16Central resource management; Negotiation of resources or communication parameters, e.g. negotiating bandwidth or QoS [Quality of Service]
    • H04W28/18Negotiating wireless communication parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/16Central resource management; Negotiation of resources or communication parameters, e.g. negotiating bandwidth or QoS [Quality of Service]
    • H04W28/18Negotiating wireless communication parameters
    • H04W28/20Negotiating bandwidth

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Computer And Data Communications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本公开提供了一种基于策略梯度的网络资源选择方法、装置以及存储介质,其中的方法包括:接收业务申请以及与业务申请相对应的业务需求;基于当前的网络模拟环境获取与业务需求相对应的业务特征以及网络状态;根据策略梯度算法以及业务特征和网络状态,更新网络资源选择网络模型的模型参数,用以确定最新的模型参数;根据网络资源选择网络模型获取与业务申请以及业务需求相对应的资源信息。本公开的方法、装置以及存储介质,能够根据业务需求、网络状态等自动生成网络资源选择方案,进行端到端输出,网络资源配置灵活度高,能够按需进行分配,节约了网络资源,可以快速实现业务的部署,满足业务需求,提高使用感受度。

Description

基于策略梯度的网络资源选择方法、装置以及存储介质
技术领域
本发明涉及通信技术领域,尤其涉及一种基于策略梯度的网络资源选择方法、装置以及存储介质。
背景技术
第五代移动通信技术研究是目前通信行业重点关注领域,5G网络具有多种业务。例如,同4G网络相比,网络切片是5G网络鲜明的特征和优点之一。5G网络切片,是指对网络数据实行类似于交通管理的分流管理,其本质是将现实存在的物理网络在逻辑层面上,划分为多个不同类型的虚拟网络,依照不同用户的服务需求,以诸如时延高低、带宽大小、可靠性强弱等指标来进行划分,从而应对复杂多变的应用场景。对于网络切片过程需要根据应用需要,分配合理的网络资源。目前,现有技术中还没有能够自动分配网络资源的技术方案。
发明内容
有鉴于此,本发明要解决的一个技术问题是提供一种基于策略梯度的网络资源选择方法、装置以及存储介质。
根据本公开的一个方面,提供一种基于策略梯度的网络资源选择方法,包括:接收业务申请以及与所述业务申请相对应的业务需求;其中,所述业务需求包括:带宽、时延、价格指标;基于当前的网络模拟环境获取与所述业务需求相对应的业务特征以及网络状态;根据策略梯度算法以及所述业务特征和所述网络状态,更新网络资源选择网络模型的模型参数,用以确定最新的所述模型参数;根据所述网络资源选择网络模型获取与所述业务申请以及所述业务需求相对应的资源信息。
可选地,所述根据策略梯度算法以及所述业务特征和所述网络状态,更新网络资源选择网络模型的模型参数,用以确定最新的所述模型参数包括:确定基于所述网络资源选择网络模型的模型参数θ的选择行为方案πθ;根据所述业务特征和所述网络状态并基于所述πθ生成至少一组训练数据;根据策略梯度算法设置与所述模型参数θ相对应的参数更新策略;基于所述参数更新策略以及所述训练数据更新所述模型参数θ;输出进行更新处理后的所述网络资源选择网络模型。
可选地,所述根据所述业务特征和所述网络状态并基于所述πθ生成至少一组训练数据包括:根据所述网络状态和所述业务特征确定第t个采集时刻的状态
Figure BDA0002325824330000021
基于所述网络资源选择网络模型获取与所述
Figure BDA0002325824330000022
相对应的行为
Figure BDA0002325824330000023
在当前的网络模拟环境执行的
Figure BDA0002325824330000024
的调整,获取状态
Figure BDA0002325824330000025
和奖励值
Figure BDA0002325824330000026
其中,对于1至T-1个采集时刻,获得一组训练数据
Figure BDA0002325824330000027
可选地,所述参数更新策略为:
Figure BDA0002325824330000028
Figure BDA0002325824330000029
其中,R()为奖励函数,τn为第n组训练数据,N为训练数据的组数,Tn为每组训练数据中的采集时刻数量。
可选地,所述
Figure BDA00023258243300000210
为调整带宽和时延的行为;所述奖励值为:
Figure BDA00023258243300000211
其中,所述I用于表征带宽、时延的满足程度。
可选地,设置缓存区;将所述训练数据存储在缓存区中;在确定最新的所述模型参数θ后,对所述缓存区进行清空处理。
可选地,设置更新所述模型参数θ的更新次数,基于所述更新次数对所述模型参数θ进行更新处理,用以确定最新的所述模型参数θ。
可选地,基于所述网络资源选择网络模型获取所述资源信息,生成业务调度信息并下发客户;其中,所述业务申请包括:网络切片业务申请。
根据本公开的一个方面,提供一种基于策略梯度的网络资源选择装置,包括:业务请求模块,用于接收业务申请以及与所述业务申请相对应的业务需求;其中,所述业务需求包括:带宽、时延、价格指标;识别模块,用于基于当前的网络模拟环境获取与所述业务需求相对应的业务特征以及网络状态;更新模块,用于根据策略梯度算法以及所述业务特征和所述网络状态,更新网络资源选择网络模型的模型参数,用以确定最新的所述模型参数;计算模块,用于根据所述网络资源选择网络模型获取与所述业务申请以及所述业务需求相对应的资源信息。
可选地,所述更新模块,包括:网元选择模块,用于确定基于所述网络资源选择网络模型的模型参数θ的选择行为方案πθ;通信网络模型模块,用于根据所述业务特征和所述网络状态并基于所述πθ生成至少一组训练数据;学习模块,用于根据策略梯度算法设置与所述模型参数θ相对应的参数更新策略;基于所述参数更新策略以及所述训练数据更新所述模型参数θ;输出模块,用于输出进行更新处理后的所述网络资源选择网络模型。
可选地,所述通信网络模型模块,用于根据所述网络状态和所述业务特征确定第t个采集时刻的状态
Figure BDA0002325824330000031
所述网元选择模块,用于基于所述网络资源选择网络模型获取与所述
Figure BDA0002325824330000032
相对应的行为
Figure BDA0002325824330000033
所述通信网络模型模块,用于在当前的网络模拟环境执行的
Figure BDA0002325824330000034
的调整,获取状态
Figure BDA0002325824330000035
和奖励值
Figure BDA0002325824330000036
对于1至T-1个采集时刻,获得一组训练数据
Figure BDA0002325824330000037
可选地,所述参数更新策略为:
Figure BDA0002325824330000038
Figure BDA0002325824330000039
其中,R()为奖励函数,τn为第n组训练数据,N为训练数据的组数,Tn为每组训练数据中的采集时刻数量。
可选地,所述
Figure BDA00023258243300000310
为调整带宽和时延的行为;所述奖励值为:
Figure BDA0002325824330000041
其中,所述I用于表征带宽、时延的满足程度。
可选地,所述更新模块,包括:行为存储模块,用于设置缓存区;将所述训练数据存储在缓存区中;在确定最新的所述模型参数θ后,对所述缓存区进行清空处理。
可选地,所述更新模块,包括:总控模块,用于设置更新所述模型参数θ的更新次数;所述学习模块,用于所述更新次数对所述模型参数θ进行更新处理,用以确定最新的所述模型参数θ。
可选地,调度模块,用于基于所述网络资源选择网络模型获取所述资源信息,生成业务调度信息并下发客户;其中,所述业务申请包括:网络切片业务申请。
根据本公开的又一方面,提供一种基于策略梯度的网络资源选择装置,包括:存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如上所述的方法。
根据本公开的再一方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述指令被处理器执行如上所述的方法。
本公开的基于策略梯度的网络资源选择方法、装置以及存储介质,能够根据业务需求、网络状态等自动生成网络资源选择方案,进行端到端输出,网络资源配置灵活度高,能够按需进行分配,节约了网络资源,可以快速实现业务的部署,满足业务需求,提高使用感受度。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为根据本公开的基于策略梯度的网络资源选择方法的一个实施例的流程示意图;
图2为根据本公开的基于策略梯度的网络资源选择方法的一个实施例中的确定最新的模型参数的流程示意图;
图3为根据本公开的基于策略梯度的网络资源选择方法的一个实施例中的训练算法的示意图;
图4为根据本公开的基于策略梯度的网络资源选择装置的一个实施例的模块示意图;
图5为根据本公开的基于策略梯度的网络资源选择装置的一个实施例中的更新模块的模块示意图;
图6为根据本公开的基于策略梯度的网络资源选择装置的另一个实施例的模块示意图。
具体实施方式
下面参照附图对本公开进行更全面的描述,其中说明本公开的示例性实施例。下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
图1为根据本公开的基于策略梯度的网络资源选择方法的一个实施例的流程示意图,如图1所示:
步骤101,接收业务申请以及与业务申请相对应的业务需求;其中,业务需求包括:带宽、时延、价格指标等。业务申请可以为多种,例如为网络切片业务申请等。
步骤102,基于当前的网络模拟环境获取与业务需求相对应的业务特征以及网络状态。
业务特征可以为带宽、时延等特征,网络模拟环境可以为与实际网络环境相对应的模拟环境,从网络模拟环境中获取的业务特征以及网络状态,相当于在实际网络环境中的业务特征以及网络状态,网络状态为与网络切片相对应的网络状态等。
步骤103,根据策略梯度算法以及业务特征和网络状态,更新网络资源选择网络模型的模型参数,用以确定最新的模型参数。
网络资源选择网络模型可以为多种神经网络模型,策略梯度算法是一种广义的策略迭代方法,策略梯度算法包括策略评估与策略改进两个部分。基于策略梯度算法更新网络资源选择网络模型的模型参数,可以获得最优的网络资源选择网络,可以采用现有技术中的策略梯度算法。
步骤104,根据网络资源选择网络模型获取与业务申请以及业务需求相对应的资源信息。
资源可以为多种,包括部署业务的设备、链路等资源。基于网络资源选择网络模型获取资源信息,生成业务调度信息并下发客户。例如,可以根据网络资源选择网络模型,调度网络资源池用以实施网络切片实例并下发用户。
图2为根据本公开的基于策略梯度的网络资源选择方法的一个实施例中的确定最新的模型参数的流程示意图,如图2所示:
步骤201,确定基于网络资源选择网络模型的模型参数的选择行为方案,其中,模型参数为θ,选择行为方案为πθ
步骤202,根据业务特征和网络状态并基于选择行为方案生成至少一组训练数据。
步骤203,根据策略梯度算法设置与模型参数θ相对应的参数更新策略。
步骤204,基于参数更新策略以及训练数据更新模型参数。
步骤205,输出进行更新处理后的网络资源选择网络模型。
在一个实施例中,at为调整带宽和时延的综合行为,奖励值为:
Figure BDA0002325824330000061
其中,I用于表征带宽、时延的满足程度;当最低带宽、时延未满足时,I=0,当带宽、时延全部满足最高要求时,I=1。例如,接收到带宽、时延、价格等三项指标作为业务需求,可以直接调用现有网络的模拟环境,获取业务特征和网络状态,将调整带宽,时延(跳转路径或直连链路)的行为确定为at,价格用于通过计算表示为奖励值。
在一个实施例中,根据业务特征和网络状态并基于πθ生成至少一组训练数据可以采用多种方法。例如,根据网络状态和业务特征确定第t个采集时刻的状态
Figure BDA0002325824330000071
基于网络资源选择网络模型获取与
Figure BDA0002325824330000072
相对应的行为
Figure BDA0002325824330000073
Figure BDA0002325824330000074
可以为对于带宽、时延等的综合行为。
在当前的网络模拟环境执行
Figure BDA0002325824330000075
的调整,获取状态
Figure BDA0002325824330000076
和奖励值
Figure BDA0002325824330000077
其中,对于1至T-1个采集时刻,获得一组训练数据
Figure BDA0002325824330000078
对一组训练数据可以设置T-1个采集时刻,对于第1时刻到第T-1时刻分别进行上述的数据获取处理,得到
Figure BDA0002325824330000079
及获取一组训练数据。
参数更新策略可以为多种,例如,参数更新策略为:
Figure BDA00023258243300000710
Figure BDA00023258243300000711
其中,R()为奖励函数,η为目标系数,τn为第n组训练数据,N为训练数据的组数,Tn为每组训练数据中的采集时刻数量,Pθ()为预设的条件概率函数。
图3为根据本公开的基于策略梯度的网络资源选择方法的一个实施例中的训练算法的示意图,如图3所示:
步骤301,基于参数θ确定网络资源选择函数πθ
在一实施例中,随机初始化网络资源选择网络模型的神经网络参数θ,基于参数θ设置网络资源选择函数πθ,即选择行为方案πθ
步骤302,基于πθ生成n组实验数据
Figure BDA00023258243300000712
其中,实验数据为训练数据。
在一实施例中,基于πθ生成k组实验数据τk,其中,第n组数据生成方式为:根据第t个采集时刻的网络状态
Figure BDA00023258243300000713
生成网络资源选择行为
Figure BDA00023258243300000714
在网络模拟环境中执行
Figure BDA00023258243300000715
的调整,网络状态变为
Figure BDA00023258243300000716
得到奖励值
Figure BDA00023258243300000717
T时刻为所有需要选择的资源全部选择完毕的时刻,得到实验数据
Figure BDA0002325824330000081
步骤303,基于公式
Figure BDA0002325824330000082
更新参数。
在一实施例中,提取N组数据,基于公式更新参数θ:
Figure BDA0002325824330000083
Figure BDA0002325824330000084
设置更新模型参数θ的更新次数,基于更新次数对模型参数θ进行更新处理,用以确定最新的模型参数θ。例如,更新次数为5,则返回步骤302,重复5次执行步骤302和303,执行5次更新参数θ后,输出参数θ。
设置缓存区,将训练数据存储在缓存区中。在确定最新的模型参数θ后,对缓存区进行清空处理。按行为发生顺序存储训练数据,当触发一次确定最新的模型参数θ之后,清空存储内容。
在一个实施例中,如图4所示,本公开提供一种基于策略梯度的网络资源选择装置,包括:业务请求模块41、识别模块42、更新模块43、计算模块44和调度模块45。业务请求模块41接收业务申请以及与业务申请相对应的业务需求;其中,业务需求包括:带宽、时延、价格指标等。
识别模块42基于当前的网络模拟环境获取与业务需求相对应的业务特征以及网络状态。更新模块43根据策略梯度算法以及业务特征和网络状态,更新网络资源选择网络模型的模型参数,用以确定最新的模型参数。更新模块43用于第一次使用或校准计算模块44,计算出最优网络资源选择网络模型。计算模块44根据网络资源选择网络模型获取与业务申请以及业务需求相对应的资源信息。调度模块45基于网络资源选择网络模型,获取资源信息,生成业务调度信息并下发客户;其中,业务申请包括:网络切片业务申请等。
在一个实施例中,如图5所示,更新模块43包括:总控模块431、神经网络构建模块432、通信网络模型模块433、网元选择模块434、行为存储模块435、学习模块436、输出模块437和模仿行为模块438。
网元选择模块434确定基于网络资源选择网络模型的模型参数θ的选择行为方案πθ。通信网络模型模块433根据业务特征和网络状态并基于πθ生成至少一组训练数据。学习模块436根据策略梯度算法设置与模型参数θ相对应的参数更新策略。学习模块436设定学习算法以及策略,基于参数更新策略以及训练数据更新模型参数θ。输出模块437输出进行更新处理后的网络资源选择网络模型。
通信网络模型模块433根据网络状态和业务特征确定第t个采集时刻的状态
Figure BDA0002325824330000091
网元选择模块434基于网络资源选择网络模型获取与
Figure BDA0002325824330000092
相对应的行为
Figure BDA0002325824330000093
通信网络模型模块433在当前的网络模拟环境执行的
Figure BDA0002325824330000094
的调整,获取状态
Figure BDA0002325824330000095
和奖励值
Figure BDA0002325824330000096
对于1至T-1个采集时刻,获得一组训练数据
Figure BDA0002325824330000097
通信网络模型模块通过真实网络或仿真模型,观察或模拟at对网络的影响状态st(实际状态)以及奖励值rt+1(影响是好是坏),奖励值函数可根据业务需求自主设定。网络状态s1为识别模块输出的原始网络状态和业务需求。
存储模块435设置缓存区,将训练数据存储在缓存区中;在确定最新的模型参数θ后,对缓存区进行清空处理。行为储存模块435按行为发生顺序存储{s1,a1,r2,…,sT-1,aT-1,rT},当触发一次学习模块后清空存储内容。模仿行为模块438为非必需模块,存储多组之前的以训练数据{s1,a1,r2,…,sT-1,aT-1,rT}。
神经网络模型构建模型432设置与网络资源选择网络模型具有相同结构的网络模型。神经网络训练模块432设计网元选择模块434中网络模型的结构(输出模块437、网元选择模块434处理的神经网络网络模型的架构都相同)。总控模块431设置更新模型参数θ的更新次数,学习模块436基于更新次数对模型参数θ进行更新处理,用以确定最新的模型参数θ。总控模块管控训练核心部分以及输出模块,设定整体训练策略,如更新次数、训练参数等。输出模块437输出训练完成之后的网络资源选择模块到计算模块44。
图6为根据本公开的基于策略梯度的网络资源选择装置的另一个实施例的模块示意图。如图6所示,该装置可包括存储器61、处理器62、通信接口63以及总线64。存储器61用于存储指令,处理器62耦合到存储器61,处理器62被配置为基于存储器61存储的指令执行实现上述的基于策略梯度的网络资源选择方法。
存储器61可以为高速RAM存储器、非易失性存储器(non-volatile memory)等,存储器61也可以是存储器阵列。存储器61还可能被分块,并且块可按一定的规则组合成虚拟卷。处理器62可以为中央处理器CPU,或专用集成电路ASIC(Application SpecificIntegrated Circuit),或者是被配置成实施本公开的基于策略梯度的网络资源选择方法的一个或多个集成电路。
在一个实施例中,本公开提供一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,指令被处理器执行如上任一实施例中的方法。
上述实施例中提供的基于策略梯度的网络资源选择方法、装置以及存储介质,能够根据业务需求、网络状态等自动生成网络资源选择方案,进行端到端输出,网络资源配置灵活度高,能够按需进行分配,节约了网络资源,可以快速实现业务的部署,满足业务需求,提高使用感受度。
可能以许多方式来实现本公开的方法和系统。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和系统。用于方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
本公开的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用,并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。

Claims (18)

1.一种基于策略梯度的网络资源选择方法,包括:
接收业务申请以及与业务申请相对应的业务需求;其中,所述业务需求包括:带宽、时延、价格指标;
基于当前的网络模拟环境获取与所述业务需求相对应的业务特征以及网络状态;
根据策略梯度算法以及所述业务特征和所述网络状态,更新网络资源选择网络模型的模型参数,用以确定最新的所述模型参数;
根据所述网络资源选择网络模型获取与所述业务申请以及所述业务需求相对应的资源信息。
2.如权利要求1所述的方法,所述根据策略梯度算法以及所述业务特征和所述网络状态,更新网络资源选择网络模型的模型参数,用以确定最新的所述模型参数包括:
确定基于所述网络资源选择网络模型的模型参数θ的选择行为方案πθ
根据所述业务特征和所述网络状态并基于所述πθ生成至少一组训练数据;
根据策略梯度算法设置与所述模型参数θ相对应的参数更新策略;
基于所述参数更新策略以及所述训练数据更新所述模型参数θ;
输出进行更新处理后的所述网络资源选择网络模型。
3.如权利要求2所述的方法,所述根据所述业务特征和所述网络状态并基于所述πθ生成至少一组训练数据包括:
根据所述网络状态和所述业务特征确定第t个采集时刻的状态
Figure FDA0002325824320000011
基于所述网络资源选择网络模型获取与所述
Figure FDA0002325824320000012
相对应的行为
Figure FDA0002325824320000013
在当前的网络模拟环境执行的
Figure FDA0002325824320000014
的调整,获取状态
Figure FDA0002325824320000015
和奖励值
Figure FDA0002325824320000016
其中,对于1至T-1个采集时刻,获得一组训练数据
Figure FDA0002325824320000017
4.如权利要求3所述的方法,其中,
所述参数更新策略为:
Figure FDA0002325824320000021
Figure FDA0002325824320000022
其中,R()为奖励函数,η为目标系数,τn为第n组训练数据,N为训练数据的组数,Tn为每组训练数据中的采集时刻数量。
5.如权利要求4所述的方法,其中,
所述
Figure FDA0002325824320000023
为调整带宽和时延的行为;所述奖励值为:
Figure FDA0002325824320000024
其中,所述I用于表征带宽、时延的满足程度。
6.如权利要求3所述的方法,还包括:
设置缓存区;
将所述训练数据存储在缓存区中;
在确定最新的所述模型参数θ后,对所述缓存区进行清空处理。
7.如权利要求6所述的方法,还包括:
设置更新所述模型参数θ的更新次数,基于所述更新次数对所述模型参数θ进行更新处理,用以确定最新的所述模型参数θ。
8.如权利要求1所述的方法,还包括:
基于所述网络资源选择网络模型获取所述资源信息,生成业务调度信息并下发客户;
其中,所述业务申请包括:网络切片业务申请。
9.一种基于策略梯度的网络资源选择装置,包括:
业务请求模块,用于接收业务申请以及与所述业务申请相对应的业务需求;其中,所述业务需求包括:带宽、时延、价格指标;
识别模块,用于基于当前的网络模拟环境获取与所述业务需求相对应的业务特征以及网络状态;
更新模块,用于根据策略梯度算法以及所述业务特征和所述网络状态,更新网络资源选择网络模型的模型参数,用以确定最新的所述模型参数;
计算模块,用于根据所述网络资源选择网络模型获取与所述业务申请以及所述业务需求相对应的资源信息。
10.如权利要求9所述的装置,其中,
所述更新模块,包括:
网元选择模块,用于确定基于所述网络资源选择网络模型的模型参数θ的选择行为方案πθ
通信网络模型模块,用于根据所述业务特征和所述网络状态并基于所述πθ生成至少一组训练数据;
学习模块,用于根据策略梯度算法设置与所述模型参数θ相对应的参数更新策略;基于所述参数更新策略以及所述训练数据更新所述模型参数θ;
输出模块,用于输出进行更新处理后的所述网络资源选择网络模型。
11.如权利要求10所述的装置,其中,
所述通信网络模型模块,用于根据所述网络状态和所述业务特征确定第t个采集时刻的状态
Figure FDA0002325824320000031
所述网元选择模块,用于基于所述网络资源选择网络模型获取与所述
Figure FDA0002325824320000032
相对应的行为
Figure FDA0002325824320000033
所述通信网络模型模块,用于在当前的网络模拟环境执行的
Figure FDA0002325824320000034
的调整,获取状态
Figure FDA0002325824320000035
和奖励值
Figure FDA0002325824320000036
对于1至T-1个采集时刻,获得一组训练数据
Figure FDA0002325824320000037
12.如权利要求11所述的装置,其中,
所述参数更新策略为:
Figure FDA0002325824320000038
Figure FDA0002325824320000039
其中,R()为奖励函数,η为目标系数,τn为第n组训练数据,N为训练数据的组数,Tn为每组训练数据中的采集时刻数量。
13.如权利要求12所述的装置,其中,
所述
Figure FDA0002325824320000041
为调整带宽和时延的行为;所述奖励值为:
Figure FDA0002325824320000042
其中,所述I用于表征带宽、时延的满足程度。
14.如权利要求13所述的装置,其中,
所述更新模块,包括:
行为存储模块,用于设置缓存区;将所述训练数据存储在缓存区中;在确定最新的所述模型参数θ后,对所述缓存区进行清空处理。
15.如权利要求14所述的装置,其中,
所述更新模块,包括:
总控模块,用于设置更新所述模型参数θ的更新次数;
所述学习模块,用于基于所述更新次数对所述模型参数θ进行更新处理,用以确定最新的所述模型参数θ。
16.如权利要求9至15任一项所述的装置,还包括:
调度模块,用于基于所述网络资源选择网络模型获取所述资源信息,生成业务调度信息并下发客户;
其中,所述业务申请包括:网络切片业务申请。
17.一种基于策略梯度的网络资源选择装置,包括:
存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如权利要求1至8中任一项所述的方法。
18.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述指令被处理器执行如权利要求1至8中任一项所述的方法。
CN201911315915.0A 2019-12-19 2019-12-19 基于策略梯度的网络资源选择方法、装置以及存储介质 Active CN113015219B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911315915.0A CN113015219B (zh) 2019-12-19 2019-12-19 基于策略梯度的网络资源选择方法、装置以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911315915.0A CN113015219B (zh) 2019-12-19 2019-12-19 基于策略梯度的网络资源选择方法、装置以及存储介质

Publications (2)

Publication Number Publication Date
CN113015219A true CN113015219A (zh) 2021-06-22
CN113015219B CN113015219B (zh) 2022-08-02

Family

ID=76381420

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911315915.0A Active CN113015219B (zh) 2019-12-19 2019-12-19 基于策略梯度的网络资源选择方法、装置以及存储介质

Country Status (1)

Country Link
CN (1) CN113015219B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113766576A (zh) * 2021-09-09 2021-12-07 阿里巴巴达摩院(杭州)科技有限公司 服务质量管理方法、电子设备以及存储介质
CN114302407A (zh) * 2022-01-14 2022-04-08 清华大学 网络决策方法及装置、电子设备和存储介质
CN115333943A (zh) * 2022-08-10 2022-11-11 中国联合网络通信集团有限公司 确定性网络资源配置系统、方法、设备及存储介质
WO2024066159A1 (zh) * 2022-09-26 2024-04-04 中国移动通信集团设计院有限公司 专网配置方法、装置、设备、计算机可读存储介质及计算机程序产品

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170093750A1 (en) * 2015-09-28 2017-03-30 Centurylink Intellectual Property Llc Intent-Based Services Orchestration
CN109614215A (zh) * 2019-01-25 2019-04-12 广州大学 基于深度强化学习的流调度方法、装置、设备及介质
CN110113793A (zh) * 2019-04-04 2019-08-09 北京邮电大学 一种基于深度增强学习的后5g前传网时间同步方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170093750A1 (en) * 2015-09-28 2017-03-30 Centurylink Intellectual Property Llc Intent-Based Services Orchestration
CN109614215A (zh) * 2019-01-25 2019-04-12 广州大学 基于深度强化学习的流调度方法、装置、设备及介质
CN110113793A (zh) * 2019-04-04 2019-08-09 北京邮电大学 一种基于深度增强学习的后5g前传网时间同步方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NOKIA等: "S2-1907401 "UDR service for mapping IMS Public Identity to HSS Group ID for HSS selection"", 《3GPP TSG_SA\WG2_ARCH》 *
任语铮等: "基于增强学习的5G网络切片资源动态优化方案", 《中兴通讯技术》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113766576A (zh) * 2021-09-09 2021-12-07 阿里巴巴达摩院(杭州)科技有限公司 服务质量管理方法、电子设备以及存储介质
CN113766576B (zh) * 2021-09-09 2023-08-15 阿里巴巴达摩院(杭州)科技有限公司 服务质量管理方法、电子设备以及存储介质
CN114302407A (zh) * 2022-01-14 2022-04-08 清华大学 网络决策方法及装置、电子设备和存储介质
CN114302407B (zh) * 2022-01-14 2024-07-09 清华大学 网络决策方法及装置、电子设备和存储介质
CN115333943A (zh) * 2022-08-10 2022-11-11 中国联合网络通信集团有限公司 确定性网络资源配置系统、方法、设备及存储介质
CN115333943B (zh) * 2022-08-10 2023-06-20 中国联合网络通信集团有限公司 确定性网络资源配置系统、方法、设备及存储介质
WO2024066159A1 (zh) * 2022-09-26 2024-04-04 中国移动通信集团设计院有限公司 专网配置方法、装置、设备、计算机可读存储介质及计算机程序产品

Also Published As

Publication number Publication date
CN113015219B (zh) 2022-08-02

Similar Documents

Publication Publication Date Title
CN113015219B (zh) 基于策略梯度的网络资源选择方法、装置以及存储介质
CN112311578B (zh) 基于深度强化学习的vnf调度方法及装置
CN111835827A (zh) 物联网边缘计算任务卸载方法及系统
CN113098714B (zh) 基于强化学习的低时延网络切片方法
CN111966484A (zh) 一种基于深度强化学习的集群资源管理和任务调度方法及系统
CN107688493A (zh) 训练深度神经网络的方法、装置及系统
CN108111335B (zh) 一种调度和链接虚拟网络功能的方法及系统
CN111106999A (zh) 一种ip-光网络通信业务联合分配方法及装置
CN111314120A (zh) 基于迭代QoS模型的云软件服务资源自适应管理框架
CN111064633A (zh) 一种云边协同电力信息通信设备自动化测试资源分配方法
CN110290021B (zh) 基于动态规划算法的跨链共识时延优化方法
CN108684046A (zh) 一种基于随机学习的接入网服务功能链部署方法
CN111416774A (zh) 网络拥塞控制方法、装置、计算机设备及存储介质
CN111324630A (zh) 基于mpi的神经网络架构搜索并行化方法和设备
CN115080248B (zh) 调度装置的调度优化方法、调度装置和存储介质
CN116339932A (zh) 资源调度方法、装置和服务器
CN109379747B (zh) 无线网络多控制器部署和资源分配方法和装置
CN118260086A (zh) 一种应用于云渲染平台的渲染任务处理方法及设备
JP7073171B2 (ja) 学習装置、学習方法及びプログラム
CN113015179B (zh) 基于深度q网络的网络资源选择方法、装置以及存储介质
CN113504998A (zh) 一种任务调度方案的确定方法、装置和设备
Bensalem et al. Towards optimal serverless function scaling in edge computing network
CN111200566B (zh) 一种网络业务流量信息疏导方法及电子设备
CN113992520B (zh) 一种虚拟网络资源的部署方法和系统
CN118590548B (zh) 光通信装置中多任务调度优化方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant