CN113015179A - 基于深度q网络的网络资源选择方法、装置以及存储介质 - Google Patents

基于深度q网络的网络资源选择方法、装置以及存储介质 Download PDF

Info

Publication number
CN113015179A
CN113015179A CN201911315452.8A CN201911315452A CN113015179A CN 113015179 A CN113015179 A CN 113015179A CN 201911315452 A CN201911315452 A CN 201911315452A CN 113015179 A CN113015179 A CN 113015179A
Authority
CN
China
Prior art keywords
network
model
service
resource selection
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911315452.8A
Other languages
English (en)
Other versions
CN113015179B (zh
Inventor
王浩彬
潘卫
李为民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN201911315452.8A priority Critical patent/CN113015179B/zh
Publication of CN113015179A publication Critical patent/CN113015179A/zh
Application granted granted Critical
Publication of CN113015179B publication Critical patent/CN113015179B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/06Testing, supervising or monitoring using simulated traffic

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本公开提供了一种基于深度Q网络的网络资源选择方法、装置以及存储介质,其中的方法包括:接收业务申请以及与业务申请相对应的业务需求;基于当前的网络模拟环境获取与业务需求相对应的业务特征以及网络状态;根据DQN算法更新基于DQN的网络资源选择网络模型的模型参数,用以确定最新的模型参数;根据网络资源选择网络模型获取与业务申请以及业务需求相对应的资源信息。本公开的方法、装置以及存储介质,能够根据业务需求、网络状态等自动生成网络资源选择方案,进行端到端输出,网络资源配置灵活度高,能够按需进行分配,节约了网络资源,可以快速实现业务的部署,满足业务需求,提高使用感受度。

Description

基于深度Q网络的网络资源选择方法、装置以及存储介质
技术领域
本发明涉及通信技术领域,尤其涉及一种基于深度Q网络的网络资源选择方法、装置以及存储介质。
背景技术
第五代移动通信技术研究是目前通信行业重点关注领域,5G网络具有多种业务。例如,同4G网络相比,网络切片是5G网络鲜明的特征和优点之一。5G网络切片,是指对网络数据实行类似于交通管理的分流管理,其本质是将现实存在的物理网络在逻辑层面上,划分为多个不同类型的虚拟网络,依照不同用户的服务需求,以诸如时延高低、带宽大小、可靠性强弱等指标来进行划分,从而应对复杂多变的应用场景。对于网络切片过程需要根据应用需要,分配合理的网络资源。目前,现有技术中还没有能够自动分配网络资源的技术方案。
发明内容
有鉴于此,本发明要解决的一个技术问题是提供一种基于深度Q网络的网络资源选择方法、装置以及存储介质。
根据本公开的一个方面,提供一种基于深度Q网络的网络资源选择方法,包括:接收业务申请以及与所述业务申请相对应的业务需求;其中,所述业务需求包括:带宽、时延、价格指标;基于当前的网络模拟环境获取与所述业务需求相对应的业务特征以及网络状态;根据DQN算法以及所述业务特征和所述网络状态,更新基于DQN的网络资源选择网络模型的模型参数,用以确定最新的所述模型参数;根据所述网络资源选择网络模型获取与所述业务申请以及所述业务需求相对应的资源信息。
可选地,所述根据DQN算法以及所述业务特征和所述网络状态,更新基于DQN的网络资源选择网络模型的模型参数,用以确定最新的所述模型参数包括:设置所述网络资源选择网络模型以及与所述网络资源选择网络模型具有相同结构的目标Q网络模型;根据所述网络状态和所述业务特征确定状态st;基于所述网络资源选择网络模型获取与所述st相对应的行为at;基于当前的网络模拟环境获取与所述at相对应的奖励值rt和新状态st+1;生成元组数据(si,ai,ri,si+1);基于所述奖励值和所述元组数据(si,ai,ri,si+1)设置与所述目标Q网络模型相关联的目标值;基于所述元组数据(si,ai,ri,si+1)和所述目标值,更新所述网络资源选择网络模型的模型参数,并输出进行更新处理后的所述网络资源选择网络模型。
可选地,所述at为调整带宽和时延的行为;所述奖励值为:
Figure BDA0002325713900000021
其中,所述Ι用于表征带宽、时延的满足程度。
可选地,设置缓存区并获取数据存储数量;将所述元组数据(si,ai,ri,si+1)存储在缓存区中;如果所述元组数据(si,ai,ri,si+1)的数量大于所述数据存储数量,则使用新元组数据(si,ai,ri,si+1)替换缓存时间最长的元组数据(si,ai,ri,si+1)。
可选地,所述基于所述奖励值和所述元组数据(si,ai,ri,si+1)设置与所述目标Q网络模型相关联的目标值包括:设置所述网络资源选择模型为Q、所述目标Q网络模型为
Figure BDA0002325713900000022
设置所述目标值为:
Figure BDA0002325713900000023
其中,所述
Figure BDA0002325713900000024
为所述目标Q网络模型相对于所述st+1和所述at的最大值。
可选地,所述基于所述元组数据(si,ai,ri,si+1)和所述目标值,更新所述网络资源选择网络模型的模型参数包括:获取一个所述元组数据(si,ai,ri,si+1),计算与此元组数据(si,ai,ri,si+1)的所述y值;更新所述Q的模型参数,以使Q(si,ai)最接近于所述y值;其中,Q(si,ai)为所述网络资源选择模型相对于所述st和所述at的值。
可选地,设置新元组数据的生成次数,每间隔所述新元组数据的生成次数并基于所述Q的模型参数更新一次所述Q的模型参数。
可选地,基于所述网络资源选择网络模型获取所述资源信息,生成业务调度信息并下发客户;其中,所述业务申请包括:网络切片业务申请。
根据本公开的另一方面,提供一种基于深度Q网络的网络资源选择装置,包括:业务请求模块,用于接收业务申请以及与所述业务申请相对应的业务需求;其中,所述业务需求包括:带宽、时延、价格指标;识别模块,用于基于当前的网络模拟环境获取与所述业务需求相对应的业务特征以及网络状态;更新模块,用于根据DQN算法以及所述业务特征和所述网络状态,更新基于DQN的网络资源选择网络模型的模型参数,用以确定最新的所述模型参数;计算模块,用于根据所述网络资源选择网络模型获取与所述业务申请以及所述业务需求相对应的资源信息。
可选地,所述更新模块,包括:神经网络模型构建模块,用于设置所述网络资源选择网络模型以及与所述网络资源选择网络模型具有相同结构的目标Q网络模型;通信网络模块,用于根据所述网络状态和所述业务特征确定状态st;网络资源选择模块,用于基于所述网络资源选择网络模型获取与所述st相对应的行为at;所述通信网络模块,还用于基于当前的网络模拟环境获取与所述at相对应的奖励值rt和新状态st+1,生成元组数据(si,ai,ri,si+1);目标Q网络模块,用于基于所述奖励值和所述元组数据(si,ai,ri,si+1)设置与所述目标Q网络模型相关联的目标值;学习模块,用于基于所述元组数据(si,ai,ri,si+1)和所述目标值,更新所述网络资源选择网络模型的模型参数;输出模块,用于输出进行更新处理后的所述网络资源选择网络模型。
可选地,所述at为调整带宽和时延的行为;所述奖励值为:
Figure BDA0002325713900000031
其中,所述Ι用于表征带宽、时延的满足程度。
可选地,所述更新模块,包括:行为存储模块,用于设置缓存区并获取数据存储数量;将所述元组数据(si,ai,ri,si+1)存储在缓存区中;如果所述元组数据(si,ai,ri,si+1)的数量大于所述数据存储数量,则使用新元组数据(si,ai,ri,si+1)替换缓存时间最长的元组数据(si,ai,ri,si+1)。
可选地,所述目标Q网络模块,用于设置所述网络资源选择模型为Q、所述目标Q网络模型为
Figure BDA0002325713900000041
设置所述目标值为:
Figure BDA0002325713900000042
其中,所述
Figure BDA0002325713900000043
为所述目标Q网络模型相对于所述st+1和所述at的最大值。
可选地,所述学习模块,用于获取一个所述元组数据(si,ai,ri,si+1),计算与此元组数据(si,ai,ri,si+1)的所述y值;更新所述Q的模型参数,以使Q(si,ai)最接近于所述y值;其中,Q(si,ai)为所述网络资源选择模型相对于所述st和所述at的值。
可选地,所述更新模块,包括:总控模块,用于设置新元组数据的生成次数,每间隔所述新元组数据的生成次数并基于所述Q的模型参数更新一次所述Q的模型参数。
可选地,调度模块,用于基于所述网络资源选择网络模型获取所述资源信息,生成业务调度信息并下发客户;其中,所述业务申请包括:网络切片业务申请。
根据本公开的又一方面,提供一种基于深度Q网络的网络资源选择装置,包括:存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如上所述的方法。
根据本公开的再一方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述指令被处理器执行如上所述的方法。
本公开的基于深度Q网络的网络资源选择方法、装置以及存储介质,能够根据业务需求、网络状态等自动生成网络资源选择方案,进行端到端输出,网络资源配置灵活度高,能够按需进行分配,节约了网络资源,可以快速实现业务的部署,满足业务需求,提高使用感受度。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为根据本公开的基于深度Q网络的网络资源选择方法的一个实施例的流程示意图;
图2为根据本公开的基于深度Q网络的网络资源选择方法的一个实施例中的确定最新的模型参数的流程示意图;
图3为根据本公开的基于深度Q网络的网络资源选择方法的一个实施例中的训练算法的示意图;
图4为根据本公开的基于深度Q网络的网络资源选择装置的一个实施例的模块示意图;
图5为根据本公开的基于深度Q网络的网络资源选择装置的一个实施例中的更新模块的模块示意图;
图6为根据本公开的基于深度Q网络的网络资源选择装置的另一个实施例的模块示意图。
具体实施方式
下面参照附图对本公开进行更全面的描述,其中说明本公开的示例性实施例。下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
图1为根据本公开的基于深度Q网络的网络资源选择方法的一个实施例的流程示意图,如图1所示:
步骤101,接收业务申请以及与业务申请相对应的业务需求;其中,业务需求包括:带宽、时延、价格指标等。业务申请可以为多种,例如为网络切片业务申请等。
步骤102,基于当前的网络模拟环境获取与业务需求相对应的业务特征以及网络状态。
业务特征可以为带宽、时延等特征,网络模拟环境可以为与实际网络环境相对应的模拟环境,从网络模拟环境中获取的业务特征以及网络状态,相当于在实际网络环境中的业务特征以及网络状态,网络状态为与网络切片相对应的网络状态等。
步骤103,根据深度Q网络(Deep Q-Network,DQN)算法更新基于DQN的网络资源选择网络模型的模型参数,用以确定最新的模型参数。
网络资源选择网络模型为深度Q网络,基于深度Q网络算法更新网络资源选择网络模型的模型参数,可以获得最优的网络资源选择网络。
步骤104,根据网络资源选择网络模型获取与业务申请以及业务需求相对应的资源信息。
资源可以为多种,包括部署业务的设备、链路等资源。基于网络资源选择网络模型获取资源信息,生成业务调度信息并下发客户。例如,可以根据网络资源选择网络模型,调度网络资源池用以实施网络切片实例并下发用户。
图2为根据本公开的基于深度Q网络的网络资源选择方法的一个实施例中的确定最新的模型参数的流程示意图,设置所述网络资源选择网络模型以及与所述网络资源选择网络模型具有相同结构的目标Q网络模型,如图2所示:
步骤201,根据网络状态和业务特征确定状态;其中,状态为st
步骤202,基于网络资源选择网络模型获取与状态相对应的行为;其中,行为为at,可以为对于带宽、时延等的综合行为。
步骤203,基于当前的网络模拟环境获取与状态相对应的奖励值和新状态;其中,奖励值为rt,新状态为st+1
步骤204,生成元组数据;其中,元组数据为(si,ai,ri,si+1)。深度Q网络算法为结合深度神经网络(DNN)和Q学习(Q-learning)算法,DQN留有一些空间来进一步增加训练的稳定性,需要一个目标值。
步骤205,基于奖励值和元组数据设置与目标Q网络模型相关联的目标值。
步骤206,基于元组数据和目标值,更新网络资源选择网络模型的模型参数,并输出进行更新处理后的网络资源选择网络模型。
在一个实施例中,at为调整带宽和时延的综合行为,奖励值为:
Figure BDA0002325713900000071
其中,I用于表征带宽、时延的满足程度;当最低带宽、时延未满足时,Ι=0,当带宽、时延全部满足最高要求时,Ι=1。例如,接收到带宽、时延、价格等三项指标作为业务需求,可以直接调用现有网络的模拟环境,获取业务特征和网络状态,将调整带宽,时延(跳转路径或直连链路)的行为确定为at,价格用于通过计算表示为奖励值。
可以设置缓存区并获取数据存储数量,数据存储数量可以设置,例如为10,20等。将元组数据(si,ai,ri,si+1)存储在缓存区中,如果元组数据(si,ai,ri,si+1)的数量大于数据存储数量,则使用新元组数据(si,ai,ri,si+1)替换缓存时间最长的元组数据(si,ai,ri,si+1)。
基于元组数据(si,ai,ri,si+1)和目标值确定目标Q网络模型的模型参数可以采用多种方法。例如,设置网络资源选择模型为Q、目标Q网络模型为
Figure BDA0002325713900000072
设置目标值为:
Figure BDA0002325713900000073
其中,
Figure BDA0002325713900000074
为目标Q网络模型相对于st+1和at的最大值。
Figure BDA0002325713900000075
可以使用现有的多种方法进行求解。
获取一个元组数据(si,ai,ri,si+1),计算与此元组数据(si,ai,ri,si+1)的y值;更新Q的模型参数,以使Q(si,ai)最接近于y值;其中,Q(si,ai)为网络资源选择模型相对于st和at的值。Q(si,ai)可以使用现有的多种方法进行求解,以使Q(si,ai)最接近于y值。设置新元组数据的生成次数,每间隔新元组数据的生成次数更新一次
Figure BDA0002325713900000081
例如,对于每个元组数据(si,ai,ri,si+1),更新一次Q的模型参数;设置新元组数据的生成次数为3次,每间隔3次新元组数据的生成更新一次
Figure BDA0002325713900000082
的参数,即将
Figure BDA0002325713900000083
的模型参数设置与Q的模型参数相同。
例如,随机初始化网络资源选择网络模型的神经网络参数θ,记为Q;设置与网络资源选择网络模型具有相同结构的目标Q网络模型,其神经网络参数为θ,记为
Figure BDA0002325713900000084
根据现在的网络状态st生成网络资源选择行为at,其中,at是将st输入网络资源选择网络模型,由网络资源选择网络模型输出的at。执行at的调整之后,网络状态变为st+1,得到rt,生成元组数据(si,ai,ri,si+1)并存储。随机选择一个元组数据(si,ai,ri,si+1),设置目标值:
Figure BDA0002325713900000085
更新
Figure BDA0002325713900000086
的参数,使得
Figure BDA0002325713900000087
最接近于y。根据设置新元组数据的生成次数,每间隔新元组数据的生成次数更新一次
Figure BDA0002325713900000088
例如,每3步(新元组数据的生成次数)更新一次
Figure BDA0002325713900000089
使得
Figure BDA00023257139000000810
如图3所示,对于网络资源选择网络模型进行训练的算法如下:
初始化网络资源选择网络(Q网络)模型为Q,设置与网络资源选择网络模型具有相同结构的目标Q网络模型为
Figure BDA00023257139000000811
设置
Figure BDA00023257139000000812
循环训练次数:
while not满足业务需求或KPI:
对于网络状态和业务需求的st,基于网络资源选择网络模型选择网络资源的at
获得奖励值rt和新状态st+1
将元组数据(si,ai,ri,si+1)存储进缓存;
从缓存中选择一个(si,ai,ri,si+1);
设置目标值
Figure BDA00023257139000000813
更新Q的参数使得Q(si,ai)接近于y;
每C步更新一次
Figure BDA00023257139000000814
在一个实施例中,本公开提供一种基于深度Q网络的网络资源选择装置,包括:业务请求模块41、识别模块42、更新模块43、计算模块44和调度模块45。业务请求模块51接收业务申请以及与业务申请相对应的业务需求;其中,业务需求包括:带宽、时延、价格指标等。
识别模块42基于当前的网络模拟环境获取与业务需求相对应的业务特征以及网络状态。更新模块43根据DQN算法更新基于DQN的网络资源选择网络模型的模型参数,用以确定最新的模型参数,用于第一次使用或校准计算模块44。计算模块44根据网络资源选择网络模型获取与业务申请以及业务需求相对应的资源信息。调度模块45基于网络资源选择网络模型,获取资源信息,生成业务调度信息并下发客户;其中,业务申请包括:网络切片业务申请等。
在一个实施例中,如图5所示,更新模块43包括:总控模块431、神经网络构建模块432、通信网络模块433、网络资源选择模块434、目标Q网络模块435、行为存储模块436、学习模块437和输出模块438。
通信网络模块433根据网络状态和业务特征确定状态st。网络资源选择模块434基于网络资源选择网络模型获取与st相对应的行为at。网络资源选择模块434可以以网络状态和业务需求的st为输入,获取与st相对应的行为at
通信网络模块433基于当前的网络模拟环境获取与at相对应的奖励值rt和新状态st+1,生成元组数据(si,ai,ri,si+1)。通信网络模块433可以基于真实网络或仿真模型,用于观察或模拟网络资源选择网络模型的输出at对网络的影响状态(实际状态)以及奖励值(影响是好是坏),奖励值的确定函数可根据业务需求自主设定。网络状态为识别模块42输出的原始网络状态和业务需求。
神经网络模型构建模块432设置所述网络资源选择网络模型和与网络资源选择网络模型具有相同结构的目标Q网络模型。神经网络训练模块432设计网络资源选择模块434、目标Q网络模块435中网络模型的结构(输出模块438、网络资源选择模块434与目标Q网络模块435处理的神经网络网络模型的架构都相同,目标Q网络模型的参数间断性更新成网络资源选择网络模型的参数,输出网络即为网络资源选择网络模型训练完成时的形态。
目标Q网络模块435基于奖励值和元组数据(si,ai,ri,si+1)设置与目标Q网络模型相关联的目标值。学习模块437基于元组数据(si,ai,ri,si+1)和目标值,更新网络资源选择网络模型的模型参数。学习模块437设定学习算法,输出模块438输出进行更新处理后的网络资源选择网络模型,输出到计算模块44。
行为存储模块436设置缓存区并获取数据存储数量,将元组数据(si,ai,ri,si+1)存储在缓存区中;如果元组数据(si,ai,ri,si+1)的数量大于数据存储数量,则行为存储模块436使用新元组数据(si,ai,ri,si+1)替换缓存时间最长的元组数据(si,ai,ri,si+1)。行为储存模块436可以设置有多组行为缓存区,组数多少由总控模块431确定,每组行为存储网络状态和业务需求st,网络资源选择行为at,奖励值rt,行为发生后的新网络状态st+1,以及(si,ai,ri,si+1),当行为发生次数大于缓冲区大小时,由新发生的行为替代最原始的行为。
目标Q网络模块435设置网络资源选择模型为Q、目标Q网络模型为
Figure BDA0002325713900000101
设置目标值为:
Figure BDA0002325713900000102
其中,
Figure BDA0002325713900000103
为目标Q网络模型相对于st+1和at的最大值。目标Q网络模块435与网络资源选择模块434的架构相同,属于训练核心部分,用来提供评价的目标值y,目标Q网络的参数间断性更新成网络资源选择网络模型的参数。
学习模块437获取一个元组数据(si,ai,ri,si+1),计算与此元组数据(si,ai,ri,si+1)的y值,更新Q的模型参数,以使Q(si,ai)最接近于y值;其中,Q(si,ai)为网络资源选择模型相对于st和at的值。总控模块431设置新元组数据的生成次数,每间隔新元组数据的生成次数更新一次
Figure BDA0002325713900000104
总控模块431管控训练核心部分以及输出模块438,设定整体训练策略,如训练次数、训练参数等。
图6为根据本公开的基于深度Q网络的网络资源选择装置的另一个实施例的模块示意图。如图6所示,该装置可包括存储器61、处理器62、通信接口63以及总线64。存储器61用于存储指令,处理器62耦合到存储器61,处理器62被配置为基于存储器61存储的指令执行实现上述的基于深度Q网络的网络资源选择方法。
存储器61可以为高速RAM存储器、非易失性存储器(non-volatile memory)等,存储器61也可以是存储器阵列。存储器61还可能被分块,并且块可按一定的规则组合成虚拟卷。处理器62可以为中央处理器CPU,或专用集成电路ASIC(Application SpecificIntegrated Circuit),或者是被配置成实施本公开的基于深度Q网络的网络资源选择方法的一个或多个集成电路。
在一个实施例中,本公开提供一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,指令被处理器执行如上任一实施例中的方法。
上述实施例中提供的基于深度Q网络的网络资源选择方法、装置以及存储介质,能够根据业务需求、网络状态等自动生成网络资源选择方案,进行端到端输出,网络资源配置灵活度高,能够按需进行分配,节约了网络资源,可以快速实现业务的部署,满足业务需求,提高使用感受度。
可能以许多方式来实现本公开的方法和系统。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和系统。用于方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
本公开的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用,并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。

Claims (18)

1.一种基于深度Q网络的网络资源选择方法,包括:
接收业务申请以及与所述业务申请相对应的业务需求;其中,所述业务需求包括:带宽、时延、价格指标;
基于当前的网络模拟环境获取与所述业务需求相对应的业务特征以及网络状态;
根据DQN算法以及所述业务特征和所述网络状态,更新基于DQN的网络资源选择网络模型的模型参数,用以确定最新的所述模型参数;
根据所述网络资源选择网络模型获取与所述业务申请以及所述业务需求相对应的资源信息。
2.如权利要求1所述的方法,所述根据DQN算法以及所述业务特征和所述网络状态,更新基于DQN的网络资源选择网络模型的模型参数,用以确定最新的所述模型参数包括:
设置所述网络资源选择网络模型以及与所述网络资源选择网络模型具有相同结构的目标Q网络模型;
根据所述网络状态和所述业务特征确定状态st
基于所述网络资源选择网络模型获取与所述st相对应的行为at
基于当前的网络模拟环境获取与所述at相对应的奖励值rt和新状态st+1
生成元组数据(si,ai,ri,si+1);
基于所述奖励值和所述元组数据(si,ai,ri,si+1)设置与所述目标Q网络模型相关联的目标值;
基于所述元组数据(si,ai,ri,si+1)和所述目标值,更新所述网络资源选择网络模型的模型参数,并输出进行更新处理后的所述网络资源选择网络模型。
3.如权利要求2所述的方法,其中,
所述at为调整带宽和时延的行为;所述奖励值为:
Figure FDA0002325713890000021
其中,所述Ι用于表征带宽、时延的满足程度。
4.如权利要求3所述的方法,还包括:
设置缓存区并获取数据存储数量;
将所述元组数据(si,ai,ri,si+1)存储在缓存区中;
如果所述元组数据(si,ai,ri,si+1)的数量大于所述数据存储数量,则使用新元组数据(si,ai,ri,si+1)替换缓存时间最长的元组数据(si,ai,ri,si+1)。
5.如权利要求3所述的方法,所述基于所述奖励值和所述元组数据(si,ai,ri,si+1)设置与所述目标Q网络模型相关联的目标值包括:
设置所述网络资源选择模型为Q、所述目标Q网络模型为
Figure FDA0002325713890000025
设置所述目标值为:
Figure FDA0002325713890000022
其中,所述
Figure FDA0002325713890000023
为所述目标Q网络模型相对于所述st+1和所述at的最大值。
6.如权利要求5所述的方法,所述基于所述元组数据(si,ai,ri,si+1)和所述目标值,更新所述网络资源选择网络模型的模型参数包括:
获取一个所述元组数据(si,ai,ri,si+1),计算与此元组数据(si,ai,ri,si+1)的所述y值;
更新所述Q的模型参数,以使Q(si,ai)最接近于所述y值;其中,Q(si,ai)为所述网络资源选择模型相对于所述st和所述at的值。
7.如权利要求6所述的方法,还包括:
设置新元组数据的生成次数,每间隔所述新元组数据的生成次数并基于所述Q的模型参数更新一次所述
Figure FDA0002325713890000024
的模型参数。
8.如权利要求1所述的方法,还包括:
基于所述网络资源选择网络模型获取所述资源信息,生成业务调度信息并下发客户;
其中,所述业务申请包括:网络切片业务申请。
9.一种基于深度Q网络的网络资源选择装置,包括:
业务请求模块,用于接收业务申请以及与所述业务申请相对应的业务需求;其中,所述业务需求包括:带宽、时延、价格指标;
识别模块,用于基于当前的网络模拟环境获取与所述业务需求相对应的业务特征以及网络状态;
更新模块,用于根据DQN算法以及所述业务特征和所述网络状态,更新基于DQN的网络资源选择网络模型的模型参数,用以确定最新的所述模型参数;
计算模块,用于根据所述网络资源选择网络模型获取与所述业务申请以及所述业务需求相对应的资源信息。
10.如权利要求9所述的装置,其中,
所述更新模块,包括:
神经网络模型构建模块,用于设置所述网络资源选择网络模型以及与所述网络资源选择网络模型具有相同结构的目标Q网络模型;
通信网络模块,用于根据所述网络状态和所述业务特征确定状态st
网络资源选择模块,用于基于所述网络资源选择网络模型获取与所述st相对应的行为at
所述通信网络模块,还用于基于当前的网络模拟环境获取与所述at相对应的奖励值rt和新状态st+1,生成元组数据(si,ai,ri,si+1);
目标Q网络模块,用于基于所述奖励值和所述元组数据(si,ai,ri,si+1)设置与所述目标Q网络模型相关联的目标值;
学习模块,用于基于所述元组数据(si,ai,ri,si+1)和所述目标值,更新所述网络资源选择网络模型的模型参数;
输出模块,用于输出进行更新处理后的所述网络资源选择网络模型。
11.如权利要求10所述的装置,其中,
所述at为调整带宽和时延的行为;所述奖励值为:
Figure FDA0002325713890000031
其中,所述Ι用于表征带宽、时延的满足程度。
12.如权利要求10所述的装置,其中,
所述更新模块,包括:
行为存储模块,用于设置缓存区并获取数据存储数量;将所述元组数据(si,ai,ri,si+1)存储在缓存区中;如果所述元组数据(si,ai,ri,si+1)的数量大于所述数据存储数量,则使用新元组数据(si,ai,ri,si+1)替换缓存时间最长的元组数据(si,ai,ri,si+1)。
13.如权利要求12所述的装置,其中,
所述目标Q网络模块,用于设置所述网络资源选择模型为Q、所述目标Q网络模型为
Figure FDA0002325713890000041
设置所述目标值为:
Figure FDA0002325713890000042
其中,所述
Figure FDA0002325713890000043
为所述目标Q网络模型相对于所述st+1和所述at的最大值。
14.如权利要求13所述的装置,其中,
所述学习模块,用于获取一个所述元组数据(si,ai,ri,si+1),计算与此元组数据(si,ai,ri,si+1)的所述y值;更新所述Q的模型参数,以使Q(si,ai)最接近于所述y值;其中,Q(si,ai)为所述网络资源选择模型相对于所述st和所述at的值。
15.如权利要求14所述的装置,其中,
所述更新模块,包括:
总控模块,用于设置新元组数据的生成次数,每间隔所述新元组数据的生成次数并基于所述Q的模型参数更新一次所述
Figure FDA0002325713890000044
的模型参数。
16.如权利要求9至15任一所述的装置,还包括:
调度模块,用于基于所述网络资源选择网络模型获取所述资源信息,生成业务调度信息并下发客户;其中,所述业务申请包括:网络切片业务申请。
17.一种基于深度Q网络的网络资源选择装置,包括:
存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如权利要求1至8中任一项所述的方法。
18.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述指令被处理器执行如权利要求1至8中任一项所述的方法。
CN201911315452.8A 2019-12-19 2019-12-19 基于深度q网络的网络资源选择方法、装置以及存储介质 Active CN113015179B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911315452.8A CN113015179B (zh) 2019-12-19 2019-12-19 基于深度q网络的网络资源选择方法、装置以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911315452.8A CN113015179B (zh) 2019-12-19 2019-12-19 基于深度q网络的网络资源选择方法、装置以及存储介质

Publications (2)

Publication Number Publication Date
CN113015179A true CN113015179A (zh) 2021-06-22
CN113015179B CN113015179B (zh) 2022-09-23

Family

ID=76382547

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911315452.8A Active CN113015179B (zh) 2019-12-19 2019-12-19 基于深度q网络的网络资源选择方法、装置以及存储介质

Country Status (1)

Country Link
CN (1) CN113015179B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113747450A (zh) * 2021-07-27 2021-12-03 清华大学 一种移动网络中业务部署方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170093750A1 (en) * 2015-09-28 2017-03-30 Centurylink Intellectual Property Llc Intent-Based Services Orchestration
CN109614215A (zh) * 2019-01-25 2019-04-12 广州大学 基于深度强化学习的流调度方法、装置、设备及介质
CN110113793A (zh) * 2019-04-04 2019-08-09 北京邮电大学 一种基于深度增强学习的后5g前传网时间同步方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170093750A1 (en) * 2015-09-28 2017-03-30 Centurylink Intellectual Property Llc Intent-Based Services Orchestration
CN109614215A (zh) * 2019-01-25 2019-04-12 广州大学 基于深度强化学习的流调度方法、装置、设备及介质
CN110113793A (zh) * 2019-04-04 2019-08-09 北京邮电大学 一种基于深度增强学习的后5g前传网时间同步方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NOKIA等: "S2-1907401 "UDR service for mapping IMS Public Identity to HSS Group ID for HSS selection"", 《3GPP TSG_SA\WG2_ARCH》 *
任语铮等: "基于增强学习的5G网络切片资源动态优化方案", 《中兴通讯技术》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113747450A (zh) * 2021-07-27 2021-12-03 清华大学 一种移动网络中业务部署方法、装置及电子设备

Also Published As

Publication number Publication date
CN113015179B (zh) 2022-09-23

Similar Documents

Publication Publication Date Title
CN107688493B (zh) 训练深度神经网络的方法、装置及系统
CN111064633B (zh) 一种云边协同电力信息通信设备自动化测试资源分配方法
CN113015219B (zh) 基于策略梯度的网络资源选择方法、装置以及存储介质
CN110366193B (zh) 一种智能电网的网络编排层承载的切片部署方法及装置
US20060003823A1 (en) Dynamic player groups for interest management in multi-character virtual environments
CN107948083B (zh) 一种基于增强学习的sdn数据中心拥塞控制方法
CN108108224B (zh) 基于蚁群优化算法的云数据中心中虚拟机放置方法
CN110288688B (zh) 虚拟植被的渲染方法、装置、存储介质与电子设备
WO2017084016A1 (zh) 模型参数融合方法及装置
CN113095512A (zh) 联邦学习建模优化方法、设备、介质及计算机程序产品
US20210256423A1 (en) Methods, apparatuses, and computing devices for trainings of learning models
CN111061624A (zh) 策略执行效果确定方法、装置、电子设备及存储介质
CN113015179B (zh) 基于深度q网络的网络资源选择方法、装置以及存储介质
CN109379747B (zh) 无线网络多控制器部署和资源分配方法和装置
CN109962947A (zh) 一种对等网络中的任务分配方法及装置
CN112965813B (zh) 一种ai平台资源调控方法、系统及介质
CN111652382B (zh) 基于区块链的数据处理方法、装置、设备及存储介质
CN107193829B (zh) 应用程序推荐方法和装置
CN111047040A (zh) 基于IFPA算法的Web服务组合方法
CN116932199A (zh) 云渲染方法、系统、装置、设备以及计算机存储介质
CN107688582B (zh) 资源推荐模型的获取方法及装置
CN116339932A (zh) 资源调度方法、装置和服务器
CN113395698B (zh) 资源调度方法、装置及计算机可读存储介质
CN113139764B (zh) 派单方法、装置、存储介质及电子设备
CN115190135B (zh) 一种分布式存储系统及其副本选择方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant