CN113395698B - 资源调度方法、装置及计算机可读存储介质 - Google Patents

资源调度方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN113395698B
CN113395698B CN202010174149.7A CN202010174149A CN113395698B CN 113395698 B CN113395698 B CN 113395698B CN 202010174149 A CN202010174149 A CN 202010174149A CN 113395698 B CN113395698 B CN 113395698B
Authority
CN
China
Prior art keywords
network
resource selection
resource
time
state information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010174149.7A
Other languages
English (en)
Other versions
CN113395698A (zh
Inventor
王浩彬
朱志军
饶少阳
李晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN202010174149.7A priority Critical patent/CN113395698B/zh
Publication of CN113395698A publication Critical patent/CN113395698A/zh
Application granted granted Critical
Publication of CN113395698B publication Critical patent/CN113395698B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/02Resource partitioning among network components, e.g. reuse partitioning
    • H04W16/10Dynamic resource partitioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/16Central resource management; Negotiation of resources or communication parameters, e.g. negotiating bandwidth or QoS [Quality of Service]
    • H04W28/18Negotiating wireless communication parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/16Central resource management; Negotiation of resources or communication parameters, e.g. negotiating bandwidth or QoS [Quality of Service]
    • H04W28/18Negotiating wireless communication parameters
    • H04W28/20Negotiating bandwidth

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开提供了一种资源调度方法、装置及计算机可读存储介质,涉及通信技术领域。其中的资源调度方法包括:获取当前网络状态信息和用户的业务需求信息;利用样本网络状态信息和用户的业务需求信息,对资源选择神经网络进行训练;将当前网络状态信息输入训练后的资源选择神经网络,获得网络切片资源信息;从网络资源池中,将与网络切片资源信息对应的网络切片资源调度至用户。本公开能够根据实际应用场景自动为用户调度满足用户需求的网络切片资源,提高了调度网络切片资源的灵活性和用户业务需求的满足率。

Description

资源调度方法、装置及计算机可读存储介质
技术领域
本公开涉及通信技术领域,特别涉及一种资源调度方法、装置及计算机可读存储介质。
背景技术
第五代移动通信技术研究是目前通信行业重点关注领域。积极推进第五代移动通信技术和超宽带关键技术,启动5G商用是大势所趋。同第四代移动通信技术网络相比,网络切片功能是第五代移动通信技术网络最鲜明的特征和优点之一。
网络切片对网络数据实行类似于交通管理的分流管理,其本质是将现实存在的物理网络在逻辑层面上,划分为多个不同类型的虚拟网络,依照不同用户的服务需求,以诸如时延高低、带宽大小、可靠性强弱等指标来进行划分,从而应对复杂多变的应用场景。切片过程可以理解为根据应用需要分配合理的网络资源。
发明内容
本公开解决的一个技术问题是,如何提高调度网络切片资源的灵活性和用户业务需求的满足率。
根据本公开实施例的一个方面,提供了一种资源调度方法,包括:获取当前网络状态信息和用户的业务需求信息;利用样本网络状态信息和用户的业务需求信息,对资源选择神经网络进行训练;将当前网络状态信息输入训练后的资源选择神经网络,获得网络切片资源信息;从网络资源池中,将与网络切片资源信息对应的网络切片资源调度至用户。
在一些实施例中,利用样本网络状态信息和用户的业务需求信息,对资源选择神经网络进行训练包括:对资源选择神经网络进行复制,得到多个资源选择从神经网络;利用样本网络状态信息和用户的业务需求信息,同时对多个资源选择从神经网络进行训练,得到各个资源选择从神经网络的网络参数;根据各个资源选择从神经网络的网络参数,确定资源选择神经网络的网络参数。
在一些实施例中,采用如下方式对资源选择从神经网络进行训练:对资源选择从神经网络的网络参数进行随机初始化;将当前时刻的样本网络状态信息输入资源选择从神经网络,获得当前时刻的网络切片资源选择行为;根据当前时刻的样本网络状态信息及当前时刻的网络切片资源选择行为,确定下一时刻的样本网络状态信息;根据下一时刻的样本网络状态信息及用户的业务需求信息,确定当前时刻的网络切片资源选择行为的奖励值;根据多个时刻的网络切片资源选择行为的奖励值,对资源选择从神经网络的网络参数进行更新。
在一些实施例中,下一时刻的样本网络状态信息包括:下一时刻网络中各个设备为用户分配的带宽资源、各个设备间链路的时延、下一时刻的网络资源成本;业务需求信息包括:带宽需求指标、时延需求指标、成本需求指标;根据下一时刻的样本网络状态信息及用户的业务需求信息,确定当前时刻的网络切片资源选择行为的奖励值包括:根据带宽资源及带宽需求指标确定带宽满足率;根据时延及时延需求指标确定时延满足率;根据网络资源成本及成本需求指标确定成本满足率;根据带宽满足率、时延满足率以及成本满足率确定奖励值,奖励值分别与带宽满足率、时延满足率以及成本满足率呈正相关。
在一些实施例中,根据多个时刻的网络切片资源选择行为的奖励值,对资源选择从神经网络的网络参数进行更新包括:以
Figure BDA0002410221300000021
为步长对资源选择从神经网络的网络参数进行调整,其中,
Figure BDA0002410221300000022
n表示资源选择从神经网络的训练组标识,N表示资源选择从神经网络的训练组总数,t为训练时刻标识,Tn为训练时刻最大值,rt表示t时刻的奖励值,
Figure BDA0002410221300000023
表示第n训练组在t+1时刻下的样本网络状态信息,
Figure BDA0002410221300000024
表示第n训练组在t时刻下的样本网络状态信息,π表示资源选择从神经网络的网络参数集合,
Figure BDA0002410221300000031
表示从起始时刻到t+1时刻奖励值的累计值,
Figure BDA0002410221300000032
表示从起始时刻到t时刻奖励值的累计值,
Figure BDA0002410221300000033
表示第n训练组在t时刻下的网络切片资源选择行为,
Figure BDA0002410221300000034
表示条件概率。
根据本公开实施例的另一个方面,提供了一种资源调度装置,包括:信息获取模块,被配置为获取当前网络状态信息和用户的业务需求信息;网络训练模块,被配置为利用样本网络状态信息和用户的业务需求信息,对资源选择神经网络进行训练;资源获取模块,被配置为将当前网络状态信息输入训练后的资源选择神经网络,获得网络切片资源信息;资源调度模块,被配置为从网络资源池中,将与网络切片资源信息对应的网络切片资源调度至用户。
在一些实施例中,网络训练模块被配置为:对资源选择神经网络进行复制,得到多个资源选择从神经网络;利用样本网络状态信息和用户的业务需求信息,同时对多个资源选择从神经网络进行训练,得到各个资源选择从神经网络的网络参数;根据各个资源选择从神经网络的网络参数,确定资源选择神经网络的网络参数。
在一些实施例中,网络训练模块被配置为采用如下方式对资源选择从神经网络进行训练:对资源选择从神经网络的网络参数进行随机初始化;将当前时刻的样本网络状态信息输入资源选择从神经网络,获得当前时刻的网络切片资源选择行为;根据当前时刻的样本网络状态信息及当前时刻的网络切片资源选择行为,确定下一时刻的样本网络状态信息;根据下一时刻的样本网络状态信息及用户的业务需求信息,确定当前时刻的网络切片资源选择行为的奖励值;根据多个时刻的网络切片资源选择行为的奖励值,对资源选择从神经网络的网络参数进行更新。
在一些实施例中,下一时刻的样本网络状态信息包括:下一时刻网络中各个设备为用户分配的带宽资源、各个设备间链路的时延、下一时刻的网络资源成本;业务需求信息包括:带宽需求指标、时延需求指标、成本需求指标;网络训练模块被配置为:根据带宽资源及带宽需求指标确定带宽满足率;根据时延及时延需求指标确定时延满足率;根据网络资源成本及成本需求指标确定成本满足率;根据带宽满足率、时延满足率以及成本满足率确定奖励值,奖励值分别与带宽满足率、时延满足率以及成本满足率呈正相关。
在一些实施例中,网络训练模块被配置为:以
Figure BDA0002410221300000041
为步长对资源选择从神经网络的网络参数进行调整,其中,
Figure BDA0002410221300000042
n表示资源选择从神经网络的训练组标识,N表示资源选择从神经网络的训练组总数,t为训练时刻标识,Tn为训练时刻最大值,rt表示t时刻的奖励值,
Figure BDA0002410221300000043
表示第n训练组在t+1时刻下的样本网络状态信息,
Figure BDA0002410221300000044
表示第n训练组在t时刻下的样本网络状态信息,π表示资源选择从神经网络的网络参数集合,
Figure BDA0002410221300000045
表示从起始时刻到t+1时刻奖励值的累计值,
Figure BDA0002410221300000046
表示从起始时刻到t时刻奖励值的累计值,
Figure BDA0002410221300000047
表示第n训练组在t时刻下的网络切片资源选择行为,
Figure BDA0002410221300000048
表示条件概率。
根据本公开实施例的又一个方面,提供了一种资源调度装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器中的指令,执行前述的资源调度方法。
根据本公开实施例的再一个方面,提供了一种计算机可读存储介质,其中,计算机可读存储介质存储有计算机指令,指令被处理器执行时实现前述的资源调度方法。
本公开能够根据实际应用场景自动为用户调度满足用户需求的网络切片资源,提高了调度网络切片资源的灵活性和用户业务需求的满足率。
通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出了本公开一些实施例的资源调度方法的流程示意图。
图2示出了本公开一些实施例的对资源选择神经网络进行训练的流程示意图。
图3示出了本公开一些实施例的资源调度装置的结构示意图。
图4示出了本公开另一些实施例的资源调度装置的结构示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本公开保护的范围。
首先结合图1描述本公开资源调度方法的一些实施例。
图1示出了本公开一些实施例的资源调度方法的流程示意图。如图1所示,本实施例包括步骤S101~步骤S104。
在步骤S101中,获取当前网络状态信息和用户的业务需求信息。
通过接收用户的网络切片业务申请,可以获得用户的业务数据信息,包括业务名、业务类型等等。根据业务数据信息,可以通过机器学习等多种算法识别出用户的业务需求信息,具体包括带宽(例如200M)、时延(例如8毫秒)等等。另一方面,网络状态可以包括网络中各个设备为用户分配的带宽资源(例如A设备为用户分配的带宽资源为800M)、各个设备间链路的时延(例如A设备与B设备之间的链路的时延为4毫秒)、网络资源成本等等。
在步骤S102中,利用样本网络状态信息和用户的业务需求信息,对资源选择神经网络进行训练。
训练过程中,首先需要整体训练策略,如训练次数、训练参数等等。同时,调用真实的现网网络或模拟的仿真网络模型,用于观察或模拟资源选择神经网络输出的at(当前时刻的网络切片资源选择行为)对st(当前时刻的样本网络状态信息)的影响以及奖励值rt(当前时刻的网络切片资源选择行为的奖励值),奖励值函数可以根据业务需求自主设定,初始的样本网络状态信息原始网络状态。
另一方面,可以设立独立的网络架构来对神经网络输出的at进行行为评估,从而评价网络状态。同时,设立选择行为缓存区,每个缓存的数据集合为{st,at,rt,st+1},缓存数据的集合数多少可以根据业务需求进行确定。当行为发生次数大于缓冲区大小时,由新发生数据组替代最原始的数据组。利用缓存的数据集合对资源选择神经网络进行训练时,可以采用梯度策略算法,从而调整资源选择神经网络的参数。
在步骤S103中,将当前网络状态信息输入训练后的资源选择神经网络,获得网络切片资源信息。
假设当前网络状态信息为st',资源选择神经网络的输出为at',则可以根据st'及at'获得st+1',即为网络切片资源信息。
在步骤S104中,从网络资源池中,将与网络切片资源信息对应的网络切片资源调度至用户。
例如,可以调度网络资源池以网络切片资源实例的形式下发至用户。
本实施例应用在网络切片资源的选择和调度场景,能够根据实际应用场景自动为用户调度满足用户需求的网络切片资源,提高了调度网络切片资源的灵活性和用户业务需求的满足率。
下面结合图2描述对资源选择神经网络进行训练的一些实施例。
图2示出了本公开一些实施例的对资源选择神经网络进行训练的流程示意图。如图2所示,本实施例包括步骤S2021~步骤S2023。
在步骤S2021中,对资源选择神经网络进行复制,得到多个资源选择从神经网络。
本领域技术人员应理解,复制资源选择神经网络的网路参数到资源选择从神经网络后,从神经网络的网络架构及网络参数与主神经网络的网络架构及网络参数一致。
在步骤S2022中,利用样本网络状态信息和用户的业务需求信息,同时对多个资源选择从神经网络进行训练,得到各个资源选择从神经网络的网络参数。
在一些实施例中,采用如下方式对资源选择从神经网络进行训练:
(1)对资源选择从神经网络的网络参数进行随机初始化,得到资源选择从神经网络的网络参数集合π。
(2)将当前时刻的样本网络状态信息st输入资源选择从神经网络,获得当前时刻的网络切片资源选择行为at
对于相同的st而言,每一次输入资源选择子神经网得到的输出at可能有不同的情况。因此,可以进行N组实验,每组实验中根据概率随机生成各个时刻下的at
(3)根据当前时刻的样本网络状态信息st及当前时刻的网络切片资源选择行为at,确定下一时刻的样本网络状态信息st+1
(4)根据下一时刻的样本网络状态信息及用户的业务需求信息,确定当前时刻的网络切片资源选择行为的奖励值rt
在一些实施例中,下一时刻的样本网络状态信息可以包括:下一时刻网络中各个设备为用户分配的带宽资源、各个设备间链路的时延、下一时刻的网络资源成本。业务需求信息可以包括:带宽需求指标、时延需求指标、成本需求指标。
在一些实施例中,可以根据带宽资源及带宽需求指标确定带宽满足率a;根据时延及时延需求指标确定时延满足率b;根据网络资源成本及成本需求指标确定成本满足率c;根据带宽满足率a、时延满足率b以及成本满足率c确定奖励值,奖励值分别与带宽满足率、时延满足率以及成本满足率呈正相关。
例如,可以将奖励值的计算方法设置为r=a*b*c。当带宽、时延、成本均满足需求时,r=1;当带宽、时延、成本有一项完全不满足需求时,r=0。
(5)根据多个时刻的网络切片资源选择行为的奖励值,对资源选择从神经网络的网络参数进行更新。
在一些实施例中,以
Figure BDA0002410221300000081
为步长对资源选择从神经网络的网络参数进行调整,其中,
Figure BDA0002410221300000082
n表示资源选择从神经网络的训练组标识,N表示资源选择从神经网络的训练组总数,t为训练时刻标识,Tn为训练时刻最大值,rt表示t时刻的奖励值,
Figure BDA0002410221300000083
表示第n训练组在t+1时刻下的样本网络状态信息,
Figure BDA0002410221300000084
表示第n训练组在t时刻下的样本网络状态信息,π表示资源选择从神经网络的网络参数集合,
Figure BDA0002410221300000085
表示从起始时刻到t+1时刻奖励值的累计值,
Figure BDA0002410221300000086
表示从起始时刻到t时刻奖励值的累计值,
Figure BDA0002410221300000087
表示第n训练组在t时刻下的网络切片资源选择行为,
Figure BDA0002410221300000088
表示条件概率。
例如,可以利用行为评估神经网络,对st与st+1进行评价,得到rt
Figure BDA0002410221300000089
Figure BDA00024102213000000810
以后每组重复Tn次后优化Vπ(s)函数(Tn可以根据业务需要进行设定)。从神经网络执行上述过程(1)~(5),得到各个从神经网络的
Figure BDA00024102213000000811
然后将
Figure BDA00024102213000000812
赋值给π即可实现对资源选择从神经网络的网络参数进行训练,η为根据业务需要设置的超参数。
在步骤S2023中,根据各个资源选择从神经网络的网络参数,确定资源选择神经网络的网络参数。
例如,可以对各个资源选择从神经网络的网络参取平均,得到资源选择神经网络的网络参数。由于各个从神经网络分别进行了N组实验,各个从神经网络的网络参数是根据N组实验得出的结果进行调整。因此,资源选择神经网络的网络参数相当于在3N组实验的基础上进行调整。
本实施例引入异步学习策略,能够加快资源选择神经网络的学习效率,从而提高了资源选择神经网络的训练速度和训练效率。
下面结合图3描述本公开资源调度装置的一些实施例。
图3示出了本公开一些实施例的资源调度装置的结构示意图。如图3所示,本实施例中的资源调度装置30包括:信息获取模块301,被配置为获取当前网络状态信息和用户的业务需求信息;网络训练模块302,被配置为利用样本网络状态信息和用户的业务需求信息,对资源选择神经网络进行训练;资源获取模块303,被配置为将当前网络状态信息输入训练后的资源选择神经网络,获得网络切片资源信息;资源调度模块304,被配置为从网络资源池中,将与网络切片资源信息对应的网络切片资源调度至用户。
在一些实施例中,网络训练模块302被配置为:对资源选择神经网络进行复制,得到多个资源选择从神经网络;利用样本网络状态信息和用户的业务需求信息,同时对多个资源选择从神经网络进行训练,得到各个资源选择从神经网络的网络参数;根据各个资源选择从神经网络的网络参数,确定资源选择神经网络的网络参数。
在一些实施例中,网络训练模块302被配置为采用如下方式对资源选择从神经网络进行训练:对资源选择从神经网络的网络参数进行随机初始化;将当前时刻的样本网络状态信息输入资源选择从神经网络,获得当前时刻的网络切片资源选择行为;根据当前时刻的样本网络状态信息及当前时刻的网络切片资源选择行为,确定下一时刻的样本网络状态信息;根据下一时刻的样本网络状态信息及用户的业务需求信息,确定当前时刻的网络切片资源选择行为的奖励值;根据多个时刻的网络切片资源选择行为的奖励值,对资源选择从神经网络的网络参数进行更新。
在一些实施例中,下一时刻的样本网络状态信息包括:下一时刻网络中各个设备为用户分配的带宽资源、各个设备间链路的时延、下一时刻的网络资源成本;业务需求信息包括:带宽需求指标、时延需求指标、成本需求指标;网络训练模块302被配置为:根据带宽资源及带宽需求指标确定带宽满足率;根据时延及时延需求指标确定时延满足率;根据网络资源成本及成本需求指标确定成本满足率;根据带宽满足率、时延满足率以及成本满足率确定奖励值,奖励值分别与带宽满足率、时延满足率以及成本满足率呈正相关。
在一些实施例中,网络训练模块302被配置为:以
Figure BDA0002410221300000091
为步长对资源选择从神经网络的网络参数进行调整,其中,
Figure BDA0002410221300000101
n表示资源选择从神经网络的训练组标识,N表示资源选择从神经网络的训练组总数,t为训练时刻标识,Tn为训练时刻最大值,rt表示t时刻的奖励值,
Figure BDA0002410221300000102
表示第n训练组在t+1时刻下的样本网络状态信息,
Figure BDA0002410221300000103
表示第n训练组在t时刻下的样本网络状态信息,π表示资源选择从神经网络的网络参数集合,
Figure BDA0002410221300000104
表示从起始时刻到t+1时刻奖励值的累计值,
Figure BDA0002410221300000105
表示从起始时刻到t时刻奖励值的累计值,
Figure BDA0002410221300000106
表示第n训练组在t时刻下的网络切片资源选择行为,
Figure BDA0002410221300000107
表示条件概率。
下面结合图4描述本公开资源调度装置的另一些实施例。
图4示出了本公开另一些实施例的资源调度装置的结构示意图。如图4所示,该实施例的资源调度装置40包括:存储器410以及耦接至该存储器410的处理器420,处理器420被配置为基于存储在存储器410中的指令,执行前述任意一些实施例中的资源调度方法。
其中,存储器410例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。
资源调度装置40还可以包括输入输出接口430、网络接口440、存储接口450等。这些接口430、440、450以及存储器410和处理器420之间例如可以通过总线460连接。其中,输入输出接口430为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口440为各种联网设备提供连接接口。存储接口450为SD卡、U盘等外置存储设备提供连接接口。
本公开还包括一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现前述任意一些实施例中的资源调度方法。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本公开的较佳实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (10)

1.一种资源调度方法,包括:
获取当前网络状态信息和用户的业务需求信息;
利用样本网络状态信息和用户的业务需求信息,对资源选择神经网络进行训练,包括
对资源选择神经网络进行复制,得到多个资源选择从神经网络;
利用样本网络状态信息和用户的业务需求信息,同时对多个资源选择从神经网络进行训练,得到各个资源选择从神经网络的网络参数;
根据各个资源选择从神经网络的网络参数,确定资源选择神经网络的网络参数;
将当前网络状态信息输入训练后的资源选择神经网络,获得网络切片资源信息;
从网络资源池中,将与网络切片资源信息对应的网络切片资源调度至用户。
2.根据权利要求1所述的资源调度方法,其中,采用如下方式对资源选择从神经网络进行训练:
对资源选择从神经网络的网络参数进行随机初始化;
将当前时刻的样本网络状态信息输入资源选择从神经网络,获得当前时刻的网络切片资源选择行为;
根据当前时刻的样本网络状态信息及当前时刻的网络切片资源选择行为,确定下一时刻的样本网络状态信息;
根据下一时刻的样本网络状态信息及用户的业务需求信息,确定当前时刻的网络切片资源选择行为的奖励值;
根据多个时刻的网络切片资源选择行为的奖励值,对资源选择从神经网络的网络参数进行更新。
3.根据权利要求2所述的资源调度方法,其中,
所述下一时刻的样本网络状态信息包括:下一时刻网络中各个设备为用户分配的带宽资源、各个设备间链路的时延、下一时刻的网络资源成本;
所述业务需求信息包括:带宽需求指标、时延需求指标、成本需求指标;
所述根据下一时刻的样本网络状态信息及用户的业务需求信息,确定当前时刻的网络切片资源选择行为的奖励值包括:根据所述带宽资源及带宽需求指标确定带宽满足率;根据所述时延及时延需求指标确定时延满足率;根据所述网络资源成本及成本需求指标确定成本满足率;根据带宽满足率、时延满足率以及成本满足率确定所述奖励值,所述奖励值分别与所述带宽满足率、所述时延满足率以及所述成本满足率呈正相关。
4.根据权利要求2所述的资源调度方法,其中,所述根据多个时刻的网络切片资源选择行为的奖励值,对资源选择从神经网络的网络参数进行更新包括:
Figure FDA0003868945860000021
为步长对资源选择从神经网络的网络参数进行调整,其中,
Figure FDA0003868945860000022
n表示资源选择从神经网络的训练组标识,N表示资源选择从神经网络的训练组总数,t为训练时刻标识,Tn为训练时刻最大值,rt表示t时刻的所述奖励值,
Figure FDA0003868945860000023
表示第n训练组在t+1时刻下的样本网络状态信息,
Figure FDA0003868945860000024
表示第n训练组在t时刻下的样本网络状态信息,π表示资源选择从神经网络的网络参数集合,
Figure FDA0003868945860000025
表示从起始时刻到t+1时刻所述奖励值的累计值,
Figure FDA0003868945860000026
表示从起始时刻到t时刻所述奖励值的累计值,
Figure FDA0003868945860000027
表示第n训练组在t时刻下的网络切片资源选择行为,
Figure FDA0003868945860000028
表示条件概率。
5.一种资源调度装置,包括:
信息获取模块,被配置为获取当前网络状态信息和用户的业务需求信息;
网络训练模块,被配置为利用样本网络状态信息和用户的业务需求信息,对资源选择神经网络进行训练,包括
对资源选择神经网络进行复制,得到多个资源选择从神经网络;
利用样本网络状态信息和用户的业务需求信息,同时对多个资源选择从神经网络进行训练,得到各个资源选择从神经网络的网络参数;
根据各个资源选择从神经网络的网络参数,确定资源选择神经网络的网络参数;
资源获取模块,被配置为将当前网络状态信息输入训练后的资源选择神经网络,获得网络切片资源信息;
资源调度模块,被配置为从网络资源池中,将与网络切片资源信息对应的网络切片资源调度至用户。
6.根据权利要求5所述的资源调度装置,其中,所述网络训练模块被配置为采用如下方式对资源选择从神经网络进行训练:
对资源选择从神经网络的网络参数进行随机初始化;
将当前时刻的样本网络状态信息输入资源选择从神经网络,获得当前时刻的网络切片资源选择行为;
根据当前时刻的样本网络状态信息及当前时刻的网络切片资源选择行为,确定下一时刻的样本网络状态信息;
根据下一时刻的样本网络状态信息及用户的业务需求信息,确定当前时刻的网络切片资源选择行为的奖励值;
根据多个时刻的网络切片资源选择行为的奖励值,对资源选择从神经网络的网络参数进行更新。
7.根据权利要求6所述的资源调度装置,其中,
所述下一时刻的样本网络状态信息包括:下一时刻网络中各个设备为用户分配的带宽资源、各个设备间链路的时延、下一时刻的网络资源成本;
所述业务需求信息包括:带宽需求指标、时延需求指标、成本需求指标;
所述网络训练模块被配置为:根据所述带宽资源及带宽需求指标确定带宽满足率;根据所述时延及时延需求指标确定时延满足率;根据所述网络资源成本及成本需求指标确定成本满足率;根据带宽满足率、时延满足率以及成本满足率确定所述奖励值,所述奖励值分别与所述带宽满足率、所述时延满足率以及所述成本满足率呈正相关。
8.根据权利要求6所述的资源调度装置,其中,所述网络训练模块被配置为:
Figure FDA0003868945860000041
为步长对资源选择从神经网络的网络参数进行调整,其中,
Figure FDA0003868945860000042
n表示资源选择从神经网络的训练组标识,N表示资源选择从神经网络的训练组总数,t为训练时刻标识,Tn为训练时刻最大值,rt表示t时刻的所述奖励值,
Figure FDA0003868945860000043
表示第n训练组在t+1时刻下的样本网络状态信息,
Figure FDA0003868945860000044
表示第n训练组在t时刻下的样本网络状态信息,π表示资源选择从神经网络的网络参数集合,
Figure FDA0003868945860000045
表示从起始时刻到t+1时刻所述奖励值的累计值,
Figure FDA0003868945860000046
表示从起始时刻到t时刻所述奖励值的累计值,
Figure FDA0003868945860000047
表示第n训练组在t时刻下的网络切片资源选择行为,
Figure FDA0003868945860000048
表示条件概率。
9.一种资源调度装置,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如权利要求1至4中任一项所述的资源调度方法。
10.一种计算机可读存储介质,其中,所述计算机可读存储介质存储有计算机指令,所述指令被处理器执行时实现如权利要求1至4中任一项所述的资源调度方法。
CN202010174149.7A 2020-03-13 2020-03-13 资源调度方法、装置及计算机可读存储介质 Active CN113395698B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010174149.7A CN113395698B (zh) 2020-03-13 2020-03-13 资源调度方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010174149.7A CN113395698B (zh) 2020-03-13 2020-03-13 资源调度方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN113395698A CN113395698A (zh) 2021-09-14
CN113395698B true CN113395698B (zh) 2022-11-29

Family

ID=77615838

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010174149.7A Active CN113395698B (zh) 2020-03-13 2020-03-13 资源调度方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113395698B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614215A (zh) * 2019-01-25 2019-04-12 广州大学 基于深度强化学习的流调度方法、装置、设备及介质
CN110113793A (zh) * 2019-04-04 2019-08-09 北京邮电大学 一种基于深度增强学习的后5g前传网时间同步方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9882833B2 (en) * 2015-09-28 2018-01-30 Centurylink Intellectual Property Llc Intent-based services orchestration

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614215A (zh) * 2019-01-25 2019-04-12 广州大学 基于深度强化学习的流调度方法、装置、设备及介质
CN110113793A (zh) * 2019-04-04 2019-08-09 北京邮电大学 一种基于深度增强学习的后5g前传网时间同步方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
S2-1907401 "UDR service for mapping IMS Public Identity to HSS Group ID for HSS selection";Nokia等;《3GPP tsg_sa\wg2_arch》;20190617;全文 *
基于增强学习的5G网络切片资源动态优化方案;任语铮等;《中兴通讯技术》;20180120(第01期);全文 *

Also Published As

Publication number Publication date
CN113395698A (zh) 2021-09-14

Similar Documents

Publication Publication Date Title
CN104714852B (zh) 一种适用于分布式机器学习的参数同步优化方法及其系统
CN108122027A (zh) 一种神经网络模型的训练方法、装置及芯片
CN110389816B (zh) 用于资源调度的方法、装置以及计算机可读介质
CN112416585A (zh) 面向深度学习的gpu资源管理与智能化调度方法
CN111274036A (zh) 一种基于速度预测的深度学习任务的调度方法
CN113015219B (zh) 基于策略梯度的网络资源选择方法、装置以及存储介质
CN110413396B (zh) 一种资源调度方法、装置、设备及可读存储介质
CN112148468B (zh) 一种资源调度方法、装置、电子设备及存储介质
CN116450312A (zh) 面向流水线并行训练的调度策略确定方法及系统
CN104572301A (zh) 一种资源分配方法和系统
CN113240430B (zh) 移动支付验证方法及装置
CN114237869A (zh) 基于强化学习的Ray双层调度方法、装置和电子设备
CN110705690A (zh) 基于生成模型和元学习优化方法的连续学习方法及系统
CN109743286A (zh) 一种基于图卷积神经网络的ip类型标记方法及设备
CN112148481B (zh) 一种执行仿真测试任务的方法、系统、设备及介质
CN113051054A (zh) 调度人工智能平台资源的方法、设备和计算机可读存储介质
CN112784905A (zh) 数据样本扩充的方法、装置和电子设备
US20160342899A1 (en) Collaborative filtering in directed graph
CN115543626A (zh) 采用异构计算资源负载均衡调度的电力缺陷图像仿真方法
CN111160562A (zh) 基于元学习优化方法的连续学习方法及装置
CN113395698B (zh) 资源调度方法、装置及计算机可读存储介质
CN112596879A (zh) 用于量子云计算平台任务调度的方法
CN112463340A (zh) 基于tensorflow的多任务弹性调度方法及系统
CN116483546A (zh) 分布式训练任务调度方法、装置、设备及存储介质
US20200074340A1 (en) Systems and methods for accelerating model training in machine learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20210914

Assignee: Tianyiyun Technology Co.,Ltd.

Assignor: CHINA TELECOM Corp.,Ltd.

Contract record no.: X2024110000020

Denomination of invention: Resource scheduling methods, devices, and computer-readable storage media

Granted publication date: 20221129

License type: Common License

Record date: 20240315