CN113395698B

CN113395698B - 资源调度方法、装置及计算机可读存储介质

Info

Publication number: CN113395698B
Application number: CN202010174149.7A
Authority: CN
Inventors: 王浩彬; 朱志军; 饶少阳; 李晨
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2020-03-13
Filing date: 2020-03-13
Publication date: 2022-11-29
Anticipated expiration: 2040-03-13
Also published as: CN113395698A

Abstract

本公开提供了一种资源调度方法、装置及计算机可读存储介质，涉及通信技术领域。其中的资源调度方法包括：获取当前网络状态信息和用户的业务需求信息；利用样本网络状态信息和用户的业务需求信息，对资源选择神经网络进行训练；将当前网络状态信息输入训练后的资源选择神经网络，获得网络切片资源信息；从网络资源池中，将与网络切片资源信息对应的网络切片资源调度至用户。本公开能够根据实际应用场景自动为用户调度满足用户需求的网络切片资源，提高了调度网络切片资源的灵活性和用户业务需求的满足率。

Description

资源调度方法、装置及计算机可读存储介质

技术领域

本公开涉及通信技术领域，特别涉及一种资源调度方法、装置及计算机可读存储介质。

背景技术

第五代移动通信技术研究是目前通信行业重点关注领域。积极推进第五代移动通信技术和超宽带关键技术，启动5G商用是大势所趋。同第四代移动通信技术网络相比，网络切片功能是第五代移动通信技术网络最鲜明的特征和优点之一。

网络切片对网络数据实行类似于交通管理的分流管理，其本质是将现实存在的物理网络在逻辑层面上，划分为多个不同类型的虚拟网络，依照不同用户的服务需求，以诸如时延高低、带宽大小、可靠性强弱等指标来进行划分，从而应对复杂多变的应用场景。切片过程可以理解为根据应用需要分配合理的网络资源。

发明内容

本公开解决的一个技术问题是，如何提高调度网络切片资源的灵活性和用户业务需求的满足率。

根据本公开实施例的一个方面，提供了一种资源调度方法，包括：获取当前网络状态信息和用户的业务需求信息；利用样本网络状态信息和用户的业务需求信息，对资源选择神经网络进行训练；将当前网络状态信息输入训练后的资源选择神经网络，获得网络切片资源信息；从网络资源池中，将与网络切片资源信息对应的网络切片资源调度至用户。

在一些实施例中，利用样本网络状态信息和用户的业务需求信息，对资源选择神经网络进行训练包括：对资源选择神经网络进行复制，得到多个资源选择从神经网络；利用样本网络状态信息和用户的业务需求信息，同时对多个资源选择从神经网络进行训练，得到各个资源选择从神经网络的网络参数；根据各个资源选择从神经网络的网络参数，确定资源选择神经网络的网络参数。

在一些实施例中，采用如下方式对资源选择从神经网络进行训练：对资源选择从神经网络的网络参数进行随机初始化；将当前时刻的样本网络状态信息输入资源选择从神经网络，获得当前时刻的网络切片资源选择行为；根据当前时刻的样本网络状态信息及当前时刻的网络切片资源选择行为，确定下一时刻的样本网络状态信息；根据下一时刻的样本网络状态信息及用户的业务需求信息，确定当前时刻的网络切片资源选择行为的奖励值；根据多个时刻的网络切片资源选择行为的奖励值，对资源选择从神经网络的网络参数进行更新。

在一些实施例中，下一时刻的样本网络状态信息包括：下一时刻网络中各个设备为用户分配的带宽资源、各个设备间链路的时延、下一时刻的网络资源成本；业务需求信息包括：带宽需求指标、时延需求指标、成本需求指标；根据下一时刻的样本网络状态信息及用户的业务需求信息，确定当前时刻的网络切片资源选择行为的奖励值包括：根据带宽资源及带宽需求指标确定带宽满足率；根据时延及时延需求指标确定时延满足率；根据网络资源成本及成本需求指标确定成本满足率；根据带宽满足率、时延满足率以及成本满足率确定奖励值，奖励值分别与带宽满足率、时延满足率以及成本满足率呈正相关。

在一些实施例中，根据多个时刻的网络切片资源选择行为的奖励值，对资源选择从神经网络的网络参数进行更新包括：以

为步长对资源选择从神经网络的网络参数进行调整，其中，

n表示资源选择从神经网络的训练组标识，N表示资源选择从神经网络的训练组总数，t为训练时刻标识，T_n为训练时刻最大值，r_t表示t时刻的奖励值，

表示第n训练组在t+1时刻下的样本网络状态信息，

表示第n训练组在t时刻下的样本网络状态信息，π表示资源选择从神经网络的网络参数集合，

表示从起始时刻到t+1时刻奖励值的累计值，

表示从起始时刻到t时刻奖励值的累计值，

表示第n训练组在t时刻下的网络切片资源选择行为，

表示条件概率。

根据本公开实施例的另一个方面，提供了一种资源调度装置，包括：信息获取模块，被配置为获取当前网络状态信息和用户的业务需求信息；网络训练模块，被配置为利用样本网络状态信息和用户的业务需求信息，对资源选择神经网络进行训练；资源获取模块，被配置为将当前网络状态信息输入训练后的资源选择神经网络，获得网络切片资源信息；资源调度模块，被配置为从网络资源池中，将与网络切片资源信息对应的网络切片资源调度至用户。

在一些实施例中，网络训练模块被配置为：对资源选择神经网络进行复制，得到多个资源选择从神经网络；利用样本网络状态信息和用户的业务需求信息，同时对多个资源选择从神经网络进行训练，得到各个资源选择从神经网络的网络参数；根据各个资源选择从神经网络的网络参数，确定资源选择神经网络的网络参数。

在一些实施例中，网络训练模块被配置为采用如下方式对资源选择从神经网络进行训练：对资源选择从神经网络的网络参数进行随机初始化；将当前时刻的样本网络状态信息输入资源选择从神经网络，获得当前时刻的网络切片资源选择行为；根据当前时刻的样本网络状态信息及当前时刻的网络切片资源选择行为，确定下一时刻的样本网络状态信息；根据下一时刻的样本网络状态信息及用户的业务需求信息，确定当前时刻的网络切片资源选择行为的奖励值；根据多个时刻的网络切片资源选择行为的奖励值，对资源选择从神经网络的网络参数进行更新。

在一些实施例中，下一时刻的样本网络状态信息包括：下一时刻网络中各个设备为用户分配的带宽资源、各个设备间链路的时延、下一时刻的网络资源成本；业务需求信息包括：带宽需求指标、时延需求指标、成本需求指标；网络训练模块被配置为：根据带宽资源及带宽需求指标确定带宽满足率；根据时延及时延需求指标确定时延满足率；根据网络资源成本及成本需求指标确定成本满足率；根据带宽满足率、时延满足率以及成本满足率确定奖励值，奖励值分别与带宽满足率、时延满足率以及成本满足率呈正相关。

在一些实施例中，网络训练模块被配置为：以

为步长对资源选择从神经网络的网络参数进行调整，其中，

表示第n训练组在t+1时刻下的样本网络状态信息，

表示从起始时刻到t+1时刻奖励值的累计值，

表示从起始时刻到t时刻奖励值的累计值，

表示第n训练组在t时刻下的网络切片资源选择行为，

表示条件概率。

根据本公开实施例的又一个方面，提供了一种资源调度装置，包括：存储器；以及耦接至存储器的处理器，处理器被配置为基于存储在存储器中的指令，执行前述的资源调度方法。

根据本公开实施例的再一个方面，提供了一种计算机可读存储介质，其中，计算机可读存储介质存储有计算机指令，指令被处理器执行时实现前述的资源调度方法。

本公开能够根据实际应用场景自动为用户调度满足用户需求的网络切片资源，提高了调度网络切片资源的灵活性和用户业务需求的满足率。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出了本公开一些实施例的资源调度方法的流程示意图。

图2示出了本公开一些实施例的对资源选择神经网络进行训练的流程示意图。

图3示出了本公开一些实施例的资源调度装置的结构示意图。

图4示出了本公开另一些实施例的资源调度装置的结构示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本公开保护的范围。

首先结合图1描述本公开资源调度方法的一些实施例。

图1示出了本公开一些实施例的资源调度方法的流程示意图。如图1所示，本实施例包括步骤S101～步骤S104。

在步骤S101中，获取当前网络状态信息和用户的业务需求信息。

通过接收用户的网络切片业务申请，可以获得用户的业务数据信息，包括业务名、业务类型等等。根据业务数据信息，可以通过机器学习等多种算法识别出用户的业务需求信息，具体包括带宽(例如200M)、时延(例如8毫秒)等等。另一方面，网络状态可以包括网络中各个设备为用户分配的带宽资源(例如A设备为用户分配的带宽资源为800M)、各个设备间链路的时延(例如A设备与B设备之间的链路的时延为4毫秒)、网络资源成本等等。

在步骤S102中，利用样本网络状态信息和用户的业务需求信息，对资源选择神经网络进行训练。

训练过程中，首先需要整体训练策略，如训练次数、训练参数等等。同时，调用真实的现网网络或模拟的仿真网络模型，用于观察或模拟资源选择神经网络输出的a_t(当前时刻的网络切片资源选择行为)对s_t(当前时刻的样本网络状态信息)的影响以及奖励值r_t(当前时刻的网络切片资源选择行为的奖励值)，奖励值函数可以根据业务需求自主设定，初始的样本网络状态信息原始网络状态。

另一方面，可以设立独立的网络架构来对神经网络输出的a_t进行行为评估，从而评价网络状态。同时，设立选择行为缓存区，每个缓存的数据集合为{s_t,a_t,r_t,s_t+1}，缓存数据的集合数多少可以根据业务需求进行确定。当行为发生次数大于缓冲区大小时，由新发生数据组替代最原始的数据组。利用缓存的数据集合对资源选择神经网络进行训练时，可以采用梯度策略算法，从而调整资源选择神经网络的参数。

在步骤S103中，将当前网络状态信息输入训练后的资源选择神经网络，获得网络切片资源信息。

假设当前网络状态信息为s_t'，资源选择神经网络的输出为a_t'，则可以根据s_t'及a_t'获得s_t+1'，即为网络切片资源信息。

在步骤S104中，从网络资源池中，将与网络切片资源信息对应的网络切片资源调度至用户。

例如，可以调度网络资源池以网络切片资源实例的形式下发至用户。

本实施例应用在网络切片资源的选择和调度场景，能够根据实际应用场景自动为用户调度满足用户需求的网络切片资源，提高了调度网络切片资源的灵活性和用户业务需求的满足率。

下面结合图2描述对资源选择神经网络进行训练的一些实施例。

图2示出了本公开一些实施例的对资源选择神经网络进行训练的流程示意图。如图2所示，本实施例包括步骤S2021～步骤S2023。

在步骤S2021中，对资源选择神经网络进行复制，得到多个资源选择从神经网络。

本领域技术人员应理解，复制资源选择神经网络的网路参数到资源选择从神经网络后，从神经网络的网络架构及网络参数与主神经网络的网络架构及网络参数一致。

在步骤S2022中，利用样本网络状态信息和用户的业务需求信息，同时对多个资源选择从神经网络进行训练，得到各个资源选择从神经网络的网络参数。

在一些实施例中，采用如下方式对资源选择从神经网络进行训练：

(1)对资源选择从神经网络的网络参数进行随机初始化，得到资源选择从神经网络的网络参数集合π。

(2)将当前时刻的样本网络状态信息s_t输入资源选择从神经网络，获得当前时刻的网络切片资源选择行为a_t。

对于相同的s_t而言，每一次输入资源选择子神经网得到的输出a_t可能有不同的情况。因此，可以进行N组实验，每组实验中根据概率随机生成各个时刻下的a_t。

(3)根据当前时刻的样本网络状态信息s_t及当前时刻的网络切片资源选择行为a_t，确定下一时刻的样本网络状态信息s_t+1。

(4)根据下一时刻的样本网络状态信息及用户的业务需求信息，确定当前时刻的网络切片资源选择行为的奖励值r_t。

在一些实施例中，下一时刻的样本网络状态信息可以包括：下一时刻网络中各个设备为用户分配的带宽资源、各个设备间链路的时延、下一时刻的网络资源成本。业务需求信息可以包括：带宽需求指标、时延需求指标、成本需求指标。

在一些实施例中，可以根据带宽资源及带宽需求指标确定带宽满足率a；根据时延及时延需求指标确定时延满足率b；根据网络资源成本及成本需求指标确定成本满足率c；根据带宽满足率a、时延满足率b以及成本满足率c确定奖励值，奖励值分别与带宽满足率、时延满足率以及成本满足率呈正相关。

例如，可以将奖励值的计算方法设置为r＝a*b*c。当带宽、时延、成本均满足需求时，r＝1；当带宽、时延、成本有一项完全不满足需求时，r＝0。

(5)根据多个时刻的网络切片资源选择行为的奖励值，对资源选择从神经网络的网络参数进行更新。

在一些实施例中，以

为步长对资源选择从神经网络的网络参数进行调整，其中，

表示第n训练组在t+1时刻下的样本网络状态信息，

表示从起始时刻到t+1时刻奖励值的累计值，

表示从起始时刻到t时刻奖励值的累计值，

表示第n训练组在t时刻下的网络切片资源选择行为，

表示条件概率。

例如，可以利用行为评估神经网络，对s_t与s_t+1进行评价，得到r_t、

和

以后每组重复Tn次后优化V^π(s)函数(Tn可以根据业务需要进行设定)。从神经网络执行上述过程(1)～(5)，得到各个从神经网络的

然后将

赋值给π即可实现对资源选择从神经网络的网络参数进行训练，η为根据业务需要设置的超参数。

在步骤S2023中，根据各个资源选择从神经网络的网络参数，确定资源选择神经网络的网络参数。

例如，可以对各个资源选择从神经网络的网络参取平均，得到资源选择神经网络的网络参数。由于各个从神经网络分别进行了N组实验，各个从神经网络的网络参数是根据N组实验得出的结果进行调整。因此，资源选择神经网络的网络参数相当于在3N组实验的基础上进行调整。

本实施例引入异步学习策略，能够加快资源选择神经网络的学习效率，从而提高了资源选择神经网络的训练速度和训练效率。

下面结合图3描述本公开资源调度装置的一些实施例。

图3示出了本公开一些实施例的资源调度装置的结构示意图。如图3所示，本实施例中的资源调度装置30包括：信息获取模块301，被配置为获取当前网络状态信息和用户的业务需求信息；网络训练模块302，被配置为利用样本网络状态信息和用户的业务需求信息，对资源选择神经网络进行训练；资源获取模块303，被配置为将当前网络状态信息输入训练后的资源选择神经网络，获得网络切片资源信息；资源调度模块304，被配置为从网络资源池中，将与网络切片资源信息对应的网络切片资源调度至用户。

在一些实施例中，网络训练模块302被配置为：对资源选择神经网络进行复制，得到多个资源选择从神经网络；利用样本网络状态信息和用户的业务需求信息，同时对多个资源选择从神经网络进行训练，得到各个资源选择从神经网络的网络参数；根据各个资源选择从神经网络的网络参数，确定资源选择神经网络的网络参数。

在一些实施例中，网络训练模块302被配置为采用如下方式对资源选择从神经网络进行训练：对资源选择从神经网络的网络参数进行随机初始化；将当前时刻的样本网络状态信息输入资源选择从神经网络，获得当前时刻的网络切片资源选择行为；根据当前时刻的样本网络状态信息及当前时刻的网络切片资源选择行为，确定下一时刻的样本网络状态信息；根据下一时刻的样本网络状态信息及用户的业务需求信息，确定当前时刻的网络切片资源选择行为的奖励值；根据多个时刻的网络切片资源选择行为的奖励值，对资源选择从神经网络的网络参数进行更新。

在一些实施例中，下一时刻的样本网络状态信息包括：下一时刻网络中各个设备为用户分配的带宽资源、各个设备间链路的时延、下一时刻的网络资源成本；业务需求信息包括：带宽需求指标、时延需求指标、成本需求指标；网络训练模块302被配置为：根据带宽资源及带宽需求指标确定带宽满足率；根据时延及时延需求指标确定时延满足率；根据网络资源成本及成本需求指标确定成本满足率；根据带宽满足率、时延满足率以及成本满足率确定奖励值，奖励值分别与带宽满足率、时延满足率以及成本满足率呈正相关。

在一些实施例中，网络训练模块302被配置为：以

为步长对资源选择从神经网络的网络参数进行调整，其中，

表示第n训练组在t+1时刻下的样本网络状态信息，

表示从起始时刻到t+1时刻奖励值的累计值，

表示从起始时刻到t时刻奖励值的累计值，

表示第n训练组在t时刻下的网络切片资源选择行为，

表示条件概率。

下面结合图4描述本公开资源调度装置的另一些实施例。

图4示出了本公开另一些实施例的资源调度装置的结构示意图。如图4所示，该实施例的资源调度装置40包括：存储器410以及耦接至该存储器410的处理器420，处理器420被配置为基于存储在存储器410中的指令，执行前述任意一些实施例中的资源调度方法。

其中，存储器410例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。

资源调度装置40还可以包括输入输出接口430、网络接口440、存储接口450等。这些接口430、440、450以及存储器410和处理器420之间例如可以通过总线460连接。其中，输入输出接口430为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口440为各种联网设备提供连接接口。存储接口450为SD卡、U盘等外置存储设备提供连接接口。

本公开还包括一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现前述任意一些实施例中的资源调度方法。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本公开的较佳实施例，并不用以限制本公开，凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种资源调度方法，包括：

获取当前网络状态信息和用户的业务需求信息；

利用样本网络状态信息和用户的业务需求信息，对资源选择神经网络进行训练，包括

对资源选择神经网络进行复制，得到多个资源选择从神经网络；

利用样本网络状态信息和用户的业务需求信息，同时对多个资源选择从神经网络进行训练，得到各个资源选择从神经网络的网络参数；

根据各个资源选择从神经网络的网络参数，确定资源选择神经网络的网络参数；

将当前网络状态信息输入训练后的资源选择神经网络，获得网络切片资源信息；

从网络资源池中，将与网络切片资源信息对应的网络切片资源调度至用户。

2.根据权利要求1所述的资源调度方法，其中，采用如下方式对资源选择从神经网络进行训练：

对资源选择从神经网络的网络参数进行随机初始化；

将当前时刻的样本网络状态信息输入资源选择从神经网络，获得当前时刻的网络切片资源选择行为；

根据当前时刻的样本网络状态信息及当前时刻的网络切片资源选择行为，确定下一时刻的样本网络状态信息；

根据下一时刻的样本网络状态信息及用户的业务需求信息，确定当前时刻的网络切片资源选择行为的奖励值；

根据多个时刻的网络切片资源选择行为的奖励值，对资源选择从神经网络的网络参数进行更新。

3.根据权利要求2所述的资源调度方法，其中，

所述下一时刻的样本网络状态信息包括：下一时刻网络中各个设备为用户分配的带宽资源、各个设备间链路的时延、下一时刻的网络资源成本；

所述业务需求信息包括：带宽需求指标、时延需求指标、成本需求指标；

所述根据下一时刻的样本网络状态信息及用户的业务需求信息，确定当前时刻的网络切片资源选择行为的奖励值包括：根据所述带宽资源及带宽需求指标确定带宽满足率；根据所述时延及时延需求指标确定时延满足率；根据所述网络资源成本及成本需求指标确定成本满足率；根据带宽满足率、时延满足率以及成本满足率确定所述奖励值，所述奖励值分别与所述带宽满足率、所述时延满足率以及所述成本满足率呈正相关。

4.根据权利要求2所述的资源调度方法，其中，所述根据多个时刻的网络切片资源选择行为的奖励值，对资源选择从神经网络的网络参数进行更新包括：

以