CN113015219A

CN113015219A - 基于策略梯度的网络资源选择方法、装置以及存储介质

Info

Publication number: CN113015219A
Application number: CN201911315915.0A
Authority: CN
Inventors: 王浩彬; 李晨; 黄芬芬
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2019-12-19
Filing date: 2019-12-19
Publication date: 2021-06-22
Anticipated expiration: 2039-12-19
Also published as: CN113015219B

Abstract

本公开提供了一种基于策略梯度的网络资源选择方法、装置以及存储介质，其中的方法包括：接收业务申请以及与业务申请相对应的业务需求；基于当前的网络模拟环境获取与业务需求相对应的业务特征以及网络状态；根据策略梯度算法以及业务特征和网络状态，更新网络资源选择网络模型的模型参数，用以确定最新的模型参数；根据网络资源选择网络模型获取与业务申请以及业务需求相对应的资源信息。本公开的方法、装置以及存储介质，能够根据业务需求、网络状态等自动生成网络资源选择方案，进行端到端输出，网络资源配置灵活度高，能够按需进行分配，节约了网络资源，可以快速实现业务的部署，满足业务需求，提高使用感受度。

Description

基于策略梯度的网络资源选择方法、装置以及存储介质

技术领域

本发明涉及通信技术领域，尤其涉及一种基于策略梯度的网络资源选择方法、装置以及存储介质。

背景技术

第五代移动通信技术研究是目前通信行业重点关注领域，5G网络具有多种业务。例如，同4G网络相比，网络切片是5G网络鲜明的特征和优点之一。5G网络切片，是指对网络数据实行类似于交通管理的分流管理，其本质是将现实存在的物理网络在逻辑层面上，划分为多个不同类型的虚拟网络，依照不同用户的服务需求，以诸如时延高低、带宽大小、可靠性强弱等指标来进行划分，从而应对复杂多变的应用场景。对于网络切片过程需要根据应用需要，分配合理的网络资源。目前，现有技术中还没有能够自动分配网络资源的技术方案。

发明内容

有鉴于此，本发明要解决的一个技术问题是提供一种基于策略梯度的网络资源选择方法、装置以及存储介质。

根据本公开的一个方面，提供一种基于策略梯度的网络资源选择方法，包括：接收业务申请以及与所述业务申请相对应的业务需求；其中，所述业务需求包括：带宽、时延、价格指标；基于当前的网络模拟环境获取与所述业务需求相对应的业务特征以及网络状态；根据策略梯度算法以及所述业务特征和所述网络状态，更新网络资源选择网络模型的模型参数，用以确定最新的所述模型参数；根据所述网络资源选择网络模型获取与所述业务申请以及所述业务需求相对应的资源信息。

可选地，所述根据策略梯度算法以及所述业务特征和所述网络状态，更新网络资源选择网络模型的模型参数，用以确定最新的所述模型参数包括：确定基于所述网络资源选择网络模型的模型参数θ的选择行为方案π_θ；根据所述业务特征和所述网络状态并基于所述π_θ生成至少一组训练数据；根据策略梯度算法设置与所述模型参数θ相对应的参数更新策略；基于所述参数更新策略以及所述训练数据更新所述模型参数θ；输出进行更新处理后的所述网络资源选择网络模型。

可选地，所述根据所述业务特征和所述网络状态并基于所述π_θ生成至少一组训练数据包括：根据所述网络状态和所述业务特征确定第t个采集时刻的状态

基于所述网络资源选择网络模型获取与所述

相对应的行为

在当前的网络模拟环境执行的

的调整，获取状态

和奖励值

其中，对于1至T-1个采集时刻，获得一组训练数据

可选地，所述参数更新策略为：

其中，R()为奖励函数，τⁿ为第n组训练数据，N为训练数据的组数，T_n为每组训练数据中的采集时刻数量。

可选地，所述

为调整带宽和时延的行为；所述奖励值为：

其中，所述I用于表征带宽、时延的满足程度。

可选地，设置缓存区；将所述训练数据存储在缓存区中；在确定最新的所述模型参数θ后，对所述缓存区进行清空处理。

可选地，设置更新所述模型参数θ的更新次数，基于所述更新次数对所述模型参数θ进行更新处理，用以确定最新的所述模型参数θ。

可选地，基于所述网络资源选择网络模型获取所述资源信息，生成业务调度信息并下发客户；其中，所述业务申请包括：网络切片业务申请。

根据本公开的一个方面，提供一种基于策略梯度的网络资源选择装置，包括：业务请求模块，用于接收业务申请以及与所述业务申请相对应的业务需求；其中，所述业务需求包括：带宽、时延、价格指标；识别模块，用于基于当前的网络模拟环境获取与所述业务需求相对应的业务特征以及网络状态；更新模块，用于根据策略梯度算法以及所述业务特征和所述网络状态，更新网络资源选择网络模型的模型参数，用以确定最新的所述模型参数；计算模块，用于根据所述网络资源选择网络模型获取与所述业务申请以及所述业务需求相对应的资源信息。

可选地，所述更新模块，包括：网元选择模块，用于确定基于所述网络资源选择网络模型的模型参数θ的选择行为方案π_θ；通信网络模型模块，用于根据所述业务特征和所述网络状态并基于所述π_θ生成至少一组训练数据；学习模块，用于根据策略梯度算法设置与所述模型参数θ相对应的参数更新策略；基于所述参数更新策略以及所述训练数据更新所述模型参数θ；输出模块，用于输出进行更新处理后的所述网络资源选择网络模型。

可选地，所述通信网络模型模块，用于根据所述网络状态和所述业务特征确定第t个采集时刻的状态

所述网元选择模块，用于基于所述网络资源选择网络模型获取与所述

相对应的行为

所述通信网络模型模块，用于在当前的网络模拟环境执行的

的调整，获取状态

和奖励值

对于1至T-1个采集时刻，获得一组训练数据

可选地，所述参数更新策略为：

可选地，所述

为调整带宽和时延的行为；所述奖励值为：

其中，所述I用于表征带宽、时延的满足程度。

可选地，所述更新模块，包括：行为存储模块，用于设置缓存区；将所述训练数据存储在缓存区中；在确定最新的所述模型参数θ后，对所述缓存区进行清空处理。

可选地，所述更新模块，包括：总控模块，用于设置更新所述模型参数θ的更新次数；所述学习模块，用于所述更新次数对所述模型参数θ进行更新处理，用以确定最新的所述模型参数θ。

可选地，调度模块，用于基于所述网络资源选择网络模型获取所述资源信息，生成业务调度信息并下发客户；其中，所述业务申请包括：网络切片业务申请。

根据本公开的又一方面，提供一种基于策略梯度的网络资源选择装置，包括：存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如上所述的方法。

根据本公开的再一方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述指令被处理器执行如上所述的方法。

本公开的基于策略梯度的网络资源选择方法、装置以及存储介质，能够根据业务需求、网络状态等自动生成网络资源选择方案，进行端到端输出，网络资源配置灵活度高，能够按需进行分配，节约了网络资源，可以快速实现业务的部署，满足业务需求，提高使用感受度。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为根据本公开的基于策略梯度的网络资源选择方法的一个实施例的流程示意图；

图2为根据本公开的基于策略梯度的网络资源选择方法的一个实施例中的确定最新的模型参数的流程示意图；

图3为根据本公开的基于策略梯度的网络资源选择方法的一个实施例中的训练算法的示意图；

图4为根据本公开的基于策略梯度的网络资源选择装置的一个实施例的模块示意图；

图5为根据本公开的基于策略梯度的网络资源选择装置的一个实施例中的更新模块的模块示意图；

图6为根据本公开的基于策略梯度的网络资源选择装置的另一个实施例的模块示意图。

具体实施方式

下面参照附图对本公开进行更全面的描述，其中说明本公开的示例性实施例。下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

图1为根据本公开的基于策略梯度的网络资源选择方法的一个实施例的流程示意图，如图1所示：

步骤101，接收业务申请以及与业务申请相对应的业务需求；其中，业务需求包括：带宽、时延、价格指标等。业务申请可以为多种，例如为网络切片业务申请等。

步骤102，基于当前的网络模拟环境获取与业务需求相对应的业务特征以及网络状态。

业务特征可以为带宽、时延等特征，网络模拟环境可以为与实际网络环境相对应的模拟环境，从网络模拟环境中获取的业务特征以及网络状态，相当于在实际网络环境中的业务特征以及网络状态，网络状态为与网络切片相对应的网络状态等。

步骤103，根据策略梯度算法以及业务特征和网络状态，更新网络资源选择网络模型的模型参数，用以确定最新的模型参数。

网络资源选择网络模型可以为多种神经网络模型，策略梯度算法是一种广义的策略迭代方法,策略梯度算法包括策略评估与策略改进两个部分。基于策略梯度算法更新网络资源选择网络模型的模型参数，可以获得最优的网络资源选择网络，可以采用现有技术中的策略梯度算法。

步骤104，根据网络资源选择网络模型获取与业务申请以及业务需求相对应的资源信息。

资源可以为多种，包括部署业务的设备、链路等资源。基于网络资源选择网络模型获取资源信息，生成业务调度信息并下发客户。例如，可以根据网络资源选择网络模型，调度网络资源池用以实施网络切片实例并下发用户。

图2为根据本公开的基于策略梯度的网络资源选择方法的一个实施例中的确定最新的模型参数的流程示意图，如图2所示：

步骤201，确定基于网络资源选择网络模型的模型参数的选择行为方案，其中，模型参数为θ，选择行为方案为π_θ。

步骤202，根据业务特征和网络状态并基于选择行为方案生成至少一组训练数据。

步骤203，根据策略梯度算法设置与模型参数θ相对应的参数更新策略。

步骤204，基于参数更新策略以及训练数据更新模型参数。

步骤205，输出进行更新处理后的网络资源选择网络模型。

在一个实施例中，a_t为调整带宽和时延的综合行为，奖励值为：

其中，I用于表征带宽、时延的满足程度；当最低带宽、时延未满足时，I＝0，当带宽、时延全部满足最高要求时，I＝1。例如，接收到带宽、时延、价格等三项指标作为业务需求，可以直接调用现有网络的模拟环境，获取业务特征和网络状态，将调整带宽，时延(跳转路径或直连链路)的行为确定为a_t，价格用于通过计算表示为奖励值。

在一个实施例中，根据业务特征和网络状态并基于π_θ生成至少一组训练数据可以采用多种方法。例如，根据网络状态和业务特征确定第t个采集时刻的状态

基于网络资源选择网络模型获取与

相对应的行为

可以为对于带宽、时延等的综合行为。

在当前的网络模拟环境执行

的调整，获取状态

和奖励值

其中，对于1至T-1个采集时刻，获得一组训练数据

对一组训练数据可以设置T-1个采集时刻，对于第1时刻到第T-1时刻分别进行上述的数据获取处理，得到

及获取一组训练数据。

参数更新策略可以为多种，例如，参数更新策略为：

其中，R()为奖励函数，η为目标系数，τⁿ为第n组训练数据，N为训练数据的组数，T_n为每组训练数据中的采集时刻数量，P_θ()为预设的条件概率函数。

图3为根据本公开的基于策略梯度的网络资源选择方法的一个实施例中的训练算法的示意图，如图3所示：

步骤301，基于参数θ确定网络资源选择函数π_θ。

在一实施例中，随机初始化网络资源选择网络模型的神经网络参数θ，基于参数θ设置网络资源选择函数π_θ，即选择行为方案π_θ。

步骤302，基于π_θ生成n组实验数据

其中，实验数据为训练数据。

在一实施例中，基于π_θ生成k组实验数据τ^k，其中，第n组数据生成方式为：根据第t个采集时刻的网络状态

生成网络资源选择行为

在网络模拟环境中执行

的调整，网络状态变为

得到奖励值

T时刻为所有需要选择的资源全部选择完毕的时刻，得到实验数据

步骤303，基于公式

更新参数。

在一实施例中，提取N组数据，基于公式更新参数θ：

设置更新模型参数θ的更新次数，基于更新次数对模型参数θ进行更新处理，用以确定最新的模型参数θ。例如，更新次数为5，则返回步骤302，重复5次执行步骤302和303，执行5次更新参数θ后，输出参数θ。

设置缓存区，将训练数据存储在缓存区中。在确定最新的模型参数θ后，对缓存区进行清空处理。按行为发生顺序存储训练数据，当触发一次确定最新的模型参数θ之后，清空存储内容。

在一个实施例中，如图4所示，本公开提供一种基于策略梯度的网络资源选择装置，包括：业务请求模块41、识别模块42、更新模块43、计算模块44和调度模块45。业务请求模块41接收业务申请以及与业务申请相对应的业务需求；其中，业务需求包括：带宽、时延、价格指标等。

识别模块42基于当前的网络模拟环境获取与业务需求相对应的业务特征以及网络状态。更新模块43根据策略梯度算法以及业务特征和网络状态，更新网络资源选择网络模型的模型参数，用以确定最新的模型参数。更新模块43用于第一次使用或校准计算模块44，计算出最优网络资源选择网络模型。计算模块44根据网络资源选择网络模型获取与业务申请以及业务需求相对应的资源信息。调度模块45基于网络资源选择网络模型，获取资源信息，生成业务调度信息并下发客户；其中，业务申请包括：网络切片业务申请等。

在一个实施例中，如图5所示，更新模块43包括：总控模块431、神经网络构建模块432、通信网络模型模块433、网元选择模块434、行为存储模块435、学习模块436、输出模块437和模仿行为模块438。

网元选择模块434确定基于网络资源选择网络模型的模型参数θ的选择行为方案π_θ。通信网络模型模块433根据业务特征和网络状态并基于π_θ生成至少一组训练数据。学习模块436根据策略梯度算法设置与模型参数θ相对应的参数更新策略。学习模块436设定学习算法以及策略，基于参数更新策略以及训练数据更新模型参数θ。输出模块437输出进行更新处理后的网络资源选择网络模型。

通信网络模型模块433根据网络状态和业务特征确定第t个采集时刻的状态

网元选择模块434基于网络资源选择网络模型获取与

相对应的行为

通信网络模型模块433在当前的网络模拟环境执行的

的调整，获取状态

和奖励值

对于1至T-1个采集时刻，获得一组训练数据

通信网络模型模块通过真实网络或仿真模型，观察或模拟a_t对网络的影响状态s_t(实际状态)以及奖励值r_t+1(影响是好是坏)，奖励值函数可根据业务需求自主设定。网络状态s₁为识别模块输出的原始网络状态和业务需求。

存储模块435设置缓存区，将训练数据存储在缓存区中；在确定最新的模型参数θ后，对缓存区进行清空处理。行为储存模块435按行为发生顺序存储{s₁,a₁,r₂,…,s_T-1,a_T-1,r_T}，当触发一次学习模块后清空存储内容。模仿行为模块438为非必需模块，存储多组之前的以训练数据{s₁,a₁,r₂,…,s_T-1,a_T-1,r_T}。

神经网络模型构建模型432设置与网络资源选择网络模型具有相同结构的网络模型。神经网络训练模块432设计网元选择模块434中网络模型的结构(输出模块437、网元选择模块434处理的神经网络网络模型的架构都相同)。总控模块431设置更新模型参数θ的更新次数，学习模块436基于更新次数对模型参数θ进行更新处理，用以确定最新的模型参数θ。总控模块管控训练核心部分以及输出模块，设定整体训练策略，如更新次数、训练参数等。输出模块437输出训练完成之后的网络资源选择模块到计算模块44。

图6为根据本公开的基于策略梯度的网络资源选择装置的另一个实施例的模块示意图。如图6所示，该装置可包括存储器61、处理器62、通信接口63以及总线64。存储器61用于存储指令，处理器62耦合到存储器61，处理器62被配置为基于存储器61存储的指令执行实现上述的基于策略梯度的网络资源选择方法。

存储器61可以为高速RAM存储器、非易失性存储器(non-volatile memory)等，存储器61也可以是存储器阵列。存储器61还可能被分块，并且块可按一定的规则组合成虚拟卷。处理器62可以为中央处理器CPU，或专用集成电路ASIC(Application SpecificIntegrated Circuit)，或者是被配置成实施本公开的基于策略梯度的网络资源选择方法的一个或多个集成电路。

在一个实施例中，本公开提供一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，指令被处理器执行如上任一实施例中的方法。

上述实施例中提供的基于策略梯度的网络资源选择方法、装置以及存储介质，能够根据业务需求、网络状态等自动生成网络资源选择方案，进行端到端输出，网络资源配置灵活度高，能够按需进行分配，节约了网络资源，可以快速实现业务的部署，满足业务需求，提高使用感受度。

可能以许多方式来实现本公开的方法和系统。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和系统。用于方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

本公开的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用，并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种基于策略梯度的网络资源选择方法，包括：

接收业务申请以及与业务申请相对应的业务需求；其中，所述业务需求包括：带宽、时延、价格指标；

基于当前的网络模拟环境获取与所述业务需求相对应的业务特征以及网络状态；

根据策略梯度算法以及所述业务特征和所述网络状态，更新网络资源选择网络模型的模型参数，用以确定最新的所述模型参数；

根据所述网络资源选择网络模型获取与所述业务申请以及所述业务需求相对应的资源信息。

2.如权利要求1所述的方法，所述根据策略梯度算法以及所述业务特征和所述网络状态，更新网络资源选择网络模型的模型参数，用以确定最新的所述模型参数包括：

确定基于所述网络资源选择网络模型的模型参数θ的选择行为方案π_θ；

根据所述业务特征和所述网络状态并基于所述π_θ生成至少一组训练数据；

根据策略梯度算法设置与所述模型参数θ相对应的参数更新策略；

基于所述参数更新策略以及所述训练数据更新所述模型参数θ；

输出进行更新处理后的所述网络资源选择网络模型。

3.如权利要求2所述的方法，所述根据所述业务特征和所述网络状态并基于所述π_θ生成至少一组训练数据包括：

根据所述网络状态和所述业务特征确定第t个采集时刻的状态

基于所述网络资源选择网络模型获取与所述

相对应的行为

在当前的网络模拟环境执行的

的调整，获取状态

和奖励值

其中，对于1至T-1个采集时刻，获得一组训练数据

4.如权利要求3所述的方法，其中，

所述参数更新策略为：

其中，R()为奖励函数，η为目标系数，τⁿ为第n组训练数据，N为训练数据的组数，T_n为每组训练数据中的采集时刻数量。

5.如权利要求4所述的方法，其中，

所述

为调整带宽和时延的行为；所述奖励值为：

其中，所述I用于表征带宽、时延的满足程度。

6.如权利要求3所述的方法，还包括：

设置缓存区；

将所述训练数据存储在缓存区中；

在确定最新的所述模型参数θ后，对所述缓存区进行清空处理。

7.如权利要求6所述的方法，还包括：

设置更新所述模型参数θ的更新次数，基于所述更新次数对所述模型参数θ进行更新处理，用以确定最新的所述模型参数θ。

8.如权利要求1所述的方法，还包括：

基于所述网络资源选择网络模型获取所述资源信息，生成业务调度信息并下发客户；

其中，所述业务申请包括：网络切片业务申请。

9.一种基于策略梯度的网络资源选择装置，包括：

业务请求模块，用于接收业务申请以及与所述业务申请相对应的业务需求；其中，所述业务需求包括：带宽、时延、价格指标；

识别模块，用于基于当前的网络模拟环境获取与所述业务需求相对应的业务特征以及网络状态；

更新模块，用于根据策略梯度算法以及所述业务特征和所述网络状态，更新网络资源选择网络模型的模型参数，用以确定最新的所述模型参数；

计算模块，用于根据所述网络资源选择网络模型获取与所述业务申请以及所述业务需求相对应的资源信息。

10.如权利要求9所述的装置，其中，

所述更新模块，包括：

网元选择模块，用于确定基于所述网络资源选择网络模型的模型参数θ的选择行为方案π_θ；

通信网络模型模块，用于根据所述业务特征和所述网络状态并基于所述π_θ生成至少一组训练数据；

学习模块，用于根据策略梯度算法设置与所述模型参数θ相对应的参数更新策略；基于所述参数更新策略以及所述训练数据更新所述模型参数θ；

输出模块，用于输出进行更新处理后的所述网络资源选择网络模型。

11.如权利要求10所述的装置，其中，

所述通信网络模型模块，用于根据所述网络状态和所述业务特征确定第t个采集时刻的状态

相对应的行为

所述通信网络模型模块，用于在当前的网络模拟环境执行的

的调整，获取状态

和奖励值

对于1至T-1个采集时刻，获得一组训练数据

12.如权利要求11所述的装置，其中，

所述参数更新策略为：

13.如权利要求12所述的装置，其中，

所述

为调整带宽和时延的行为；所述奖励值为：

其中，所述I用于表征带宽、时延的满足程度。

14.如权利要求13所述的装置，其中，

所述更新模块，包括：

行为存储模块，用于设置缓存区；将所述训练数据存储在缓存区中；在确定最新的所述模型参数θ后，对所述缓存区进行清空处理。

15.如权利要求14所述的装置，其中，

所述更新模块，包括：

总控模块，用于设置更新所述模型参数θ的更新次数；

所述学习模块，用于基于所述更新次数对所述模型参数θ进行更新处理，用以确定最新的所述模型参数θ。

16.如权利要求9至15任一项所述的装置，还包括：

调度模块，用于基于所述网络资源选择网络模型获取所述资源信息，生成业务调度信息并下发客户；

其中，所述业务申请包括：网络切片业务申请。

17.一种基于策略梯度的网络资源选择装置，包括：

存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如权利要求1至8中任一项所述的方法。

18.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述指令被处理器执行如权利要求1至8中任一项所述的方法。