CN114374608B

CN114374608B - 切片实例备份任务调度方法、装置和电子设备

Info

Publication number: CN114374608B
Application number: CN202011104546.3A
Authority: CN
Inventors: 何宇; 邢彪; 陈维新; 程佳鸣
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Zhejiang Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Zhejiang Co Ltd
Priority date: 2020-10-15
Filing date: 2020-10-15
Publication date: 2023-08-15
Anticipated expiration: 2040-10-15
Also published as: CN114374608A

Abstract

本发明实施例涉及通信技术领域，公开了一种切片实例备份任务调度方法、装置和设备。方法包括：获取最近T时间段的切片实例备份拓扑数据；将所述最近T时间段的切片实例备份拓扑数据输入切片实例备份任务调度模型，得到与所述T时间段的切片实例对应的备份时间窗口调度动作；将所述与所述T时间段的切片实例对应的备份时间窗口调度动作下发并实施。本发明实施例调度效率高且较为精确。

Description

切片实例备份任务调度方法、装置和电子设备

技术领域

本发明实施例涉及通信技术领域，具体涉及一种切片实例备份任务调度方法、装置、电子设备和计算机可读存储介质。

背景技术

网络切片(Network Slice)是端到端的逻辑功能和其所需的物理或虚拟资源集合，包括接入网、传输网、核心网等。网络切片可认为是5G网络中的虚拟化“专网”。网络切片基于网络功能虚拟化(Network Functions Virtualization，NFV)的统一基础设施构建，实现低成本高效运营。网络切片技术可以实现通信网络的逻辑隔离，允许在每个网络切片中配置和重用网络元件及功能以满足特定的行业应用需求。

切片管理架构主要由通信服务管理功能(Communication Service ManagementFunction，CSMF)、切片管理功能(Network Slice Management Function，NSMF)、子切片管理功能(Network Slice Subnet Management Function，NSSMF)组成。一个网络切片所构成的逻辑网络是通过该网络切片实例(Network Slice Instance，NSI)来实现，网络切片实例是一个真实运行的逻辑网络，能满足一定网络特性或服务需求，通过实例化网络切片的各个网络功能和对应的资源来构成一个网络切片。其中：

CSMF：完成用户业务通信服务的需求订购和处理，负责将运营商/第三方客户的通信服务需求转化为对网络切片的需求，并通过和NSMF之间的接口向NSMF发送对网络切片的需求，如创建、终结、修改网络切片实例请求等。

NSMF：负责接收CSMF发送的网络切片需求，对网络切片实例的生命周期、性能、故障等进行管理，编排网络切片实例的组成，分解网络切片实例的需求为各网络切片子网实例或网络功能的需求，向各NSSMF发送网络切片子网实例管理请求。

NSSMF：接收从NSMF下发的网络切片子网部署需求，对网络切片子网实例进行管理，编排网络切片子网实例的组成，将网络切片子网的SLA需求映射为网络服务的QoS(Quality of Service，服务质量)需求，向欧洲电信标准化协会(EuropeanTelecommunications Standards Institute，ETSI)NFV域的NFVO系统下发网络服务的部署请求。

切片备份过程会大量消耗设备性能、影响业务使用体验。目前5G切片备份任务执行窗口预测主要依赖于专家经验，人工判断是否为切片使用低谷来确定备份窗口。由于切片网络结构复杂、节点繁多、节点间关系多样，预测难度较大。

因此，现有技术的方案效率较低，且难以评估各切片实例在执行备份任务时的互相影响情况，人工预测备份窗口不够精确，备份窗口的误判有可能导致切片用户业务使用受阻。

发明内容

鉴于上述问题，本发明实施例提供了一种切片实例备份任务调度方法、装置、电子设备和计算机可读存储介质，用于解决现有技术中切片实例备份任务调度效率较低、不够精确的问题。

根据本发明实施例的一个方面，提供了一种切片实例备份任务调度方法，所述方法包括：

获取最近T时间段的切片实例备份拓扑数据；

将所述最近T时间段的切片实例备份拓扑数据输入切片实例备份任务调度模型，得到与所述T时间段的切片实例对应的备份时间窗口调度动作；

将所述与所述T时间段的切片实例对应的备份时间窗口调度动作下发并实施。

在一种可选的方式中，所述切片实例备份任务调度模型通过如下方法训练得到：

获取历史的切片实例备份拓扑数据；

搭建基于深度确定性策略梯度的训练网络，所述训练网络包括执行器和评判器；

将所述历史的切片实例备份拓扑数据输入所述训练网络的执行器，得到与所述历史的切片实例对应的备份时间窗口调度动作；

将所述历史的切片实例备份拓扑数据以及所述备份时间窗口调度动作输入所述评判器，得到评价所述备份时间窗口调度动作选择的价值函数的Q值；

将所述Q值反馈给所述执行器，由所述执行器根据所述Q值确定对所述历史的切片实例影响最小的备份时间窗口；

根据所述对所述历史的切片实例影响最小的备份时间窗口调整所述训练网络的参数，得到训练完成的切片实例备份任务调度模型。

在一种可选的方式中，所述获取历史的切片实例备份拓扑数据之后，所述方法还包括：

根据所述历史的切片实例备份拓扑数据构建历史的切片实例备份拓扑图；

将所述历史的切片实例备份拓扑图转换为切片实例拓扑邻接矩阵A和切片实例拓扑特征矩阵X；

所述将所述历史的切片实例备份拓扑数据输入所述训练网络的执行器，包括：

将所述切片实例拓扑邻接矩阵A和所述切片实例拓扑特征矩阵X输入所述训练网络的执行器，作为切片实例备份状态。

在一种可选的方式中，所述切片实例拓扑邻接矩阵A包括所述历史的切片实例中各切片实例的连接关系，所述切片实例拓扑特征矩阵X包括所述历史的切片实例中各切片实例最近T时间段KPI运行状态特征、备份时间窗口所需大小、上次备份执行时间和上次备份执行结果。

在一种可选的方式中，所述历史的切片实例备份拓扑图为：以所述历史的切片实例作为图的节点、以所述历史的切片实例间网元功能共享关系作为图的边、以所述历史的切片实例的每个T时间段KPI运行状态和备份状态作为节点特征的切片实例备份拓扑图。

在一种可选的方式中，所述执行器和所述评判器均包括图神经网络；

其中，所述执行器的图神经网络包括动作目标网络和动作估计网络，所述评判器的图神经网络包括评价目标网络和评价估计网络；

所述根据所述对所述历史的切片实例影响最小的备份时间窗口调整所述训练网络的参数，包括：

训练所述动作估计网络和所述评价估计网络的参数；

每隔预设时间复制所述动作目标网络和所述评价目标网络的参数，作为所述动作估计网络和所述评价估计网络的参数。

在一种可选的方式中，所述将所述历史的切片实例备份拓扑数据输入所述训练网络的执行器之前，所述方法还包括：

初始化所述执行器和所述评判器；

在训练过程的第一学习过程时，为所述备份时间窗口调度动作选择初始化一个随机过程，得到初始的切片实例备份拓扑状态；

在训练过程的第二学习过程及后续学习过程时，选取并执行备份时间窗口调度动作,得到回报值和新的切片实例备份拓扑状态；

设置目标函数y_i为：

y_i＝r_i+γQ′(s_i+1，μ′(s_i+1|θ^μ′)|θ^Q′).

其中y_i代表目标网络，r_i代表在i学习过程的回报值，γ代表折扣因子，Q’代表所述评判器的评价目标网络，s_i+1代表在i+1学习过程的切片实例备份拓扑状态、μ’代表所述执行器的动作目标网络，θ^u′代表所述执行器的动作目标网络的目标权重、θ^Q′代表所述评判器的评价目标网络的目标权重；

通过最小化损失函数L，更新所述评判器；

通过确定性策略梯度更新所述执行器；

根据更新后的所述执行器，更新所述动作目标网络的参数，以及根据更新后的所述评判器，更新所述评价目标网络的参数。

根据本发明实施例的另一方面，提供了一种切片实例备份任务调度装置，所述装置包括：

获取模块，用于获取最近T时间段的切片实例备份拓扑数据；

计算模块，用于将所述最近T时间段的切片实例备份拓扑数据输入切片实例备份任务调度模型，得到与所述T时间段的切片实例对应的备份时间窗口调度动作；

实施模块，用于将所述与所述T时间段的切片实例对应的备份时间窗口调度动作下发并实施。获取模块，用于获取历史的切片实例备份拓扑数据；

根据本发明实施例的另一方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如上所述的方法的操作。

根据本发明实施例的另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令在电子设备上运行时，使得所述电子设备执行如上所述的方法的操作。

本发明实施例通过获取最近T时间段的切片实例备份拓扑数据，将所述最近T时间段的切片实例备份拓扑数据输入切片实例备份任务调度模型，得到与所述T时间段的切片实例对应的备份时间窗口调度动作，该备份时间窗口对各切片实例影响最小、满足各实例备份需求的备份时间窗口，从而实现切片实例备份时间窗口的最佳调度，相比人工预测的方式调度效率较高，且预测准确不易误判。

上述说明仅是本发明实施例技术方案的概述，为了能够更清楚了解本发明实施例的技术手段，而可依照说明书的内容予以实施，并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

附图仅用于示出实施方式，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种训练切片实例备份任务调度模型的方法的流程图；

图2示出了本发明实施例中切片实例备份拓扑图；

图3示出了本发明实施例中执行器和评判器的网络结构示意图；

图4示出了本发明实施例提供的切片实例备份任务调度模型训练过程的流程示意图；

图5示出了本发明实施例提供的切片实例备份任务调度方法的流程图；

图6示出了本发明实施例提供的训练切片实例备份任务调度模型的装置的结构示意图；

图7示出了本发明实施例提供的电子设备实施例的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。

图1示出了本发明实施例提供的一种训练切片实例备份任务调度模型的方法的流程图。本发明实施例中的训练数据来源于NSFM。如图1所示，该方法包括以下步骤：

步骤110：获取历史的切片实例备份拓扑数据；

本步骤从NSFM处获取切片实例备份拓扑数据。在一些实施例中，在获取历史数据之后，还需要对该数据做预处理。因此，步骤110之后，所述方法还包括：

步骤a1：根据所述历史的切片实例备份拓扑数据构建历史的切片实例备份拓扑图；

本实施例的所述历史的切片实例备份拓扑图为：以所述历史的切片实例作为图的节点、以所述历史的切片实例间网元功能共享关系作为图的边、以所述历史的切片实例的每个T时间段关键绩效指标(Key Performance Indicator，KPI)运行状态和备份状态作为节点特征的切片实例备份拓扑图，如图2所示。其中NF为网络功能(Network Function)。

切片实例备份拓扑图可表示为G＝(V，E)，V为切片实例节点的集合V＝{V₁,V₂,V₃,…,V_N}，E为切片实例间关系的集合。

步骤a2：将所述历史的切片实例备份拓扑图转换为切片实例拓扑邻接矩阵A和切片实例拓扑特征矩阵X；

本步骤将切片实例备份拓扑图转化为网络输入即切片实例拓扑邻接矩阵A和切片实例拓扑特征矩阵X，作为切片实例备份状态(s)：

1.邻接矩阵A包括所述历史的切片实例中各切片实例的连接关系，e_ij表示切片实例V_i和切片实例V_j之间的连接关系，切片实例之间有网元功能共享则e_ij＝1,否则e_ij＝0。形状为N*N(N为节点的个数)。

2)特征矩阵X包括所述历史的切片实例中各切片实例最近T时间段KPI运行状态特征、备份时间窗口所需大小、上次备份执行时间和上次备份执行结果等备份状态特征，其中运行状态特征具体包括网络并发量，或者称为每秒建立呼叫数量(Call Attempts PerSecond，CAPS)、请求时延、请求成功率、错误码个数、请求时延、吞吐率、丢包率、掉话率等。

切片实例备份窗口选择动作(a)：包含备份窗口开始时间t_start和备份窗口结束时间t_end，例如t_start＝5表示备份窗口开始时间为距当前时刻5小时。可表示为{(t_start ¹,t_end ¹)、(t_start ²,t_end ²)、…、(t_start ⁿ,t_end ⁿ)}

然后需要对数据集做标准化处理：(X-mean)/std，其中X为数据，mean为均值，std为方差。计算时对每个维度分别进行，将数据按属性(按列进行)减去其均值，并除以其方差。标准化后将提升模型的收敛速度、提升模型的精度。

最后将总数据集划分为训练数据和测试数据，例如取整个数据集的80％为训练数据，剩余20％为测试数据。用训练集进行训练，使得重建数据与原始数据越接近越好，用测试集来评价验证模型。

步骤120：搭建基于深度确定性策略梯度的训练网络，所述训练网络包括执行器和评判器；

本发明实施例将深度强化学习与图神经网络结合，搭建由执行器(actor)和评判器(critic)组成的深度确定性策略梯度(Deep Deterministic Policy Gradient，DDPG)模型。其中，所述执行器和所述评判器均包括图神经网络。所述执行器的图神经网络包括动作目标网络和动作估计网络，所述评判器的图神经网络包括评价目标网络和评价估计网络。

DDPG是基于Actor-Critic(演员-评判)架构的深度强化学习方法。在动作输出方面采用一个网络来拟合策略函数，直接输出动作，可以应对连续动作的输出及大的动作空间。DDPG结合了之前获得成功的DQN(Deep Q Network,深度Q网络)结构，提高了Actor-Critic的稳定性和收敛性。策略函数Actor基于概率选择行为，价值函数Critic基于Actor的评判行为的得分，Actor根据Critic的评分修改选择行为。

DPG(Deterministic Policy Gradient，确定性的行为策略)是指每一步的行为通过函数μ直接获得确定的值：

a_t＝μ(s_t|θ^μ)

其中，a_t为t时刻所选择的动作，s_t为t时刻环境的状态，θ^μ为权重值，该函数μ即最优行为策略，经过训练得到一个确定性的最优行为策略函数。确定性策略梯度公式如下：

DDPG是将深度学习神经网络融合进DPG的策略学习方法，即把价值函数和策略函数都用神经网络来做表达。相对于DPG的核心改进是：采用神经网络作为策略函数μ和Q函数的模拟，即策略网络和Q网络；然后使用深度学习的方法来训练上述神经网络。

在本实施例中，状态(state)s_t是第t个时段内的切片实例备份状态拓扑；行为(action)a_t是第t个时段对应的n个切片实例的备份时间窗口调度动作，属于连续动作空间(continuous actions)类型,模型选择的备份窗口调度动作通过NSMF执行后，切片实例备份拓扑状态由s_t转换为s_t+1；r(s_t,a_t)函数是神经网络在状态s_t下执行备份任务调度动作a_t后，返回的单步奖励值，具体的奖励函数将由各切片实例的关键绩效指标(KeyPerformance Indicator，KPI)运行状态s_t+1决定。

其中，步骤110和步骤120的执行顺序不限定，可以先执行步骤110，然后执行步骤120；或者先执行步骤120，然后执行步骤110。

步骤130：将所述历史的切片实例备份拓扑数据输入所述训练网络的执行器，得到与所述历史的切片实例对应的备份时间窗口调度动作；

在一些实施例中，将所述切片实例拓扑邻接矩阵A和所述切片实例拓扑特征矩阵X输入所述训练网络的执行器，作为切片实例备份状态。例如，可以是T时间段的切片实例拓扑邻接矩阵A和切片实例拓扑特征矩阵X到执行器，输出对应的n个切片实例的备份时间窗口调度动作。

在一些实施例中，将所述历史的切片实例备份拓扑数据输入所述训练网络的执行器之前，所述方法还包括：初始化所述执行器和所述评判器。

下面对执行器的具体结构进行说明。

如图3所示，为执行器和评判器的网络结构示意图。

执行器：包含动作目标网络(target_net)和动作估计网络(eval_net)两个结构相同的神经网络，仅是参数更新频率不同。

输入层输入T时间段内的切片实例拓扑邻接矩阵A和切片实例拓扑特征矩阵X。

隐藏层包含2个图卷积层，也称为图卷积神经网络(GCN，Graph ConvolutionalNetwork)，分别设置256、128个神经元，激活函数均为“relu”；在每一个图卷积层之后均引入一个dropout层，以有效避免过拟合(overfitting)，Dropout层是指以概率p舍弃神经元并让其它神经元以概率q＝1-p保留，本实施例中设置舍弃概率＝0.2，即随机忽略20％的神经元，使其失效。

图卷积神经网络的本质目的是用来提取拓扑图的空间特征，目标是要学习图G＝(V，E)上的信号或特征的一个映射，输入包括邻接矩阵A和特征矩阵X，模型会产生一个节点级别的输出或图级别的输出Z。

每一个图神经网络层可以写成如下的非线性函数：

H^(l+1)＝f(H^(l)，A)

其中H⁽⁰⁾＝X即为输入数据，H^(L)＝Z即为输出数据，L为神经网络的层数，选择不同的f()以及参数也决定了不同的模型。

其中W^(l)是第l个神经网络层的参数矩阵，σ()是非线性激活函数比如ReLU，A为邻接矩阵，D^^-1/2A^D^^-1/2是对邻接矩阵A的对称归一化，A^＝A+I，D^是A^的节点度对角矩阵。

输出层为全连接层(Dense)：设置n个神经元，激活函数为“tanh”，输出对应的n个切片实例的备份任务窗口调度动作。

步骤140：将所述历史的切片实例备份拓扑数据以及所述备份时间窗口调度动作输入所述评判器，得到评价所述备份时间窗口调度动作选择的价值函数的Q值；

在一些实施例中，步骤130将执行器中的T时间段内的切片实例拓扑邻接矩阵A和切片实例拓扑特征矩阵X以及所选择的n个切片实例的备份时间窗口调度动作输入至由图网络和全连接神经网络构成的评判器中，输出评价此次动作选择的Q(s,a)值。

下面对评判器的具体结构进行说明。

评判器：同样包含评价目标网络(target_net)和评价估计网络(eval_net)两个结构相同的神经网络，仅是参数更新频率不同。

评判器分别设置两个输入层，输入层1接收T时间段内切片实例备份拓扑邻接矩阵A和切片特征矩阵X，输入层2接收对应的n个切片实例的备份时间窗口调度动作。将输入层1经过1个图卷积层和1个全连接层，分别设置256、128个神经元，激活函数为“relu”。将输入层2经过1个全连接层，设置128个神经元，激活函数为“relu”。然后通过合并层(merge)来合并动作和状态。最后紧接一个全连接层(128个神经元、激活函数为“relu”)和一个输出层(1个神经元、激活函数为“tanh”)。最终输出此次备份任务调度动作的价值Q(s,a)。

步骤150：将所述Q值反馈给所述执行器，由所述执行器根据所述Q值确定对所述历史的切片实例影响最小的备份时间窗口；

本步骤将Q值反馈给执行器，由执行器根据Q值来选取能够对各切片实例影响最小、满足各实例备份需求的备份窗口。

步骤160：根据所述对所述历史的切片实例影响最小的备份时间窗口调整所述训练网络的参数，得到训练完成的切片实例备份任务调度模型。

在一些实施例中，步骤160进一步包括：

步骤b1：训练所述动作估计网络和所述评价估计网络的参数；

步骤b2：每隔预设时间复制所述动作目标网络和所述评价目标网络的参数，作为所述动作估计网络和所述评价估计网络的参数。

训练过程包括：

设置目标函数y_i为：

y_i＝r_i+γQ′(s_i+1，μ′(s_i+1|θ^μ′)|θ^Q′).

通过最小化损失函数L，更新所述评判器；

通过确定性策略梯度更新所述执行器；

下面对模型详细训练过程进行描述：

只需训练动作估计网络和评价估计网络的参数，而动作目标网络和评价目标网络的参数是由前面两个网络每隔一定的时间复制得到。使用经验回放(replay buffer)来保存所有阶段的(s,a,r,s')到一个回放存储器中。训练的数据从记忆库中随机提取，记忆库记录着每一个状态下的行动、奖励和下一个状态的结果(s,a,r,s')。记忆库的大小有限，当记录满了数据之后，下一个数据会覆盖记忆库中的第一个数据。训练数据(s,a,r,s')是actor在和环境做互动时产生的数据，s表示当时系统所面临的状态、a表示代理(agent)面临系统的状态时所做的行为、r表示agent做出了选择的行为之后从环境中获得的收益、s'表示agent做出了选择的行为后系统转移到的另外一个状态。训练过程为：

1)首先随机初始化critic网络Q(s,a|θ^Q)和actor网络μ(s|θ^μ)，初始化的权重分别为θ^Q和θ^μ。然后初始化目标网络Q’＝Q(s,a|θ^Q)和μ’＝μ(s|θ^μ)。初始化经验回放R。

回合＝1时：为动作选择初始化一个随机过程，得到初始切片实例备份拓扑状态s₁。

t＝1时，选取切片实例备份任务调度动作a_t，执行后得到回报r_t和新的切片实例备份拓扑状态s_t+1。将该阶段产生的(s_t,a_t,r_t,s_t+1)存入R。从R中随机抽取一批N个记录(s_i,a_i,r_i,s_i+1)。然后设置目标函数y_i为：

y_i＝r_i+γQ′(s_i+1，μ′(s_i+1|θ^μ′)|θ^Q′).

2)然后通过最小化以下损失函数L来更新critic网络：。

其中，N为样本数，y_i代表目标网络，a_i为i时刻所选择的动作，Q代表所述评判器的评价目标网络，s_i为i时刻环境的状态，θ^Q代表所述评判器的评价目标网络的目标权重。

Critic的评价估计网络的训练基于现实的Q值和估计的Q值的平方损失，估计的Q值根据当前的状态s和动作估计网络输出的动作a输入评价估计网络得到，而现实的Q值根据现实的奖励r，以及将下一时刻的状态s'和动作目标网络得到的动作a'输入到评价目标网络而得到的Q值的折现值相加得到。

3)随后更新actor网络：由于a是确定性策略，即a＝μ(s∣θ)，因此通过确定性策略梯度来更新actor网络。从critic得来的动作梯度▽_a(a_grad)乘以从actor得来的参数梯度▽_θμ(policy_grads)，使得actor朝着更有可能获取比较大的Q函数值的方向修改参数。actor的目的是尽量得到一个高Q值的action，因此actor的损失可以简单的理解为得到的反馈Q值越大损失越小，得到的反馈Q值越小损失越大。

其中▽_θμJ代表梯度，用动作网络的方法调整权重值，▽_a代表动作梯度，▽_θμ代表参数梯度。

4)最后更新目标网络：目标网络的权重通过慢慢跟踪学习过的网络来更新，以下分别为评价网络和动作网络的权重更新：

θ^Q′←τθ^Q+(1-τ)θ^Q′

θ^μ′←τθ^μ+(1-τ)θ^μ′

τ设置为非常接近1的数，这样目标网络的参数θ不会发生太大的变化。

本实施例的神经网络部分利用图卷积神经网络学习切片实例备份拓扑图，并利用深度确定性策略梯度DDPG在连续动作空间上的优势来选取能够对各切片实例影响最小、满足各实例备份需求的备份窗口，从而实现切片实例备份任务窗口的最佳调度。

本实施例将深度强化学习与图网络结合，构建以切片实例作为图的节点、切片实例间网元功能共享关系作为图的边、以切片实例的每个T时间段运行状态和备份状态作为节点特征的切片实例备份拓扑图，搭建由执行器和评判器组成的DDPG模型，利用图卷积神经网络学习切片实例备份拓扑图，并利用深度确定性策略梯度DDPG在连续动作空间上的优势来选取能够对各切片实例影响最小、满足各实例备份需求的备份窗口，从而实现切片实例备份任务窗口的最佳调度。模型训练过程的流程示意图参见图4。

本发明实施例通过搭建基于深度确定性策略梯度的训练网络，通过所述训练网络学习切片实例备份拓扑数据，并利用深度确定性策略梯度在连续动作空间上的优势来选取能够对各切片实例影响最小、满足各实例备份需求的备份时间窗口，从而实现切片实例备份时间窗口的最佳调度，相比人工预测的方式调度效率较高，且预测准确不易误判。

以上为训练切片实例备份任务调度模型的方法的实施例，下面将训练好的切片实例备份任务调度模型应用到切片实例备份任务调度中的方法实施例进行说明。

图5示出了本发明实施例提供的切片实例备份任务调度方法的流程图，如图5所示，该方法包括以下步骤：

步骤510：获取最近T时间段的切片实例备份拓扑数据；

本步骤中，从NSMF获取最近T时间段内的切片实例备份拓扑数据。

在一些实施例中，本步骤还构建以切片实例作为图的节点、切片实例间网元功能共享关系作为图的边、以切片实例的每个T时间段KPI运行状态和备份状态作为节点特征的切片实例备份拓扑图s_t。然后将切片实例备份拓扑图转换为切片实例拓扑邻接矩阵A和切片实例拓扑特征矩阵X。具体过程和前述实施例近似，可参考前述实施例。

步骤520：将所述最近T时间段的切片实例备份拓扑数据输入根据如上实施例所述的方法训练得到的切片实例备份任务调度模型，得到与所述T时间段的切片实例对应的备份时间窗口调度动作；

本步骤中，NSMF将邻接矩阵A和特征矩阵X输入至上述实施例训练好的切片实例备份任务调度模型中，输出对应的n个切片实例的备份任务窗口调度动作。执行器中的图神经网络从切片实例运行状态特征中发现每个切片实例的业务负荷规律，并根据切片实例备份状态特征中的所需备份窗口长度和上次备份实施结果，输出对应的n个切片实例的备份任务窗口调度动作{(t_start ¹,t_end ¹)、(t_start ²,t_end ²)、…、(t_start ⁿ,t_end ⁿ)}。

步骤530：将所述与所述T时间段的切片实例对应的备份时间窗口调度动作下发并实施。

本步骤中，将切片实例备份任务调度模型输出的备份任务窗口调度动作下发给NSMF实施备份窗口调度，动作全部实施完毕后将下一个T时间段切片实例备份拓扑s_t+1输入至奖励函数，奖励函数将回报反馈给模型。

此外，本发明实施例利用训练好的切片实例备份任务调度模型进行切片实例备份任务调度，通过搭建基于深度确定性策略梯度的训练网络，通过所述训练网络学习切片实例备份拓扑数据，并利用深度确定性策略梯度在连续动作空间上的优势来选取能够对各切片实例影响最小、满足各实例备份需求的备份时间窗口，从而实现切片实例备份时间窗口的最佳调度，相比人工预测的方式调度效率较高，且预测准确不易误判。

图6示出了本发明实施例提供的切片实例备份任务调度装置的结构示意图。如图6所示，该装置300包括：

获取模块310，用于获取最近T时间段的切片实例备份拓扑数据；

计算模块320，用于将所述最近T时间段的切片实例备份拓扑数据输入切片实例备份任务调度模型，得到与所述T时间段的切片实例对应的备份时间窗口调度动作；

实施模块330，用于将所述与所述T时间段的切片实例对应的备份时间窗口调度动作下发并实施。

获取历史的切片实例备份拓扑数据；

在一种可选的方式中，训练过程还包括：

训练过程还包括：

训练所述动作估计网络和所述评价估计网络的参数；

在一种可选的方式中，训练过程还包括：初始化所述执行器和所述评判器；

在训练过程的第二学习过程及后续学习过程时，选取并执行备份时间窗口调度动作，得到回报值和新的切片实例备份拓扑状态；

设置目标函数y_i为：

y_i＝r_i+γQ′(s_i+1，μ′(s_i+1|θ^μ′)|θ^Q′)

通过最小化损失函数L，更新所述评判器；

通过确定性策略梯度更新所述执行器；

图7示出了本发明实施例提供的电子设备实施例的结构示意图，本发明具体实施例并不对电子设备的具体实现做限定。

如图7所示，该电子设备可以包括：处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。

其中：处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。通信接口404，用于与其它设备比如客户端或其它服务器等的网元通信。处理器402，用于执行程序410，具体可以执行上述切片实例备份任务调度方法实施例中的相关步骤。

具体地，程序410可以包括程序代码，该程序代码包括计算机可执行指令。

处理器402可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器406，用于存放程序410。存储器406可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

本发明实施例提供了一种计算机可读存储介质，所述存储介质存储有至少一可执行指令，该可执行指令在电子设备/训练切片实例备份任务调度模型的装置上运行时，使得所述电子设备/训练切片实例备份任务调度模型的装置执行上述任意方法实施例中的切片实例备份任务调度方法。

本发明实施例提供一种电子设备/训练切片实例备份任务调度模型的装置，用于执行上述切片实例备份任务调度方法。

本发明实施例提供了一种计算机程序，所述计算机程序可被处理器调用使电子设备执行上述任意方法实施例中的切片实例备份任务调度方法。

本发明实施例提供了一种计算机程序产品，计算机程序产品包括存储在计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令在计算机上运行时，使得所述计算机执行上述任意方法实施例中的切片实例备份任务调度方法。

在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明实施例也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。

本领域技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤，除有特殊说明外，不应理解为对执行顺序的限定。

Claims

1.一种切片实例备份任务调度方法，其特征在于，所述方法包括：

获取最近T时间段的切片实例备份拓扑数据；

将所述最近T时间段的切片实例备份拓扑数据输入切片实例备份任务调度模型，得到与所述T时间段的切片实例对应的备份时间窗口调度动作；所述切片实例备份任务调度模型通过如下方法训练得到：获取历史的切片实例备份拓扑数据；根据所述历史的切片实例备份拓扑数据构建历史的切片实例备份拓扑图；所述历史的切片实例备份拓扑图为：以所述历史的切片实例作为图的节点、以所述历史的切片实例间网元功能共享关系作为图的边、以所述历史的切片实例的每个T时间段KPI运行状态和备份状态作为节点特征的切片实例备份拓扑图；将所述历史的切片实例备份拓扑图转换为切片实例拓扑邻接矩阵A和切片实例拓扑特征矩阵X；搭建基于深度确定性策略梯度的训练网络，所述训练网络包括执行器和评判器；将所述切片实例拓扑邻接矩阵A和所述切片实例拓扑特征矩阵X输入所述训练网络的执行器，作为切片实例备份状态，得到与所述历史的切片实例对应的备份时间窗口调度动作；将所述历史的切片实例备份拓扑数据以及所述备份时间窗口调度动作输入所述评判器，得到评价所述备份时间窗口调度动作选择的价值函数的Q值；将所述Q值反馈给所述执行器，由所述执行器根据所述Q值确定对所述历史的切片实例影响最小的备份时间窗口；根据所述对所述历史的切片实例影响最小的备份时间窗口调整所述训练网络的参数，得到训练完成的切片实例备份任务调度模型；

2.如权利要求1所述的方法，其特征在于，所述切片实例拓扑邻接矩阵A包括所述历史的切片实例中各切片实例的连接关系，所述切片实例拓扑特征矩阵X包括所述历史的切片实例中各切片实例最近T时间段KPI运行状态特征、备份时间窗口所需大小、上次备份执行时间和上次备份执行结果。

3.如权利要求2所述的方法，其特征在于，所述执行器和所述评判器均包括图神经网络；

训练所述动作估计网络和所述评价估计网络的参数；

4.如权利要求3所述的方法，其特征在于，所述将所述历史的切片实例备份拓扑数据输入所述训练网络的执行器之前，所述方法还包括：

初始化所述执行器和所述评判器；

设置目标函数y_i为：

y_i＝r_i+γQ′(s_i+1，μ′(s_i+1|θ^μ′)|θ^Q′)

通过最小化损失函数L，更新所述评判器；

通过确定性策略梯度更新所述执行器；

5.一种切片实例备份任务调度装置，其特征在于，所述装置包括：

获取模块，用于获取最近T时间段的切片实例备份拓扑数据；

计算模块，用于将所述最近T时间段的切片实例备份拓扑数据输入切片实例备份任务调度模型，得到与所述T时间段的切片实例对应的备份时间窗口调度动作；所述切片实例备份任务调度模型通过如下方式训练得到：获取历史的切片实例备份拓扑数据；根据所述历史的切片实例备份拓扑数据构建历史的切片实例备份拓扑图；所述历史的切片实例备份拓扑图为：以所述历史的切片实例作为图的节点、以所述历史的切片实例间网元功能共享关系作为图的边、以所述历史的切片实例的每个T时间段KPI运行状态和备份状态作为节点特征的切片实例备份拓扑图；将所述历史的切片实例备份拓扑图转换为切片实例拓扑邻接矩阵A和切片实例拓扑特征矩阵X；搭建基于深度确定性策略梯度的训练网络，所述训练网络包括执行器和评判器；将所述切片实例拓扑邻接矩阵A和所述切片实例拓扑特征矩阵X输入所述训练网络的执行器，作为切片实例备份状态，得到与所述历史的切片实例对应的备份时间窗口调度动作；将所述历史的切片实例备份拓扑数据以及所述备份时间窗口调度动作输入所述评判器，得到评价所述备份时间窗口调度动作选择的价值函数的Q值；将所述Q值反馈给所述执行器，由所述执行器根据所述Q值确定对所述历史的切片实例影响最小的备份时间窗口；根据所述对所述历史的切片实例影响最小的备份时间窗口调整所述训练网络的参数，得到训练完成的切片实例备份任务调度模型；

实施模块，用于将所述与所述T时间段的切片实例对应的备份时间窗口调度动作下发并实施。

6.一种电子设备，其特征在于，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-4任意一项所述的切片实例备份任务调度方法的操作。

7.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一可执行指令，所述可执行指令在电子设备上运行时，使得所述电子设备执行如权利要求1-4任意一项所述的切片实例备份任务调度方法的操作。