CN112749041B

CN112749041B - 虚拟化网络功能备份策略自决策方法、装置及计算设备

Info

Publication number: CN112749041B
Application number: CN201911039386.6A
Authority: CN
Inventors: 邢彪; 郑屹峰; 张卷卷; 陈维新; 章淑敏
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Zhejiang Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Zhejiang Co Ltd
Priority date: 2019-10-29
Filing date: 2019-10-29
Publication date: 2023-12-26
Anticipated expiration: 2039-10-29
Also published as: CN112749041A

Abstract

本发明实施例涉及通信技术领域，公开了一种虚拟化网络功能备份策略自决策方法、装置及计算设备，该方法包括：从网络功能虚拟化网元层和网络功能虚拟化硬件层获取实时多维关键绩效指标数据；对所述实时多维关键绩效指标数据做归一化的预处理；将预处理后的所述实时多维关键绩效指标数据输入预先训练好的备份策略自选取模型中，并通过预先训练好的所述备份策略自选取模型输出最优备份动作；根据预设的备份路径将所述最优备份动作下发至所述网络功能虚拟化硬件层执行所述最优备份动作。通过上述方式，本发明实施例能够获得最大奖励的备份动作，实现NFV网络中对VNF自动备份策略的自主学习。

Description

虚拟化网络功能备份策略自决策方法、装置及计算设备

技术领域

本发明实施例涉及通信技术领域，具体涉及一种虚拟化网络功能备份策略自决策方法、装置及计算设备。

背景技术

现有技术中，网络功能虚拟化(Network Function Virtualization，NFV)是指利用虚拟化技术，在标准化的通用IT设备(x86服务器、存储和交换设备)来实现各种网络设备功能。虚拟化网络功能(Virtualised Network Function，VNF)对应传统电信业务网络，每个物理网元映射为一个虚拟网元VNF，是一个纯软件实现的网元功能，能够运行在网络功能虚拟化基础设施(NFV Infrastructure，NFVI)之上，对应传统物理网元功能。NFVI为具有部署网络功能虚拟化的能力的环境中，所有硬件设备与软件组件的统称。NFVI可以跨越若干个物理位置进行扩展部署，此时，为这些物理站点提供数据连接的网络也被考虑成NFVI的一部分。

NFV环境下支持对各个服务的管理数据进行自动备份和手动备份。手动备份是维护工程师在对系统进行重大操作前，为了保证系统中各个服务在出现异常或执行操作未达到预期结果时可以及时进行数据恢复，将对业务的影响降至最低，需要提前对各个服务的管理数据进行备份。所谓的自动备份是通过人工设置相关备份参数来实现，例如，设置系统自动备份类型、备份时间、备份窗口等。完善的备份机制是实现NFV可靠性和冗余性的前提，NFV承载了多种多样的业务，这给制定备份策略提出了很大的挑战。

现有NFV网络中自动备份策略存在以下问题：执行备份的时间往往会与业务负荷有冲突，备份操作占用过多CPU影响业务正常运行；自动备份策略仍需人为设置，需要依靠专家经验，有误设置的风险；无效备份操作浪费硬件资源。

发明内容

鉴于上述问题，本发明实施例提供了一种虚拟化网络功能备份策略自决策方法、装置及计算设备，克服了上述问题或者至少部分地解决了上述问题。

根据本发明实施例的一个方面，提供了一种虚拟化网络功能备份策略自决策方法，所述方法包括：从网络功能虚拟化网元层和网络功能虚拟化硬件层获取实时多维关键绩效指标数据；对所述实时多维关键绩效指标数据做归一化的预处理；将预处理后的所述实时多维关键绩效指标数据输入预先训练好的备份策略自选取模型中，并通过预先训练好的所述备份策略自选取模型输出最优备份动作；根据预设的备份路径将所述最优备份动作下发至所述网络功能虚拟化硬件层执行所述最优备份动作。

在一种可选的方式中，所述对所述实时多维关键绩效指标数据做归一化的预处理，包括：将所述实时多维关键绩效指标数据按比例缩放，使所述实时多维关键绩效指标数据缩放至预设的最小值与最大值之间。

在一种可选的方式中，从所述网络功能虚拟化网元层获取的所述实时多维关键绩效指标数据至少包括：业务负荷、业务成功率、业务时延；从所述网络功能虚拟化硬件层获取的所述实时多维关键绩效指标数据至少包括：主机CPU占用率、主机内存占用率、主机逻辑磁盘占用率、存储读I/O速率、存储写I/O速率、存储剩余容量。

在一种可选的方式中，所述从网络功能虚拟化网元层和网络功能虚拟化硬件层获取实时多维关键绩效指标数据之前，包括：从所述网络功能虚拟化网元层和所述网络功能虚拟化硬件层获取历史多维关键绩效指标数据，其中所述历史多维关键绩效指标数据包括：状态、目标动作以及奖励；对所述历史多维关键绩效指标数据进行预处理；根据预处理后的所述历史多维关键绩效指标数据进行训练，生成所述备份策略自选取模型。

在一种可选的方式中，所述根据预处理后的所述历史多维关键绩效指标数据进行训练，生成所述备份策略自选取模型，包括：将预处理后的所述历史多维关键绩效指标数据输入所述备份策略自选取模型；应用所述备份策略自选取模型根据输入的所述历史多维关键绩效指标数据输出选择的备份动作；应用深度神经网络预测与所述备份动作对应的奖励的预测值；应用评判器网络计算与所述备份动作对应的奖励的预测值与目标值误差；将所述误差反馈至所述备份策略自选取模型，直至所述备份策略自选取模型选取所述奖励最大的所述备份动作。

在一种可选的方式中，所述应用所述备份策略自选取模型根据输入的所述历史多维关键绩效指标数据输出选择的备份动作，包括：以埃普西隆概率随机选取所述备份动作，以1-埃普西隆概率的概率选取目前已知最优的所述备份动作，其中，目前已知最优的备份动作是指已经预测的奖励最大的所述备份动作。

在一种可选的方式中，所述应用深度神经网络预测所述备份动作的奖励，包括：应用奖励目标神经网络获取奖励目标数值；应用奖励评估神经网络获取奖励估计数值；根据所述奖励目标数值与所述奖励估计数值更新所述备份动作的所述奖励的预测值。

根据本发明实施例的另一个方面，提供了一种虚拟化网络功能备份策略自决策装置，所述装置包括：数据获取单元，用于从网络功能虚拟化网元层和网络功能虚拟化硬件层获取实时多维关键绩效指标数据；预处理单元，用于对所述实时多维关键绩效指标数据做归一化的预处理；模型输出单元，用于将预处理后的所述实时多维关键绩效指标数据输入预先训练好的备份策略自选取模型中，并通过预先训练好的所述备份策略自选取模型输出最优备份动作；动作下发单元，用于根据预设的备份路径将所述最优备份动作下发至所述网络功能虚拟化硬件层执行所述最优备份动作。

根据本发明实施例的另一方面，提供了一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行上述虚拟化网络功能备份策略自决策方法的步骤。

根据本发明实施例的又一方面，提供了一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使所述处理器执行上述虚拟化网络功能备份策略自决策方法的步骤。

本发明实施例通过从网络功能虚拟化网元层和网络功能虚拟化硬件层获取实时多维关键绩效指标数据；对所述实时多维关键绩效指标数据做归一化的预处理；将预处理后的所述实时多维关键绩效指标数据输入预先训练好的备份策略自选取模型中，并通过预先训练好的所述备份策略自选取模型输出最优备份动作；根据预设的备份路径将所述最优备份动作下发至所述网络功能虚拟化硬件层执行所述最优备份动作，能够获得最大奖励的备份动作，实现NFV网络中对VNF自动备份策略的自主学习。

上述说明仅是本发明实施例技术方案的概述，为了能够更清楚了解本发明实施例的技术手段，而可依照说明书的内容予以实施，并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的虚拟化网络功能备份策略自决策方法应用的网络架构示意图；

图2示出了本发明实施例提供的虚拟化网络功能备份策略自决策方法的流程示意图；

图3示出了本发明实施例提供的虚拟化网络功能备份策略自决策方法的备份策略自选取模型的训练示意图；

图4示出了本发明实施例提供的虚拟化网络功能备份策略自决策方法的备份策略自选取模型训练的误差评估示意图；

图5示出了本发明实施例提供的虚拟化网络功能备份策略自决策装置的结构示意图；

图6示出了本发明实施例提供的计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

备份动作一般可包括：全量备份、增量备份、差异备份。

全量备份(full backup)指对某一个时间点上的所有数据或应用进行的一个完全拷贝。每隔一段时间对系统进行一次完全备份，这样在备份时间间隔内一旦系统发生故障导致数据丢失，就可以用上一次的备份数据恢复到上一次备份时的情况。例如，星期一用一盘磁带备份整个系统，星期二再用另一盘磁带备份，依次类推；这种备份策略的优点是备份的数据最全面且最完整，当发生数据丢失灾难时只要用一盘磁带(即灾难发生前一天的备份磁带)就可以恢复全部的数据。

对于增量备份(incremental backup)，首先进行依次完全备份，然后每隔一个较短时间进行一次备份，但仅备份在这个期间更改的内容。这样一旦发生数据丢失，首先恢复到前一个完全备份。然后按日期逐个恢复每天的备份，就能恢复到前一天的情况。例如，在星期天进行一次完全备份，然后在接下来的6天中只备份当天新的或被修改过的数据。这种备份策略的优点是备份速度快，没有重复的备份数据，节省了磁带空间，缩短了备份时间。

对于差异备份(differential backup)，指在一次全备份后到进行差异备份的这段时间内，对那些增加或者修改文件的备份。在进行恢复时，我们只需对第一次全量备份和最后一次差异备份进行恢复。差异备份在避免了另外两种备份策略缺陷的同时，又具备了它们各自的优点。首先，它具有了增量备份需要时间短、节省磁盘空间的优势；其次，它又具有了全备份恢复所需磁带少、恢复时间短的特点。系统管理员只需要两盘磁带，即全备份磁带与灾难发生前一天的差异备份磁带，就可以将系统恢复。

NFV这种复杂环境下的自动备份动作可以是无备份操作，或者全量备份、增量备份、差异备份中的任一种或多种的组合。

图1示出了本发明实施例提供的虚拟化网络功能备份策略自决策方法应用的网络架构示意图。如图1所示，其中，VNF1、VNF2、VNF3为网络功能虚拟化(NFV)网元层中的虚拟化网络功能单元。虚拟化Cloud OS层中设置有备份策略自选取模型。网络功能虚拟化(NFV)硬件层中包括用于计算或存储的物理设备，以及网络物理设备等。虚拟化云操作系统(CloudOS)层向NFV网元层和NFV硬件层收集实时多维关键绩效指标(Key PerformanceIndicator，KPI)数据。实时多维KPI数据表示为NFV的复杂环境状态数据，具体包括从NFV网元层输入的VNF实时KPI数据和从NFV硬件层输入的硬件实时KPI数据。一个时刻的多维关键绩效指标数据为一个状态。

虚拟化Cloud OS层将从NFV网元层和NFV硬件层收集到的实时多维KPI数据输入备份策略自选取模型，应用备份策略自选取模型根据输入的实时多维KPI数据选取最优备份动作，并将选取的最优备份动作下发至NFV硬件层。NFV硬件层执行该最优备份动作，然后NFV网元层和NFV硬件层向虚拟化Cloud OS层下发与该最优备份动作对应的奖励。

图2示出了本发明实施例提供的虚拟化网络功能备份策略自决策方法的流程示意图。如图2所示，该虚拟化网络功能备份策略自决策方法应用于虚拟化Cloud OS层，该虚拟化网络功能备份策略自决策方法包括：

步骤S11：从网络功能虚拟化网元层和网络功能虚拟化硬件层获取实时多维关键绩效指标数据。

在步骤S11中，虚拟化Cloud OS层向NFV网元层和NFV硬件层收集实时多维关键绩效指标(Key Performance Indicator，KPI)数据，颗粒度为5分钟。具体地，虚拟化Cloud OS层从所述网络功能虚拟化网元层获取的所述实时多维关键绩效指标数据至少包括：业务负荷、业务成功率、业务时延。虚拟化Cloud OS层从所述网络功能虚拟化硬件层获取的所述实时多维关键绩效指标数据至少包括：主机CPU占用率、主机内存占用率、主机逻辑磁盘占用率、存储读I/O速率、存储写I/O速率、存储剩余容量。

步骤S12：对所述实时多维关键绩效指标数据做归一化的预处理。

在步骤S12中，将所述实时多维关键绩效指标数据按比例缩放，使所述实时多维关键绩效指标数据缩放至预设的最小值与最大值之间。归一化是指将数据按比例缩放，使之落入一个小的特定区间。将数据统一映射到[0，1]的范围内，将数据缩放至给定的最小值与最大值之间，通常是0与1之间。归一化后将提升备份策略自选取模型的收敛速度、提升备份策略自选取模型的精度。在本发明实施例中，归一化以下关系式：

x_std＝(x-x.min)/(x.max-x.min)

x_scaled＝x_std*(x.max-x.min)+x.min

其中，x_std为状态x的标准差，x_scaled为状态x的归一化值，x.min为状态x的最小值，x.max为状态x的最小值。

步骤S13：将预处理后的所述实时多维关键绩效指标数据输入预先训练好的备份策略自选取模型中，并通过预先训练好的所述备份策略自选取模型输出最优备份动作。

在本发明实施例中，通过预先训练好的备份策略自选取模型输出与该状态对应的奖励最大的最优备份动作。最优备份动作可以是无备份操作，或者全量备份、增量备份、差异备份中的任一个或多个的组合。例如，最优备份动作输出为000，表示无备份操作；最优备份动作输出为101，表示同时进行全量备份和差异备份。

步骤S14：根据预设的备份路径将所述最优备份动作下发至所述网络功能虚拟化硬件层执行所述最优备份动作。

网络功能虚拟化硬件层接收到包含备份策略自选取模型的虚拟化Cloud OS层下发的最优备份动作后，执行该最优备份动作。同时，NFV网元层和NFV硬件层向虚拟化CloudOS层下发与该最优备份动作对应的奖励。该奖励即为虚拟化Cloud OS层获取的最大奖励。

在本发明实施例中，在步骤S11之前，需要对备份策略自选取模型进行训练收敛，使备份策略自选取模型能够根据输入的实时多维关键绩效指标数据选取输出奖励最大的最优备份动作。具体地，从所述网络功能虚拟化网元层和所述网络功能虚拟化硬件层获取历史多维关键绩效指标数据，其中所述历史多维关键绩效指标数据包括：状态、目标动作以及奖励。然后对所述历史多维关键绩效指标数据进行预处理，具体为对历史多维关键绩效指标数据中的状态进行如步骤S12中的预处理；最后根据预处理后的所述历史多维关键绩效指标数据进行训练，生成所述备份策略自选取模型。

根据预处理后的所述历史多维关键绩效指标数据进行训练时，将预处理后的所述历史多维关键绩效指标数据输入所述备份策略自选取模型；应用所述备份策略自选取模型根据输入的所述历史多维关键绩效指标数据输出选择的备份动作；应用深度神经网络预测与所述备份动作对应的奖励的预测值；应用评判器网络计算与所述备份动作对应的奖励的预测值与目标值误差；将所述误差反馈至所述备份策略自选取模型，直至所述备份策略自选取模型选取所述奖励最大的所述备份动作。

在本发明实施例中，应用强化学习(reinforcement learning)对备份策略自选取模型进行训练。强化学习(reinforcement learning)是一种重要的机器学习方法，有状态(state)、动作(action)、奖赏(reward)这三个要素。智能体Agent(备份策略自选取模型)需要根据当前状态来采取动作，获得相应的奖赏之后，再去改进这些动作，使得下次再到相同状态时，智能体Agent能做出更优的动作。智能体Agent的主要目标是通过在环境中执行特定的操作序列来最大化某个数字奖励。深度强化学习即用深度神经网络去提取数据特征，训练强化学习算法模型，使得模型能够充分学习复杂外部环境的规律，并在不同的环境下做出正确的动作，并且在长期的交互中，获得较高的累计回报(奖励)。

Q-Learning是强化学习算法中value-based的算法，即关注点是训练一个评判器(critic)。Q即为Q(s,a)就是在某一时刻的s状态下(s∈S)，采取动作a(a∈A)动作能够获得奖励的期望，环境会根据智能体Agent的动作反馈相应的回报reward。深度神经网络(DeepQ-network，DQN)是将Q-Learning与深度学习相结合，深度学习即用神经网络来学习数据。DQN用深度神经网络代表价值函数来预测Q值，并通过不断更新神经网络从而学习到最优的行动路径。DQN中有两个神经网络，一个为参数相对固定的奖励目标神经网络target-net，用来获取奖励目标数值(Q-target)，另一个为奖励评估神经网络eval_net用来获取奖励估计数值(Q-eval)的数值。再根据所述奖励目标数值与所述奖励估计数值更新所述备份动作的所述奖励的预测值。奖励的预测值Q根据以下规则来更新：

其中，s_t为t时刻的多维KPI数据，a_t是t时刻的备份动作，Q(s_t，a_t)为奖励的预测值，为奖励目标数值，表示已选取过的备份动作中的最大奖励，r_t+1为奖励总和，α、γ为系数。

状态(state)s_t是t时刻NFV网元层和硬件层的多维KPI数据；行为(action)a_t是t时刻的备份动作，属于离散动作空间类型。模型选择的行为通过cloud OS层下发给NFV硬件层执行后，NFV网元层和NFV硬件层状态由s_t转换为s_t+1；r(s_t，a_t)函数是VNF在状态s_t执行行为a_t后，返回的单步奖励值，具体的奖励函数由NFV网元层和NFV硬件层的多维KPI状态s_t+1、以及预设的恢复点目标(Recovery Point Objective，RPO)来决定。RPO是反映恢复数据完整性的指标，其以数据为出发点，主要指的是业务系统所能容忍的数据丢失量。r_t是从当前状态直到将来某个状态，期间所有行为所获得奖励值的加权总和。

本发明实施例应用由critic网络组成的基于DQN的深度强化学习模型对备份策略自选取模型进行训练。更具体地，如图3所示，包括：

步骤S300：初始化奖励的Q函数，使目标Q函数Q^target＝Q。

获取的历史多维关键绩效指标数据包括有状态(state)、动作(action)、奖励(reward)这三个要素。目标Q函数Q^target的初始值即为历史多维关键绩效指标数据中的奖励。

步骤S301：初始化NFV网元层和NFV硬件层KPI。

向备份策略自选取模型输入NFV网元层和硬件层实时多维KPI数据。分别设置两个输入层。输入层1接收当前NFV网元层和NFV硬件层实时多维KPI状态(s)，将输入层1经过三层全连接层(Dense)，分别设置300、200、100个神经元，激活函数均为“relu”。输入层2接收对应的4个备份动作。将输入层2经过三层全连接层(Dense)，分别设置100、50、30个神经元，激活函数均为“relu”。然后通过合并层(merge)来合并动作和状态。最后紧接1个全连接层(200个神经元、激活函数为“relu”)和一个dropout丢弃层。

步骤S302：给定当前状态(网元层和NFV硬件层KPI)，基于贪婪算法给出备份动作。

通过备份策略自选取模型输出所选择的与当前状态对应的备份动作。为避免动作选取局限性、丰富数据收集，引入贪婪算法(epsilon greedy)来选取备份动作。贪婪算法(epsilon greedy)满足以下关系式：

以埃普西隆(epsilon)概率ε随机选取所述备份动作，以1-埃普西隆(1-epsilon)概率的概率1-ε选取目前已知最优的所述备份动作，其中，目前已知最优的备份动作是指已经预测的奖励最大的所述备份动作。

随着学习的不断深入，epsilon的值可以变得越来越小，学习的方式从充分探索转为深入的专研。

步骤S303：得到奖励r_t并到达新的状态s_t+1。

奖励r_t是从当前状态直到将来某个状态，期间所有行为所获得奖励值的加权总和。

步骤S304：将t时刻的(s_t，a_t，r_t，s_t+1)存入回放缓存中。

训练的数据是从回放缓存中随机提取的，回放缓存记录着每一个状态下的行动、奖励、和下一个状态的结果(s，a，r，s')。回放缓存的大小有限，当记录满了数据之后，下一个数据会覆盖回放缓存中的第一个数据。使用经验回放(replay buffer)来保存所有阶段的(s，a，r，s')到一个回放缓存中。

步骤S305：从回放缓存中抽取出一个批(batch)数量的经验(s_i，a_i，r_i，s_i+1)。

当训练神经网络时，从回放缓存中随机小批量(batch)选取来更新，而不是使用最近的，从而解决了样本(sample)之间相互关联的问题，将大大提高系统的稳定性。

步骤S306：计算奖励估计数值Q＝r_i+maxQ^target(s_i+1，a)

应用深度神经网络DQN中的两个神经网络计算奖励的目标值Q。应用奖励目标神经网络获取奖励目标数值；应用奖励评估神经网络获取奖励估计数值；根据奖励目标数值与奖励估计数值更新备份动作的奖励。此处计算出来的奖励即为奖励的预测值。通过深度神经网络中的critic网络输出此次动作选择的奖励的预测值Q(s，a)。备份策略自选取模型的输出层(1个神经元)输出对该状态下执行的备份动作的奖励的预测值Q。

步骤S307：判断奖励的预测值与目标值Q的误差是否满足预设条件。如果是，则执行步骤S308；如果否，则执行步骤S309。

如图4所示，将深度神经网络根据状态s和备份动作a输出的奖励的预测值Q(s，a，w)与目标Q值Q^target(s，a，w)进行比较并计算误差(error)。误差计算方式如下：

error＝(Q(s_i，a_i)-Q^target(s_i，a_i))²

＝(Q(s_i，a_i)-(r_i+max_aQ^target(s_i+1，a_i)))²

判断该误差是否满足预设条件，具体是指误差足够小，具体数据可以根据需要设置，在此不作限制。

步骤S308：将更新后的Q函数神经网络权重赋给Q^target。

奖励的预测值与目标值Q的误差不满足预设条件时，将误差信号反馈至深度神经网络中，从而逐渐提升模型准确率、选取能够获得最大奖励的动作。

步骤S309：输出备份动作

奖励的预测值与目标值Q的误差满足预设条件时，说明此时的备份动作即为奖励最大的的最优备份动作，输出该最优备份动作。

在本发明实施例中，备份策略自选取模型将训练1000个回合(epochs＝1000)，批处理大小设置为32(batch_size＝32)，回放缓存大小设置为50000。选择平均绝对值误差MSE(Mean Squared Error)作为损失函数即目标函数(loss＝′mse′)，梯度下降优化算法选择adam优化器用于改善传统梯度下降的学习速度(optimizer＝′adam′)。神经网络通过梯度下降，可以找到使目标函数最小的最优权重值，随着训练回合数的增加，训练误差也逐渐下降，备份策略自选取模型逐渐收敛。离线训练完成后，将计算得出的神经网络权重导出。

图5示出了本发明实施例的虚拟化网络功能备份策略自决策装置的结构示意图。如图5所示，该虚拟化网络功能备份策略自决策装置包括：数据获取单元501、预处理单元502、模型输出单元503、动作下发单元504以及模型训练单元505。其中：

数据获取单元501用于从网络功能虚拟化网元层和网络功能虚拟化硬件层获取实时多维关键绩效指标数据；预处理单元502用于对所述实时多维关键绩效指标数据做归一化的预处理；模型输出单元503用于将预处理后的所述实时多维关键绩效指标数据输入预先训练好的备份策略自选取模型中，并通过预先训练好的所述备份策略自选取模型输出最优备份动作；动作下发单元504用于根据预设的备份路径将所述最优备份动作下发至所述网络功能虚拟化硬件层执行所述最优备份动作。

在一种可选的方式中，预处理单元502用于：将所述实时多维关键绩效指标数据按比例缩放，使所述实时多维关键绩效指标数据缩放至预设的最小值与最大值之间。

在一种可选的方式中，模型训练单元505用于：从所述网络功能虚拟化网元层和所述网络功能虚拟化硬件层获取历史多维关键绩效指标数据，其中所述历史多维关键绩效指标数据包括：状态、目标动作以及奖励；对所述历史多维关键绩效指标数据进行预处理；根据预处理后的所述历史多维关键绩效指标数据进行训练，生成所述备份策略自选取模型。

在一种可选的方式中，模型训练单元505用于：将预处理后的所述历史多维关键绩效指标数据输入所述备份策略自选取模型；应用所述备份策略自选取模型根据输入的所述历史多维关键绩效指标数据输出选择的备份动作；应用深度神经网络预测与所述备份动作对应的奖励的预测值；应用评判器网络计算与所述备份动作对应的奖励的预测值与目标值误差；将所述误差反馈至所述备份策略自选取模型，直至所述备份策略自选取模型选取所述奖励最大的所述备份动作。

在一种可选的方式中，模型训练单元505用于：以埃普西隆概率随机选取所述备份动作，以1-埃普西隆概率的概率选取目前已知最优的所述备份动作，其中，目前已知最优的备份动作是指已经预测的奖励最大的所述备份动作。

在一种可选的方式中，模型训练单元505用于：应用奖励目标神经网络获取奖励目标数值；应用奖励评估神经网络获取奖励估计数值；根据所述奖励目标数值与所述奖励估计数值更新所述备份动作的所述奖励的预测值。

本发明实施例提供了一种非易失性计算机存储介质，所述计算机存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的虚拟化网络功能备份策略自决策方法。

可执行指令具体可以用于使得处理器执行以下操作：

从网络功能虚拟化网元层和网络功能虚拟化硬件层获取实时多维关键绩效指标数据；

对所述实时多维关键绩效指标数据做归一化的预处理；

将预处理后的所述实时多维关键绩效指标数据输入预先训练好的备份策略自选取模型中，并通过预先训练好的所述备份策略自选取模型输出最优备份动作；

根据预设的备份路径将所述最优备份动作下发至所述网络功能虚拟化硬件层执行所述最优备份动作。

在一种可选的方式中，所述可执行指令使所述处理器执行以下操作：

将所述实时多维关键绩效指标数据按比例缩放，使所述实时多维关键绩效指标数据缩放至预设的最小值与最大值之间。

在一种可选的方式中，从所述网络功能虚拟化网元层获取的所述实时多维关键绩效指标数据至少包括：业务负荷、业务成功率、业务时延；

从所述网络功能虚拟化硬件层获取的所述实时多维关键绩效指标数据至少包括：主机CPU占用率、主机内存占用率、主机逻辑磁盘占用率、存储读I/O速率、存储写I/O速率、存储剩余容量。

从所述网络功能虚拟化网元层和所述网络功能虚拟化硬件层获取历史多维关键绩效指标数据，其中所述历史多维关键绩效指标数据包括：状态、目标动作以及奖励；

对所述历史多维关键绩效指标数据进行预处理；

根据预处理后的所述历史多维关键绩效指标数据进行训练，生成所述备份策略自选取模型。

将预处理后的所述历史多维关键绩效指标数据输入所述备份策略自选取模型；

应用所述备份策略自选取模型根据输入的所述历史多维关键绩效指标数据输出选择的备份动作；

应用深度神经网络预测与所述备份动作对应的奖励的预测值；

应用评判器网络计算与所述备份动作对应的奖励的预测值与目标值误差；

将所述误差反馈至所述备份策略自选取模型，直至所述备份策略自选取模型选取所述奖励最大的所述备份动作。

以埃普西隆概率随机选取所述备份动作，以1-埃普西隆概率的概率选取目前已知最优的所述备份动作，其中，目前已知最优的备份动作是指已经预测的奖励最大的所述备份动作。

应用奖励目标神经网络获取奖励目标数值；

应用奖励评估神经网络获取奖励估计数值；

根据所述奖励目标数值与所述奖励估计数值更新所述备份动作的所述奖励的预测值。

本发明实施例提供了一种计算机程序产品，所述计算机程序产品包括存储在计算机存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任意方法实施例中的虚拟化网络功能备份策略自决策方法。

可执行指令具体可以用于使得处理器执行以下操作：

对所述实时多维关键绩效指标数据做归一化的预处理；

对所述历史多维关键绩效指标数据进行预处理；

应用奖励目标神经网络获取奖励目标数值；

应用奖励评估神经网络获取奖励估计数值；

图6示出了本发明实施例提供的计算设备的结构示意图，本发明具体实施例并不对设备的具体实现做限定。

如图6所示，该计算设备可以包括：处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。

其中：处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。通信接口404，用于与其它设备比如客户端或其它服务器等的网元通信。处理器402，用于执行程序410，具体可以执行上述虚拟化网络功能备份策略自决策方法实施例中的相关步骤。

具体地，程序410可以包括程序代码，该程序代码包括计算机操作指令。

处理器402可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或各个集成电路。设备包括的一个或各个处理器，可以是同一类型的处理器，如一个或各个CPU；也可以是不同类型的处理器，如一个或各个CPU以及一个或各个ASIC。

存储器406，用于存放程序410。存储器406可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序410具体可以用于使得处理器402执行以下操作：

对所述实时多维关键绩效指标数据做归一化的预处理；

在一种可选的方式中，所述程序410使所述处理器执行以下操作：

对所述历史多维关键绩效指标数据进行预处理；

应用奖励目标神经网络获取奖励目标数值；

应用奖励评估神经网络获取奖励估计数值；

在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明实施例也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤，除有特殊说明外，不应理解为对执行顺序的限定。

Claims

1.一种虚拟化网络功能备份策略自决策方法，其特征在于，所述方法包括：

从网络功能虚拟化网元层和网络功能虚拟化硬件层获取实时多维关键绩效指标数据；从所述网络功能虚拟化网元层获取的所述实时多维关键绩效指标数据至少包括：业务负荷、业务成功率、业务时延；

从所述网络功能虚拟化硬件层获取的所述实时多维关键绩效指标数据至少包括：主机CPU占用率、主机内存占用率、主机逻辑磁盘占用率、存储读I/O速率、存储写I/O速率、存储剩余容量；

对所述实时多维关键绩效指标数据做归一化的预处理；

2.根据权利要求1所述的方法，其特征在于，所述对所述实时多维关键绩效指标数据做归一化的预处理，包括：

3.根据权利要求1所述的方法，其特征在于，所述从网络功能虚拟化网元层和网络功能虚拟化硬件层获取实时多维关键绩效指标数据之前，包括：

对所述历史多维关键绩效指标数据进行预处理；

4.根据权利要求3所述的方法，其特征在于，所述根据预处理后的所述历史多维关键绩效指标数据进行训练，生成所述备份策略自选取模型，包括：

5.根据权利要求4所述的方法，其特征在于，所述应用所述备份策略自选取模型根据输入的所述历史多维关键绩效指标数据输出选择的备份动作，包括：

6.根据权利要求5所述的方法，其特征在于，所述应用深度神经网络预测所述备份动作的奖励的预测值，包括：

应用奖励目标神经网络获取奖励目标数值；

应用奖励评估神经网络获取奖励估计数值；

7.一种虚拟化网络功能备份策略自决策装置，其特征在于，所述装置包括：

数据获取单元，用于从网络功能虚拟化网元层和网络功能虚拟化硬件层获取实时多维关键绩效指标数据；从所述网络功能虚拟化网元层获取的所述实时多维关键绩效指标数据至少包括：业务负荷、业务成功率、业务时延；

预处理单元，用于对所述实时多维关键绩效指标数据做归一化的预处理；

模型输出单元，用于将预处理后的所述实时多维关键绩效指标数据输入预先训练好的备份策略自选取模型中，并通过预先训练好的所述备份策略自选取模型输出最优备份动作；

动作下发单元，用于根据预设的备份路径将所述最优备份动作下发至所述网络功能虚拟化硬件层执行所述最优备份动作。

8.一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行根据权利要求1-6任一项所述虚拟化网络功能备份策略自决策方法的步骤。

9.一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行根据权利要求1-6任一项所述虚拟化网络功能备份策略自决策方法的步骤。