CN113810954A

CN113810954A - 基于流量预测与深度强化学习的虚拟资源动态扩缩容方法

Info

Publication number: CN113810954A
Application number: CN202111051311.7A
Authority: CN
Inventors: 马润; 李晓波; 吴双; 马梦轩; 闫舒怡; 哈欣楠; 王晔; 王圣杰; 王宁; 冯国礼; 魏文彬
Original assignee: Information and Telecommunication Branch of State Grid Ningxia Electric Power Co Ltd
Current assignee: Information and Telecommunication Branch of State Grid Ningxia Electric Power Co Ltd
Priority date: 2021-09-08
Filing date: 2021-09-08
Publication date: 2021-12-17
Anticipated expiration: 2041-09-08
Also published as: CN113810954B

Abstract

本发明公开了基于流量预测与深度强化学习的虚拟资源动态扩缩容方法，包括：S1：获取5G核心网的历史指标数据和网络状态数据，并对所述历史指标数据进行数据清洗；S2：将数据清洗后的所述历史指标数据输入LSTM模型进行训练和预测，得到预测结果；S3：将所述预测结果和所述网络状态数据输入到Priority‑DQN算法进行决策，输出AMF决策结果。本发明将虚拟资源的动态扩缩容问题具象为对于AMF单元的扩缩容问题，将LSTM预测与基于优先级的DQN方法相结合，既保证了对核心网流量数据的提前感知，减少响应延迟并解决静态阈值下的决策震荡问题，又实现了在线学习的自演进过程，更好地适应5G核心网环境这一场景。

Description

基于流量预测与深度强化学习的虚拟资源动态扩缩容方法

技术领域

本发明属于通信技术领域，涉及基于流量预测与深度强化学习的虚拟资源动态扩缩容方法。

背景技术

第五代移动通信技术(5G)中对于低时延、广接入、高带宽场景的刻画使得其服务对象从人逐步扩展到各种类型的设备，同时也对核心网的资源合理分配提出更高要求。智能化的5G核心网编排算法可以灵活组网，在实现自动扩缩容后降低服务拒绝率并提升网络资源利用率。

为了解虚拟资源动态扩缩容现有方法，对已有的论文和专利进行了检索，选出下列论文及专利信息，并进行分析：

文献方案1：《Forecasting assistedVNF scaling in NFV-enabled networks》中，作者首先验证了VNF的动态部署及扩缩容问题可被具体为离线VNF部署成本最小化问题且是一种NP-hard问题，然后提出一种基于傅里叶级数的预测方法，该方法通过避免网络拓扑的频繁变化来实现开销最小化，同时提出一种基于多臂赌博机算法的在线学习VNF部署算法。但是，使用傅里叶级数的非线性拟合及多臂赌博机算法最终完成对VNF的部署问题，傅里叶级数的应用相较而言较为复杂，求解过程可能会耗费较多时间，而多臂赌博机算法属于在线学习方法，无法完成离线学习的要求。

文献方案2：《Proactive VNF Scaling with Heterogeneous Cloud Resources:Fusing Long Short-Term Memory Prediction and Cooperative Allocation》中，作者主要探讨了NFV网络多资源、多类型流量的动态分配与调整，首先提出一种基于LSTM-RNN模型流量预测的方法估计资源需求的类型和数量，之后设计了一种协同互补的资源分配算法，以减少资源碎片提升资源利用率。虽然使用LSTM模型作为VNF部署问题中前期资源规划阶段的流量预测方法，但在主要的资源调度阶段考虑的是将业务分至具有空闲资源的节点，类似于纵向扩缩容，实际操作难度较大。

文献方案3：《Machine Learning-based Optimal VNF Deployment》中，作者提出一种基于机器学习模型的VNF最优部署方法，该模型使用整数线性规划(ILP)计算给定网络和服务请求的最优VNF部署以及SFC的解决方案，其中，使用ECC对输入数据进行图形化处理，该方法可以在解决节点排序不确定和邻域大小变化的问题的基础上考虑结构信息对结果的影响。但是，使用ECC-GNN模型对节点进行资源调度与编排，因为缺少对网络流量的提前感知(即预测)，可能会导致分配结果与实际情况差距较大，无法在短时间内满足某些突发性网络请求。

专利方案1：《基于机器学习的智能扩缩容方法、装置、设备及存储介质》中，作者通过检测需求信息中包含的预测时间段，获取对应先验信息并将预测时间段输入第一预测模型再使用先验信息进行修正获取第一预测信息的修正结果，之后，获取与训练集中历史数据对应的负载资源参数以组成与训练集对应的调整后训练集，调整训练集并使用第一预测信息的修正结果得到第二预测结果以判断是否扩容或缩容。但是，使用两个预测模型实现VNF自动扩缩容决策，缺少对于决策后状况的反馈，同时两次预测及验证过程较为复杂。

专利方案2：《VNF扩缩容方法及装置、网元及存储介质》中，作者设置了第一网元和第二网元的场景，在确定对目标VNF进行扩缩容时，第一网元将向第二网元发送扩缩容事件通知，该通知用于告知第二网元避开与所述第一网元同时对所述目标VNF扩缩容，而第二网元根据通知，在预设时间内屏蔽所述第二网元对所述目标VNF的扩缩容。而专利方案2更为关注对于扩缩容决策下发时的重复问题，并没有将决策的整体过程做详细陈述，也缺少对扩缩容决策调整方式的具体选择。

发明内容

针对现有技术中存在的问题，本发明的目的在于提供基于流量预测与深度强化学习的虚拟资源动态扩缩容方法，至少部分解决上述技术问题。

本发明实施例提供了基于流量预测与深度强化学习的虚拟资源动态扩缩容方法，包括：

S1：获取5G核心网的历史指标数据和网络状态数据，并对所述历史指标数据进行数据清洗；

S2：将数据清洗后的所述历史指标数据输入LSTM模型进行训练和预测，得到预测结果；

S3：将所述预测结果和所述网络状态数据输入到Priority-DQN算法进行决策，输出AMF决策结果。

进一步地，对所述历史指标数据进行数据清洗具体包括：

将所述历史指标数据中各时间点内的数据整合成一个时间段内的数据；

将整合后所述一个时间段内的数据，根据预设时间跨度进行分组聚合；

对分组聚合后的所述一个时间段内的数据进行时间序列化和归一化处理，得到数据清洗后的所述历史指标数据。

进一步地，将数据清洗后的所述历史指标数据，根据预设比例划分为训练集和预测集，分别进行所述LSTM模型的训练和预测。

进一步地，所述Priority-DQN算法对AMF进行横向扩容决策。

进一步地，所述Priority-DQN算法中的判断奖励，通过计算所述历史指标数据中的平均等待延时和AMF利用率得到，具体计算过程为：

式中，MRT_t表示t时刻的所述平均等待延时；U_t表示t时刻所述AMF利用率；r_i表示在请求集合中的第i个请求；r_service表示单个AMF的服务速率；

表示处于等待队列中的每个r_i的累计等待时长；L_queue表示处于等待队列中的请求集合；N_AMF表示当前网络中AMF实例的数目；N_history表示过去预设时间内服务请求的数量；R_t表示代理在当前状态下采取行动后得到的奖励；threshold_MRT表示所述所述平均等待延时MRT的上限。

本发明实施例提供的基于流量预测与深度强化学习的虚拟资源动态扩缩容方法，与现有技术相比较，在5G核心网场景下将虚拟资源的动态扩缩容问题具象为对于AMF单元的扩缩容问题，并选定调整模式为横向扩缩容，节约成本并且提升了QoS，保证了实例服务的正常进行。

使用基于LSTM预测结果作为自动扩缩容决策深度强化学习阶段的特征，完成对网络状态的提前感知，减少响应延迟并解决静态阈值下的决策震荡问题。

使用Priority-DQN完成VNF自动扩缩容方法的决策部分，对已有决策进行反馈以完成自学习和自演进目标，并使用优先级采样策略提升训练速度，加速决策生成。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

图1为本发明实施例提供的基于流量预测与深度强化学习的虚拟资源动态扩缩容方法框图；

图2为本发明实施例提供的横向扩缩容的动作流程示意图；

图3为本发明实施例提供的基于流量预测与深度强化学习的虚拟资源动态扩缩容方法结构示意图；

图4为本发明实施例提供的LSTM模型结构示意图；

图5为本发明实施例提供的Priority-DQN算法结构示意图。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“上”、“下”、“内”、“外”、“顶/底端”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“设置有”、“内接”、“连接”等，应做广义理解，例如“连接”，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

本发明实施例提供的基于流量预测与深度强化学习的虚拟资源动态扩缩容方法，如图1所示，包括：

S1：获取5G核心网的历史指标数据和网络状态数据，并对历史指标数据进行数据清洗；

S2：将数据清洗后的历史指标数据输入LSTM模型进行训练和预测，得到预测结果；

S3：将预测结果和网络状态数据输入到Priority-DQN算法进行决策，输出AMF决策结果。

本发明实施例提供的基于流量预测与深度强化学习的虚拟资源动态扩缩容方法，与现有技术相比较，在5G核心网场景下将虚拟资源的动态扩缩容问题具象为对于AMF单元的扩缩容问题，并选定调整模式为横向扩缩容。

本发明实施例提出一种基于流量预测与深度强化学习的虚拟资源动态扩缩容方法。首先，确定扩缩容类型，对5G核心网中的AMF(接入与移动性管理功能)单元进行横向扩缩容动作，即增加或者减少AMF单元个数。其次，使用LSTM模型对未来流量变化进行预测，基于预测结果进行自动扩缩容决策。最后，使用基于优先级的DQN方法产生自动扩缩容决策并对决策进行不断优化，优先级的DQN方法将抽取需要优先学习的样本数据以加速学习效率，使得算法可以更快收敛。LSTM预测与Priority-DQN方法相结合，既保证对核心网流量数据的提前感知，又实现了在线学习的自演进过程，更好地适应5G核心网环境这一场景。

下面将对本发明中的部分技术进行详细分析。

对核心网虚拟资源的智能编排可以看作是对VNF的扩缩容决策，在5G环境下，由于AMF作为接入控制的核心网元，需要承载用户设备注册以及移动性管理等重要功能，随着AMF数量的动态变化，网络可以及时应对不同时段的流量波动，因此，对于VNF的扩缩容决策将具体到对AMF的动态调整，以节约成本并且提升QoS。

首先是对扩缩容类型的选择。虚拟资源的扩缩容动作一般指VNF的自动扩缩容，即根据物理网络中的资源总量对每个虚拟网络单元进行占用资源以及数量上的调整。扩缩容动作根据其调整方式可分为纵向扩缩容以及横向扩缩容，其中，纵向扩缩容是指增加或减少现有VNF实例占用物理机器的资源，横向扩缩容是指直接改变网络中VNF实例的数量。相较于纵向扩缩容需要在VNF停机后再对资源进行增减，横向扩缩容直接对虚拟资源VNF(Virtual NetworkFunction)数目进行更改，保证了实例服务的正常进行。

其次是扩缩容动作进行的决策基础。传统的自动扩缩容方法主要依赖阈值，阈值的获取需要算法根据物理网络收集到的各项资源信息。当资源总利用率达到阈值时，才会触发扩缩容动作。该方法虽然简单易行，但是灵活性较差，同时会导致决策震荡。本发明使用机器学习支持下的预测结果作为决策基础，长短时记忆网络LSTM可针对属于时间序列数据的核心网流量趋势进行准确拟合，得到未来一段时间内的流量预测结果，使得自动扩缩容决策可以提前响应，以减少拒绝用户请求事件的发生。

最后是自动扩缩容决策的执行方式。无论是基于数据记录的阈值还是基于LSTM模型的预测结果，其本质仍然是固定值决策，只适用于常规流量模式，而不能应对网络流量瞬时突增。深度强化学习可以获取当前环境的状态集合以及拟合函数计算执行动作的相应奖励，选取奖励最大的一项动作(横向扩容或缩容)执行。执行后获取当下环境状态，再通过奖励函数评判本次动作选取的好坏，并给予神经网络反馈以不断修正拟合函数。作为深度强化学习的代表方法，DQN引入DCNN(深度卷积神经网络)对奖励值进行拟合计算，并通过记忆库和固定Q目标提升学习结果的准确性。由于存在记忆库，DQN可以进行在线学习也可以离线学习，甚至可以选择移植其他场景下的记忆库，增强了当前场景DQN算法的健壮性。

本发明的适用场景为5G核心网络，由于NFV(网络功能虚拟化)技术的支持，在不同切片下，AMF均可以运行在标准服务器上并对网络资源进行合理分配，因此对VNF的自动扩缩容方法就是对5G场景中AMF单元的自动扩缩容决策。

当业务负载增加时，VNF进行扩容动作，即可通过增加CPU数量或者增加VM/VNF实例的数量，而当业务负载减少时，VNF进行缩容动作。本发明为保证5G核心网服务的正常进行，选取横向扩缩容动作以完成对虚拟资源的及时管理与合理分配。

如图2所示，初始时刻，VNF实例均处于正常负载状态；b时刻下，网络中流量突然增加，使得大部分VNF实例处于忙碌状态(即负载过大)，为保证服务的QoS，横向扩容动作触发；到c时刻，VNF实例完成扩容操作，即加入新的实例以减少每个VNF实例的工作负载，VNF实例重回正常状态；d时刻，网络流量减少，部分VNF实例具有较少的工作负载，处于空闲状态，为减少资源浪费，横向缩容动作触发；到e时刻，VNF实例完成缩容动作，即销毁旧的实例以增加每个VNF实例的工作负载，VNF实例重新具有正常状态。

本发明实施例提出一种基于流量预测与深度强化学习的虚拟资源动态扩缩容方法，如图3所示，具体结构及方法描述如下：首先，收集核心网中的指标数据并进行预处理和数据清洗以作为LSTM预测时的原始输入。其次，使用处理后的指标数据对LSTM模型进行训练并完成预测，获得未来一段时间内的流量预测结果。之后，将这些预测结果作为特征传递至基于Priority-DQN的扩缩容算法，在根据预测结果以及网络中的其他指标信息进行决策后，算法将根据网络状态的优化程度基于模型正反馈或是负反馈以实现在线学习，同时该方法可以随着网络流量模式的变化不断自演进，最终保证在AMF合理利用的前提下服务等待时间最少。

本发明的目标是在保证AMF利用率处于合理数值时，实现服务等待时间最小化，使得用户获取更迅速的请求响应和更优秀的服务体验。其中，R表示请求集合，r_i表示在集合R中的第i个请求，L_queue表示处于等待队列中的请求集合，S_r表示正在服务中的请求集合。

表示处于等待队列中的每个r_i的累计等待时长。U_t表示时刻t时AMF的利用率。Threshold_U是规定AMF利用率的下限阈值。r_service表示单个AMF的服务速率。MRT_t表示t时刻整个核心网络的平均等待时延。threshold_MRT规定平均等待时长的上限。N_AMF表示当前网络中AMF实例的数目。N_history表示过去10分钟内服务请求的数量，N_future表示预测模型得出的未来10分钟到达的请求数量。

平均等待时延即当前等待队列中的所有请求的平均等待时间，计算公式如下：

AMF的利用率可以根据过去10分钟内服务请求的数量除以当前AMF规模下能够进行服务的最大请求数目，计算公式如下：

数据清洗将各个时间点内的信息整合成一个时间段内的信息，以10min为时间跨度进行分组聚合，所有缺失数据将使用0代替。例如拨打电话类型的流量数据，在真实场景下会出现“拨入”和“拨出”两个集合，因此需要将这两个集合合并以得出可用于预测模型输入的该类型流量数据。最终，整合日期、星期、小时、不同类型数据具体数值等特征，并将其进行时间序列化以及归一化。

完成数据清洗后，使用LSTM模型对输入进行预测。将清洗后的数据集以7:3的比例进行“训练集/测试集”的划分。如图4所示，展示了LSTM模型的具体结构，神经元间线性连接，每个神经元都具有遗忘门、输入门和输出门控制神经元的状态。首先，遗忘门将决定保留前一个神经元输出的程度；其次，输入门决定神经元添加的信息内容；最后，输出门决定神经元输出的信息内容。输入层神经元个数由数据清洗后数据集保留的特征个数决定，而根据数据集中需要预测的数据类型，确定输出层神经元需要设置的数量。

图4中相关参数含义如下，X_t表示t时刻的输入；X_t+1表示t+1时刻的输入；X_t-1表示t-1时刻的输入；h_t表示t时刻的隐藏层输出；h_t+1表示t+1时刻的隐藏层输出；h_t-1表示t-1时刻的隐藏层输出；C_t表示t时刻的神经元状态；C_t+1表示t+1时刻的神经元状态；i_t表示t时刻通过输入门的输出结果；f_t表示t时刻通过遗忘门的输出结果；o_t表示t时刻通过输出门的输出结果；σ表示Sigmoid激活函数。

决策部分使用基于优先级的DQN算法，如图5所示，决策代理首先从运行环境中以10分钟为界限划分当前状态s_t，并通过并通过神经网络计算选择能够获取到最大收益的动作a_t进行执行，环境将转换到下一个状态s_t+1。随后，代理将会收到环境所做出的反馈，并得到真实的奖励reward_t。记忆库也将保留这一次状态转换的相关数据，用于训练。图中θ表示参数θ；argmax_aQ_eval(s_t，a_t；θ_t)表示已知t时刻的Q_eval(s_t，a_t；θ_t)函数结果求得的θ参数；Q_eval(s_t，a_t；θ_t)表示t时刻评估值网络的输出；max_aQ_target(s_t+1，a_t+1；θ_t+1)表示t+1时刻目标值网络的所有输出中的最大值。本发明对强化学习中使用的s_t,a_t,R_t,s_t+1四元组进行定义：

s_t：表示决策代理在当前时刻从环境获取到的状态，包含：(1)当前服务等待队列中请求的数目，(2)当前正在服务的请求数目，(3)当前AMF的数目，(4)平均等待时延(MRT)上限，(5)当前10分钟内服务过的请求数目，(6)当前的AMF实例利用率，(7)当前的平均等待时延MRT，(8)预测得到的未来10分钟内到达的最大请求数目。

a_t：表示决策代理在当前状态下能做的动作，即当前AMF的设置数量，区间为[1,4]。

R_t：表示决策代理在当前状态下采取动作a_t后得到的奖励。

s_t+1：表示决策代理在当前状态下采取动作a_t后到达的下一个状态。

图3中第一个网络状态数据是指时间、基站ID、网络状态具体信息数值(可以是短信接收流量、短信发送流量、电话呼入流量、电话呼出流量、互联网流量等)，与s_t不同。

第二个网络状态数据包括“当前服务等待队列中请求的数目，当前正在服务的请求数目，当前AMF的数目，当前10分钟内服务过的请求数目，当前的AMF实例利用率”，属于s_t的一部分。

基于优先级的DQN算法如下，其训练步骤可分为4步：首先，从环境中得到s_t并基于优先级的DQN算法中的随机选择概率，来选择是否使用最优动作a_t，避免过快的陷入局部最优；其次，执行动作a_t并从环境中得到反馈s_t+1,R_t,done)，并将这次状态转移以(s_t,a_t,R_t,s_t+1)的元组方式记录到经验池中，与此同时，环境给出一个变量done，用于标识是否完成一次训练；之后，每5个step进行一次基于优先级的抽样，并进行梯度下降，每200个step将网络Q_eval的参数赋值给Q_target；最后，如果done＝＝true，那么结束此次训练，否则增加step(即step++)。

奖励判断依据是平均等待时延(MRT)和AMF利用率，计算公式分别由公式(1)和(2)给出。当代理在s_t状态下做出动作a_t(调整AMF个数)到达s_t+1后，算法会评估获得的奖励。奖励值由公式(3)得出，即：若当前MRT已经超过最大限制，那么奖励值为-2；如果在保证MRT的情况下，减少1个AMF实例数目，奖励值为-1；如果满足MRT和利用率的约束，奖励值就为+1。使用不同奖励值能够让算法在一定程度上先保证MRT，再逐渐保证利用率。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其改进构思加以等同替换或改变，都应涵盖在本发明的保护范围内。

Claims

1.基于流量预测与深度强化学习的虚拟资源动态扩缩容方法，其特征在于，包括：

2.根据权利要求1所述的基于流量预测与深度强化学习的虚拟资源动态扩缩容方法，其特征在于，对所述历史指标数据进行数据清洗具体包括：

3.根据权利要求1所述的基于流量预测与深度强化学习的虚拟资源动态扩缩容方法，其特征在于：

将数据清洗后的所述历史指标数据，根据预设比例划分为训练集和预测集，分别进行所述LSTM模型的训练和预测。

4.根据权利要求1所述的基于流量预测与深度强化学习的虚拟资源动态扩缩容方法，其特征在于：

所述Priority-DQN算法对AMF进行横向扩容决策。

5.根据权利要求1所述的基于流量预测与深度强化学习的虚拟资源动态扩缩容方法，其特征在于：

其中，所述Priority-DQN算法中的判断奖励，通过计算所述历史指标数据中的平均等待延时和AMF利用率得到，具体计算过程为：