CN113568954A

CN113568954A - 网络流量预测数据预处理阶段的参数最优化方法及系统

Info

Publication number: CN113568954A
Application number: CN202110882923.4A
Authority: CN
Inventors: 王春枝; 文晓东; 严灵毓; 苏军; 杨杰; 詹军
Original assignee: Hubei University of Technology; Wuhan Fiberhome Technical Services Co Ltd
Current assignee: Hubei University of Technology; Wuhan Fiberhome Technical Services Co Ltd
Priority date: 2021-08-02
Filing date: 2021-08-02
Publication date: 2021-10-29
Anticipated expiration: 2041-08-02
Also published as: CN113568954B

Abstract

本发明属于数据处理技术领域，公开了一种网络流量预测数据预处理阶段的参数最优化方法及系统，网络流量预测数据预处理阶段的参数最优化方法包括：对数据集进行改进策略上的Q‑Learning强化学习预处理；进行基于流程压缩的快速估值网络模型的构建；进行基于混合精度的模型训练；进行基于改进Q‑Learning的最优化参数搜索。本发明提出了基于流程压缩的快速估值网络模型，基于流量预测模型出发，通过省略原模型中的预处理步骤并降低预测模型的训练代数的策略，构建能够用于快速估算回报值的网络模型；提出基于混合精度的模型训练流程，通过压缩数据尾款加快算法的计算性能，大幅度的提高了搜索最优化非空值率参数的速度。

Description

网络流量预测数据预处理阶段的参数最优化方法及系统

技术领域

本发明属于数据处理技术领域，尤其涉及一种网络流量预测数据预处理阶段的参数最优化方法及系统。

背景技术

目前，21世纪的今天，正处于科技创新高速发展的阶段，科技创新是第一生产力。网络科技的飞速发展，带动了很多的新兴产业和网络产物，自媒体、直播等网络科技的发展，尽管带来了很多的就业岗位，但也带来了巨大的网络流量使用的需求。因此，需要一种合理的对网络流量资源的使用进行科学信息化的规划，保障在安全高效使用的情况保证用户需求，从而保证更高效的社会经济的持续发展。要想做到网络流量负荷系统的正常运行，首要的前提条件就是加强关于网络流量预测的相关工作，特别是在预测前的工作，即对数据的科学预处理模块，这在网络流量市场的发展过程中显得十分必要。

在网络流量预测中，因为数据采集时的操作不规范、采集设备故障、数据系统升级等原因，导致数据中存在大量的空值、异常值的情况。数据质量较差对数据预处理构成了严重的挑战。在数据清洗阶段，既不能一味的去除所有的包含空值的数据行，也不能放任含有大量空值的数据行进入数据增强阶段或者模型训练阶段。在数据清洗流程中，通常使用有效数据的非空值率参数作为平衡数据质量的关键指标之一。该参数通过控制有效数据中包含的非空值数量与总量数量之间的比例，决定哪些数据行将被保留并进入下一个阶段，哪些数据行将被剔除出数据集。当非空值率处于最优状态下时，数据清洗将可以在保留尽可能多数据的情况下，提升数据集总体的非空值率，即在保留了尽可能多的数据多样性的前提下，降低数据集中噪点数据的数量。非空值率指标是一个百分比，该指标不会自动给出，一般由具备网络工程与计算机背景的领域专家根据经验给出，具有难以推广、缺乏可解释性、非最优性等问题。同时，如果采用穷举策略进行参数的搜索，又存在搜索计算复杂度高，耗时久等问题。现今网络流量预测数据预处理方法中，一般来说对于数据的空值、异常值情况，会采用数据清洗和增强填充数据的方法对数据进行清洗操作，可以在一定范围内提升模型的预测精度，但是引入这些额外的操作会增加模型的负担和GPU在运行过程中过多的内存占用和资源消耗。

为解决上述问题，我们将目光投向机器学习。近几年，随着科学研究和社会的进步发展，强化学习逐渐成为了人工智能科学领域的热点问题，强化学习的发展通过与其他认知科学理论的交叉，成为了当下机器学习的一个很重要的方法，作为机器学习衍生的一个分支研究课题，结合强化学习本身的学习特点和机制，可以通过对模型的评价反馈和训练模型过程中对于结果的交互来提高模型整体的泛化能力，因此对于网络流量预测当中的数据预处理这块，可以很好地应对复杂的场景，但是强化学习也有其局限性，面对数据维数过大的时候，会出现维数灾难，对于学习参数和状态的指数级增长无法应对。当下，克服维数灾难有四种主流方法：如状态聚类法、有限策略空间搜索法、值函数近似法和分层强化学习HRL(Hierarchical Reinforcement Learning)法。Q-Learning作为三大主流的强化学习算法之一，可以通过改进优化更好的适应网络流量数据预处理研究。

(1)数据预处理方法的分类

数据预处理作为数据研究领域必不可少的前提工作，因为对于实验研究和大数据预测领域，经过适当预处理成功的数据才更加有质量，可以更好的适应整个数据流的挖掘、预测和分析过程，可以适当的减少运算量或优化运算过程，某些时候对于实验的进展的结果好坏取到了决定性作用。提升数据的质量，可以为决策提供更为有利的支持服务。

具体的数据预处理方法：

1)数据清理(data cleaning)处理的常用领域有：识别或者除去数据的异常值、对于平滑有噪声的数据进行处理或者填补遗漏的数据；

2)数据集成(data integration)：是将多个数据源的数据合并到一起，形成统一的新的数据存储资源，不过在把不同数据库的数据进行集成到一个数据仓库后，仍然需要进行数据清洗对可能存在的冗余数据进行消除。

3)数据变换(data transformation)：主要是根据研究方向的需求特点，将原始数据转换成适合于研究模型的形式，比如将数据的属性按照一定的权重比例进行缩放，使之汇聚在一个特定的较小的区间，这种数据处理方法适用于针对距离研究的挖掘算法，具体的方法有：平滑处理法、数据泛化处理、规格化、属性构造、聚集处理。

4)数据规约(data reduction)：前提条件是，不影响对于数据研究的总体方向前提下，通过对原始数据进行数值聚集、删除冗余的方法进行数据的压缩，从而提高数据的质量，降低整体数据量的复杂度和空间。

近年来，国内外专家学者一直致力于数据预处理预测方面的研究，在数据预处理方面提出了多种方案。下面将对数据预处理的研究现状从国内、国外两个方面展开叙述。

(2)国内网络流量数据预处理研究现状

国内对数据预处理的研究相对于国外起步较晚，国内数据填补算法基本是借鉴国外的算法，同样最早出现在统计学领域，后来逐渐被应用在不同的领域上。针对试验数据预处理的研究较少，目前研究的重点与难点是进行异常数据剔除和对于满足修复条件的数据加以修复，这是数据预处理的关键部分。对于一维试验数据的异常数据剔除，在文献《戴高乐，陈志军.考虑异常数据剔除的产品可靠性评估[J].空军工程大学学报(自然科学版),2016,17(5):31-36》中，戴高乐等人依据异常数据剔除准则将由试验误差和样本分散性造成的异常数据给予剔除。在文献《童丽，周海银.异常数据剔除的一种改进计算方法[J].中国空间科学技术,2001,(4):11-16》中，童丽等人针对大型线性回归模型，在逐点剔除法的基础上提出了一种异常点剔除的改进算法。文献《唐雪莲，王姗姗.人力资源统计数据异常的数据挖掘检验[J].统计与决策,2015,(9):4-8》中，唐雪莲等人针对人力资源中的异常数据运用数据挖掘技术进行异常数据检测。文献《赵永宁，叶林，朱倩雯.风电场弃风异常数据簇的特征及处理方法[J].电力系统自动化,2014,30(4):39-46》中，赵永宁等人在分析风电场弃风异常数据特征的基础上，提出了一种基于四分位法和聚类分析的异常数据组合筛选模型。文献《姜大治，韩先平.基于双向检验的异常数据剔除与修复方法[J].电光与控制,2013,20(6):70-74》中，姜大治等人提出了一种利用多项式拟合对测量结果数据进行双向检验剔除异常数据的方法，并在检验结果满足修复条件时，对剔除数据进行加权修复。

(3)国外网络流量数据预处理研究现状

数据预处理的思想和方法在国外出现较早，许多最原始简单的数据预处理方法是由国外研究者提出。由于含有相关问题数据的数据集，无法利用传统方法准确地分析，所以检测、剔除、填补问题数据的思想逐步出现。文献《Wang L，Zhang R Q，Sheng Wei,Xu Zhi-gao.Regression forecast and abnormal data datection based on support vectorregression[J].Proceedings of the CSEE,2008,37(3):92-96》中Wang L等人针对电站实时数据中普遍存在异常数据的情况，提出一种基于支持向量回归的异常数据检测方法。文献《Zhang J,Wang H.A new pretreatment approach of eliminating abnormal data indiscrete time series[C].Proceedings of the2005IEEE international Geosciencesand Remote Sensin Symposium,july 25-29,2005,Seoul,South Korea.Piscataway:IEEE,2005,1:665-668.》中Zhang J等人提出了一种在尽可能保留有效信息的基础上针对离散时间序列数据消除异常数据的方法。在文献《Ayuyev V V,Jupin J,Harris P W,etal.Dynamic Clustering-Based Estimation of Missing Values in Mixed Type Data[C].International Conference on Data Warehousing and KnowledgeDiscovery.Springer,Berlin,Heidelberg,2009.》中，Vadim等人对缺失占比较大且为混合型的数据集，提出了一种动态聚类插补算法(DCI)，该算法以共享邻域的相似信息填补缺失数据，缺失数据填补的精度相对于多重插补、多级回归等替换方法提高了20％。在文献《Smieja M,

Struski,Tabor J,et al.Processing of missing data by neuralnetworks[J].2018.》中，Smieja M等人提出了一种通用且理论上合理的神经网络处理缺失数据的机制，最终验证该方法比典型的插补策略和其他针对不完整数据的方法可以给出更好的填补结果。

综上所述，通过研究近年来的国内外研究现状，可以发现大多数对数据的预处理都停留在如何去完善数据集，去把数据集的空值、异常值进行处理，但是这种情况反而容易脱离实际，造成一种趋向性的研究。如果真的应用在生活层面，预测的结果不尽人意，形成了应用性局限的情况。为了更加结合实际，当下对数据预处理的方法有了新的策略，利用到了Q-Learning强化学习，并结合了一种新的网络模型，在不断的调优参数过程中，也对算法进行了新的创新。

通过上述分析，现有技术存在的问题及缺陷为：

(1)在网络流量预测中，因为数据采集时的操作不规范、采集设备故障、数据系统升级等原因，导致数据中存在大量的空值、异常值的情况。影响数据准确度。

(2)非空值率指标由具备网络工程与计算机背景的领域专家根据经验给出，具有难以推广、缺乏可解释性、非最优性等问题。同时，如果采用穷举策略进行参数的搜索，又存在搜索计算复杂度高，耗时久等问题。造成成本增高。

(3)现今网络流量预测数据预处理方法中，对于数据的空值、异常值情况，采用数据清洗和增强填充数据的方法对数据进行清洗操作，但是引入这些额外的操作会增加模型的负担和GPU在运行过程中过多的内存占用和资源消耗。造成成本增加。

(4)现有强化学习方法中，在面对数据维数过大的时候，会出现维数灾难，对于学习参数和状态的指数级增长无法应对。

(5)现有数据的预处理方法都停留在如何去完善数据集，去把数据集的空值、异常值进行处理，这种情况反而容易脱离实际，预测的结果不尽人意，形成了应用性局限的情况。

解决以上问题及缺陷的难度为：

(1)难以降低自动化寻找最优非空值率参数的步骤。

(2)难以大幅度的提高搜索最优化非空值率参数的速度，进而提高数据的预处理速度。

(3)难以降低自动化寻找最优非空值率参数过程中的资源消耗。

解决以上问题及缺陷的意义为：

网络流量数据作为一种重要的资源，它是一种无形的财产，助力于企业乃至国家进行科学管理、正确决策以及有效调控，其重要性不可言喻。人们越来越希望从大量的网络流量数据中去提取出有用的信息供决策使用，然而网络流量数据是在不同环境、不同时间、不同状态中获取的，并不能直接拿来使用，必须先对数据进行预处理。数据预处理阶段存在一个关键的参数：非空值率，该参数决定哪些数据行将被保留并进入下一个阶段，哪些数据行将被剔除出数据集。当非空值率处于最优状态下时，数据清洗将可以在保留尽可能多数据的情况下，提升数据集总体的非空值率，即在保留了尽可能多的数据多样性的前提下，降低数据集中噪点数据的数量。通过自动化寻找最优的非空值率参数，可以大幅度提高数据预处理的速度，并且得到高质量的网络流量数据，进而进行数据挖掘项目研究从而辅助决策，具有十分重要的社会经济价值。

发明内容

针对现有技术存在的问题，本发明提供了一种网络流量预测数据预处理阶段的参数最优化方法及系统。

本发明是这样实现的，一种网络流量预测数据预处理阶段的参数最优化方法，所述网络流量预测数据预处理阶段的参数最优化方法包括以下步骤：

步骤一，对数据集进行改进策略上的Q-Learning强化学习预处理；

步骤二，进行基于流程压缩的快速估值网络模型的构建；

步骤三，进行基于混合精度的模型训练；

步骤四，进行基于改进Q-Learning的最优化参数搜索。

进一步，步骤一中，所述数据预处理，还包括：

通过流属性统计特征的识别分类方法的核心思想，利用数据挖掘和机器学习领域的统计决策、分类和聚类的方法，对原始网络流量数据进行流属性统计特征分析，选取合适的机器学习算法，对数据进行分类提取，通过数据包层面特征、数据流层面特征、连接层面特征三大类找出相关流的数据特征，在数据端口出区分开汇聚层和接入层数据。

进一步，步骤二中，所述基于流程压缩的快速估值网络模型的构建，包括：

提出快速估值网络，先用快速估值网络模型进行参数寻找，通过实验设计选择新的策略，每过5％进行一次迭代，省略对数据的零值和异常值的处理操作，直接进行十代的迭代处理，当找到最优参数后，再进行对数据的清洗和增强处理，且选取epoch＝10。

通过Q-Learning策略中的reward指标对网络进行反馈，学习期望价值，从当前一步到所有后续步骤，总期望获取最大价值Q值、Value；Action决定Q值函数中每一个state下的最佳策略，在每个state下，选择Q值最高的Action，且网络不依赖环境模型。当前Action获得Reward，加下一步可获得最大期望价值，当前状态行动奖励，加下一状态行动最大期望价值。学习速率决定新获取样本信息覆盖率前掌握到信息比率，通常设定较小值。Q-Learning初始值Q，通过定义比较高初始值，鼓励模型多探索。

不同数据处理在训练时间的对比中，纵坐标的SMAPE值是对称平均绝对百分比误差，是基于百分比或者相对误差的一种精确性度量，用于衡量网络模型好坏的指标，SMAPE值越低越好，SMAPE是针对MAPE的问题的修正指标，计算方式如以下公式所示：

其中，A_t是真实值，F_t是预测值。

进一步，步骤三中，所述基于混合精度的模型训练，包括：

预测模型采用半精度的数据；其中，所述双精度浮点数、单精度浮点数和半精度浮点数的区别如下：

float16半精度浮点数，包括1个符号位，5个指数位，10个尾数位；

float32单精度浮点数，包括1个符号位，8个指数位，23个尾数位；

float64双精度浮点数，包括1个符号位，11个指数位，52个尾数位。

进一步，步骤四中，所述基于改进Q-Learning的最优化参数搜索，包括：

在基于深度学习的流量预测系统上进行搜索最优化参数的实验，实验的基础是通过改进后的QV-QL算法来实现的，检验提出的改进Q-Learning区别于传统的暴力穷举机制在搜索效率上的区别；

其中，所述结合快速估值网络与改进Q-Learning算法如下：

初始化奖励函数r：快速估值模型；

初始化Q(s,a)，s：0.5；

初始化最大episode值；

重复执行(最大episode检测)：

重复执行膝肘点检测或者抵达s的边界：

从初始s出发，同时执行action集中的所有行为a_n，观察r_n；

根据最大的r值更新Q table：

Q(s，a)←Q(s，a)+[max(r)+max_α，Q(s′，a′)-Q(s，n)]循环结束

循环结束；

膝肘点检测：

如果之前的行动函数a′等于现在的行动函数α：

返回是(True)，中断循环，跳出当前episode

否则：

返回不是(False)，继续当前episode迭代。

本发明的另一目的在于提供一种应用所述的网络流量预测数据预处理阶段的参数最优化方法的网络流量预测数据预处理阶段的参数最优化系统，所述网络流量预测数据预处理阶段的参数最优化系统包括：

数据集预处理模块，用于对数据集进行改进策略上的Q-Learning强化学习预处理；

网络模型构建模块，用于进行基于流程压缩的快速估值网络模型的构建；

模型训练模块，用于进行基于混合精度的模型训练；

最优化参数搜索模块，用于进行基于改进Q-Learning的最优化参数搜索。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

对数据集进行改进策略上的Q-Learning强化学习预处理；进行基于流程压缩的快速估值网络模型的构建；进行基于混合精度的模型训练；进行基于改进Q-Learning的最优化参数搜索。

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

本发明的另一目的在于提供一种数据信息处理终端，所述数据信息处理终端用于实现所述的网络流量预测数据预处理阶段的参数最优化系统。

本发明的另一目的在于提供一种所述的网络流量预测数据预处理阶段的参数最优化系统在中网络流量资源规划的应用。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：本发明提供的网络流量预测数据预处理阶段的参数最优化方法，通过深入分析网络流量数据集的特点，针对数据清洗过程中的关键指标：非空值率参数，结合在搜索该参数最优化值时需要计算的回报函数复杂度过高的问题，通过省略原模型中的预处理步骤并降低预测模型的训练代数的策略，构建出一个快速估算回报值的网络模型，并且为了进一步加速回报值的计算，减少算法的内存消耗，提出了一个快速估值网络和基于混合精度的训练模型，通过压缩数据尾款来加快算法的计算性能；通过实验证明了基于快速估值网络模型与改进Q-Learning的参数最优化搜索算法QV-QL通过智能的搜索流程，可以较好的解决最优化搜索步骤多、耗时长，计算资源消耗大的问题。

本发明提出了一种全新快速估值网络模型，这种网络模型是一改以前对数据提前进行填充和增强的处理，减少了这些操作，大幅度提高了网络的速度。通过实验验证了SMAPE值的变化规律与原网络保持整体一致性，更加的适用于现实的应用，然后结合了改进的Q-Learning强化学习寻找优化参数。本发明在保证模型功能性及一定准确度的基础上，通过简化一系列流程及引入混合精度计算等方式大幅度的提高了模型运行速度。

本发明提供的基于快速估值网络模型与改进Q-Learning的参数最优化搜索算法QV-QL，提出了基于流程压缩的快速估值网络模型，基于流量预测模型出发，通过省略原模型中的预处理步骤并降低预测模型的训练代数的策略，构建出一个能够用于快速估算回报值的网络模型；提出了基于混合精度的模型训练流程，通过压缩数据尾款加快算法的计算性能。本发明能够大幅度的提高了搜索最优化非空值率参数的速度，较好的解决最优化搜索步骤多、耗时长、计算资源消耗大的问题。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的网络流量预测数据预处理阶段的参数最优化方法流程图。

图2是本发明实施例提供的网络流量预测数据预处理阶段的参数最优化系统结构框图；

图中：1、数据集预处理模块；2、网络模型构建模块；3、模型训练模块；4、最优化参数搜索模块。

图3是本发明实施例提供的Q-Learning算法的基本模型示意图。

图4是本发明实施例提供的Q-Table表格表示5种状态和4种行为示意图。

图5是本发明实施例提供的本发明所采用数据集的情况介绍示意图。

图6是本发明实施例提供的数据处理模型对比示意图。

图7是本发明实施例提供的epoch＝10的原因分析示意图。

图8是本发明实施例提供的快速估值网络的SMAPE值与其他处理后的对比示意图。

图9是本发明实施例提供的不同数据处理在训练时间上的对比示意图。

图10是本发明实施例提供的三种精度数据的特征比较示意图。

图11是本发明实施例提供的单精度数据和半精度数据在时间损耗上对比示意图。

图12是本发明实施例提供的两种精度下训练时的loss值的对比示意图。

图13是本发明实施例提供的两种精度下训练时的loss值放大60倍后的对比示意图。

图14是本发明实施例提供的通过穷举搜索得出的不同非空值率下的SMAPE值的示意图。

图15是本发明实施例提供的第一代episode，从50％出发寻找膝肘点示意图。

图16是本发明实施例提供的第二代episode，从找到的膝肘点出发寻找下一个膝肘点示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种网络流量预测数据预处理阶段的参数最优化方法及系统，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的网络流量预测数据预处理阶段的参数最优化方法包括以下步骤：

S101，对数据集进行改进策略上的Q-Learning强化学习预处理；

S102，进行基于流程压缩的快速估值网络模型的构建；

S103，进行基于混合精度的模型训练；

S104，进行基于改进Q-Learning的最优化参数搜索。

如图2所示，本发明实施例提供的网络流量预测数据预处理阶段的参数最优化系统包括：

数据集预处理模块1，用于对数据集进行改进策略上的Q-Learning强化学习预处理；

网络模型构建模块2，用于进行基于流程压缩的快速估值网络模型的构建；

模型训练模块3，用于进行基于混合精度的模型训练；

最优化参数搜索模块4，用于进行基于改进Q-Learning的最优化参数搜索。

下面结合实施例对本发明的技术方案作进一步描述。

1、发明概述

本发明数据预处理方法的技术方案包括：

1.提出了一种全新快速估值网络模型，这种网络模型是一改以前对数据提前进行填充和增强的处理，减少了这些操作，大幅度提高了网络的速度。通过实验验证了SMAPE值的变化规律与原网络保持整体一致性，更加的适用于现实的应用，然后结合了改进的Q-Learning强化学习寻找优化参数。

2.在保证模型功能性及一定准确度的基础上，通过简化一系列流程及引入混合精度计算等方式大幅度的提高了模型运行速度。

2、技术背景

2.1Q-Learning算法概述及特点

Q-Learning算法是强化学习三种最流行的算法之一，是基于Q值进行迭代的去模型算法。首先强化学习是一个“探索+利用”的迭代过程。智能体通过感知环境的当前状态，来采取某一个动作来探索环境，然后以某种形式的奖励或者回报值来表示探索结果，通过对已获得的回报结果进行评价，寻找当前状态的下一个最优的动作加以利用。“探索+利用”是一个反复循环的过程，直到寻找到最优策略。强化学习基本模型如图3所示。

Q-Learning是强化学习中的一种values-based算法，最终是会学习出一个表格Q-Table，例如在一个游戏中有下面5种状态和4种行为，则表格为：不同的强化学习算法在“探索”“利用”方法及其融合机制上会有所差异。就强化学习的经典算法Q-Learning而言，在探索阶段所用的方法是ε-贪心(ε-greedy)方法，即优先利用最大Q值对应的动作来向前推进探索。Q-Table表格表示5种状态和4种行为如图4所示。

通过Q-table就可以找到每个状态下的最优行为，进而通过找到所有最优的action得到最大的期望奖励。Q-Learning算法主要使用公式(1)来更新Q值：

Q(s，a)←Q(s，a)+α*((R(S′)+v*Max′_a(s′，a′)-Q(s，a)) (1)

依据公式，Q-Learning算法在一个特定状态下将贪婪地对所有可能的路径进行探索，每前进一步都是在寻找当前状态下的局部最优解。

Q-Learning算法由2个实体和4个评价机制组成，如表1所示。

表1 Q-Table结构示意

实体主要有环境和智能体。

(1)环境是学习的目标。即在一个固定的时间，一个环境一定可以找到一个确切的状态(State)，当智能体在这个环境有了活动过程，其状态就会发生改变。因此智能体须对其活动结果(下一个状态)有一个大概的预估算，从而形成下一个新的决策。

(2)智能体是学习者的身份，因此智能体是通过采取动作(Action)来适应当前的环境。即智能体需要通过不断地进行尝试不同的状态下可能会产生的动作所带来的效果，来认知当前环境来采取合适的动作来继续探索。

评价机制包括以下4个基本方面。

(1)策略π

在强化学习过程中，智能体在某个特定状态会采取什么样的动作以及到下一个新的状态均是由策略所决定的。即从状态到动作的映射就是一种策略过程。特殊情况，当环境存在突发障碍或者陷阱时，策略就必须保证下个动作不能碰到障碍或者掉入陷阱。因此策略的好坏决定了智能体行动的好坏，从而决定了整个算法的学习质量。

(2)回报R(s)

回报R(s)是智能体处在某个状态下可能形成正确决策的概率：可能性如果大则回报值就大，反之亦然。强化学习的任务就是不断地进行探索来改变当前状态，达到寻优目的。因此，一个状态s的回报是在不断地探索中加以完善修改的。

(3)状态值函数V(s)

如上所述，环境的变化在强化学习中表现为状态的更新。值函数将理论上的回报值转化成可以计算的V值、并通过反复迭代来实现强化学习的目标。

(4)动作值函数Q(s，a)

在强化学习中，状态的转移是通过执行动作来完成的。一个状态下如果实施了某个动作就到达一个全新的状态。这在机器人系统或者棋牌对弈系统中得到充分体现。例如，在围棋对弈的过程中，每落一个棋子就意味着棋局的状态发生改变，但是这种改变需要持续进行评价。同样，在机器人路线规划中，机器人每前进一步意味着新的状态产生，但是这并不意味着接近目标点，所以每个动作引发的状态更新都需要进行评价并累计到之前的奖励回报中。

Q-Learning算法的特点是根据潜在的状态与动作来构建一张二维表(被称为Q-table)来存储Q值，然后通过查表方式获得Q值来寻找最优的动作。该方法具有简单直接的特点，在环境大小适中的应用场景中(如简单棋牌对弈等)，已经证明非常有效。强化学习不同于目前广泛研究的监督学习和无监督学习，它的学习不是被动地从已有数据中进行归纳或提取，而是一个主动适应环境并进行自我完善的过程。强化学习是从计算机科学、数学、神经学等多个相关学科交叉发展而来的，已经成为机器学习的主要分支之一。

2.2数据预处理的流程与方法

2.2.1数据空值和异常值的处理方法

数据可能存在的问题有数据缺失、数据点的异常、数据需要整体的归一化标准。对于数据本身的缺失和异常可以通过离散点的检验和处理：一种是对整个序列数据进行检查，找到某一个远离序列平均值过多的点，则为离群点，用一定的方法进行处理；另一种方法则是对序列数据进行模型分析，然后针对拟合得到的模型剩余的序列，计算出特定的统计量，来分辨出离群点。

对于缺失值的补足，由于在数据记录的过程中，难免存在遗漏未记录的数据，有人为失误的原因、也有记录仪器机械故障的原因，或者因为观测方法的不科学等等，缺失值会破坏数据的连续性，所以要对缺失的数据进行补足，方法有根据变化规律或者数据的运动轨迹采用科学方法对其进行估计和推测，具体有发展速度推算法、平滑法、比例推算法等。一般来说，数据丢失的时间间隔不会太长，并且缺失数据与其相邻数据的差别不会太大，因此按照常理来说对于本发明实验所采用的数据采用均值法来进行缺失值的补足，具体做法是找到缺失值左右两个数据取平均值即可，但是出于本发明实验研究的目的，没有采用这些数据处理方法。

2.2.2提取与聚类分析流量数据的方法

数据预处理方面，对于原始数据，本发明需要区分汇入层和汇聚层数据，确定性的流量特征和概率性的流量特征，前者是指可以用来直接判断此类业务的类型的特征，比如现在常用于手机解锁的指纹数据就是确定性流量特征，后者是针对业务的流量统计特征和行为特征，一般来说，这种业务流量数据的百分之五十以上均能具体表达该具体业务的种类，概率性特征流量可以分为单个流量特征、多个相关流量特征、以及整体流量的特征。

可以通过流属性统计特征的识别分类方法的核心思想，利用数据挖掘和机器学习领域的统计决策、分类、聚类的方法，可以对原始网络流量数据进行流属性统计特征分析，选取合适的机器学习算法，对数据进行分类提取，通过数据包层面特征、数据流层面特征、连接层面特征三大类找出相关流的数据特征，在数据端口出区分开汇聚层和接入层数据，方便后续实验预测的模型训练。

2.3数据集介绍与分析

由于本发明研究内容的数据取自某企业的日常网络流量进出的记录，比较接近于生活实际，而且由于数据记录的有一定久远，数据本身存在某些日子出现较多的空值、或者业务繁忙的时候出现很多异常值，但是也还是会有很多完整的数据日，针对数据特点，大致可以表现如图5所示。

从图中可以看出，数据存在一定的空值和异常值的情况，三角形代表完整数据，圆圈代表空值情况，叉叉说明数值存在异常，因为这些数据的差异性，会对后续的预测模型造成一定影响，因此在进入训练之前，要对数据根据实验目的进行改进策略上的Q-Learning强化学习预处理，以为后续预测做出更好的铺垫。

3、基于流程压缩的快速估值网络模型

一般来说对于数据的空值、异常值情况，会采用数据清洗和增强填充数据的方法对数据进行清洗操作，可以在一定范围内提升模型的预测精度，但是引入这些额外的操作会增加模型的负担和GPU在运行过程中过多的内存占用和资源消耗，因此本发明提出了一种快速估值网络，如图6所示可以看出区别，先用快速估值网络模型进行参数寻找，通过实验设计选择了一种新的策略，每过百分之五进行一次迭代，省略了对数据的零值和异常值的处理操作，直接进行十代的迭代处理，当找到最优参数后，再进行对数据的清洗和增强处理，这样省略了很多无用的时间具体为什么选取epoch＝10，后面会做出分析解释。

为了解释为何选择epoch＝10可以从图7看出变化，可以看出在epoch＝10之前，baseline的整体loss是一直处于快速下降的过程，也就是快速的收敛阶段，此时的epoch的增加对于数据处理有实质性作用，但是在epoch＝10之后，整个收敛阶段就进入了长尾阶段，可以看出，虽然后续随着epoch变多，仍然会下降一点点，但是此时的性价比就很低了，因此综合性价比和现实的考虑，为了应用领域的广泛性，选择了性价比最高的epoch＝10。

定义了快速估值网络模型后，为了看出网络模型变化前后，不会有太大的出入，通过Q-Learning策略中的reward指标对网络进行反馈，学习期望价值，从当前一步到所有后续步骤，总期望获取最大价值(Q值、Value)。Action决定Q值函数中每一个state下的最佳策略，在每个state下，选择Q值最高的Action。并且网络不依赖环境模型。当前Action获得Reward，加下一步可获得最大期望价值，当前状态行动奖励，加下一状态行动最大期望价值。学习速率决定新获取样本信息覆盖率前掌握到信息比率，通常设定较小值，保证学习过程稳定，确保最后收敛性。Q-Learning需要初始值Q，通过定义比较高初始值，鼓励模型多探索。这种网络可能在精度上会有一定的损失，但是速率可以得到极大的提升，可以从图8可以看出，整体的精度对比上，与处理后的数据在变化趋势上是趋于一致的。

如图8所示，纵坐标的SMAPE值是对称平均绝对百分比误差，它是基于百分比(或者相对)误差的一种精确性度量，它的计算方式可以用公式(2)所示。用于衡量网络模型好坏的指标，SMAPE值越低越好，SMAPE是针对MAPE的问题的修正指标，可以较好的避免MAPE因为真实值小而计算结果太大的问题。

其中A_t是真实值，F_t是预测值。

可以从图示8中看出，虽然经过数据清洗和数据填充后的网络在整体效果是仍然是最优的结果，但是快速估值网络在取epoch＝10的时候，整体的变化趋势与处理后的网络是几乎一致的，也就是变化规律没有出入，并且在准确率上保持着一样高的水准，100代到10代的迭代减少，大幅提升了速度，所以本论文采用的快速估值网络在实用性上具备更好的广泛适用性。

通过提出的这种快速估值网络进行数据的存储运输实验，可以明显看出前后的速度优化的提升，并且精度上并不会落后很多，为了进一步论证这种快速估值网络的可行性，可以从图9展示看出在实际的时间节省上的对比。

从实验图示9可以不难看出，数据清洗耗时(采用非空值率93％为标准)32秒；数据增强耗时(采取拉普拉斯算法卷积核长度为5)：64秒→56秒，因为如果进行数据清洗，在去除部分数据后，数据增强速度是会得到提升，其中训练过程选择(epoch＝100)，耗时118秒，然而选择训练(epoch＝10)，耗时27秒，速度提升是显著的，大概提升了六倍速度，是很可观的。因此不管是对数据进行清洗处理还是增强填充处理都对数据迭代过程中带来巨大的算力和资源消耗，培训时间的成本上，前三个图的消耗都很高，而快速估值网络中的消耗几乎可以忽略不计，可以证实本快速估值网络在速度上具有绝对的领先优势。

3、基于混合精度的模型训练流程

对于计算机上流通的数据类型，是以浮点数为最常用的一类，常用的浮点数有双精度和单精度，不过由于现在数据量日益增长和纬度的变大变广，于是有人提出了一种半精度的数据，双精度是64位数据，单精度是32位，半精度可以达到16位的低存储占用。作为研究来说，双精度和单精度是为了计算而用，半精度是为了降低数据传输和存储的成本，因为在很多的应用场景中，深度学习领域，比如本发明的预测模型，用半精度的数据，对比单精度来可以节约一半的数据传输成本和资源消耗，并且深度学习领域对于数据都是上亿个参数的选取，因此半精度传输对于研究是很有价值意义的。图10展示了双精度浮点数、单精度浮点数、半精度浮点数的区别：

float16半精度浮点数，包括：1个符号位，5个指数位，10个尾数位；

float32单精度浮点数，包括：1个符号位，8个指数位，23个尾数位；

float64双精度浮点数，包括：1个符号位，11个指数位，52个尾数位。

可以看出三种不同精度的浮点数，都是分成3部分，分别是符号位、指数和尾数，不同精度只不过是指数和尾数位的长度不一样，所以说在保持对数据精度的同时，可以在空间上很好的节约了空间和内存资源消耗，通过对数据精度进行压缩，可以让模型算法和数据的预先处理降低了成本消耗。两者在正常网络数据处理和快速估值网络的单通对比图可用图11所示。

从图11对比可以看出，在对于数据存储和运行过程，在将数据从单精度浮点32转换成半精度16的时候，时间消耗上得到了一定的节省，大概可以提升百分之三十的性能，进一步提高了数据预处理的效果，说明了本实验思路的可行性。

为了更进一步的展示从单精度数据转换成半精度数据的可行性，本发明会从以下两张图对loss值降低过程的对比和放大长尾阶段的效果进行高清对比来验证，可以从下面两张图的不难看出的是：第一张图12是单精度数据和半精度数据的loss值对比，loss值越小越好，第一张图看出整体趋势是大致一样，经过epoch＝10代后，在长尾阶段可能看不太清变化趋势，于是本文将后半段长尾部分进行了图片放大，可以从图13明显看到大概放大了60倍，可以看出float16半精度数据虽然在loss值下降过程中没有那么稳定，但总体向下降低的loss值趋势和float32单精度数据是一样，所以出于实验速度的考虑，可以用float16半精度数据代替float32单精度，实现一种数据的优化处理。

4、基于改进Q-Learning的最优化参数搜索实验

为了检验本发明提出的改进Q-Learning区别于传统的暴力穷举机制在搜索效率上的区别，本发明在某基于深度学习的流量预测系统上进行了搜索最优化参数的实验。实验的基础是通过改进后的QV-QL算法来实现的，为了更好地理解实验进行参数搜索上的过程，表2通过伪代码的形式展示了结合快速估值网络与改进Q-Learning算法的运行过程：

表2 Quick Valuation Q-Learning算法

下面通过实验图来展示搜索过程，首先图14展示了通过穷举的方式获取的SAMPE全解空间作为baseline。在此baseline的基础上，通过将本发明提出的改进Q-Learning算法在同一系统上进行最优化参数搜索，最后将整个搜索过程以手工标注的方式标注到baseline上。

图15展示了寻优的第一代episode，从非空值率50％出发，分别执行动作集中的左右动作，在本发明实验中有两个动作，即向左和向右搜索。同时向两个方向搜索分别找到一个膝点和一个肘点。在比较了这两点的回报值，也就是SMAPE值后，取最佳回报值所在点作为下一代episode的起始点，本代episode结束。

图16展示了寻优的第二代episode，从上一代episode给出的最佳回报值所在点出发向两边搜索，直到非空值率抵达边界，搜索结束。比较边界点的回报值与当前最佳回报值，返回其中更佳的作为寻找的最优点。

通过实验得出，采用改进Q-Learning对比穷举策略能够节省回报值的计算次数36次，这对于采用深度学习模型导致回报函数计算复杂度偏高的场景具有重要的意义。

本发明提供的基于快速估值网络模型与改进Q-Learning的参数最优化搜索算法QV-QL，提出了基于流程压缩的快速估值网络模型，基于流量预测模型出发，通过省略原模型中的预处理步骤并降低预测模型的训练代数的策略，构建出一个能够用于快速估算回报值的网络模型；提出了基于混合精度的模型训练流程，通过压缩数据尾款加快算法的计算性能。

本发明能够大幅度的提高了搜索最优化非空值率参数的速度，较好的解决最优化搜索步骤多、耗时长、计算资源消耗大的问题。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种网络流量预测数据预处理阶段的参数最优化方法，其特征在于，应用于数据信息处理终端，所述网络流量预测数据预处理阶段的参数最优化方法包括以下步骤：

步骤二，进行基于流程压缩的快速估值网络模型的构建；

步骤三，进行基于混合精度的模型训练；

步骤四，进行基于改进Q-Learning的最优化参数搜索。

2.如权利要求1所述的网络流量预测数据预处理阶段的参数最优化方法，其特征在于，步骤一中，所述数据预处理，还包括：

3.如权利要求1所述的网络流量预测数据预处理阶段的参数最优化方法，其特征在于，步骤二中，所述基于流程压缩的快速估值网络模型的构建，包括：

提出快速估值网络，先用快速估值网络模型进行参数寻找，通过实验设计选择新的策略，每过5％进行一次迭代，省略对数据的零值和异常值的处理操作，直接进行十代的迭代处理，当找到最优参数后，再进行对数据的清洗和增强处理，且选取epoch＝10；

通过Q-Learning策略中的reward指标对网络进行反馈，学习期望价值，从当前一步到所有后续步骤，总期望获取最大价值Q值、Value；Action决定Q值函数中每一个state下的最佳策略，在每个state下，选择Q值最高的Action，且网络不依赖环境模型；当前Action获得Reward，加下一步可获得最大期望价值，当前状态行动奖励，加下一状态行动最大期望价值；学习速率决定新获取样本信息覆盖率前掌握到信息比率，通常设定较小值；Q-Learning初始值Q，通过定义比较高初始值，鼓励模型多探索；

其中，A_t是真实值，F_t是预测值。

4.如权利要求1所述的网络流量预测数据预处理阶段的参数最优化方法，其特征在于，步骤三中，所述基于混合精度的模型训练，包括：

5.如权利要求1所述的网络流量预测数据预处理阶段的参数最优化方法，其特征在于，步骤四中，所述基于改进Q-Learning的最优化参数搜索，包括：

其中，所述结合快速估值网络与改进Q-Learning算法如下：

初始化奖励函数r：快速估值模型

初始化Q(s,a)，s：0.5

初始化最大episode值

重复执行(最大episode检测)：

重复执行膝肘点检测或者抵达s的边界：

从初始s出发，同时执行action集中的所有行为a_n，观察r_n；

根据最大的r值更新Q table：

Q(s，a)←Q(s，a)+[max(r)+max_a′Q(s′，a′)-Q(s，n)]循环结束

循环结束；

所述膝肘点检测：

如果之前的行动函数a′等于现在的行动函数α：

返回是(True)，中断循环，跳出当前episode

否则：

返回不是(False)，继续当前episode迭代。

6.一种应用如权利要求1～5任意一项所述的网络流量预测数据预处理阶段的参数最优化方法的网络流量预测数据预处理阶段的参数最优化系统，其特征在于，应用于数据信息处理终端，所述网络流量预测数据预处理阶段的参数最优化系统包括：

模型训练模块，用于进行基于混合精度的模型训练；

7.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

8.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

9.一种数据信息处理终端，其特征在于，所述数据信息处理终端用于实现如权利要求6所述的网络流量预测数据预处理阶段的参数最优化系统。

10.一种如权利要求6所述的网络流量预测数据预处理阶段的参数最优化系统在中网络流量资源规划的应用。