CN111614520A - 一种基于机器学习算法的idc流量数据预测方法及装置 - Google Patents
一种基于机器学习算法的idc流量数据预测方法及装置 Download PDFInfo
- Publication number
- CN111614520A CN111614520A CN202010450312.8A CN202010450312A CN111614520A CN 111614520 A CN111614520 A CN 111614520A CN 202010450312 A CN202010450312 A CN 202010450312A CN 111614520 A CN111614520 A CN 111614520A
- Authority
- CN
- China
- Prior art keywords
- flow data
- idc
- training
- historical
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 56
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000000605 extraction Methods 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims description 119
- 238000012360 testing method Methods 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 23
- 238000007781 pre-processing Methods 0.000 claims description 19
- 239000013598 vector Substances 0.000 claims description 14
- 238000012795 verification Methods 0.000 claims description 14
- 238000009499 grossing Methods 0.000 claims description 9
- 238000012417 linear regression Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 5
- 238000002203 pretreatment Methods 0.000 claims description 5
- 230000000875 corresponding effect Effects 0.000 description 18
- 230000002159 abnormal effect Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 9
- 238000012935 Averaging Methods 0.000 description 5
- 238000012216 screening Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 230000000737 periodic effect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 208000025174 PANDAS Diseases 0.000 description 1
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0876—Network utilisation, e.g. volume of load or congestion level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/147—Network analysis or design for predicting network behaviour
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Environmental & Geological Engineering (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例公开了一种基于机器学习算法的IDC流量数据预测方法及装置,方法包括:利用滑窗对任一时刻IDC流量数据进行特征提取,以获取流量数据特征;其中,流量数据特征至少包括时序特征、固有特征和统计特征;将上述特征输入到预置的IDC流量数据预测模型中,得到任一时刻的下一时刻的流量数据;预置的IDC流量数据预测模型为,以具有周期性的IDC历史流量数据在历史任一时刻对应的时序特征、固有特征和统计特征为输入,以历史任一时刻的下一时刻的IDC历史流量数据为输出对机器学习模型进行训练得到。本发明实施例通过将提取的流量数据特征输入预置的IDC流量数据预测模型中,得到未来的流量数据,达到了对未来流量数据进行时间序列预测的目的。
Description
技术领域
本发明涉及移动通信网管技术领域。尤其涉及一种基于机器学习算法的IDC流量数据预测方法及装置。
背景技术
随着互联网数据中心(Internet Data Center,IDC)流量数据规模的不断扩大,预测IDC流量数据未来发展趋势显得愈发重要。
现有的IDC机房管理系统中缺乏流量数据预测手段,无法预先感知流量数据的未来发展趋势,无法对流量数据可能造成的阻塞情况进行预警,在故障发生后才应急响应,造成扩容的被动。出于对IDC机房的流量数据情况进行监控的需要,往往委派大量的工作人员驻场对流量数据进行检测,通过观察对比历史的流量数据情况来对IDC机房的运作情况进行管控。这样反复投入人工分析占用较多时间,耗费大量人力资源,且不能很好的掌控IDC业务的异常波动情况,存在监控风险。
为了解决人工检查费时费力效果差的问题,现有的做法通常是采用滑窗平均的方法对时序流量数据进行直接计算。首先工程人员需要将设备采集到的流量数据存储到Oracle数据库中,然后通过环比规则将历史同一时间点的流量数据加权求取均值,来预测流量数据的未来发展趋势。这种方法虽然实施方案简单易于理解,但是没有考虑到窗口内的流量数据趋势,导致预测的趋势总是滞后于实际趋势,预测的结果不准确,鲁棒性较差;对于突发的异常情况或者节假日等特殊日期的预测效果较差,往往会在实际工作中带来较大的误差,影响机房正常运作。在实际的业务开展过程中,流量数据变化如业务开关、宕机、突发访问等情况都会造成该方法的失效。
发明内容
由于现有方法存在上述问题,本发明实施例提出一种基于机器学习算法的IDC流量数据预测方法及装置。
第一方面,本发明实施例提出一种基于机器学习算法的IDC流量数据预测方法,包括:
利用滑窗对任一时刻IDC流量数据进行特征提取,以获取流量数据特征;其中,所述流量数据特征至少包括IDC流量数据的时序特征、固有特征和统计特征;
将所述IDC流量数据的时序特征、固有特征和统计特征输入到预置的IDC流量数据预测模型中,得到所述任一时刻的下一时刻的流量数据;其中,所述预置的IDC流量数据预测模型为,以具有周期性的IDC历史流量数据在历史任一时刻对应的时序特征、固有特征和统计特征为输入,以所述历史任一时刻的下一时刻的IDC历史流量数据为输出对机器学习模型进行训练得到。
在一种可能的实现中,所述利用滑窗对任一时刻IDC流量数据进行特征提取,以获取流量数据特征,包括:
利用滑窗对所述任一时刻IDC流量数据进行特征提取;
利用相关系数法和前向搜素法对提取的特征进行选择,获取到所述任一时刻IDC流量数据的流量数据特征。
在一种可能的实现中,所述利用滑窗对任一时刻IDC流量数据进行特征提取,以获取流量数据特征之前,所述方法还包括:
对所述任一时刻IDC流量数据进行预处理;其中,所述预处理至少包括:缺失值处理、异常值处理和/或数据平滑处理。
在一种可能的实现中,所述预置的IDC流量数据预测模型为,以具有周期性的IDC历史流量数据在历史任一时刻对应的时序特征、固有特征和统计特征为输入,以所述历史任一时刻的下一时刻的IDC历史流量数据为输出对机器学习模型进行训练得到,包括:
获取具有周期性的IDC历史流量数据在历史任一时刻对应的时序特征、固有特征和统计特征,作为训练数据;其中,所述训练数据划分为训练集和测试集;
将所述训练集中的训练数据切分为两部分;其中,训练集中的一部分训练数据用于训练机器学习模型,另一部分训练数据作为验证集;
将用于训练机器学习模型的训练数据和与训练机器学习模型的训练数据对应的下一时刻的IDC历史流量数据输入到LightGBM模型和XGBoost模型中,得到训练后的LightGBM模型和训练后的XGBoost模型;
将所述验证集中的训练数据分别输入训练后的LightGBM模型和训练后的XGBoost模型中,得到两列训练集大小的向量;
将所述两列训练集大小的向量输入次级学习器Linear Regression模型中,得到初步的IDC流量数据预测模型;
利用所述测试集对所述初步的IDC流量数据预测模型进行测试调优,得到所述预置的IDC流量数据预测模型。
第二方面,本发明实施例提出一种基于机器学习算法的IDC流量数据预测装置,包括:
特征提取模块,用于利用滑窗对任一时刻IDC流量数据进行特征提取,以获取流量数据特征;其中,所述流量数据特征至少包括IDC流量数据的时序特征、固有特征和统计特征;
流量数据得到模块,用于将所述IDC流量数据的时序特征、固有特征和统计特征输入到预置的IDC流量数据预测模型中,得到所述任一时刻的下一时刻的流量数据;其中,所述预置的IDC流量数据预测模型为,以具有周期性的IDC历史流量数据在历史任一时刻对应的时序特征、固有特征和统计特征为输入,以所述历史任一时刻的下一时刻的IDC历史流量数据为输出对机器学习模型进行训练得到。
在一种可能的实现中,所述特征提取模块,具体用于:
利用滑窗对所述任一时刻IDC流量数据进行特征提取;
利用相关系数法和前向搜素法对提取的特征进行选择,获取到所述任一时刻IDC流量数据的流量数据特征。
在一种可能的实现中,所述特征提取模块之前,所述装置还包括:预处理模块;
所述预处理模块,具体用于:对所述任一时刻IDC流量数据进行预处理;其中,所述预处理至少包括:缺失值处理、异常值处理和/或数据平滑处理。
在一种可能的实现中,所述预置的IDC流量数据预测模型为,以具有周期性的IDC历史流量数据在历史任一时刻对应的时序特征、固有特征和统计特征为输入,以所述历史任一时刻的下一时刻的IDC历史流量数据为输出对机器学习模型进行训练得到,包括:
获取具有周期性的IDC历史流量数据在历史任一时刻对应的时序特征、固有特征和统计特征,作为训练数据;其中,所述训练数据划分为训练集和测试集;
将所述训练集中的训练数据切分为两部分;其中,训练集中的一部分训练数据用于训练机器学习模型,另一部分训练数据作为验证集;
将用于训练机器学习模型的训练数据和与训练机器学习模型的训练数据对应的下一时刻的IDC历史流量数据输入到LightGBM模型和XGBoost模型中,得到训练后的LightGBM模型和训练后的XGBoost模型;
将所述验证集中的训练数据分别输入训练后的LightGBM模型和训练后的XGBoost模型中,得到两列训练集大小的向量;
将所述两列训练集大小的向量输入次级学习器Linear Regression模型中,得到初步的IDC流量数据预测模型;
利用所述测试集对所述初步的IDC流量数据预测模型进行测试调优,得到所述预置的IDC流量数据预测模型。
第三方面,本发明实施例还提出一种电子设备,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如下步骤:
利用滑窗对任一时刻IDC流量数据进行特征提取,以获取流量数据特征;其中,所述流量数据特征至少包括IDC流量数据的时序特征、固有特征和统计特征;将所述IDC流量数据的时序特征、固有特征和统计特征输入到预置的IDC流量数据预测模型中,得到所述任一时刻的下一时刻的流量数据;其中,所述预置的IDC流量数据预测模型为,以具有周期性的IDC历史流量数据在历史任一时刻对应的时序特征、固有特征和统计特征为输入,以所述历史任一时刻的下一时刻的IDC历史流量数据为输出对机器学习模型进行训练得到。
第四方面,本发明实施例还提出一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机程序,所述计算机程序使所述计算机执行如下步骤:
利用滑窗对任一时刻IDC流量数据进行特征提取,以获取流量数据特征;其中,所述流量数据特征至少包括IDC流量数据的时序特征、固有特征和统计特征;将所述IDC流量数据的时序特征、固有特征和统计特征输入到预置的IDC流量数据预测模型中,得到所述任一时刻的下一时刻的流量数据;其中,所述预置的IDC流量数据预测模型为,以具有周期性的IDC历史流量数据在历史任一时刻对应的时序特征、固有特征和统计特征为输入,以所述历史任一时刻的下一时刻的IDC历史流量数据为输出对机器学习模型进行训练得到。
由上述技术方案可知,本发明实施例通过将任一时刻的IDC流量数据的流量数据特征输入预置的IDC流量数据预测模型中,得到任一时刻的下一时刻的流量数据,达到了对未来流量数据进行时间序列预测的目的,解决了人工检查流量数据费时费力且效果差的问题,解决了滑窗平均的方法没有考虑到窗口内的流量数据趋势,导致预测的趋势总是滞后于实际趋势,预测的结果不准确,鲁棒性较差的问题,解决了对于突发的异常情况或者节假日等特殊日期的预测效果较差,往往会在实际工作中带来较大的误差,影响机房正常运作的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。
图1为本发明实施例提供的一种基于机器学习算法的IDC流量数据预测方法的原理框图;
图2为本发明实施例提供的具有周期性的IDC历史流量数据示意图;
图3为本发明实施例提供的一种基于机器学习算法的IDC流量数据预测方法的流程示意图;
图4为本发明实施例提供的一种基于机器学习算法的IDC流量数据预测方法的另一流程示意图;
图5为本发明实施例提供的五折交叉验证示意图;
图6为本发明实施例提供的一种基于机器学习算法的IDC流量数据预测装置的结构示意图;
图7为本发明实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
为了实现对IDC流量数据的预测,可以采用人工判断的方法,但这种方法费时费力,且缺乏可靠性。如果使用设定滑窗规则求平均的方式进行IDC流量数据计算。这种方式虽然实施简单,但是也存在一些缺点,如没有考虑到窗口内的数据趋势,导致预测的趋势总是滞后于实际趋势,预测的结果不准确,鲁棒性较差;对于突发的异常情况或者节假日等特殊日期的预测效果较差,往往会在实际工作中带来较大的误差,影响机房正常运作。本发明对IDC历史流量数据做周期性筛选,筛选出具有周期性的IDC历史流量数据。然后对筛选出的具有周期性的IDC历史流量数据进行预处理。对某一历史时刻的预处理后的IDC历史流量数据进行时序特征、固有特征和统计特征提取,将这些时序特征、固有特征和统计特征输入到模型中,以某一历史时刻的下一时刻的IDC历史流量数据为标签,进行训练,得到一个预测未来IDC流量数据的回归模型,对新的IDC流量数据进行预测。
图1为本发明实施例提供的一种基于机器学习算法的IDC流量数据预测方法的原理框图。首先,进行步骤101数据提取。具体地,利用cx_Oracle函数库从Oracle数据库读取最近30天的IDC历史流量数据;其次,进行步骤102数据筛选。对步骤101中提取到的最近30天的IDC历史流量数据做周期性筛选,筛选出具有周期性的IDC历史流量数据,作为IDC流量数据预测的基础。具体地,构建周期性参数,如ACF、PACF、时序分解和时序方差。将周期性参数分别与其预设阈值进行比较,得到具有周期性的IDC历史流量数据和不具有周期性的IDC历史流量数据。具有周期性的IDC历史流量数据如图2所示;再者,进行步骤103数据划分。将步骤102中筛选出的具有周期性的IDC历史流量数据进行数据划分,划分为训练集和测试集;然后,进行步骤104数据预处理。对训练集和测试集中的具有周期性的IDC历史流量数据进行预处理,预处理至少包括:缺失值处理、异常值处理和数据平滑,以实现IDC流量数据去噪;缺失值处理是指采用均值补全方法补全缺失的流量数据,即根据同类其他流量数据该属性的均值补全缺失值。异常值处理是指使用3Sigma算法找到所有在统计特征上具有数值异常的离心点流量数据,删除这些异常的流量数据,并使用线性插值的方式对于非连续异常点(只有1个异常点单独出现的情况)进行填充,对于连续的异常点(连续出现N个异常点的情况),使用往期正常的流量数据求取均值的方法进行填充。数据平滑处理是指流量数据的量级差异巨大,大的量级每小时的有效流量数据有1014个Byte,小的量级每小时的有效流量数据仅有1011个Byte),对所有流量数据采用Log平滑的方式进行数据转换;接下来,进行步骤105特征工程。提取预处理后的历史任一时刻的IDC历史流量数据的原始特征106,即统计特征、时序特征和固有特征;时序特征至少包括:任一时刻对应的前一天的该时刻的环比流量值、前一周的该时刻的环比流量值、当天前三小时的趋势值(当天近三小时流量变化的累计值)、近一周该时刻下的趋势值(该时刻下的当天与前一天的流量值做差,七天取平均)。固有特征至少包括:IDC名称和上载流量。统计特征至少包括:近七天的任一时刻下的方差、标准差、最大值、最小值、峰值、脉冲值和变异系数。接下来,构建特征集合107。以统计特征、时序特征和固有特征为输入,以历史任一时刻的下一时刻的IDC流量数据为标签;接下来,进行机器学习模型训练。将步骤107中得到的输入和标签一起输入LightGBM模型和XGBoost模型中,进行机器学习。接下来,进行步骤109模型融合。使用次级学习器LinearRegression模型对训练后的LightGBM模型和XGBoost模型进行融合;最后,进行步骤110,对融合后的模型进行评估。通过平均绝对误差(MAE,Mean Absolute Error)可以知道模型的预测效果。
图3为本发明实施例提供的一种基于机器学习算法的IDC流量数据预测方法的流程示意图。在该流程示意图中,在数据层304,使用历史前一个月数据的前23天数据作为训练集,后7天数据作为测试集即步骤307和步骤308。在特征工程阶段303,使用滑窗统计时序特征,即步骤306和步骤309。在模型层302,时序特征作为训练LightGBM模型和XGBoost模型的基础,对LightGBM模型和XGBoost模型进行训练。然后对训练后的LightGBM模型和XGBoost模型进行融合,即步骤311。在融合层301得到最终结果312。
图4为本发明实施例提供的一种基于机器学习算法的IDC流量数据预测方法的另一流程示意图,该流程示意图包括:S401-S403;
S401,对任一时刻IDC流量数据进行预处理。
在本发明实施例中,作为一种可选地实现方式,在对任一时刻IDC流量数据进行特征提取之前,先对其进行预处理,以实现数据去噪。预处理至少包括缺失值处理、异常值处理和数据平滑处理。
S402,利用滑窗对任一时刻IDC流量数据进行特征提取,以获取流量数据特征;其中,所述流量数据特征至少包括IDC流量数据的时序特征、固有特征和统计特征。
在本发明实施例中,为预测任一时刻的下一时刻的IDC流量数据,作为一种可选地实现方式,需要先获取到任一时刻的IDC流量数据的流量数据特征;其中,流量数据特征至少包括IDC流量数据的时序特征、固有特征和统计特征。具体地,利用滑窗对任一时刻IDC流量数据进行特征提取;利用相关系数法和前向搜素法对提取的特征进行选择,获取到任一时刻IDC流量数据的流量数据特征。在本发明实施例中,采用一个大小为预设值的滑动窗口对IDC流量数据进行步长为预设步长的滑动遍历,在每个窗口数据内构建特征。具体地,利用Pandas的时间平移方法Shift,从周期性、稳定性和趋势性三个方面按时间对原始数据进行特征提取,其中主要提取任一时刻对应的前一天的该时刻的环比流量值、前一周的该时刻的环比流量值、当天前三小时的趋势值(当天近三小时流量变化的累计值)、近一周该时刻下的趋势值(该时刻下的当天与前一天的流量值做差,七天取平均)、IDC名称、上载流量以及对于近七天的该时刻下的方差、标准差、最大值、最小值、峰值、脉冲值、变异系数等可以反应流量波动性的流量数据特征。然后,使用相关系数法(Pearson correlation)将高线性相关的特征剔除。再使用前向搜素法(SBS,Sequential Backward Selection),通过向前遍历的手段逐一遍历每一个特征,通过评估目标函数(即损失)的大小对特征进行筛选。最后筛选出20个最重要的特征输入模型中。
S403,将所述IDC流量数据的时序特征、固有特征和统计特征输入到预置的IDC流量数据预测模型中,得到所述任一时刻的下一时刻的流量数据;其中,所述预置的IDC流量数据预测模型为,以具有周期性的IDC历史流量数据在历史任一时刻对应的时序特征、固有特征和统计特征为输入,以所述历史任一时刻的下一时刻的IDC历史流量数据为输出对机器学习模型进行训练得到。
在本发明实施例中,作为一种可选地实现方式,获取具有周期性的IDC历史流量数据在历史任一时刻对应的时序特征、固有特征和统计特征,作为训练数据;其中,所述训练数据划分为训练集和测试集;将所述训练集中的训练数据切分为两部分;其中,训练集中的一部分训练数据用于训练机器学习模型,另一部分训练数据作为验证集;将用于训练机器学习模型的训练数据和与训练机器学习模型的训练数据对应的下一时刻的IDC历史流量数据输入到LightGBM模型和XGBoost模型中,得到训练后的LightGBM模型和训练后的XGBoost模型;将所述验证集中的训练数据分别输入训练后的LightGBM模型和训练后的XGBoost模型中,得到两列训练集大小的向量;将所述两列训练集大小的向量输入次级学习器LinearRegression模型中,得到初步的IDC流量数据预测模型;利用所述测试集对所述初步的IDC流量数据预测模型进行测试调优,得到所述预置的IDC流量数据预测模型。具体地,在本发明实施例中,为获得到具有周期性的IDC历史流量数据,首先利用cx_Oracle函数库从Oracle数据库读取最近30天的IDC历史流量数据;其次,对最近30天的IDC历史流量数据做周期性筛选,筛选出具有周期性的IDC历史流量数据,作为IDC流量数据预测的基础。具体地,构建周期性参数,如ACF、PACF、时序分解和时序方差。将周期性参数分别与其预设阈值进行比较,得到具有周期性的IDC历史流量数据和不具有周期性的IDC历史流量数据。具有周期性的IDC历史流量数据如图2所示;然后,对具有周期性的IDC历史流量数据进行预处理,以实现数据去噪;再者,获取预处理后的具有周期性的IDC历史流量数据的时序特征、固有特征和统计特征,作为训练数据;其中,所述训练数据划分为训练集和测试集。对所述训练集中的训练数据进行五折切分,如图5所示;其中,四折训练数据用于训练,一折训练数据作为验证集;利用四折训练数据对LightGBM模型和XGBoost模型进行训练,得到训练后的LightGBM模型和训练后的XGBoost模型;使用Stacking结合策略对训练后的LightGBM模型和训练后的Xgboost模型进行融合,次级学习器选择Linear Regression模型。具体地,将所述验证集中的训练数据分别输入训练后的LightGBM模型和训练后的XGBoost模型中,得到两列训练集大小的向量;将所述两列训练集大小的向量输入次级学习器LinearRegression模型中,得到初步的IDC流量数据预测模型。利用所述测试集对所述初步的IDC流量数据预测模型进行测试调优,得到所述预置的IDC流量数据预测模型。
本发明通过将任一时刻的IDC流量数据的流量数据特征输入预置的IDC流量数据预测模型中,得到任一时刻的下一时刻的流量数据,达到了对未来流量数据进行时间序列预测的目的,解决了人工检查流量数据费时费力且效果差的问题,解决了滑窗平均的方法没有考虑到窗口内的流量数据趋势,导致预测的趋势总是滞后于实际趋势,预测的结果不准确,鲁棒性较差的问题,解决了对于突发的异常情况或者节假日等特殊日期的预测效果较差,往往会在实际工作中带来较大的误差,影响机房正常运作的问题。
图6为本发明实施例提供的一种基于机器学习算法的IDC流量数据预测装置的结构示意图,该结构示意图包括:
特征提取模块601,用于利用滑窗对任一时刻IDC流量数据进行特征提取,以获取流量数据特征;其中,所述流量数据特征至少包括IDC流量数据的时序特征、固有特征和统计特征;
流量数据得到模块602,用于将所述IDC流量数据的时序特征、固有特征和统计特征输入到预置的IDC流量数据预测模型中,得到所述任一时刻的下一时刻的流量数据;其中,所述预置的IDC流量数据预测模型为,以具有周期性的IDC历史流量数据在历史任一时刻对应的时序特征、固有特征和统计特征为输入,以所述历史任一时刻的下一时刻的IDC历史流量数据为输出对机器学习模型进行训练得到。
在一种可能的实现中,所述特征提取模块601,具体用于:
利用滑窗对所述任一时刻IDC流量数据进行特征提取;
利用相关系数法和前向搜素法对提取的特征进行选择,得到所述任一时刻IDC流量数据的流量数据特征。
在一种可能的实现中,所述特征提取模块601之前,所述装置还包括:预处理模块;
所述预处理模块,具体用于:对所述任一时刻IDC流量数据进行预处理;其中,所述预处理至少包括:缺失值处理、异常值处理和/或数据平滑处理。
在一种可能的实现中,
所述预置的IDC流量数据预测模型为,以具有周期性的IDC历史流量数据在历史任一时刻对应的时序特征、固有特征和统计特征为输入,以所述历史任一时刻的下一时刻的IDC历史流量数据为输出对机器学习模型进行训练得到,包括:
获取具有周期性的IDC历史流量数据在历史任一时刻对应的时序特征、固有特征和统计特征,作为训练数据;其中,所述训练数据划分为训练集和测试集;
将所述训练集中的训练数据切分为两部分;其中,训练集中的一部分训练数据用于训练机器学习模型,另一部分训练数据作为验证集;
将用于训练机器学习模型的训练数据和与训练机器学习模型的训练数据对应的下一时刻的IDC历史流量数据输入到LightGBM模型和XGBoost模型中,得到训练后的LightGBM模型和训练后的XGBoost模型;
将所述验证集中的训练数据分别输入训练后的LightGBM模型和训练后的XGBoost模型中,得到两列训练集大小的向量;
将所述两列训练集大小的向量输入次级学习器Linear Regression模型中,得到初步的IDC流量数据预测模型;
利用所述测试集对所述初步的IDC流量数据预测模型进行测试调优,得到所述预置的IDC流量数据预测模型。
本发明实施例所述的一种基于机器学习算法IDC流量数据预测装置可以用于执行上述方法实施例,其原理和技术效果类似,此处不再赘述。
参照图7,所述电子设备,包括:处理器(processor)701、存储器(memory)702和总线703;
其中,
所述处理器701和存储器702通过所述总线703完成相互间的通信;
所述处理器701用于调用所述存储器702中的程序指令,以执行如下步骤:
利用滑窗对任一时刻IDC流量数据进行特征提取,以获取流量数据特征;其中,所述流量数据特征至少包括IDC流量数据的时序特征、固有特征和统计特征;将所述IDC流量数据的时序特征、固有特征和统计特征输入到预置的IDC流量数据预测模型中,得到所述任一时刻的下一时刻的流量数据;其中,所述预置的IDC流量数据预测模型为,以具有周期性的IDC历史流量数据在历史任一时刻对应的时序特征、固有特征和统计特征为输入,以所述历史任一时刻的下一时刻的IDC历史流量数据为输出对机器学习模型进行训练得到。
本实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如下步骤:
利用滑窗对任一时刻IDC流量数据进行特征提取,以获取流量数据特征;其中,所述流量数据特征至少包括IDC流量数据的时序特征、固有特征和统计特征;将所述IDC流量数据的时序特征、固有特征和统计特征输入到预置的IDC流量数据预测模型中,得到所述任一时刻的下一时刻的流量数据;其中,所述预置的IDC流量数据预测模型为,以具有周期性的IDC历史流量数据在历史任一时刻对应的时序特征、固有特征和统计特征为输入,以所述历史任一时刻的下一时刻的IDC历史流量数据为输出对机器学习模型进行训练得到。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于机器学习算法的IDC流量数据预测方法,其特征在于,包括:
利用滑窗对任一时刻IDC流量数据进行特征提取,以获取流量数据特征;其中,所述流量数据特征至少包括IDC流量数据的时序特征、固有特征和统计特征;
将所述IDC流量数据的时序特征、固有特征和统计特征输入到预置的IDC流量数据预测模型中,得到所述任一时刻的下一时刻的流量数据;其中,所述预置的IDC流量数据预测模型为,以具有周期性的IDC历史流量数据在历史任一时刻对应的时序特征、固有特征和统计特征为输入,以所述历史任一时刻的下一时刻的IDC历史流量数据为输出对机器学习模型进行训练得到。
2.根据权利要求1所述的方法,其特征在于,所述利用滑窗对任一时刻IDC流量数据进行特征提取,以获取流量数据特征,包括:
利用滑窗对所述任一时刻IDC流量数据进行特征提取;
利用相关系数法和前向搜素法对提取的特征进行选择,获取到所述任一时刻IDC流量数据的流量数据特征。
3.根据权利要求1所述的方法,其特征在于,所述利用滑窗对任一时刻IDC流量数据进行特征提取,以获取流量数据特征之前,所述方法还包括:
对所述任一时刻IDC流量数据进行预处理;其中,所述预处理至少包括:缺失值处理、异常值处理和/或数据平滑处理。
4.根据权利要求1所述的方法,其特征在于,所述预置的IDC流量数据预测模型为,以具有周期性的IDC历史流量数据在历史任一时刻对应的时序特征、固有特征和统计特征为输入,以所述历史任一时刻的下一时刻的IDC历史流量数据为输出对机器学习模型进行训练得到,包括:
获取具有周期性的IDC历史流量数据在历史任一时刻对应的时序特征、固有特征和统计特征,作为训练数据;其中,所述训练数据划分为训练集和测试集;
将所述训练集中的训练数据切分为两部分;其中,训练集中的一部分训练数据用于训练机器学习模型,另一部分训练数据作为验证集;
将用于训练机器学习模型的训练数据和与训练机器学习模型的训练数据对应的下一时刻的IDC历史流量数据输入到LightGBM模型和XGBoost模型中,得到训练后的LightGBM模型和训练后的XGBoos t模型;
将所述验证集中的训练数据分别输入训练后的LightGBM模型和训练后的XGBoost模型中,得到两列训练集大小的向量;
将所述两列训练集大小的向量输入次级学习器Linear Regression模型中,得到初步的IDC流量数据预测模型;
利用所述测试集对所述初步的IDC流量数据预测模型进行测试调优,得到所述预置的IDC流量数据预测模型。
5.一种基于机器学习算法的IDC流量数据预测装置,其特征在于,包括:
特征提取模块,用于利用滑窗对任一时刻IDC流量数据进行特征提取,以获取流量数据特征;其中,所述流量数据特征至少包括IDC流量数据的时序特征、固有特征和统计特征;
流量数据得到模块,用于将所述IDC流量数据的时序特征、固有特征和统计特征输入到预置的IDC流量数据预测模型中,得到所述任一时刻的下一时刻的流量数据;其中,所述预置的IDC流量数据预测模型为,以具有周期性的IDC历史流量数据在历史任一时刻对应的时序特征、固有特征和统计特征为输入,以所述历史任一时刻的下一时刻的IDC历史流量数据为输出对机器学习模型进行训练得到。
6.根据权利要求5所述的装置,其特征在于,所述特征提取模块,具体用于:
利用滑窗对所述任一时刻IDC流量数据进行特征提取;
利用相关系数法和前向搜素法对提取的特征进行选择,获取到所述任一时刻IDC流量数据的流量数据特征。
7.根据权利要求5所述的装置,其特征在于,所述特征提取模块之前,所述装置还包括:预处理模块;
所述预处理模块,具体用于:对所述任一时刻IDC流量数据进行预处理;其中,所述预处理至少包括:缺失值处理、异常值处理和/或数据平滑处理。
8.根据权利要求5所述的装置,其特征在于,所述预置的IDC流量数据预测模型为,以具有周期性的IDC历史流量数据在历史任一时刻对应的时序特征、固有特征和统计特征为输入,以所述历史任一时刻的下一时刻的IDC历史流量数据为输出对机器学习模型进行训练得到,包括:
获取具有周期性的IDC历史流量数据在历史任一时刻对应的时序特征、固有特征和统计特征,作为训练数据;其中,所述训练数据划分为训练集和测试集;
将所述训练集中的训练数据切分为两部分;其中,训练集中的一部分训练数据用于训练机器学习模型,另一部分训练数据作为验证集;
将用于训练机器学习模型的训练数据和与训练机器学习模型的训练数据对应的下一时刻的IDC历史流量数据输入到LightGBM模型和XGBoost模型中,得到训练后的LightGBM模型和训练后的XGBoos t模型;
将所述验证集中的训练数据分别输入训练后的LightGBM模型和训练后的XGBoost模型中,得到两列训练集大小的向量;
将所述两列训练集大小的向量输入次级学习器Linear Regression模型中,得到初步的IDC流量数据预测模型;
利用所述测试集对所述初步的IDC流量数据预测模型进行测试调优,得到所述预置的IDC流量数据预测模型。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4任一所述的基于机器学习算法的IDC流量数据预测方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至4任一所述的基于机器学习算法的IDC流量数据预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010450312.8A CN111614520B (zh) | 2020-05-25 | 2020-05-25 | 一种基于机器学习算法的idc流量数据预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010450312.8A CN111614520B (zh) | 2020-05-25 | 2020-05-25 | 一种基于机器学习算法的idc流量数据预测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111614520A true CN111614520A (zh) | 2020-09-01 |
CN111614520B CN111614520B (zh) | 2021-12-14 |
Family
ID=72204848
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010450312.8A Active CN111614520B (zh) | 2020-05-25 | 2020-05-25 | 一种基于机器学习算法的idc流量数据预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111614520B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112260878A (zh) * | 2020-11-04 | 2021-01-22 | 罗鑫龙 | 互联网数据中心机房人工智能管理系统及方法 |
CN114679388A (zh) * | 2022-02-22 | 2022-06-28 | 同济大学 | 一种时间敏感网络数据流量预测方法、系统及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105260794A (zh) * | 2015-10-12 | 2016-01-20 | 上海交通大学 | 一种云数据中心的负载预测方法 |
US9426036B1 (en) * | 2013-09-26 | 2016-08-23 | Amazon Technologies, Inc. | Mixture model approach for network forecasting |
CN109635118A (zh) * | 2019-01-10 | 2019-04-16 | 博拉网络股份有限公司 | 一种基于大数据的用户搜索匹配方法 |
CN109685583A (zh) * | 2019-01-10 | 2019-04-26 | 博拉网络股份有限公司 | 一种基于大数据的供应链需求预测方法 |
CN109991685A (zh) * | 2019-04-03 | 2019-07-09 | 北京市天元网络技术股份有限公司 | 一种基于多lstm模型融合的降水量预测方法以及装置 |
CN110084412A (zh) * | 2019-04-12 | 2019-08-02 | 重庆邮电大学 | 一种基于特征转换多标签学习的光伏发电大数据预测方法 |
CN110851782A (zh) * | 2019-11-12 | 2020-02-28 | 南京邮电大学 | 一种基于轻量级时空深度学习模型的网络流量预测方法 |
CN111163092A (zh) * | 2019-12-30 | 2020-05-15 | 深信服科技股份有限公司 | 流量异常检测方法、装置、设备及存储介质 |
-
2020
- 2020-05-25 CN CN202010450312.8A patent/CN111614520B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9426036B1 (en) * | 2013-09-26 | 2016-08-23 | Amazon Technologies, Inc. | Mixture model approach for network forecasting |
CN105260794A (zh) * | 2015-10-12 | 2016-01-20 | 上海交通大学 | 一种云数据中心的负载预测方法 |
CN109635118A (zh) * | 2019-01-10 | 2019-04-16 | 博拉网络股份有限公司 | 一种基于大数据的用户搜索匹配方法 |
CN109685583A (zh) * | 2019-01-10 | 2019-04-26 | 博拉网络股份有限公司 | 一种基于大数据的供应链需求预测方法 |
CN109991685A (zh) * | 2019-04-03 | 2019-07-09 | 北京市天元网络技术股份有限公司 | 一种基于多lstm模型融合的降水量预测方法以及装置 |
CN110084412A (zh) * | 2019-04-12 | 2019-08-02 | 重庆邮电大学 | 一种基于特征转换多标签学习的光伏发电大数据预测方法 |
CN110851782A (zh) * | 2019-11-12 | 2020-02-28 | 南京邮电大学 | 一种基于轻量级时空深度学习模型的网络流量预测方法 |
CN111163092A (zh) * | 2019-12-30 | 2020-05-15 | 深信服科技股份有限公司 | 流量异常检测方法、装置、设备及存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112260878A (zh) * | 2020-11-04 | 2021-01-22 | 罗鑫龙 | 互联网数据中心机房人工智能管理系统及方法 |
CN114679388A (zh) * | 2022-02-22 | 2022-06-28 | 同济大学 | 一种时间敏感网络数据流量预测方法、系统及存储介质 |
CN114679388B (zh) * | 2022-02-22 | 2023-09-05 | 同济大学 | 一种时间敏感网络数据流量预测方法、系统及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111614520B (zh) | 2021-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108073497B (zh) | 一种基于数据中心数据采集平台的多指标异动分析方法 | |
US10496465B2 (en) | System operations management apparatus, system operations management method and program storage medium | |
US7243049B1 (en) | Method for modeling system performance | |
CN107888397B (zh) | 确定故障类型的方法和装置 | |
CN111614520B (zh) | 一种基于机器学习算法的idc流量数据预测方法及装置 | |
CN103902816A (zh) | 基于数据挖掘技术的带电检测数据处理方法 | |
CN115118580B (zh) | 告警分析方法以及装置 | |
CN110955226A (zh) | 设备故障预测方法、装置、计算机设备和存储介质 | |
CN102609501B (zh) | 一种基于实时历史数据库的数据清洗方法 | |
CN113722134A (zh) | 一种集群故障处理方法、装置、设备及可读存储介质 | |
CN112787878A (zh) | 一种网络指标的预测方法及电子设备 | |
CN114924990A (zh) | 一种异常场景测试方法及电子设备 | |
CN112182233B (zh) | 用于存储设备故障记录的知识库、及利用其辅助定位设备故障的方法及系统 | |
CN111080484A (zh) | 一种配电网异常数据监测方法及装置 | |
CN113869633A (zh) | 一种配电网多源数据质量管控方法 | |
CN110443451B (zh) | 事件定级方法、装置、计算机设备和存储介质 | |
CN112965990A (zh) | 低压联络柜故障解决方案生成方法、装置 | |
CN103929322A (zh) | 通信监视器和预测方法 | |
CN107087284A (zh) | 一种网络小区的质量监控方法及监控系统、服务器 | |
CN115619358A (zh) | 一种基于bim技术的建筑工程进度管理系统及方法 | |
CN114881112A (zh) | 一种系统异常检测方法、装置、设备及介质 | |
CN118132996B (zh) | 一种基于工业数字孪生的自适应生产调度优化方法 | |
CN115941446B (zh) | 告警根因定位方法、装置、电子设备和计算机可读介质 | |
CN117387925B (zh) | 一种阻尼器性能连续测试方法及系统 | |
CN113240358B (zh) | 一种超大跨斜拉桥梁型施工徐变数据自动记录方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |