CN116911421A - 流量预测方法及流量预测装置 - Google Patents
流量预测方法及流量预测装置 Download PDFInfo
- Publication number
- CN116911421A CN116911421A CN202310347435.2A CN202310347435A CN116911421A CN 116911421 A CN116911421 A CN 116911421A CN 202310347435 A CN202310347435 A CN 202310347435A CN 116911421 A CN116911421 A CN 116911421A
- Authority
- CN
- China
- Prior art keywords
- item
- flow data
- historical
- trend
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000000737 periodic effect Effects 0.000 claims abstract description 36
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 22
- 238000002156 mixing Methods 0.000 claims abstract description 12
- 230000009466 transformation Effects 0.000 claims abstract description 11
- 238000001228 spectrum Methods 0.000 claims description 37
- 230000002159 abnormal effect Effects 0.000 claims description 26
- 238000007781 pre-processing Methods 0.000 claims description 17
- 230000003595 spectral effect Effects 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 11
- 230000001502 supplementing effect Effects 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 9
- 230000001174 ascending effect Effects 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000009825 accumulation Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- YHXISWVBGDMDLQ-UHFFFAOYSA-N moclobemide Chemical compound C1=CC(Cl)=CC=C1C(=O)NCCN1CCOCC1 YHXISWVBGDMDLQ-UHFFFAOYSA-N 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Operations Research (AREA)
- Artificial Intelligence (AREA)
- Tourism & Hospitality (AREA)
- Game Theory and Decision Science (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Quality & Reliability (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种流量预测方法及流量预测装置,属于时序预测技术领域。流量预测方法,包括:对历史流量数据进行时序分解,将所述历史流量数据分解为趋势项、周期项和残差项;提取所述趋势项的时间特征和节假日特征,并将所述时间特征和节假日特征输入预先训练好的趋势项预测模型,得到趋势项的预测值;利用傅里叶变换对所述周期项进行系数校准,并对校准后的周期项进行延拓,得到所述周期项的预测值;对所述残差项进行历史残差混合,得到所述残差项的预测值;将所述趋势项的预测值、所述周期项的预测值和所述残差项的预测值相加,得到流量数据的预测值。本发明的技术方案能够提高流量预测的准确性。
Description
技术领域
本发明涉及时序预测技术领域,特别是指一种流量预测方法及流量预测装置。
背景技术
中长期的时间序列预测可以辅助未来的资源规划与调度。流量作为现代生活中不可或缺的资源,准确高效的流量预测对于提升服务质量、增加运营商收入等至关重要。但由于流量受节假日、突发事件等影响,工作日和周末的周期模式不尽相同,并且由于预测长度较长,中长期的流量预测依然是巨大的挑战。
现有的中长期预测技术中,预测准确率随着时间推移下降明显。
发明内容
本发明要解决的技术问题是提供一种流量预测方法及流量预测装置,能够提高流量预测的准确性。
为解决上述技术问题,本发明的实施例提供技术方案如下:
一方面,本发明的实施例提供一种流量预测方法,包括:
对历史流量数据进行时序分解,将所述历史流量数据分解为趋势项、周期项和残差项;
提取所述趋势项的时间特征和节假日特征,并将所述时间特征和节假日特征输入预先训练好的趋势项预测模型,得到趋势项的预测值;
利用傅里叶变换对所述周期项进行系数校准,并对校准后的周期项进行延拓,得到所述周期项的预测值;
对所述残差项进行历史残差混合,得到所述残差项的预测值;
将所述趋势项的预测值、所述周期项的预测值和所述残差项的预测值相加,得到流量数据的预测值。
一些实施例中,对历史流量数据进行时序分解之前,所述方法还包括:
获取原始的历史流量数据;
对所述原始的历史流量数据进行预处理操作,得到所述历史流量数据,所述预处理操作包括以下至少一项:
按照时间信息对所述原始的历史流量数据进行升序排序;
补充缺失时刻的历史流量数据;
去除所述原始的历史流量数据中的异常数据。
一些实施例中,所述去除所述原始的历史流量数据中的异常数据包括:
采用3σ准则法确定所述原始的历史流量数据的第一阈值和第二阈值,将所述原始的历史流量数据中大于所述第一阈值的数据和小于所述第二阈值的数据标记为异常数据,并删除节假日之外的异常数据,其中,所述第一阈值大于所述第二阈值。
一些实施例中,所述补充缺失时刻的历史流量数据包括:
确定所述缺失时刻之前的第一时刻的历史流量数据和所述缺失时刻之后的第二时刻的历史流量数据;
建立所述第一时刻的历史流量数据和所述第二时刻的历史流量数据之间的线性关系;
根据所述线性关系确定缺失时刻的历史流量数据。
一些实施例中,所述趋势项预测模型为XGBoost模型,目标函数使用均方误差,子树的最大深度是5,训练时的迭代次数不小于1000,最小叶子节点权重和为1。
一些实施例中,所述利用傅里叶变换对所述周期项进行系数校准包括:
对所述历史流量数据进行傅里叶变换,得到第一频谱;
从所述第一频谱中的直流分量开始累积频谱线能量值,直至累积的频谱线能量值大于所述第一频谱的频域能量的预设比例,确定对应谱线所在的频率为截止频率;
利用所述截止频率对所述第一频谱进行低通滤波,得到第二频谱;
对所述第二频谱进行逆傅里叶变换,得到重构后的流量数据;
对所述重构后的流量数据进行归一化处理,利用归一化处理后的流量数据计算所述周期项的调整系数;
利用所述调整系数对所述周期项进行调整。
一些实施例中,所述提取所述趋势项的时间特征和节假日特征包括:
提取所述趋势项对应的以下日期信息:公历年、公历月、公历日、阴历年、阴历月、阴历日、星期;
根据所述日期信息提取出所述趋势项中的节假日特征,所述节假日特征的日期信息符合以下至少一项:春节、国庆节、劳动节、清明节、中秋节、端午节、元旦、星期六、星期日。
一些实施例中,所述残差项的预测值为m个历史残差项的平均值,m为正整数。
本发明实施例还提供了一种流量预测装置,包括:
时序分解模块,用于对历史流量数据进行时序分解,将所述历史流量数据分解为趋势项、周期项和残差项;
第一预测模块,用于提取所述趋势项的时间特征和节假日特征,并将所述时间特征和节假日特征输入预先训练好的趋势项预测模型,得到趋势项的预测值;
第二预测模块,用于利用傅里叶变换对所述周期项进行系数校准,并对校准后的周期项进行延拓,得到所述周期项的预测值;
第三预测模块,用于对所述残差项进行历史残差混合,得到所述残差项的预测值;
处理模块,用于将所述趋势项的预测值、所述周期项的预测值和所述残差项的预测值相加,得到流量数据的预测值。
一些实施例中,所述装置还包括:
获取模块,用于获取原始的历史流量数据;
预处理模块,用于对所述原始的历史流量数据进行预处理操作,得到所述历史流量数据,所述预处理操作包括以下至少一项:
按照时间信息对所述原始的历史流量数据进行升序排序;
补充缺失时刻的历史流量数据;
去除所述原始的历史流量数据中的异常数据。
一些实施例中,所述预处理模块具体用于采用3σ准则法确定所述原始的历史流量数据的第一阈值和第二阈值,将所述原始的历史流量数据中大于所述第一阈值的数据和小于所述第二阈值的数据标记为异常数据,并删除节假日之外的异常数据,其中,所述第一阈值大于所述第二阈值。
一些实施例中,所述预处理模块具体用于确定所述缺失时刻之前的第一时刻的历史流量数据和所述缺失时刻之后的第二时刻的历史流量数据;建立所述第一时刻的历史流量数据和所述第二时刻的历史流量数据之间的线性关系;根据所述线性关系确定缺失时刻的历史流量数据。
一些实施例中,所述趋势项预测模型为XGBoost模型,目标函数使用均方误差,子树的最大深度是5,训练时的迭代次数不小于1000,最小叶子节点权重和为1。
一些实施例中,所述第二预测模块具体用于对所述历史流量数据进行傅里叶变换,得到第一频谱;从所述第一频谱中的直流分量开始累积频谱线能量值,直至累积的频谱线能量值大于所述第一频谱的频域能量的预设比例,确定对应谱线所在的频率为截止频率;利用所述截止频率对所述第一频谱进行低通滤波,得到第二频谱,对所述第二频谱进行逆傅里叶变换,得到重构后的流量数据;对所述重构后的流量数据进行归一化处理,利用归一化处理后的流量数据计算所述周期项的调整系数;利用所述调整系数对所述周期项进行调整。
一些实施例中,所述第一预测模块具体用于提取所述趋势项对应的以下日期信息:公历年、公历月、公历日、阴历年、阴历月、阴历日、星期;根据所述日期信息提取出所述趋势项中的节假日特征,所述节假日特征的日期信息符合以下至少一项:春节、国庆节、劳动节、清明节、中秋节、端午节、元旦、星期六、星期日。
一些实施例中,所述残差项的预测值为m个历史残差项的平均值,m为正整数。
本发明实施例还提供了一种流量预测装置,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序;所述处理器执行所述程序时实现如上述的流量预测方法。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的流量预测方法中的步骤。
本发明的实施例具有以下有益效果:
上述方案中,并不是将历史流量数据直接送入模型进行预测,而是通过时序分解从历史流量数据中提取出趋势项、周期项、残差项,对这三项执行不同的操作;对趋势项提取时间和节假日特征,并利用趋势项预测模型输出趋势项的预测值;利用傅里叶变换对周期项进行系数校准,利用周期项的周期性特点,利用校准后的周期项进行延拓得到所述周期项的预测值,可以预测任意长度的周期项;对于残差项,由于无法进行预测,对残差项进行历史混合,得到残差项的预测值;之后将这三项的预测值相加得到流量数据的预测值,能够实现高效准确的流量中长期预测。
附图说明
图1为本发明实施例流量预测方法的流程示意图;
图2为本发明实施例对地市流量进行预测的流程示意图;
图3为本发明实施例流量预测装置的结构示意图;
图4为本发明实施例流量预测装置的组成示意图。
具体实施方式
为使本发明的实施例要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
中长期的时间序列预测可以辅助未来的资源规划与调度。流量作为现代生活中不可或缺的资源,准确高效的流量预测对于提升服务质量、增加运营商收入等至关重要。但由于流量受节假日、突发事件等影响,工作日和周末的周期模式不尽相同,并且由于预测长度较长,中长期的流量预测依然是巨大的挑战。
相关的时序预测方法可以分为以下三类:
第一类方法是以自回归合成移动平均模型(Autoregressive Integrated MovingAverage Model,ARIMA)为代表的线性模型,此类模型先拟合出符合历史数据特征的多项式,再使用这些多项式来预测未来的数值,理论上可以预测未来任意长度的结果。此类模型具有计算速度快,计算量小的优点,但是当预测长度比较长时,此类模型的预测值会逐渐趋于不变,因而这类模型多应用于短时预测。
第二类方法是基于循环神经网络(Recurrent Neural Network,RNN)的模型。如集成了自回归模型和RNN的LSTNet、基于RNN及其变体的DeepAR等模型。此类模型经过充分训练后,可以对未来至多数十个点进行较为准确的预测。但是在中长期流量预测的场景中,根据时间粒度及预测长度需求,需要预测未来几百个点,甚至上千个点,此类模型的预测结果在准确率上难以满足需求。
第三类方法是基于时序分解的模型。时序分解理论将时间序列分解为趋势项、周期项、残差项等。对三个分量分别建模进行预测,最后将三种预测结果结合为最终的预测结果。此类模型通过分解,避免了周期项、趋势项、残差项的互相干扰,因而能够在预测长度较长的情况下,依然保持一定的准确率。
现有的中长期预测技术存在以下几点不足:
1.预测长度不满足实际需求。现有的中长期预测方法一般根据数据时间粒度往后预测数十个点,但如果时间粒度很小,数十个点的长度仅能覆盖几天,预测长度较小,不能满足场景需求。
2.预测准确率随着时间推移下降明显。当预测长度较长时,线性模型的预测结果会随着时间的推移逐渐变成一条直线;而基于RNN的模型,如果一次性预测全部时间点,那么根据样本构造原理,训练集的数据很可能不足,会导致模型没有充分训练;如果迭代预测全部时间点,则会出现误差累积,也会导致预测不准确。
本发明实施例提供一种流量预测方法及流量预测装置,能够提高流量预测的准确性。
本发明的实施例提供一种流量预测方法,如图1所示,包括:
步骤101:对历史流量数据进行时序分解,将所述历史流量数据分解为趋势项、周期项和残差项;
步骤102:提取所述趋势项的时间特征和节假日特征,并将所述时间特征和节假日特征输入预先训练好的趋势项预测模型,得到趋势项的预测值;
步骤103:利用傅里叶变换对所述周期项进行系数校准,并对校准后的周期项进行延拓,得到所述周期项的预测值;
步骤104:对所述残差项进行历史残差混合,得到所述残差项的预测值;
步骤105:将所述趋势项的预测值、所述周期项的预测值和所述残差项的预测值相加,得到流量数据的预测值。
本实施例中,并不是将历史流量数据直接送入模型进行预测,而是通过时序分解从历史流量数据中提取出趋势项、周期项、残差项,对这三项执行不同的操作;对趋势项提取时间和节假日特征,并利用趋势项预测模型输出趋势项的预测值;利用傅里叶变换对周期项进行系数校准,利用周期项的周期性特点,利用校准后的周期项进行延拓得到所述周期项的预测值,可以预测任意长度的周期项;对于残差项,由于无法进行预测,对残差项进行历史混合,得到残差项的预测值;之后将这三项的预测值相加得到流量数据的预测值,能够实现高效准确的流量中长期预测。
一些实施例中,对历史流量数据进行时序分解之前,所述方法还包括:
获取原始的历史流量数据;
对所述原始的历史流量数据进行预处理操作,得到所述历史流量数据,所述预处理操作包括以下至少一项:
按照时间信息对所述原始的历史流量数据进行升序排序;
补充缺失时刻的历史流量数据;
去除所述原始的历史流量数据中的异常数据。
因为原始的历史流量数据可能存在缺失、乱序、异常点等情况,因此需要对原始的历史流量数据进行预处理,按照时间信息对所述原始的历史流量数据进行升序排序,以避免乱序;补充缺失时刻的历史流量数据,以避免数据缺失;去除所述原始的历史流量数据中的异常数据,以消除异常点。
一些实施例中,所述去除所述原始的历史流量数据中的异常数据包括:
采用3σ准则法确定所述原始的历史流量数据的第一阈值和第二阈值,将所述原始的历史流量数据中大于所述第一阈值的数据和小于所述第二阈值的数据标记为异常数据,并删除节假日之外的异常数据,其中,所述第一阈值大于所述第二阈值。
一些实施例中,所述补充缺失时刻的历史流量数据包括:
确定所述缺失时刻之前的第一时刻的历史流量数据和所述缺失时刻之后的第二时刻的历史流量数据;
建立所述第一时刻的历史流量数据和所述第二时刻的历史流量数据之间的线性关系;
根据所述线性关系确定缺失时刻的历史流量数据。
因为节假日对流量的影响比较大,因此,仅需要去除节假日之外的异常点。
一些实施例中,所述提取所述趋势项的时间特征和节假日特征包括:
提取所述趋势项对应的以下日期信息:公历年、公历月、公历日、阴历年、阴历月、阴历日、星期;
根据所述日期信息提取出所述趋势项中的节假日特征,所述节假日特征的日期信息符合以下至少一项:春节、国庆节、劳动节、清明节、中秋节、端午节、元旦、星期六、星期日。
一些实施例中,所述趋势项预测模型为XGBoost模型,目标函数使用均方误差,子树的最大深度是5,训练时的迭代次数不小于1000,最小叶子节点权重和为1。
一些实施例中,所述利用傅里叶变换对所述周期项进行系数校准包括:
对所述历史流量数据进行傅里叶变换,得到第一频谱;
从所述第一频谱中的直流分量开始累积频谱线能量值,直至累积的频谱线能量值大于所述第一频谱的频域能量的预设比例,确定对应谱线所在的频率为截止频率;
利用所述截止频率对所述第一频谱进行低通滤波,得到第二频谱;
对所述第二频谱进行逆傅里叶变换,得到重构后的流量数据;
对所述重构后的流量数据进行归一化处理,利用归一化处理后的流量数据计算所述周期项的调整系数;
利用所述调整系数对所述周期项进行调整。
本实施例利用傅里叶变换对周期项进行系数校准,能够保留工作日与周末的差别;周期项的预测值可以通过以周为周期的校准后的周期项的延拓得到,因此可以预测任意长度的流量数据,解决了现有方案预测长度较短的问题。
一些实施例中,所述残差项的预测值可以为m个历史残差项的平均值,m为正整数。残差项由噪声以及一些突发情况产生的流量波动构成,理论上无法进行预测,因此本实施例采取历史残差混合的方法得到残差项的预测值。
下面结合具体场景和图2对本实施例的方案进行详细介绍。以某省的流量数据为例,该省若干地市的流量数据仅有时间这一种特征,时间粒度为1小时,历史流量数据长度为2年,希望预测未来2-3个月的流量,同时需要预测春节、五一、十一等大型节假日的流量变化。
历史流量数据的具体字段格式如下所示:
名称 | 含义 |
time | 时间 |
traffic | 流量数值 |
因为原始的历史流量数据可能存在缺失、乱序、异常点等情况,因此本实施例采用下述数据预处理方法:
(1)按照time字段将流量数据升序排序,补充缺失时刻的流量数据;
(2)因流量数据具有非常明显的天周期,如果直接插值或者检测异常点,可能改变周期性。本实施例将不同日期同一时刻的流量数据取出,利用线性插值填充流量缺失数据后,再利用3σ方法计算流量数据的高阈值和低阈值,将超出高阈值的时刻和低于低阈值的时刻标记为异常点。将节假日之外的异常点的流量值剔除,再次用线性插值填充缺失的流量数据;而在节假日之内的异常点则不做处理。
(3)按照time字段将流量数据升序排序。
时间序列由趋势成分、周期成分、残差成分组成,本实施例中,对历史流量数据进行时序分解,具体地,可以利用python的statsmodels.tsa.seasonal包中的seasonal_decompose函数对历史流量数据进行时序分解,将所述历史流量数据分解为趋势项、周期项和残差项,如公式(1)所示;
y(t)=T(t)+S(t)+R(t) (1)
其中y(t)表示流量,T(y)表示趋势项,S(t)表示周期项,R(t)表示残差项。
通过数据观察发现,趋势项表现出总体缓慢上升,受春节、十一等大型节假日影响明显的特点。因此,本实施例中从趋势项中提取时间和节假日两个方面的特征。时间方面的特征如下表所示:
特征名称 | 取值范围 |
公历年 | 根据具体数据范围确定 |
公历月 | 1-12 |
公历日 | 1-31 |
阴历年 | 根据具体数据范围确定 |
阴历月 | 1-12 |
阴历日 | 1-30 |
星期 | 1,2,3,4,5,6,7 |
时刻 | 0-23 |
季度 | 1,2,3,4 |
年中周数 | 1-53 |
年中天数 | 1-366 |
因为春节对流量的影响格外明显,因此从趋势项中还提取了阴历特征,有助于提升春节等大型节假日的流量预测的准确性。
节假日特征方面则将法定节假日前后各一天均算为节假日。然后将其余非节假日标为0,节假日根据其影响力,按照下表标记特征:
在提取上述时间特征和节假日特征后,本实施例选择了xgboost模型来建立趋势项预测模型,其中,目标函数使用均方误差,子树的最大深度是5,迭代次数为1000,每棵树随机采样的样本的比例为0.9,最小叶子节点权重和为1。训练集、验证集、测试集的比例为7:2:1。趋势项预测模型训练完成后,趋势项的预测值可以通过将上述时间和节假日特征输入趋势项预测模型得到。因为提取的特征中不包含历史流量特征,因此理论上该趋势项预测模型可以向后预测任意长度的流量数据,解决了现有方案预测长度较短的问题。
现有的周期分解方法认为每个周期的流量模式都完全相同。但对于本场景中的流量来说,以天为周期的流量,在周末和工作日的周期模式存在差异,峰值的时刻也不尽相同。利用低通滤波后的傅里叶频谱重构时域信号可以在去除高频噪声的条件下保留各周期内的自身特性,因此本实施例采用傅里叶变换对周期项进行系数校准,具体可以采用如下步骤:
对输入信号y(t)进行傅里叶变换,得到频谱
从频谱中的直流分量开始累积频谱线能量值,直至累积值大于频域能量的80%,对应谱线所在的频率即为截止频率ωc;
利用截止频率为ωc的理想低通滤波器对进行滤波,得到滤波后频谱对/>进行逆傅里叶变换,得到重构后的流量Sr(t);
将Sr(t)归一化至[0,1]区间得到用历史平均值计算一周内每天的调整系数/>如公式(2)和公式(3)所示:
其中,是一周内每天的调整系数,/>是周一的调整系数,/>是周二的调整系数,…,/>是周日的调整系数,n表示累加项的个数,n为正整数。
用Ci(t)对时序分解出的S(t)进行调整,如公式(4)所示:
周期项的预测值可以通过以周为周期的上述的延拓得到,因此理论上也可以预测任意长度的流量数据,解决了现有方案预测长度较短的问题。其中,延拓是指可以利用周期函数的性质,将一个区间上的函数拓展到整个区间,原区间的长度为一个周期。本实施例利用傅里叶频谱分析,对时序分解出的周期项进行了系数调整,保留了一周中不同天的流量模式差异,提升了后续预测的准确性。
残差项由噪声以及一些突发情况产生的流量波动构成,理论上无法进行预测,因此本实施例采取历史残差混合的方法得到残差项的预测值,一具体示例中,如公式(5)所示,采用前24天的历史残差R(t-24)和前24*7天的历史残差R(t-24*7))得到残差项的预测值:
上述公式(5)利用两项历史残差混合得到残差项的预测值,当然,还可以利用三项或三项以上的历史残差混合得到残差项的预测值。
在分别得到趋势项的预测值、所述周期项的预测值和所述残差项的预测值后,将三者相加即可得到流量数据的预测值。
本发明实施例还提供了一种流量预测装置,如图3所示,包括:
时序分解模块21,用于对历史流量数据进行时序分解,将所述历史流量数据分解为趋势项、周期项和残差项;
第一预测模块22,用于提取所述趋势项的时间特征和节假日特征,并将所述时间特征和节假日特征输入预先训练好的趋势项预测模型,得到趋势项的预测值;
第二预测模块23,用于利用傅里叶变换对所述周期项进行系数校准,并对校准后的周期项进行延拓,得到所述周期项的预测值;
第三预测模块24,用于对所述残差项进行历史残差混合,得到所述残差项的预测值;
处理模块25,用于将所述趋势项的预测值、所述周期项的预测值和所述残差项的预测值相加,得到流量数据的预测值。
本实施例中,并不是将历史流量数据直接送入模型进行预测,而是通过时序分解从历史流量数据中提取出趋势项、周期项、残差项,对这三项执行不同的操作;对趋势项提取时间和节假日特征,并利用趋势项预测模型输出趋势项的预测值;利用傅里叶变换对周期项进行系数校准,利用周期项的周期性特点,利用校准后的周期项进行延拓得到所述周期项的预测值,可以预测任意长度的周期项;对于残差项,由于无法进行预测,对残差项进行历史混合,得到残差项的预测值;之后将这三项的预测值相加得到流量数据的预测值,能够实现高效准确的流量中长期预测。
一些实施例中,所述装置还包括:
获取模块,用于获取原始的历史流量数据;
预处理模块,用于对所述原始的历史流量数据进行预处理操作,得到所述历史流量数据,所述预处理操作包括以下至少一项:
按照时间信息对所述原始的历史流量数据进行升序排序;
补充缺失时刻的历史流量数据;
去除所述原始的历史流量数据中的异常数据。
一些实施例中,所述预处理模块具体用于采用3σ准则法确定所述原始的历史流量数据的第一阈值和第二阈值,将所述原始的历史流量数据中大于所述第一阈值的数据和小于所述第二阈值的数据标记为异常数据,并删除节假日之外的异常数据,其中,所述第一阈值大于所述第二阈值。
一些实施例中,所述预处理模块具体用于确定所述缺失时刻之前的第一时刻的历史流量数据和所述缺失时刻之后的第二时刻的历史流量数据;建立所述第一时刻的历史流量数据和所述第二时刻的历史流量数据之间的线性关系;根据所述线性关系确定缺失时刻的历史流量数据。
一些实施例中,所述趋势项预测模型为XGBoost模型,目标函数使用均方误差,子树的最大深度是5,训练时的迭代次数不小于1000,最小叶子节点权重和为1。
一些实施例中,所述第二预测模块23具体用于对所述历史流量数据进行傅里叶变换,得到第一频谱;从所述第一频谱中的直流分量开始累积频谱线能量值,直至累积的频谱线能量值大于所述第一频谱的频域能量的预设比例,确定对应谱线所在的频率为截止频率;利用所述截止频率对所述第一频谱进行低通滤波,得到第二频谱,对所述第二频谱进行逆傅里叶变换,得到重构后的流量数据;对所述重构后的流量数据进行归一化处理,利用归一化处理后的流量数据计算所述周期项的调整系数;利用所述调整系数对所述周期项进行调整。
一些实施例中,所述第一预测模块22具体用于提取所述趋势项对应的以下日期信息:公历年、公历月、公历日、阴历年、阴历月、阴历日、星期;根据所述日期信息提取出所述趋势项中的节假日特征,所述节假日特征的日期信息符合以下至少一项:春节、国庆节、劳动节、清明节、中秋节、端午节、元旦、星期六、星期日。
一些实施例中,所述残差项的预测值为m个历史残差项的平均值,m为正整数。
本发明实施例还提供了一种流量预测装置,如图4所示,包括存储器31、处理器32及存储在所述存储器31上并可在所述处理器32上运行的计算机程序;所述处理器32执行所述程序时实现如上所述的流量预测方法,在此不再赘述。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的流量预测方法中的步骤。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储待检测终端设备或任何其他非传输介质,可用于存储可以被计算待检测终端设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (11)
1.一种流量预测方法,其特征在于,包括:
对历史流量数据进行时序分解,将所述历史流量数据分解为趋势项、周期项和残差项;
提取所述趋势项的时间特征和节假日特征,并将所述时间特征和节假日特征输入预先训练好的趋势项预测模型,得到趋势项的预测值;
利用傅里叶变换对所述周期项进行系数校准,并对校准后的周期项进行延拓,得到所述周期项的预测值;
对所述残差项进行历史残差混合,得到所述残差项的预测值;
将所述趋势项的预测值、所述周期项的预测值和所述残差项的预测值相加,得到流量数据的预测值。
2.根据权利要求1所述的流量预测方法,其特征在于,对历史流量数据进行时序分解之前,所述方法还包括:
获取原始的历史流量数据;
对所述原始的历史流量数据进行预处理操作,得到所述历史流量数据,所述预处理操作包括以下至少一项:
按照时间信息对所述原始的历史流量数据进行升序排序;
补充缺失时刻的历史流量数据;
去除所述原始的历史流量数据中的异常数据。
3.根据权利要求2所述的流量预测方法,其特征在于,所述去除所述原始的历史流量数据中的异常数据包括:
采用3σ准则法确定所述原始的历史流量数据的第一阈值和第二阈值,将所述原始的历史流量数据中大于所述第一阈值的数据和小于所述第二阈值的数据标记为异常数据,并删除节假日之外的异常数据,其中,所述第一阈值大于所述第二阈值。
4.根据权利要求2所述的流量预测方法,其特征在于,所述补充缺失时刻的历史流量数据包括:
确定所述缺失时刻之前的第一时刻的历史流量数据和所述缺失时刻之后的第二时刻的历史流量数据;
建立所述第一时刻的历史流量数据和所述第二时刻的历史流量数据之间的线性关系;
根据所述线性关系确定缺失时刻的历史流量数据。
5.根据权利要求1所述的流量预测方法,其特征在于,所述趋势项预测模型为XGBoost模型,目标函数使用均方误差,子树的最大深度是5,训练时的迭代次数不小于1000,最小叶子节点权重和为1。
6.根据权利要求1所述的流量预测方法,其特征在于,所述利用傅里叶变换对所述周期项进行系数校准包括:
对所述历史流量数据进行傅里叶变换,得到第一频谱;
从所述第一频谱中的直流分量开始累积频谱线能量值,直至累积的频谱线能量值大于所述第一频谱的频域能量的预设比例,确定对应谱线所在的频率为截止频率;
利用所述截止频率对所述第一频谱进行低通滤波,得到第二频谱;
对所述第二频谱进行逆傅里叶变换,得到重构后的流量数据;
对所述重构后的流量数据进行归一化处理,利用归一化处理后的流量数据计算所述周期项的调整系数;
利用所述调整系数对所述周期项进行调整。
7.根据权利要求1所述的流量预测方法,其特征在于,所述提取所述趋势项的时间特征和节假日特征包括:
提取所述趋势项对应的以下日期信息:公历年、公历月、公历日、阴历年、阴历月、阴历日、星期;
根据所述日期信息提取出所述趋势项中的节假日特征,所述节假日特征的日期信息符合以下至少一项:春节、国庆节、劳动节、清明节、中秋节、端午节、元旦、星期六、星期日。
8.根据权利要求1所述的流量预测方法,其特征在于,所述残差项的预测值为m个历史残差项的平均值,m为正整数。
9.一种流量预测装置,其特征在于,包括:
时序分解模块,用于对历史流量数据进行时序分解,将所述历史流量数据分解为趋势项、周期项和残差项;
第一预测模块,用于提取所述趋势项的时间特征和节假日特征,并将所述时间特征和节假日特征输入预先训练好的趋势项预测模型,得到趋势项的预测值;
第二预测模块,用于利用傅里叶变换对所述周期项进行系数校准,并对校准后的周期项进行延拓,得到所述周期项的预测值;
第三预测模块,用于对所述残差项进行历史残差混合,得到所述残差项的预测值;
处理模块,用于将所述趋势项的预测值、所述周期项的预测值和所述残差项的预测值相加,得到流量数据的预测值。
10.一种流量预测装置,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序;其特征在于,所述处理器执行所述程序时实现如权利要求1-8中任一项所述的流量预测方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一项所述的流量预测方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310347435.2A CN116911421A (zh) | 2023-04-03 | 2023-04-03 | 流量预测方法及流量预测装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310347435.2A CN116911421A (zh) | 2023-04-03 | 2023-04-03 | 流量预测方法及流量预测装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116911421A true CN116911421A (zh) | 2023-10-20 |
Family
ID=88363495
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310347435.2A Pending CN116911421A (zh) | 2023-04-03 | 2023-04-03 | 流量预测方法及流量预测装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116911421A (zh) |
-
2023
- 2023-04-03 CN CN202310347435.2A patent/CN116911421A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110674604A (zh) | 基于多维时序帧卷积lstm的变压器dga数据预测方法 | |
Cannas et al. | River flow forecasting using neural networks and wavelet analysis | |
CN111950805B (zh) | 中长期电力负荷预测方法、装置、计算机设备及存储介质 | |
CN112308414A (zh) | 收入异常检测的方法、装置、电子设备及存储介质 | |
CN110730099A (zh) | 基于历史流量数据时间序列的流量预测方法 | |
CN110909306B (zh) | 业务异常检测方法、装置、电子设备和存储设备 | |
CN110632386B (zh) | 一种太阳射电干扰滤除方法、可读存储介质及电子设备 | |
Özger et al. | Sediment load prediction by combined fuzzy logic-wavelet method | |
CN112070284A (zh) | 用于件量预测的筛选方法、装置、设备和存储介质 | |
CN116203352A (zh) | 一种配电网的故障预警方法、装置、设备及介质 | |
Paarmann et al. | Adaptive online load forecasting via time series modeling | |
JP2004023114A (ja) | 通信トラヒック予測方法およびその装置 | |
D’Arcy et al. | Accounting for seasonality in extreme sea-level estimation | |
CN116911421A (zh) | 流量预测方法及流量预测装置 | |
Seshan et al. | LSTM-based autoencoder models for real-time quality control of wastewater treatment sensor data | |
Matania et al. | Transfer across different machines by transfer function estimation | |
CN117493115A (zh) | 埋点采集状态检测方法、装置、电子设备及存储介质 | |
Kim et al. | An improved bias correction scheme based on comparative precipitation characteristics | |
CN116775632A (zh) | 一种基于车载终端采集数据的近实时清洗数据执行方法 | |
De Iaco et al. | Geostatistics and the role of variogram in time series analysis: a critical review | |
CN114818247A (zh) | 一种基于氢原子钟漂移预测的原子时计算方法和装置 | |
CN111368257B (zh) | 煤改电负荷特性的分析预测方法及装置 | |
CN108804388B (zh) | 一种基于eemd的hht的太阳黑子面积周期特征分析的方法 | |
Maravall | An application of TRAMO and SEATS | |
CN115529331B (zh) | 配电网箱式设备故障监测方法、系统和计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |