CN112165412B - 一种基于时间序列模型的流量预测方法 - Google Patents
一种基于时间序列模型的流量预测方法 Download PDFInfo
- Publication number
- CN112165412B CN112165412B CN202011012312.6A CN202011012312A CN112165412B CN 112165412 B CN112165412 B CN 112165412B CN 202011012312 A CN202011012312 A CN 202011012312A CN 112165412 B CN112165412 B CN 112165412B
- Authority
- CN
- China
- Prior art keywords
- data
- flow
- prediction
- polynomial
- method based
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0876—Network utilisation, e.g. volume of load or congestion level
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/147—Network analysis or design for predicting network behaviour
Abstract
本发明公开一种基于时间序列模型的流量预测方法,其中,该方法包括:获取PON口流量数据,数据预处理,数据特征工程,lightgbm建模,fbprophet建模以及模型融合预测输出。该方法可以准确地预测未来流量的变化,多特征以及多模型的使用保证了预测的准确性和稳定性,与现有技术相比,该方法预测更加准确,表现稳定,并可复用在不同的PON口及其他流量预测场景。
Description
技术领域
本发明涉及流量预测技术领域,尤其是一种基于时间序列模型的流量预测方法。
背景技术
现有技术中,为实现对于未来一段时间的流量预测,通常采用自回归滑动平均模型(ARMA)。但是自回归滑动平均模型能够利用的信息较少,使用的信息就是过去一段时间的流量这一个维度,无法拓展挖掘流量序列的周期信息以及其他与时间相关的有用的特征,这样会导致预测的准确性不足。
发明内容
为克服采用自回归滑动平均模型对流量预测存在的上述问题,本发明提供一种基于时间序列模型的流量预测方法。
为实现上述目的,本发明采用下述技术方案:
在本发明一实施例中,提出了一种基于时间序列模型的流量预测方法,该方法包括:
步骤一,获取PON口流量数据
获取到按小时记录的PON口流量数据,对于可能存在的异常数据进行部分处理;
步骤二,数据预处理
对于部分有缺失的流量数据,当缺失数据比例较小时,采用插值填充对缺失数据进行填充;对于同一时间点出现多条记录的数据,取该时间点的多条数据的平均值保留;
步骤三,数据特征工程
对于数据日期是否为节假日进行标注作为特征,对于数据日期是周X进行标注作为特征,对于数据时间是二十四小时中的N小时进行标注作为特征;根据数据日期是每周X(X=1~7)的流量数据进行统计,将统计的均值、方差和中位数作为特征保留,根据数据时间是每N小时(N=0~23)的流量数据进行统计,将统计的均值、方差和中位数作为特征保留;根据每天的流量数据进行均值统计并作为特征,并用多项式进行拟合,拟合得到的多项式用于对未来时间点该特征的特征值预测填充,根据每天每小时的流量数据作为特征,并用多项式进行拟合,拟合得到的多项式用于对未来时间点该特征的特征值预测填充;
步骤四,lightgbm建模
通过输入步骤三产生的所有特征进行lightgbm建模训练得到模型,预测时利用该模型输入对应参数进行预测;
步骤五,fbprophet建模
通过输入流量数据、流量对应的时间点以及节假日特征进行fbprophet建模并保存,模型训练时记录下训练数据的长度,预测时利用该模型进行预测;
步骤六,模型融合预测输出
将步骤四得到的模型预测出的结果和步骤五得到的模型预测出的结果进行融合,得到最终结果为final_result=0.5*prophet_result+0.5*lgbm_result。
进一步地,步骤三中拟合多项式的方法包括:
将当前数据分成训练集和测试集,测试集占总数比例的10%;
假设曲线符合高阶多项式的形式,构造高阶多项式函数形式,利用训练集从1阶遍历至最高阶数进行多项式拟合;
利用测试集计算拟合出各曲线的r2分值,r2分值范围在[-1,1]之间,分值越高的代表拟合程度越好,选用对应分值最高的阶数的多项式作为该趋势的拟合函数;
记录下该函数的阶数及对应的参数并保存。
更进一步地,r2分值的计算方法包括:
进一步地,步骤六中fbprophet预测时根据建模时采用的按小时(H)或者按天(D)的特征来进行计算,输入预测freq=’H’以及想要预测的时间长度periods,根据之前记录下来的训练数据长度,之后的数据即为预测出的结果。
进一步地,步骤六中lightgbm预测时所需要的特征通过以下方式计算:
根据未来预测日期得到相应特征,包括是否节假日,每周周X以及每天N小时。
进一步地,步骤六中lightgbm预测时所需要的特征通过以下方式计算:
根据统计值字典进行关联得到特征,包括每周周X及以及每天的N小时的统计均值、标准差和中位数。
进一步地,步骤六中lightgbm预测时所需要的特征通过以下方式计算:
根据多项式拟合得到的趋势函数对未来的值进行计算作为特征,包括每天流量趋势以及每小时流量趋势。
更进一步地,统计值字典为:步骤三的数据特征工程中将每N小时(N=0~23)或者每周X(X=1~7)的统计均值、标准差和中位数通过字典的形式保存下来,使用的时候再载入。
进一步地,步骤二的数据预处理中缺失数据比例为小于20%。
有益效果:
本发明的流量预测方法可以准确地预测未来流量的变化,多特征以及多模型的使用保证了预测的准确性和稳定性,与现有技术相比,该方法预测更加准确,表现稳定,并可复用在不同的PON口及其他流量预测场景。
附图说明
图1是本发明一实施例的基于时间序列模型的流量预测方法流程示意图;
图2是本发明一实施例的拟合曲线图;
图3是本发明一实施例的未来24小时的流量预测的结果与真实数据的对比图。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神,应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本发明的实施方式,提出了一种基于时间序列模型的流量预测方法,通过采集到的过去一段时间的PON口流量数据,对每个PON口独立进行建模,通过模型对未来一段时间PON口的流量数据进行准确预测,从而提前发现或预知未来流量会超过使用限制的PON口。发现流量未来可能会超过阈值后可以提前采取扩容等相关措施避免该情况的发生,提升用户使用体验。
下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
图1是本发明一实施例的基于时间序列模型的流量预测方法流程示意图。如图1所示,该方法包括:
步骤一,获取PON口流量数据
获取到按小时记录的PON口流量数据,对于可能存在的异常数据进行部分处理;
步骤二,数据预处理
对于部分有缺失的流量数据,当缺失数据比例较小时(小于20%),采用插值填充对缺失数据进行填充;
对于同一时间点出现多条记录的数据,取该时间点的多条数据的平均值保留;
步骤三,数据特征工程
对于数据日期是否为节假日进行标注作为特征;
对于数据日期是周X进行标注作为特征;
对于数据时间是二十四小时中的N小时进行标注作为特征;
根据数据日期是每周X(X=1~7)的流量数据进行统计,将统计的均值、方差和中位数作为特征保留;
根据数据时间是每N小时(N=0~23)的流量数据进行统计,将统计的均值、方差和中位数作为特征保留;
根据每天的流量数据进行均值统计并作为特征,并用多项式进行拟合,拟合得到的多项式用于对未来时间点该特征的特征值预测填充;
根据每天每小时的流量数据作为特征,并用多项式进行拟合,拟合得到的多项式用于对未来时间点该特征的特征值预测填充;
图2是本发明一实施例的拟合曲线图。如图2所示,上述拟合多项式的方法包括:
将当前数据分成训练集和测试集,测试集占总数比例的10%;
利用测试集计算拟合出各曲线的r2分值,r2分值范围在[-1,1]之间,分值越高的代表拟合程度越好,选用对应分值最高的阶数的多项式作为该趋势的拟合函数;
记录下该函数的阶数及对应的参数并保存;
上述r2分值的计算方法包括:
步骤四,lightgbm建模
lightgbm作为梯度提升树模型,通常使用在分类任务或是回归任务中,在一个时间序列预测的任务中,通过步骤三完善的数据特征工程的处理,可以利用lightgbm建模来进行时间序列的预测;
通过输入步骤三产生的所有特征进行lightgbm建模训练得到模型,预测时利用该模型输入对应参数进行预测;
步骤五,fbprophet建模
fbprophet是一种用于时间序列预测的模型,通过分别计算趋势、周期性和节假日以及误差四部分的值,将四部分相加求和得到计算值;
建立模型时需要输入的数据是流量数据、流量对应的时间点以及节假日特征进行fbprophet建模并保存,模型训练时记录下训练数据的长度,预测时利用该模型进行预测;
步骤六,模型融合预测输出
fbprophet预测时根据建模时采用的按小时(H)或者按天(D)的特征来进行计算,输入预测freq=’H’以及想要预测的时间长度periods,根据之前记录下来的训练数据长度,之后的数据即为预测出的结果;
lightgbm预测时所需要的特征通过以下几种方式计算:
根据未来预测日期得到相应特征,包括是否节假日,每周周X以及每天N小时;
根据统计值字典进行关联得到特征,包括每周周X及以及每天的N小时的统计均值、标准差和中位数;
其中,统计值字典为:步骤三的数据特征工程中将每N小时(N=0~23)或者每周X(X=1~7)的统计均值、标准差和中位数通过字典的形式保存下来,使用的时候再载入,例如{'week_mean':{0:183427.86321643842,1:172660.54815416672,2:263416.00274861115,3:332425.2802124999,4:345292.8543361111,5:342761.7310555554,6:284586.737453125}}这部分字典记录了按周X统计的均值;
根据多项式拟合得到的趋势函数对未来的值进行计算作为特征,包括每天流量趋势以及每小时流量趋势;
特征补充完成后可以完成使用lightgbm模型对数据的预测;
将两个模型预测出的结果进行融合,得到最终结果为final_result=0.5*prophet_result+0.5*lgbm_result。
需要说明的是,尽管在上述实施例及附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
为了对上述基于时间序列模型的流量预测方法进行更为清楚的解释,下面结合一个具体的实施例来进行说明,然而值得注意的是该实施例仅是为了更好地说明本发明,并不构成对本发明不当的限定。
下面举例来展示本发明的方法预测流量的结果,具体如下:
图3是本发明一实施例的未来24小时的流量预测的结果与真实数据的对比图。如图3所示,我们获取到一个PON口的接收流量数据,数据是按小时间隔给出的流量数据,长度在1个月左右,我们通过建模预测未来24小时的流量变化,图中展示了流量预测的结果与真实数据的对比,其中一条曲线为预测值,另一条曲线为真实值,可以看出预测值与真实值相当接近。
本发明提出的基于时间序列模型的流量预测方法可以准确地预测未来流量的变化,多特征以及多模型的使用保证了预测的准确性和稳定性,与现有技术相比,该方法预测更加准确,表现稳定,并可复用在不同的PON口及其他流量预测场景。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包含的各种修改和等同布置。
对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (10)
1.一种基于时间序列模型的流量预测方法,其特征在于,该方法包括:
步骤一,获取PON口流量数据
获取到按小时记录的PON口流量数据,对于存在的异常数据进行部分处理;
步骤二,数据预处理
对于部分有缺失的流量数据,当缺失数据比例小于20%时,采用插值填充对缺失数据进行填充;对于同一时间点出现多条记录的数据,取该时间点的多条数据的平均值保留;
步骤三,数据特征工程
对于数据日期是否为节假日进行标注作为特征,对于数据日期是周X进行标注作为特征,对于数据时间是二十四小时中的N小时进行标注作为特征;根据数据日期是每周X(X=1~7)的流量数据进行统计,将统计的均值、方差和中位数作为特征保留,根据数据时间是每N小时(N=0~23)的流量数据进行统计,将统计的均值、方差和中位数作为特征保留;根据每天的流量数据进行均值统计并作为特征,并用多项式进行拟合,拟合得到的多项式用于对未来时间点该特征的特征值预测填充,根据每天每小时的流量数据作为特征,并用多项式进行拟合,拟合得到的多项式用于对未来时间点该特征的特征值预测填充;
步骤四,lightgbm建模
通过输入步骤三产生的所有特征进行lightgbm建模训练得到模型,预测时利用该模型输入对应参数进行预测;
步骤五,fbprophet建模
通过输入流量数据、流量对应的时间点以及节假日特征进行fbprophet建模并保存,模型训练时记录下训练数据的长度,预测时利用该模型进行预测;
步骤六,模型融合预测输出
将步骤四得到的模型预测出的结果和步骤五得到的模型预测出的结果进行融合,得到最终结果为final_result=0.5*prophet_result+0.5*lgbm_result。
2.根据权利要求1所述的基于时间序列模型的流量预测方法,其特征在于,所述步骤三中拟合多项式的方法包括:
将当前数据分成训练集和测试集,测试集占总数比例的10%;
假设曲线符合高阶多项式的形式,构造高阶多项式函数形式,利用训练集从1阶遍历至最高阶数进行多项式拟合;
利用测试集计算拟合出各曲线的r2分值,r2分值范围在[-1,1]之间,分值越高的代表拟合程度越好,选用对应分值最高的阶数的多项式作为该条时序流量数据的拟合函数;
记录下该函数的阶数及对应的参数并保存。
5.根据权利要求1所述的基于时间序列模型的流量预测方法,其特征在于,所述步骤六中fbprophet预测时根据建模时采用的按小时(H)或者按天(D)的特征来进行计算,输入预测freq=’H’以及想要预测的时间长度periods,根据之前记录下来的训练数据长度,之后的数据即为预测出的结果。
6.根据权利要求1所述的基于时间序列模型的流量预测方法,其特征在于,所述步骤六中lightgbm预测时所需要的特征通过以下方式计算:
根据未来预测日期得到相应特征,包括是否节假日,每周周X以及每天N小时。
7.根据权利要求1所述的基于时间序列模型的流量预测方法,其特征在于,所述步骤六中lightgbm预测时所需要的特征通过以下方式计算:
根据统计值字典进行关联得到特征,包括每周周X及以及每天的N小时的统计均值、标准差和中位数。
8.根据权利要求1所述的基于时间序列模型的流量预测方法,其特征在于,所述步骤六中lightgbm预测时所需要的特征通过以下方式计算:
根据多项式拟合得到的趋势函数对未来的值进行计算作为特征,包括每天流量趋势以及每小时流量趋势。
9.根据权利要求7所述的基于时间序列模型的流量预测方法,其特征在于,所述统计值字典为:步骤三的数据特征工程中将每N小时(N=0~23)或者每周X(X=1~7)的统计均值、标准差和中位数通过字典的形式保存下来,使用的时候再载入。
10.根据权利要求1所述的基于时间序列模型的流量预测方法,其特征在于,所述步骤二的数据预处理中缺失数据比例为小于20%。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011012312.6A CN112165412B (zh) | 2020-09-24 | 2020-09-24 | 一种基于时间序列模型的流量预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011012312.6A CN112165412B (zh) | 2020-09-24 | 2020-09-24 | 一种基于时间序列模型的流量预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112165412A CN112165412A (zh) | 2021-01-01 |
CN112165412B true CN112165412B (zh) | 2022-02-15 |
Family
ID=73863545
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011012312.6A Active CN112165412B (zh) | 2020-09-24 | 2020-09-24 | 一种基于时间序列模型的流量预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112165412B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114243702B (zh) * | 2022-01-28 | 2023-06-23 | 国网湖南省电力有限公司 | 一种电网avc系统运行参数的预测方法、系统及存储介质 |
CN116757876B (zh) * | 2023-08-21 | 2023-11-14 | 埃睿迪信息技术(北京)有限公司 | 一种供水分区耗水量的确定方法、装置及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109359674A (zh) * | 2018-09-27 | 2019-02-19 | 智庭(北京)智能科技有限公司 | 一种基于多模型blending的智能锁异常检测方法 |
CN110457867A (zh) * | 2019-10-08 | 2019-11-15 | 杭州知衣科技有限公司 | 一种基于机器学习的时间序列数据填补与还原方法 |
CN111461786A (zh) * | 2020-04-03 | 2020-07-28 | 中南大学 | 基于Prophet-CEEMDAN-ARIMA的商品销量预测方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108648023A (zh) * | 2018-05-18 | 2018-10-12 | 上海电机学院 | 一种融合历史均值与提升树的商家客流量预测方法 |
EP3623964A1 (en) * | 2018-09-14 | 2020-03-18 | Verint Americas Inc. | Framework for the automated determination of classes and anomaly detection methods for time series |
US11681552B2 (en) * | 2019-02-13 | 2023-06-20 | Royal Bank Of Canada | System and method for dynamic time-based user interface |
CN111148118B (zh) * | 2019-12-18 | 2023-03-14 | 福建省南鸿通讯科技有限公司 | 基于时间序列的流量预测和载波关断方法和系统 |
-
2020
- 2020-09-24 CN CN202011012312.6A patent/CN112165412B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109359674A (zh) * | 2018-09-27 | 2019-02-19 | 智庭(北京)智能科技有限公司 | 一种基于多模型blending的智能锁异常检测方法 |
CN110457867A (zh) * | 2019-10-08 | 2019-11-15 | 杭州知衣科技有限公司 | 一种基于机器学习的时间序列数据填补与还原方法 |
CN111461786A (zh) * | 2020-04-03 | 2020-07-28 | 中南大学 | 基于Prophet-CEEMDAN-ARIMA的商品销量预测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112165412A (zh) | 2021-01-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107591800B (zh) | 基于场景分析的含分布式电源配电网运行状态预测方法 | |
CN108632097B (zh) | 异常行为对象的识别方法、终端设备及介质 | |
CN112165412B (zh) | 一种基于时间序列模型的流量预测方法 | |
CN107766575B (zh) | 读写分离的数据库访问方法及装置 | |
CN109271321B (zh) | 一种贡献代码数统计方法及装置 | |
CN111831704B (zh) | 异常数据的确定方法、装置、存储介质和电子设备 | |
CN107292751B (zh) | 一种时序网络中节点重要性的挖掘方法和装置 | |
CN108459965B (zh) | 一种结合用户反馈和代码依赖的软件可追踪生成方法 | |
CN107832291A (zh) | 人机协作的客服方法、电子装置及存储介质 | |
CN111178623A (zh) | 一种基于多层机器学习的业务流程剩余时间预测方法 | |
CN104517020A (zh) | 用于因果效应分析的特征提取方法和装置 | |
CN114185914B (zh) | 计算标签数据的补算方法、系统、设备及存储介质 | |
CN109684320A (zh) | 监测数据在线清洗的方法和设备 | |
CN111158999B (zh) | 一种格式化时间的计算方法和装置 | |
CN110059126B (zh) | 基于lkj异常值数据的复杂关联网络分析方法及系统 | |
CN113326985B (zh) | 一种短期负荷预测方法及装置 | |
JP2007323315A (ja) | 協調フィルタリング方法、協調フィルタリング装置、および協調フィルタリングプログラムならびにそのプログラムを記録した記録媒体 | |
CN107590244B (zh) | 移动设备线下活动场景的识别方法和装置 | |
CN113495913A (zh) | 一种空气质量数据缺失值插补方法及装置 | |
JP5063444B2 (ja) | ライン生産管理支援方法および装置 | |
CN110134839B (zh) | 时序数据特征处理方法、装置及计算机可读存储介质 | |
CN117034197A (zh) | 基于多维Isolate-Detect多变点检测的企业用电典型模式分析方法 | |
CN105493050A (zh) | 数据处理装置、数据处理方法及程序 | |
CN107562695B (zh) | 一种配电变压器的负载数据处理方法及装置 | |
CN106920047B (zh) | 基于层次存储模型的电网统计数据派生计算方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP02 | Change in the address of a patent holder |
Address after: 200000 room 702-2, No. 4811 Cao'an Road, Jiading District, Shanghai Patentee after: CHINA UNITECHS Address before: Room 1004-4, 10 / F, 1112 Hanggui Road, Anting Town, Jiading District, Shanghai Patentee before: CHINA UNITECHS |
|
CP02 | Change in the address of a patent holder |