CN107358317A - 通过机器学习进行时序预测的方法及装置 - Google Patents
通过机器学习进行时序预测的方法及装置 Download PDFInfo
- Publication number
- CN107358317A CN107358317A CN201710510380.7A CN201710510380A CN107358317A CN 107358317 A CN107358317 A CN 107358317A CN 201710510380 A CN201710510380 A CN 201710510380A CN 107358317 A CN107358317 A CN 107358317A
- Authority
- CN
- China
- Prior art keywords
- time series
- series data
- data
- model
- smooth
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种通过机器学习进行时序预测的方法及装置,其中的所述方法包括:对获取的时间序列数据进行预处理,并得到预处理结果;根据所述预处理结果对检测所述时间序列数据中是否包含有季节性周期;当所述预处理结果检测所述时间序列数据中包含有季节性周期时,根据赤池信息量准则和贝叶斯信息准则选择时序模型;当所述预处理结果检测所述时间序列数据中未包含有季节性周期时,在时序数据池中新增所述时间序列数据,且在新增的所述时间序列数据的数量大于预设阈值时,返回所述根据赤池信息量准则和贝叶斯信息准则选择时序模型的步骤。本发明的有益效果为:利用自动化程序完成时序预测,通过机器学习手段不断优化模型,提升预测准确度。
Description
技术领域
本发明实施例涉及信息处理技术领域,尤其涉及一种通过机器学习进行时序预测的方法及装置。
背景技术
时间序列预测分析技术在科技和经济等诸多领域有着重要的应用价值。科学正确地对各种实际时间序列进行预测分析可产生巨大的经济效益和与社会效益。由于实际系统具有复杂的非线性特性,早期用于时间序列分析的线性模型和非线性模型在理论分析与实际应用上都有一定的局限性。
随着IT(Information Technology)技术的进步,人们利用信息技术产生和搜集数据的能力大幅度提高。数以千万计的数据库被用于商业管理、政府办公、科学研究和工程开发等方面,面对海量数据如何挖掘数据信息加以利用是当下的热点问题,近年来针对时间序列数据的挖掘与预测引起业界关注,时序预测可以用来解决网站访问量预测以及CPU、硬盘读写、网络带宽检测等问题。
目前业界主要在人工判定时序具有趋势性和季节性以后,采用三次指数平滑(Triple/Three Order Exponential Smoothing,Holt-Winters)算法预测,该算法基于一次指数平滑和二次指数平滑算法的,然而,这种人工分析完成时序预测过程繁琐,需要根据数据反复调整参数,预测结果也容易出现偏差,导致大规模IT环境只能针对少量关键KPI做时序预测,目前还没有能够完全解决上述问题的方法或者装置出现。
发明内容
为了克服相关技术中存在的技术问题,本发明提供一种通过机器学习进行时序预测的方法及装置,以实现利用自动化程序完成时序预测,通过机器学习手段不断优化模型,提升预测准确度,利用对大规模IT环境的全量KPI监控预测。
第一方面,本发明实施例提供了一种通过机器学习进行时序预测的方法,该方法包括:
对获取的时间序列数据进行预处理,并得到预处理结果;
根据所述预处理结果对检测所述时间序列数据中是否包含有季节性周期;
当所述预处理结果检测所述时间序列数据中包含有季节性周期时,根据赤池信息量准则和贝叶斯信息准则选择时序模型;
当所述预处理结果检测所述时间序列数据中未包含有季节性周期时,在时序数据池中新增所述时间序列数据,且在新增的所述时间序列数据的数量大于预设阈值时,返回所述根据赤池信息量准则和贝叶斯信息准则选择时序模型的步骤。
结合另一方面,在另一方面的一种可能出现的实现方式中,所述对获取的时间序列数据进行预处理,并得到预处理结果,包括:
检验获取的所述时间序列数据的平稳性来判断所述时间序列数据是否含有单位根,以用于判断所述时间序列数据是否含有趋势上的变化;
在所述时间序列数据含有单位根时,所述预处理结果为所述时间序列数据不平稳,即对所述时间序列数据进行时间序列差分处理以消除所述趋势上的变化。
结合另一方面,在另一方面的一种可能出现的实现方式中,所述根据赤池信息量准则和贝叶斯信息准则选择时序模型,包括:
从一次指数平滑模型、二次指数平滑以及季节性三次指数平滑三种模型中选择最优的模型。
结合另一方面,在另一方面的一种可能出现的实现方式中,所述方法还包括:
对选择的所述时序模型进行优化,包括:
利用下山单纯形法对预测的时间序列形成的时间序列线进行曲线拟合;
根据曲线拟合点对所述时序模型中的各参数进行设置。
结合另一方面,在另一方面的一种可能出现的实现方式中,所述一次指数平滑模型、二次指数平滑以及季节性三次指数平滑三种模型的关系为:
所述一次指数平滑模型为:
si=αxi+(1-α)si-1
其中α是平滑参数,si是之前i个数据的平滑值,取值为[0,1],α越接近1,平滑后的值越接近当前时间的数据值,数据越不平滑,α越接近0,平滑后的值越接近前i个数据的平滑值,数据越平滑;
所述二次指数平滑模型为:
si=αxi+(1-α)(si-1+ti-1)
ti=β(si-si-1)+(1-β)ti-1
二次指数平滑的预测公式为xi+h=si+hti;
三次指数平滑有累加和累乘两种方法,下面是累加的三次指数平滑
si=α(xi-pi-k)+(1-α)(si-1+ti-1)
ti=β(si-si-1)+(1-β)ti-1
pi=γ(xi-si)+(1-γ)pi-k其中k为周期
累加三次指数平滑的预测公式为:xi+h=(si+hti)pi-k+(h mod k);
根据曲线拟合点对所述时序模型中的各参数进行设置时,根据曲线拟合点对调节α,β,γ三个参数进行调节设置。
第二方面,本发明还提供了一种通过机器学习进行时序预测的装置,该装置包括:
预处理模块,用于对获取的时间序列数据进行预处理,并得到预处理结果;
检测模块,用于根据所述预处理结果对检测所述时间序列数据中是否包含有季节性周期;
第一选择模块,用于当所述预处理结果检测所述时间序列数据中包含有季节性周期时,根据赤池信息量准则和贝叶斯信息准则选择时序模型;
第二选择模块,用于当所述预处理结果检测所述时间序列数据中未包含有季节性周期时,在时序数据池中新增所述时间序列数据,且在新增的所述时间序列数据的数量大于预设阈值时,返回所述第一选择模块。
结合另一方面,在另一方面的一种可能出现的实现方式中,所述预处理模块,包括:
检验判断模块,用于检验获取的所述时间序列数据的平稳性来判断所述时间序列数据是否含有单位根,以用于判断所述时间序列数据是否含有趋势上的变化;
差分处理模块,用于在所述时间序列数据含有单位根时,所述预处理结果为所述时间序列数据不平稳,即对所述时间序列数据进行时间序列差分处理以消除所述趋势上的变化。
结合另一方面,在另一方面的一种可能出现的实现方式中,所述第一选择模块,用于:
从一次指数平滑模型、二次指数平滑以及季节性三次指数平滑三种模型中选择最优的模型。
结合另一方面,在另一方面的一种可能出现的实现方式中,所述装置还包括:
优化模块,用于对选择的所述时序模型进行优化,包括:
曲线拟合模块,用于利用下山单纯形法对预测的时间序列形成的时间序列线进行曲线拟合;
参数设置模块,用于根据曲线拟合点对所述时序模型中的各参数进行设置。
结合另一方面,在另一方面的一种可能出现的实现方式中,所述一次指数平滑模型、二次指数平滑以及季节性三次指数平滑三种模型的关系为:
所述一次指数平滑模型为:
si=αxi+(6-α)si-6
其中α是平滑参数,si是之前i个数据的平滑值,取值为[0,6],α越接近6,平滑后的值越接近当前时间的数据值,数据越不平滑,α越接近0,平滑后的值越接近前i个数据的平滑值,数据越平滑;
所述二次指数平滑模型为:
si=αxi+(6-α)(si-6+ti-6)
ti=β(si-si-6)+(6-β)ti-6
二次指数平滑的预测公式为xi+h=si+hti;
三次指数平滑有累加和累乘两种装置,下面是累加的三次指数平滑
si=α(xi-pi-k)+(6-α)(si-6+ti-6)
ti=β(si-si-6)+(6-β)ti-6
pi=γ(xi-si)+(6-γ)pi-k其中k为周期
累加三次指数平滑的预测公式为:xi+h=(si+hti)pi-k+(h mod k);
根据曲线拟合点对所述时序模型中的各参数进行设置时,根据曲线拟合点对调节α,β,γ三个参数进行调节设置。
本发明通过对获取的时间序列数据进行预处理,并根据所述预处理结果对所述时间序列数据中是否包含有季节性周期的检测结果对时序模型进行选择,对于不包含有季节性周期的时间序列数据则通过机器学习的方式对时序模型不断进行优化,使得时序模型不断训练不断优化以适应于各种类型的时序预测场景,并且有利于保持在较高的预测准确度的情况下对大规模IT环境的全量KPI监控预测。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种通过机器学习进行时序预测的方法的流程图。
图2是根据一示例性实施例示出的对时序数据进行预处理的流程图。
图3是根据一示例性实施例示出的一机器学习对模型选择不断优化的方法的流程图。
图4是根据一示例性实施例示出的一种通过机器学习进行时序预测的装置的框图。
图5是根据一示例性实施例示出的预处理模块的装置框图。
图6是根据一示例性实施例示出的机器学习时模型优化的装置框图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图中将各步骤描述成顺序的处理,但是其中的许多步骤可以并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排,当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图内的其它步骤。处理可以对应于方法、函数、规程、子例程、子程序等。
本发明涉及一种通过机器学习进行时序预测的方法及其对应的装置,其主要运用于通过时间序列数据对海量数据的挖掘与预测的场景中,其基本思想是:通过对获取的时间序列数据进行预处理,并根据所述预处理结果对所述时间序列数据中是否包含有季节性周期的检测结果对时序模型进行选择,对于不包含有季节性周期的时间序列数据则通过机器学习的方式对时序模型不断进行优化,使得时序模型不断训练不断优化以适应于各种类型的时序预测场景,并且有利于保持在较高的预测准确度的情况下对大规模IT环境的全量KPI监控预测。
本实施例可适用于带有机器学习模块的IT企业终端中以进行准确地时序预设的情况中,该方法可以由机器学习的装置来执行,其中该机器学习的装置可以由软件和/或硬件来实现,如图1所示,为本发明的通过机器学习进行时序预测的方法的流程示意图,所述方法具体包括如下步骤:
在步骤110中,对获取的时间序列数据进行预处理,并得到预处理结果;
本步骤中,如图2所示,其具体可以实施为:
在步骤111中,检验获取的所述时间序列数据的平稳性来判断所述时间序列数据是否含有单位根,以用于判断所述时间序列数据是否含有趋势上的变化;
在步骤112中,在所述时间序列数据含有单位根时,所述预处理结果为所述时间序列数据不平稳,即对所述时间序列数据进行时间序列差分处理以消除所述趋势上的变化。
对数据进行预处理,利用ADF检验来检验随机时间序列的平稳性(Augmen tedDickey-Fuller test)来判断数据是否含有单位根(unit root),并以此来判断数据是否含有趋势上的变化。
在步骤120中,根据所述预处理结果对检测所述时间序列数据中是否包含有季节性周期;
利用自协方差函数来自动探测数据中是否含有季节性周期。
在步骤130中,当所述预处理结果检测所述时间序列数据中包含有季节性周期时,根据赤池信息量准则和贝叶斯信息准则选择时序模型;
在本发明示例性实施例的另一种实施场景中,所述根据赤池信息量准则和贝叶斯信息准则选择时序模型,包括:
从一次指数平滑模型、二次指数平滑以及季节性三次指数平滑三种模型中选择最优的模型。
根据赤池信息量准则(Akaike information criterion,AIC)和贝叶斯信息准则(Bayesian information criterion,BIC)自动判定时序模型。从一次指数平滑模型(Simple exponential smoothing)/二次指数平滑(Double exponential smoothing)/季节性三次指数平滑(Seasonal triple exponential smoothing)三种模型中选择最优的模型。
所述一次指数平滑模型、二次指数平滑以及季节性三次指数平滑三种模型的关系为:
所述一次指数平滑模型为:
si=αxi+(1-α)si-1
其中α是平滑参数,si是之前i个数据的平滑值,取值为[0,1],α越接近1,平滑后的值越接近当前时间的数据值,数据越不平滑,α越接近0,平滑后的值越接近前i个数据的平滑值,数据越平滑;
所述二次指数平滑模型为:
si=αxi+(1-α)(si-1+ti-1)
ti=β(si-si-1)+(1-β)ti-1
二次指数平滑的预测公式为xi+h=si+hti;
三次指数平滑有累加和累乘两种方法,下面是累加的三次指数平滑:
si=α(xi-pi-k)+(1-α)(si-1+ti-1)
ti=β(si-si-1)+(1-β)ti-1
pi=γ(xi-si)+(1-γ)pi-k其中k为周期
累加三次指数平滑的预测公式为:xi+h=(si+hti)pi-k+(h mod k);
根据曲线拟合点对所述时序模型中的各参数进行设置时,根据曲线拟合点对调节α,β,γ三个参数进行调节设置。
在步骤140中,当所述预处理结果检测所述时间序列数据中未包含有季节性周期时,在时序数据池中新增所述时间序列数据,且在新增的所述时间序列数据的数量大于预设阈值时,返回所述根据赤池信息量准则和贝叶斯信息准则选择时序模型的步骤。
当新增加的数据越来越多时,后面的数据可能选择的时序模型会发生变化,所以当新增数据的量大于指定阀值,系统自动重新选择最优模型,以重新适应新增数据后形成的海量数据的情形。
本发明的方法,通过时间序列数据对海量数据的挖掘与预测的场景中,其基本思想是:通过对获取的时间序列数据进行预处理,并根据所述预处理结果对所述时间序列数据中是否包含有季节性周期的检测结果对时序模型进行选择,对于不包含有季节性周期的时间序列数据则通过机器学习的方式对时序模型不断进行优化,使得时序模型不断训练不断优化以适应于各种类型的时序预测场景,并且有利于保持在较高的预测准确度的情况下对大规模IT环境的全量KPI监控预测。
在本发明示例性实施例的另一种实施场景中,所述方法还包括对所述时序模型进行优化的步骤,其通过曲线拟合对选择的参数进行优化,其具体可以包括如下步骤:
对选择的所述时序模型进行优化,如图3所示,包括:
在步骤150中,利用下山单纯形法对预测的时间序列形成的时间序列线进行曲线拟合;
在步骤160中,根据曲线拟合点对所述时序模型中的各参数进行设置。
所述步骤130中的一次指数平滑模型、二次指数平滑以及季节性三次指数平滑三种模型中的各变量之间可能存在非线性关系,通过曲线拟合选择更为合适的曲线类型的曲线方程(由上述各类模型组成)来拟合观测数据,实现更好的对各所述时序模型中的各参数进行设置,从而使得模型选择进一步得到优化,进一步提升预测准确性。
本发明的方法,通过系统可自动检测时间序列数据是否平稳,自动检测时间序列数据是否具有季节性,机器学习自动选择合适的参数系统,可自动选择最优数据模型通过对新加入的数据自动检验不断优化模型。
图4为本发明实施例五提供的一种通过机器学习进行时序预测的装置的结构示意图,该装置可由软件和/或硬件实现,一般地集成于IT企业终端或其系统中,可通过通过机器学习进行时序预测的方法来实现。如图所示,本实施例可以以上述实施例为基础,提供了一种通过机器学习进行时序预测的装置,其主要包括了预处理模块410、检测模块420、第一选择模块430以及第二选择模块440。
其中的预处理模块410,用于对获取的时间序列数据进行预处理,并得到预处理结果;
其中的检测模块420,用于根据所述预处理结果对检测所述时间序列数据中是否包含有季节性周期;
其中的第一选择模块430,用于当所述预处理结果检测所述时间序列数据中包含有季节性周期时,根据赤池信息量准则和贝叶斯信息准则选择时序模型;
其中的第二选择模块440,用于当所述预处理结果检测所述时间序列数据中未包含有季节性周期时,在时序数据池中新增所述时间序列数据,且判断模块判断在新增的所述时间序列数据的数量大于预设阈值时,通过返回模块返回所述第一选择模块430。
在本发明示例性实施例的另一种实施场景中,如图5所示,所述预处理模块410,包括:
检验判断模块411,用于检验获取的所述时间序列数据的平稳性来判断所述时间序列数据是否含有单位根,以用于判断所述时间序列数据是否含有趋势上的变化;
差分处理模块412,用于在所述时间序列数据含有单位根时,所述预处理结果为所述时间序列数据不平稳,即对所述时间序列数据进行时间序列差分处理以消除所述趋势上的变化。
在本发明示例性实施例的另一种实施场景中,所述第一选择模块,用于:
从一次指数平滑模型、二次指数平滑以及季节性三次指数平滑三种模型中选择最优的模型。
在本发明示例性实施例的另一种实施场景中,如图6所示,所述装置还包括:
优化模块450,用于对选择的所述时序模型进行优化,包括:
曲线拟合模块460,用于利用下山单纯形法对预测的时间序列形成的时间序列线进行曲线拟合;
参数设置模块,用于根据曲线拟合点对所述时序模型中的各参数进行设置。
结合另一方面,在另一方面的一种可能出现的实现方式中,所述一次指数平滑模型、二次指数平滑以及季节性三次指数平滑三种模型的关系为:
所述一次指数平滑模型为:
si=αxi+(6-α)si-6
其中α是平滑参数,si是之前i个数据的平滑值,取值为[0,6],α越接近6,平滑后的值越接近当前时间的数据值,数据越不平滑,α越接近0,平滑后的值越接近前i个数据的平滑值,数据越平滑;
所述二次指数平滑模型为:
si=αxi+(6-α)(si-6+ti-6)
ti=β(si-si-6)+(6-β)ti-6
二次指数平滑的预测公式为xi+h=si+hti;
三次指数平滑有累加和累乘两种装置,下面是累加的三次指数平滑
si=α(xi-pi-k)+(6-α)(si-6+ti-6)
ti=β(si-si-6)+(6-β)ti-6
pi=γ(xi-si)+(6-γ)pi-k其中k为周期
累加三次指数平滑的预测公式为:xi+h=(si+hti)pi-k+(h mod k);
根据曲线拟合点对所述时序模型中的各参数进行设置时,根据曲线拟合点对调节α,β,γ三个参数进行调节设置。
上述实施例中提供的通过机器学习进行时序预测的装置可执行本发明中任意实施例中所提供的通过机器学习进行时序预测的方法,具备执行该方法相应的功能模块和有益效果,未在上述实施例中详细描述的技术细节,可参见本发明任意实施例中所提供的通过机器学习进行时序预测的方法。
将意识到的是,本发明也扩展到适合于将本发明付诸实践的计算机程序,特别是载体上或者载体中的计算机程序。程序可以以源代码、目标代码、代码中间源和诸如部分编译的形式的目标代码的形式,或者以任何其它适合在按照本发明的方法的实现中使用的形式。也将注意的是,这样的程序可能具有许多不同的构架设计。例如,实现按照本发明的方法或者系统的功能性的程序代码可能被再分为一个或者多个子例程。
用于在这些子例程中间分布功能性的许多不同方式将对技术人员而言是明显的。子例程可以一起存储在一个可执行文件中,从而形成自含式的程序。这样的可执行文件可以包括计算机可执行指令,例如处理器指令和/或解释器指令(例如,Java解释器指令)。可替换地,子例程的一个或者多个或者所有子例程都可以存储在至少一个外部库文件中,并且与主程序静态地或者动态地(例如在运行时间)链接。主程序含有对子例程中的至少一个的至少一个调用。子例程也可以包括对彼此的函数调用。涉及计算机程序产品的实施例包括对应于所阐明方法中至少一种方法的处理步骤的每一步骤的计算机可执行指令。这些指令可以被再分成子例程和/或被存储在一个或者多个可能静态或者动态链接的文件中。
另一个涉及计算机程序产品的实施例包括对应于所阐明的系统和/或产品中至少一个的装置中每个装置的计算机可执行指令。这些指令可以被再分成子例程和/或被存储在一个或者多个可能静态或者动态链接的文件中。
计算机程序的载体可以是能够运载程序的任何实体或者装置。例如,载体可以包含存储介质,诸如(ROM例如CDROM或者半导体ROM)或者磁记录介质(例如软盘或者硬盘)。进一步地,载体可以是可传输的载体,诸如电学或者光学信号,其可以经由电缆或者光缆,或者通过无线电或者其它手段传递。当程序具体化为这样的信号时,载体可以由这样的线缆或者其它装置或者装置组成。可替换地,载体可以是其中嵌入有程序的集成电路,所述集成电路适合于执行相关方法,或者供相关方法的执行所用。
应该留意的是,上文提到的实施例是举例说明本发明,而不是限制本发明,并且本领域的技术人员将能够设计许多可替换的实施例,而不会偏离所附权利要求的范围。在权利要求中,任何放置在圆括号之间的参考符号不应被解读为是对权利要求的限制。动词“包括”和其词形变化的使用不排除除了在权利要求中记载的那些之外的元素或者步骤的存在。在元素之前的冠词“一”或者“一个”不排除复数个这样的元素的存在。本发明可以通过包括几个明显不同的元件的硬件,以及通过适当编程的计算机而实现。在列举几种装置的装置权利要求中,这些装置中的几种可以通过硬件的同一项来体现。在相互不同的从属权利要求中陈述某些措施的单纯事实并不表明这些措施的组合不能被用来获益。
如果期望的话,这里所讨论的不同功能可以以不同顺序执行和/或彼此同时执行。此外,如果期望的话,以上所描述的一个或多个功能可以是可选的或者可以进行组合。
如果期望的话,上文所讨论的各步骤并不限于各实施例中的执行顺序,不同步骤可以以不同顺序执行和/或彼此同时执行。此外,在其他实施例中,以上所描述的一个或多个步骤可以是可选的或者可以进行组合。
虽然本发明的各个方面在独立权利要求中给出,但是本发明的其它方面包括来自所描述实施方式的特征和/或具有独立权利要求的特征的从属权利要求的组合,而并非仅是权利要求中所明确给出的组合。
这里所要注意的是,虽然以上描述了本发明的示例实施方式,但是这些描述并不应当以限制的含义进行理解。相反,可以进行若干种变化和修改而并不背离如所附权利要求中所限定的本发明的范围。
本领域普通技术人员应该明白,本发明实施例的装置中的各模块可以用通用的计算装置来实现,各模块可以集中在单个计算装置或者计算装置组成的网络组中,本发明实施例中的装置对应于前述实施例中的方法,其可以通过可执行的程序代码实现,也可以通过集成电路组合的方式来实现,因此本发明并不局限于特定的硬件或者软件及其结合。
本领域普通技术人员应该明白,本发明实施例的装置中的各模块可以用通用的移动终端来实现,各模块可以集中在单个移动终端或者移动终端组成的装置组合中,本发明实施例中的装置对应于前述实施例中的方法,其可以通过编辑可执行的程序代码实现,也可以通过集成电路组合的方式来实现,因此本发明并不局限于特定的硬件或者软件及其结合。
注意,上述仅为本发明的示例性实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。这里无需也无法对所有的实施方式予以穷举。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,凡在本发明的精神和和原则之内所引伸出的任何显而易见的变化或者变动仍处于本发明权利要求所保护的范围之中。
Claims (10)
1.一种通过机器学习进行时序预测的方法,其特征在于,该方法包括:
对获取的时间序列数据进行预处理,并得到预处理结果;
根据所述预处理结果对检测所述时间序列数据中是否包含有季节性周期;
当所述预处理结果检测所述时间序列数据中包含有季节性周期时,根据赤池信息量准则和贝叶斯信息准则选择时序模型;
当所述预处理结果检测所述时间序列数据中未包含有季节性周期时,在时序数据池中新增所述时间序列数据,且在新增的所述时间序列数据的数量大于预设阈值时,返回所述根据赤池信息量准则和贝叶斯信息准则选择时序模型的步骤。
2.根据权利要求1所述的方法,其特征在于,所述对获取的时间序列数据进行预处理,并得到预处理结果,包括:
检验获取的所述时间序列数据的平稳性来判断所述时间序列数据是否含有单位根,以用于判断所述时间序列数据是否含有趋势上的变化;
在所述时间序列数据含有单位根时,所述预处理结果为所述时间序列数据不平稳,即对所述时间序列数据进行时间序列差分处理以消除所述趋势上的变化。
3.根据权利要求1所述的方法,其特征在于,所述根据赤池信息量准则和贝叶斯信息准则选择时序模型,包括:
从一次指数平滑模型、二次指数平滑以及季节性三次指数平滑三种模型中选择最优的模型。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
对选择的所述时序模型进行优化,包括:
利用下山单纯形法对预测的时间序列形成的时间序列线进行曲线拟合;
根据曲线拟合点对所述时序模型中的各参数进行设置。
5.根据权利要求4所述的方法,其特征在于,所述一次指数平滑模型、二次指数平滑以及季节性三次指数平滑三种模型的关系为:
所述一次指数平滑模型为:
si=αxi+(1-α)si-1
其中α是平滑参数,si是之前i个数据的平滑值,取值为[0,1],α越接近1,平滑后的值越接近当前时间的数据值,数据越不平滑,α越接近0,平滑后的值越接近前i个数据的平滑值,数据越平滑;
所述二次指数平滑模型为:
si=αxi+(1-α)(si-1+ti-1)
ti=β(si-si-1)+(1-β)ti-1
二次指数平滑的预测公式为xi+h=si+hti;
三次指数平滑有累加和累乘两种方法,下面是累加的三次指数平滑
si=α(xi-pi-k)+(1-α)(si-1+ti-1)
ti=β(si-si-1)+(1-β)ti-1
pi=γ(xi-si)+(1-γ)pi-k其中k为周期
累加三次指数平滑的预测公式为:xi+h=(si+hti)pi-k+(h mod k);
根据曲线拟合点对所述时序模型中的各参数进行设置时,根据曲线拟合点对调节α,β,γ三个参数进行调节设置。
6.一种通过机器学习进行时序预测的装置,其特征在于,该装置包括:
预处理模块,用于对获取的时间序列数据进行预处理,并得到预处理结果;
检测模块,用于根据所述预处理结果对检测所述时间序列数据中是否包含有季节性周期;
第一选择模块,用于当所述预处理结果检测所述时间序列数据中包含有季节性周期时,根据赤池信息量准则和贝叶斯信息准则选择时序模型;
第二选择模块,用于当所述预处理结果检测所述时间序列数据中未包含有季节性周期时,在时序数据池中新增所述时间序列数据,且在新增的所述时间序列数据的数量大于预设阈值时,返回所述第一选择模块。
7.根据权利要求6所述的装置,其特征在于,所述预处理模块,包括:
检验判断模块,用于检验获取的所述时间序列数据的平稳性来判断所述时间序列数据是否含有单位根,以用于判断所述时间序列数据是否含有趋势上的变化;
差分处理模块,用于在所述时间序列数据含有单位根时,所述预处理结果为所述时间序列数据不平稳,即对所述时间序列数据进行时间序列差分处理以消除所述趋势上的变化。
8.根据权利要求6所述的装置,其特征在于,所述第一选择模块,用于:
从一次指数平滑模型、二次指数平滑以及季节性三次指数平滑三种模型中选择最优的模型。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
优化模块,用于对选择的所述时序模型进行优化,包括:
曲线拟合模块,用于利用下山单纯形法对预测的时间序列形成的时间序列线进行曲线拟合;
参数设置模块,用于根据曲线拟合点对所述时序模型中的各参数进行设置。
10.根据权利要求9所述的装置,其特征在于,所述一次指数平滑模型、二次指数平滑以及季节性三次指数平滑三种模型的关系为:
所述一次指数平滑模型为:
si=αxi+(6-α)si-6
其中α是平滑参数,si是之前i个数据的平滑值,取值为[0,6],α越接近6,平滑后的值越接近当前时间的数据值,数据越不平滑,α越接近0,平滑后的值越接近前i个数据的平滑值,数据越平滑;
所述二次指数平滑模型为:
si=αxi+(6-α)(si-6+ti-6)
ti=β(si-si-6)+(6-β)ti-6
二次指数平滑的预测公式为xi+h=si+hti;
三次指数平滑有累加和累乘两种装置,下面是累加的三次指数平滑
si=α(xi-pi-k)+(6-α)(si-6+ti-6)
ti=β(si-si-6)+(6-β)ti-6
pi=γ(xi-si)+(6-γ)pi-k其中k为周期
累加三次指数平滑的预测公式为:xi+h=(si+hti)pi-k+(h mod k);
根据曲线拟合点对所述时序模型中的各参数进行设置时,根据曲线拟合点对调节α,β,γ三个参数进行调节设置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710510380.7A CN107358317A (zh) | 2017-06-28 | 2017-06-28 | 通过机器学习进行时序预测的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710510380.7A CN107358317A (zh) | 2017-06-28 | 2017-06-28 | 通过机器学习进行时序预测的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107358317A true CN107358317A (zh) | 2017-11-17 |
Family
ID=60272653
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710510380.7A Pending CN107358317A (zh) | 2017-06-28 | 2017-06-28 | 通过机器学习进行时序预测的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107358317A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110705719A (zh) * | 2018-06-21 | 2020-01-17 | 第四范式(北京)技术有限公司 | 执行自动机器学习的方法和装置 |
CN110930258A (zh) * | 2019-11-15 | 2020-03-27 | 安徽海汇金融投资集团有限公司 | 一种应收账款融资变现规模预测方法及系统 |
CN111324391A (zh) * | 2020-02-28 | 2020-06-23 | 海信视像科技股份有限公司 | 一种基于指数平滑的智能电视应用预启动方法及设备 |
CN113157537A (zh) * | 2020-11-13 | 2021-07-23 | 国家电网有限公司信息通信分公司 | 一种基于ai算法基础的信息系统资源容量预测方法 |
CN113806615A (zh) * | 2021-11-18 | 2021-12-17 | 成都索贝数码科技股份有限公司 | 一种智能it运维系统的kpi异常预警方法 |
CN113837782A (zh) * | 2020-06-24 | 2021-12-24 | 上海顺如丰来技术有限公司 | 时间序列模型的周期项参数优化方法、装置、计算机设备 |
CN115668170A (zh) * | 2020-05-18 | 2023-01-31 | 谷歌有限责任公司 | 时间序列预测 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104899663A (zh) * | 2015-06-17 | 2015-09-09 | 北京奇虎科技有限公司 | 一种数据预测方法和装置 |
-
2017
- 2017-06-28 CN CN201710510380.7A patent/CN107358317A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104899663A (zh) * | 2015-06-17 | 2015-09-09 | 北京奇虎科技有限公司 | 一种数据预测方法和装置 |
Non-Patent Citations (2)
Title |
---|
天空之城: "时间序列挖掘-预测算法-三次指数平滑法(Holt-Winters)", 《HTTP://WWW.DATAGURU.CN/ARTICLE-3235-1.HTML 》 * |
张翼飞: "三种呼吸道传染病发病情况时间序列预测研究", 《中国优秀硕士学位论文全文数据库医药卫生科技辑》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110705719A (zh) * | 2018-06-21 | 2020-01-17 | 第四范式(北京)技术有限公司 | 执行自动机器学习的方法和装置 |
CN110930258A (zh) * | 2019-11-15 | 2020-03-27 | 安徽海汇金融投资集团有限公司 | 一种应收账款融资变现规模预测方法及系统 |
CN111324391A (zh) * | 2020-02-28 | 2020-06-23 | 海信视像科技股份有限公司 | 一种基于指数平滑的智能电视应用预启动方法及设备 |
CN115668170A (zh) * | 2020-05-18 | 2023-01-31 | 谷歌有限责任公司 | 时间序列预测 |
CN113837782A (zh) * | 2020-06-24 | 2021-12-24 | 上海顺如丰来技术有限公司 | 时间序列模型的周期项参数优化方法、装置、计算机设备 |
CN113837782B (zh) * | 2020-06-24 | 2024-04-19 | 上海顺如丰来技术有限公司 | 时间序列模型的周期项参数优化方法、装置、计算机设备 |
CN113157537A (zh) * | 2020-11-13 | 2021-07-23 | 国家电网有限公司信息通信分公司 | 一种基于ai算法基础的信息系统资源容量预测方法 |
CN113806615A (zh) * | 2021-11-18 | 2021-12-17 | 成都索贝数码科技股份有限公司 | 一种智能it运维系统的kpi异常预警方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107358317A (zh) | 通过机器学习进行时序预测的方法及装置 | |
Carruthers et al. | Integrating imputation and standardization of catch rate data in the calculation of relative abundance indices | |
CN107330731B (zh) | 一种识别广告位点击异常的方法和装置 | |
Zhao et al. | A prediction model of customer churn considering customer value: an empirical research of telecom industry in China | |
CN109214585B (zh) | 用户消费预测方法、装置、电子设备及存储介质 | |
CN107301119A (zh) | 利用时序相关性进行it故障根因分析的方法及装置 | |
US20220122010A1 (en) | Long-short field memory networks | |
CN109447246B (zh) | 用于生成模型的方法和装置 | |
CN105550927A (zh) | 一种银行信贷系统风险评估方法及装置 | |
CN110166462A (zh) | 访问控制方法、系统、电子设备及计算机存储介质 | |
CN109523538A (zh) | 一种基于生成对抗神经网络的人群计数方法以及系统 | |
CN109799550B (zh) | 用于预测降雨强度的方法和装置 | |
US10552024B2 (en) | System and method of providing spatiotemporal visualizations | |
CN110457369A (zh) | 一种模型的训练方法及相关设备 | |
US20230024680A1 (en) | Method of determining regional land usage property, electronic device, and storage medium | |
CN109615414A (zh) | 房产预估方法、装置及存储介质 | |
CN110717509A (zh) | 基于树分裂算法的数据样本分析方法及装置 | |
CN109978575A (zh) | 一种挖掘用户流量经营场景的方法及装置 | |
JP2022541959A (ja) | 因果分析 | |
CN108805867A (zh) | 用于输出烟叶等级信息的方法和装置 | |
Droftina et al. | A diffusion model for churn prediction based on sociometric theory | |
US20220253876A1 (en) | Path finding analytic tool for customer data | |
Brugnach et al. | Determining the significance of threshold values uncertainty in rule-based classification models | |
US10146511B2 (en) | System and method for estimating package implementation effort of SDLC activities | |
CN107431646A (zh) | 负载测试 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171117 |