CN115271192A - 一种工业生产指数预测方法及处理器 - Google Patents
一种工业生产指数预测方法及处理器 Download PDFInfo
- Publication number
- CN115271192A CN115271192A CN202210853612.XA CN202210853612A CN115271192A CN 115271192 A CN115271192 A CN 115271192A CN 202210853612 A CN202210853612 A CN 202210853612A CN 115271192 A CN115271192 A CN 115271192A
- Authority
- CN
- China
- Prior art keywords
- model
- predicted value
- industrial production
- production index
- index according
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000009776 industrial production Methods 0.000 title claims abstract description 45
- 241000728173 Sarima Species 0.000 claims abstract description 31
- 238000012360 testing method Methods 0.000 claims description 33
- 230000001932 seasonal effect Effects 0.000 claims description 23
- YHXISWVBGDMDLQ-UHFFFAOYSA-N moclobemide Chemical compound C1=CC(Cl)=CC=C1C(=O)NCCN1CCOCC1 YHXISWVBGDMDLQ-UHFFFAOYSA-N 0.000 claims description 16
- 238000000528 statistical test Methods 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 7
- 230000008901 benefit Effects 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 12
- 238000000354 decomposition reaction Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000001744 unit root test Methods 0.000 description 4
- 238000000692 Student's t-test Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 238000012886 linear function Methods 0.000 description 3
- 238000007477 logistic regression Methods 0.000 description 3
- 230000000737 periodic effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012353 t test Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000000630 rising effect Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06311—Scheduling, planning or task assignment for a person or group
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/04—Manufacturing
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Marketing (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Educational Administration (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Manufacturing & Machinery (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种工业生产指数的预测方法及处理器,该方法包括:获取时间序列;SARIMA模型根据获取时间序列生成工业生产指数第一预测值;Prophet模型根据获取时间序列生成工业生产指数第二预测值;回归模型根据所述第一预测值和所述第二预测值生成工业生产指数第三预测值;所述回归模型表达式为:y=β0+β1x1+β2x2+ε;其中y指的第三预测值,x1表示第一预测值,x2表示第二预测值,β0,β1和β2表示未知的回归系数,ε表示随机误差。本发明提出一种工业生产指数预测方法。本发明的是减少模型定参的时候的人工分析的步骤以及组合两个模型对时间序列数据的拟合能力和各自优势,得出预测更为准确的模型。
Description
技术领域
本发明涉及内容智能制造技术领域,具体涉及一种工业生产指数 预测方法。
背景技术
传统的时间序列预测使用移动平均(MA)、自回归模型(AR)和 自回归移动平均模型(ARMA)。但是这些模型只能对平稳时间序列进 行预测,这些模型的预测只能简单处理单变量数据且要求数据具有平 稳性。然而在现实生活中,时序数据受多种因素影响不具备平稳性, 因此使用这些传统的时序算法进行预测无法得到准确的预测结果。我 们对于时间序列不平稳的解决办法是引入整合移动平均自回归模型 (ARIMA)。ARIMA模型通过对时间进行差分处理后可以得到平稳的数 据,但是ARIMA模型不适用于数据噪声大、非线性变化强以及具有季 节性数据特征的时间序列数据。针对这种现状,引入了一种适合季节 性时间序列预测的模型SARIMA来进行带有季节性数据特征的时间序 列的预测。
在进行ARIMA模型的构建过程中,需要经历检验时间序列平稳性、 差分检验、白噪声检验、自相关图和偏自相关图检验、模型定阶等过 程。但是对于参数定阶的过程,需要根据ACF图和PACF图的图形的 拖尾和截尾的特征来进行参数p,q的选取,需要进行人工的分析。 对于参数的确定,为了减少参数分析的步骤,有利于非专业的时间序 列分析者,使用自动化的模型AutoARIMA得出最好的模型参数,我们 可以使用确定最佳参数的一个指标:AIC(赤池信息准则)。AIC最小 时得到的模型效果最好。AutoARIMA就是封装了网格搜索算法,以最 小AIC为准则进行模型的定参,并且AutoARIMA可以对季节性时间序 列进行预测。
对于时间序列的分析,除了作为一个整体进行分析外,通常还有 一种基于时间序列分解的办法,时间序列的分解可以分解为长期趋势, 季节变动,循环波动,不规则波动等子序列。常用的分解算法有STL 分解、EMD分解等。基于时间序列的分解,Prophet模型简单易用, 使用Prophet模型可以由不具有时间序列领域知识的分析者直观地 调整参数以进行可靠、实用的预测。
当前时间序列预测技术主要是基于统计学和机器学习算法进行 预测,这些方法存在以下缺点:
(1)对于季节性时间序列应用SARIMA模型时首先要对数据进行 季节性剔除,比较繁琐。Prophet模型没有保持提取残差项的自相关 信息,SARIMA模型适用于提取线性数据,Prophet适用于提取非线性 数据。
(2)基于深度学习的时间序列模型,依赖于大量训练数据,训 练时间普遍比较长。
发明内容
本发明的目的在于克服现有技术的缺点和不足,提出一种工业生 产指数预测方法。本发明的是减少模型定参的时候的人工分析的步骤 以及组合两个模型对时间序列数据的拟合能力和各自优势,得出预测 更为准确的模型。
为此,本发明的公开了一种工业生产指数的预测方法,包括:获 取时间序列;SARIMA模型根据获取时间序列生成工业生产指数第一 预测值;Prophet模型根据获取时间序列生成工业生产指数第二预测 值;回归模型根据所述第一预测值和所述第二预测值生成工业生产指 数第三预测值;所述回归模型表达式为: y=β0+β1x1+β2x2+ε;其中y指的第三预测值,x1表示第 一预测值,x2表示第二预测值,β0,β1和β2表示未知的回归系数, ε表示随机误差。
优选地,所述回归模型采用最小二乘法求解,回归模型表达式为: y=12.413+2.01x1+0.13x2,其中y指的第三预测值,x1表示第一 预测值,x2表示第二预测值。
优选地,Prophet模型根据获取时间序列生成工业生产指数第二 预测值之前还包括:Prophet模型支持的数据的两列为“ds”,“y”, 对DataFrame格式进行重命名;
将读到的时间序列进行归一化,经过处理的数据均值为0,标准 差为1转化公式为:
优选地,Prophet模型的算法公式如下:y(t)=g(t)+s(t)+ h(t)+∈t;其中g(t)为趋势项,表示的是时间序列在非周期上的趋势 变化规律;s(t)表示为周期项,或者称作季节项;h(t)为节假日项, 表示当天是否是节假日;∈t是误差项或称残差项。
优选地,所述SARIMA模型根据获取时间序列生成工业生产指数 第一预测值之前,还包括:
进行时间序列的平稳性、随机性和季节性的检验;
运用AutoARIMA的网格搜索法功能对ARIMA(p,d,q)模型的参数 进行选取;
进行模型的统计学检验,利用残差检验模型的可行性;
利用AutoARIMA模型网格搜索法拟合数据后最终的模型为 SARIMA(1,1,2)x(2,0,2)[6]。
优选地,所述进行模型的统计学检验,利用残差检验模型的可行 性,具体包括:当残差检验的p值>0.05时,模型通过检验,确定 AutoARIMA模型的最终形式;
如果p值<0.05,模型没有通过检验,重新选取参数,直至选 择的最终模型通过残差检验。
第二方面,提供一种处理器,处理器用于执行工业生产指数预测 方法。
本发明通过SARIMA模型根据获取时间序列生成工业生产指数第 一预测值;
Prophet模型根据获取时间序列生成工业生产指数第二预测值;回归 模型根据第一预测值和第二预测值生成工业生产指数第三预测值;由 于Prophet模型忽略了残差的自相关关系,SARIMA严格考虑了残差 自相关并进行了统计学的检验。本模型使用组合模型,对比单一的模 型具有最小预测误差略小于单项模型的最小预测误差的优点。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,标示出了 符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面 将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而 易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前 提下,还可以根据这些附图获得其他的附图。
图1为本发明工业生产指数预测方法的流程图;
图2为本发明的原始时间序列图;
图3为本发明的一阶差分后时序图;
图4为本发明的ACF图;
图5为本发明的归一化的时间序列图;
图6为本发明的Prophet模型分解结果;
图7为本发明的Prophet模型预测结果。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方 案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一 部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域 普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施 例,都属于本发明保护的范围。
需要说明,本发明实施例中所有方向性指示(诸如上、下、左、 右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部 件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时, 则该方向性指示也相应地随之改变。
另外,在本发明中涉及“第一”、“第二”等的描述仅用于描述目 的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技 术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者 隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以 相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技 术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的 结合不存在,也不在本发明要求的保护范围之内。
本发明的公开了一种工业生产指数的预测方法,参考图1-7,包 括:
步骤100,获取时间序列;
步骤200,SARIMA模型根据获取时间序列生成工业生产指数第一 预测值;
步骤300,Prophet模型根据获取时间序列生成工业生产指数第 二预测值;
步骤400,回归模型根据第一预测值和第二预测值生成工业生产 指数第三预测值;
回归模型表达式为:
y=β0+β1x1+β2x2+ε
其中y指的第三预测值,x1表示第一预测值,x2表示第二预测值, β0,β1和β2表示未知的回归系数,ε表示随机误差。
本发明通过SARIMA模型根据获取时间序列生成工业生产指数第 一预测值;
Prophet模型根据获取时间序列生成工业生产指数第二预测值;回归 模型根据第一预测值和第二预测值生成工业生产指数第三预测值;由 于Prophet模型忽略了残差的自相关关系,SARIMA严格考虑了残差 自相关并进行了统计学的检验。本模型使用组合模型,对比单一的模 型具有最小预测误差略小于单项模型的最小预测误差的优点。
优选地,回归模型采用最小二乘法求解,回归模型表达式为:y= 1.2413+2.01x1-1.03x2,其中y指的第三预测值,x1表示第一预测 值,x2表示第二预测值。
获取回归模型之后,还包括步骤500,进行回归模型的检验。首 先是计算两个统计项ESS和TSS。回归平方和:总 离差平方和:其次是进行F检验,F检验的目的是 检验真实值和两个模型的预测值之间是否有线性关系,需要进行线性 关系的检验,检验线性关系是否在整体上显著。进行假设性检验:原 假设H0:β1=β2=0。H1:β1,β2有一个至少不为0。
在α=0.05的显著性水平下,模型F>F(k,n-k-1),模型通过F 检验。
最后是进行t检验。t检验的目的是为了两个模型预测值分别对 真实值的作用都是显著的,即真实值与单个模型预测值之间是否有显 著的线性关系。进行假设性检验:原假设H0:βi=0。H1:β1≠0, i=1,2。
给定显著性水平α=0.05,可得|t|>tα/2(n-k-1)时,模型通 过t检验,即认为组合回归模型与单个模型线性相关。
优选地,步骤300,Prophet模型根据获取时间序列生成工业生 产指数第二预测值之前还包括:步骤210,Prophet模型支持的数据 的两列为“ds”,“y”,对DataFrame格式进行重命名;
Prophet模型是基于时间序列分解理论为基础的时间序列预测策 略。Prophet模型的算法公式如下:
y(t)=g(t)+s(t)+h(t)+∈t (4)
其中g(t)为趋势项,表示的是时间序列在非周期上的趋势变化 规律,比如趋势上升,趋势下降等等。在Prophet模型中趋势项有两 个重要函数:逻辑回归函数和分段线性函数。逻辑回归函数的表达式 为公式(5)
C为曲线的最大趋近值,k表示曲线的增长率,m表示曲线的中 点。因为逻辑回归函数用来拟合趋势线需要根据数据业务需要制定一 个最大值,但对于工业生产指数数据,因其整体保持向上增长的趋势, 所以趋势项g(t)不需要给定一个最大值。因此我们采用分段线性函 数来拟合增长趋势。分段线性函数的公式如下:
g(t)=(k+a(t)δ)·t(m+a(t)Tγ) (6)
其中k表示增长率,m表示偏移量,δ表示增长率的变化量, a(t)∈{0,1}S,γ表示偏移率的变化量。
其中,a(t)=(a1(t),…,aS(t))T,δ=(δ1,…,δS)T,γ= (γ1,…,γS)T。
s(t)表示为周期项,或者称作季节项,通常以周、月、年为单位。因为 时间序列的数据特征可能会随着周期进行波动。在数学中,周期波动用 sinx,cosx函数来表示。用傅里叶级数来模拟时间序列的周期性,公式如下:
P表示时间序列周期,前面通过step2得知m=6,表示周期为 半年,这里P以天为单位,所以P=182.5。
Prophet还增加了节假日项h(t),表示当天是否是节假日。对于 这一项,节假日通常会影响工业生产,可能对工业生产指数有影响, 因此我们保留这个设置,使用默认参数。不同的节假日可以看成相互 独立的模型,为节假日设置不同的窗口值表示节假日前后的时间序列 受此节假日影响。
∈t是误差项或称残差项。是指原始时间序列分解为不能分解的 子序列后的剩余项。由于Prophet模型没有考虑残差性的自相关性, 因此我们使用SARIMA的模型进行组合预测。
Prophet就是通过拟合这几项,然后通过累加或者累乘得到,我 们使用基于累乘的时间序列分解模式。
步骤220,将读到的时间序列进行归一化,经过处理的数据均值 为0,标准差为1转化公式为:
步骤230,Prophet模型的算法公式如下:y(t)=g(t)+s(t)+ h(t)+∈t;其中g(t)为趋势项,表示的是时间序列在非周期上的趋势 变化规律;s(t)表示为周期项,或者称作季节项;h(t)为节假日项, 表示当天是否是节假日;∈t是误差项或称残差项。
所述回归模型采用最小二乘法求解,回归模型表达式为:y= 1.2413+2.01x1-1.03x2,其中y指的第三预测值,x1表示第一预测 值,x2表示第二预测值。从图片可知,trend反映工业生产指数在逐 年保持上升趋势。从holidays可知数值随年份呈现规律性变化。
从weekly可以看出,数据总体在星期六、日保持下降趋势,工 作日的数据比较大周末大。从yearly月度来看,5-7月,10-12月有 上升趋势。从daily数据来看,上午数据大于下午。从monthly来看,2月份数据开始下降,5月份数据开始上升。Prophet进行模型预测 的曲线图如图7,黑点表示实际值,实线表示预测值,阴影区域表示 预测的置信区间。
步骤200,SARIMA模型根据获取时间序列生成工业生产指数第一 预测值之前,还包括:
步骤110,进行时间序列的平稳性、随机性和季节性的检验;
Step111:检验时间序列平稳性。如果时间序列是非平稳的,那么 进行时间序列的预测时产生误差较大,时间序列失去研究意义。平稳 时间序列需要满足的三个特征是:时间序列数据的均值和时间变量无 关、时间序列数据的方差和时间变量无关、协方差与时间序列具体点 无关,与时间间隔有关。先绘制时间序列原始曲线图如图2所示,从 定性分析的角度:我们可以看到该序列具有明显的单调递增的趋势, 可以初步判断为非平稳时间序列。
为了更近一步从定量的角度分析说明这是个非平稳时间序列,需 要进行时间序列的单位根检验即ADF检验。单位根检验的结果如表1, 可以看到单位根检验对应的p值显著大于0.05,接受原假设,则认 为该序列为非平稳时间序列。
表1原始序列的单位根检验
对时间序列进行平稳化的做法有:差分、对数变换和平滑等操作。 最常用的方法是差分。差分可以去除原始时间序列中的趋势项以及季 节项。将当前数据与前一个数据求差就是一阶差分,将当前数据与一 个周期前的数据求差就是季节性差分。对原始时间序列进行一阶差分, 原始序列进行一阶差分后的时间序列如图3所示,时序图显示差分后 均值在0附近进行平稳性波动,初步判断一阶差分后时间序列平稳。 所以差分系数d=1。
对差分后的时间序列进行单位根检验的结果如表2,p值小于 0.05,所以一阶差分后时间序列是平稳时间序列。
表2一阶差分后的单位根检验
Step112:因为白噪声序列没有规律,不具备分析意义,所以必须 保证读取进来的时间序列数据为非白噪声数据。针对白噪声的检验也 即随机性的检验,使用LB统计量,由样本各个延迟期数的自相关系 数可以得到检验统计量。白噪声检验结果如表三,p值小于0.05,所 以一阶差分后的数据是平稳非白噪声数据。
LB统计量 | P值 |
124.6334 | 6.1221e-29 |
表3一阶差分后的白噪声检验
步骤113:接下来进行季节性检验,绘制ACF图,发现横坐标为6 的倍数时出现一个峰值,说明数据每6个月出现一次周期性。因此季 节性周期m可以取6,12,18等。因为通过ACF图和PACF图的截尾和 拖尾情况来进行模型定参比较依赖分析者经验,截尾指的是ACF图和 PACF图在大于某个常数后迅速趋近于0,拖尾指的是ACF图和PACF 图不会在大于某个常数后就趋近于0,而是会一直保持非零值。通过 图示难以快速分析出最佳参数,因此采用AutoARIMA模型来搜索最佳 参数。
步骤120,运用AutoARIMA的网格搜索法功能对ARIMA(p,d,q) 模型的参数进行选取;
运用AutoARIMA的网格搜索法功能:前面分别确定d和m的取 值,我们在做实验时只需要给一个最大值p,最大值q,且季节性参 数设置为True就可以利用网格搜索法自动查找AIC最小的模型。
AutoARIMA的主要参数解析如表4。
表4AutoARIMA模型主要参数
通过步骤120的数据预处理,我们知道d=1,m=6n(n= 1,2,3,…),需要选择m取不同值时最好模型,结果如表5。
模型 | AIC | Times(s) |
ARIMA(1,1,2)(2,0,2)[6] | 2554.083 | 98.794 |
ARIMA(1,1,2)(1,0,1)[12] | 2555.511 | 110.409 |
ARIMA(4,1,4)(2,0,2)[18] | 2641.502 | 787.252 |
表5m取不同值的模型比较
选定的模型是SARIMA(1,1,2)x(2,0,2)[6]。
ARIMA(p,d,q)模型的算法原理如下:
ARIMA(p,d,q)模型由两部分构成:AR(自回归)模型和MA模 型(移动平均)模型组成。μ代表常数。φ代表自回归系数,θ代 表移动平均的系数。d表示的是平稳处理的差分次数,yt代表样本值, et代表服从(0,δ2)分布的白噪声序列。
SARIMA(p,d,q)x(P,D,Q)s模型的算法原理如下所示.
p,d,q与ARIMA模型中的含义相同,P,D,Q表示在p,d, q的基础上增加了季节性,yt表示样本值,S表示周期长度,表 示差分次数为d次,表示序列的季节性差分次数为D次,B表示 后移算子,φp(B)和Φp(BS)分别表示非季节性和季节性的自回归分量, θq和ΘQ(BS)表示非季节性和季节性移动平均分量,εt表示白噪声序 列。
步骤130,进行模型的统计学检验,利用残差检验模型的可行性;
步骤140,利用AutoARIMA模型网格搜索法拟合数据后最终的模 型为SARIMA(1,1,2)x(2,0,2)[6]。
步骤130,进行模型的统计学检验,利用残差检验模型的可行性, 具体包括:步骤131,当残差检验的p值>0.05时,模型通过检验, 确定AutoARIMA模型的最终形式;
步骤132,如果p值<0.05,模型没有通过检验,重新选取参 数,直至选择的最终模型通过残差检验。通过SARIMA模型的残差检 验可得:p=0.07453>0.05,表明通过SARIMA(1,1,2)x(2,0,2)[6] 的模型检验并确定最终模型。
步骤140,利用AutoARIMA模型网格搜索法拟合数据后最终的模 型为SARIMA(1,1,2)x(2,0,2)[6],这个模型最终的形式为SARIMA模 型。
将SRIMA+Prophet模型与ARIMA,SARIMA、Prophet、LSTM、Holter-Winters、Holter-Winters+Prophet、SARIMA+ Holter-Winters等模型进行实验对比,以MAE(平均绝对误差)、RMSE (均方根误差)、MSE(均方误差)、MAPE(平均绝对百分比误差)、SMAPE (对称平均绝对百分比误差)等为评估指标,结果如表6所示。
Model | MAE | RMSE | MSE | MAPE | SMAPE |
ARIMA | 9.155 | 11.253 | 126.643 | 0.095 | 0.0902 |
SARIMA | 6.537 | 7.995 | 63.917 | 0.067 | 0.065 |
Prophet | 9.323 | 12.035 | 144.853 | 0.093 | 0.087 |
Holter-Winters | 39.448 | 43.464 | 1889.125 | 0.394 | 0.320 |
LSTM | 10.499 | 13.434 | 180.480 | 0.099 | 0.107 |
LSTM+Prophet | 10.315 | 11.678 | 138.454 | 0.084 | 0.058 |
SARIMA+LSTM | 6.132 | 7.968 | 48.145 | 0.061 | 0.051 |
SRIMA+Prophet | 5.469 | 6.687 | 44.663 | 0.054 | 0.054 |
表6实验结果对比
从实验结果可以看出本发明模型在带有季节性的工业生产指数 时,模型SARIMA、LSTM、Prophet的预测效果比较好。其中SARIMA+ Prophet训练时的MAE、RMSE、MSE、MAPE均小于其他模型组合形式, 而SARIMA+Prophet的SMAPE大于SARIMA+LSTM。综合看,SARIMA+Prophet仍然是处理我们数据的较优模型。
本发明可以对比深度学习模型,本发明使用了统计学模型的组合, 减少了模型训练时间,且模型预测的准确率并没有大幅降低。
本模型使用组合模型,对比单一的模型具有最小预测误差略小于 单项模型的最小预测误差的优点。
时间序列的分析对于初学者很难把握模型的定参过程,因此采用 网格搜索的方法结合参数简单的Prophet模型,易于建模。
对于具有季节性的时间序列具有很好的拟合效果。
第二方面,提供了一种处理器,处理器用于执行工业生产指数预 测方法;处理器可以是一个或多个图形处理器(graphics processing unit,GPU),在处理器是一个GPU的情况下,该GPU可以是单核GPU, 也可以是多核GPU。可选的,处理器可以是多个GPU构成的处理器组, 多个处理器之间通过一个或多个总线彼此耦合。可选的,该处理器还 可以为其他类型的处理器等等,本申请实施例不作限定。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或 实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是 显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或 范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于 本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (7)
1.一种工业生产指数的预测方法,其特征在于,包括:
获取时间序列;
SARIMA模型根据获取时间序列生成工业生产指数第一预测值;
Prophet模型根据获取时间序列生成工业生产指数第二预测值;
回归模型根据所述第一预测值和所述第二预测值生成工业生产指数第三预测值;
所述回归模型表达式为:
y=β0+β1x1+β2x2+ε
其中y指的第三预测值,x1表示第一预测值,x2表示第二预测值,β0,β1和β2表示未知的回归系数,ε表示随机误差。
2.根据权利要求1所述的工业生产指数的预测方法,其特征在于,包括:所述回归模型采用最小二乘法求解,回归模型表达式为:y=1.2413+2.01x1-1.03x2,其中y指的第三预测值,x1表示第一预测值,x2表示第二预测值。
4.根据权利要求1所述的工业生产指数的预测方法,其特征在于,Prophet模型的算法公式如下:y(t)=g(t)+s(t)+h(t)+∈t;其中g(t)为趋势项,表示的是时间序列在非周期上的趋势变化规律;s(t)表示为周期项,或者称作季节项;h(t)为节假日项,表示当天是否是节假日;∈t是误差项或称残差项。
5.根据权利要求1所述的工业生产指数的预测方法,其特征在于,所述SARIMA模型根据获取时间序列生成工业生产指数第一预测值之前,还包括:
进行时间序列的平稳性、随机性和季节性的检验;
运用AutoARIMA的网格搜索法功能对ARIMA(p,d,q)模型的参数进行选取;
进行模型的统计学检验,利用残差检验模型的可行性;
利用AutoARIMA模型网格搜索法拟合数据后最终的模型为SARIMA(1,1,2)x(2,0,2)[6]。
6.根据权利要求5所述的工业生产指数的预测方法,其特征在于,所述进行模型的统计学检验,利用残差检验模型的可行性,具体包括:当残差检验的p值>0.05时,模型通过检验,确定AutoARIMA模型的最终形式;
如果p值<0.05,模型没有通过检验,重新选取参数,直至选择的最终模型通过残差检验。
7.一种处理器,其特征在于,所述处理器用于执行如权利要求1至6中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210853612.XA CN115271192A (zh) | 2022-09-30 | 2022-09-30 | 一种工业生产指数预测方法及处理器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210853612.XA CN115271192A (zh) | 2022-09-30 | 2022-09-30 | 一种工业生产指数预测方法及处理器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115271192A true CN115271192A (zh) | 2022-11-01 |
Family
ID=83766279
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210853612.XA Pending CN115271192A (zh) | 2022-09-30 | 2022-09-30 | 一种工业生产指数预测方法及处理器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115271192A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116562471A (zh) * | 2023-07-10 | 2023-08-08 | 安徽中科海奥电气股份有限公司 | 一种基于stl数据分解的stl-sarima-gru功率预测方法 |
-
2022
- 2022-09-30 CN CN202210853612.XA patent/CN115271192A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116562471A (zh) * | 2023-07-10 | 2023-08-08 | 安徽中科海奥电气股份有限公司 | 一种基于stl数据分解的stl-sarima-gru功率预测方法 |
CN116562471B (zh) * | 2023-07-10 | 2023-10-24 | 安徽中科海奥电气股份有限公司 | 一种基于stl数据分解的stl-sarima-gru功率预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Methot Jr et al. | Adjusting for bias due to variability of estimated recruitments in fishery assessment models | |
CN109376953B (zh) | 一种中长期电量预测方法及系统 | |
Reich et al. | Evaluating machine learning models for engineering problems | |
Filimonov et al. | A stable and robust calibration scheme of the log-periodic power law model | |
Wu et al. | A prediction method using the grey model GMC (1, n) combined with the grey relational analysis: a case study on Internet access population forecast | |
CN109085805B (zh) | 一种基于多采样率因子分析模型的工业过程故障检测方法 | |
CN111950805B (zh) | 中长期电力负荷预测方法、装置、计算机设备及存储介质 | |
CN117196353B (zh) | 基于大数据的环境污染评估与监测方法及系统 | |
CN105868164B (zh) | 一种基于有监督的线性动态系统模型的软测量建模方法 | |
CN113837488B (zh) | 能源消耗数据预测方法、系统、设备 | |
CN112070284A (zh) | 用于件量预测的筛选方法、装置、设备和存储介质 | |
CN107992991A (zh) | 基于外部环境因素和协整理论的年度售电量预测方法 | |
CN115271192A (zh) | 一种工业生产指数预测方法及处理器 | |
Truesdell et al. | Estimating multinomial effective sample size in catch-at-age and catch-at-size models | |
CN108256676B (zh) | 一种计及负荷波动不对称特性的电力负荷预测方法 | |
CN110196456A (zh) | 一种基于相似年灰色关联分析的中长期降雨径流预报方法 | |
CN110909492B (zh) | 一种基于极端梯度提升算法的污水处理过程软测量方法 | |
CN117744848A (zh) | 一种考虑季节调整的农业月用电量预测方法 | |
Hansen | Different methods to forecast milk delivery to dairy: a comparison for forecasting | |
CN117035155A (zh) | 一种水质预测方法 | |
CN115688984A (zh) | 分区用电量分析预测方法、装置及电子设备 | |
CN112668770A (zh) | 一种基于信息与波形总体相似度的电力负荷预测方法 | |
Wijayanti et al. | Application of singular spectrum analysis method in forecasting indonesia composite data | |
Beyhaghi et al. | Uncertainty quantification of the time averaging of a statistics computed from numerical simulation of turbulent flow | |
CN110580494A (zh) | 一种基于分位数逻辑回归的数据分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |