CN115271192A

CN115271192A - 一种工业生产指数预测方法及处理器

Info

Publication number: CN115271192A
Application number: CN202210853612.XA
Authority: CN
Inventors: 高凯炼; 苏庆
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2022-09-30
Filing date: 2022-09-30
Publication date: 2022-11-01

Abstract

本发明公开了一种工业生产指数的预测方法及处理器，该方法包括：获取时间序列；SARIMA模型根据获取时间序列生成工业生产指数第一预测值；Prophet模型根据获取时间序列生成工业生产指数第二预测值；回归模型根据所述第一预测值和所述第二预测值生成工业生产指数第三预测值；所述回归模型表达式为：y＝β₀+β₁x₁+β₂x₂+ε；其中y指的第三预测值，x₁表示第一预测值，x₂表示第二预测值，β₀,β₁和β₂表示未知的回归系数，ε表示随机误差。本发明提出一种工业生产指数预测方法。本发明的是减少模型定参的时候的人工分析的步骤以及组合两个模型对时间序列数据的拟合能力和各自优势，得出预测更为准确的模型。

Description

一种工业生产指数预测方法及处理器

技术领域

本发明涉及内容智能制造技术领域，具体涉及一种工业生产指数预测方法。

背景技术

传统的时间序列预测使用移动平均(MA)、自回归模型(AR)和自回归移动平均模型(ARMA)。但是这些模型只能对平稳时间序列进行预测，这些模型的预测只能简单处理单变量数据且要求数据具有平稳性。然而在现实生活中，时序数据受多种因素影响不具备平稳性，因此使用这些传统的时序算法进行预测无法得到准确的预测结果。我们对于时间序列不平稳的解决办法是引入整合移动平均自回归模型 (ARIMA)。ARIMA模型通过对时间进行差分处理后可以得到平稳的数据，但是ARIMA模型不适用于数据噪声大、非线性变化强以及具有季节性数据特征的时间序列数据。针对这种现状，引入了一种适合季节性时间序列预测的模型SARIMA来进行带有季节性数据特征的时间序列的预测。

在进行ARIMA模型的构建过程中，需要经历检验时间序列平稳性、差分检验、白噪声检验、自相关图和偏自相关图检验、模型定阶等过程。但是对于参数定阶的过程，需要根据ACF图和PACF图的图形的拖尾和截尾的特征来进行参数p，q的选取，需要进行人工的分析。对于参数的确定，为了减少参数分析的步骤，有利于非专业的时间序列分析者，使用自动化的模型AutoARIMA得出最好的模型参数，我们可以使用确定最佳参数的一个指标：AIC(赤池信息准则)。AIC最小时得到的模型效果最好。AutoARIMA就是封装了网格搜索算法，以最小AIC为准则进行模型的定参，并且AutoARIMA可以对季节性时间序列进行预测。

对于时间序列的分析，除了作为一个整体进行分析外，通常还有一种基于时间序列分解的办法，时间序列的分解可以分解为长期趋势，季节变动，循环波动，不规则波动等子序列。常用的分解算法有STL 分解、EMD分解等。基于时间序列的分解，Prophet模型简单易用，使用Prophet模型可以由不具有时间序列领域知识的分析者直观地调整参数以进行可靠、实用的预测。

当前时间序列预测技术主要是基于统计学和机器学习算法进行预测，这些方法存在以下缺点：

(1)对于季节性时间序列应用SARIMA模型时首先要对数据进行季节性剔除，比较繁琐。Prophet模型没有保持提取残差项的自相关信息，SARIMA模型适用于提取线性数据，Prophet适用于提取非线性数据。

(2)基于深度学习的时间序列模型，依赖于大量训练数据，训练时间普遍比较长。

发明内容

本发明的目的在于克服现有技术的缺点和不足，提出一种工业生产指数预测方法。本发明的是减少模型定参的时候的人工分析的步骤以及组合两个模型对时间序列数据的拟合能力和各自优势，得出预测更为准确的模型。

为此，本发明的公开了一种工业生产指数的预测方法，包括：获取时间序列；SARIMA模型根据获取时间序列生成工业生产指数第一预测值；Prophet模型根据获取时间序列生成工业生产指数第二预测值；回归模型根据所述第一预测值和所述第二预测值生成工业生产指数第三预测值；所述回归模型表达式为： y＝β₀+β₁x₁+β₂x₂+ε；其中y指的第三预测值，x₁表示第一预测值，x₂表示第二预测值，β₀,β₁和β₂表示未知的回归系数， ε表示随机误差。

优选地，所述回归模型采用最小二乘法求解，回归模型表达式为： y＝12.413+2.01x₁+0.13x₂，其中y指的第三预测值，x₁表示第一预测值，x₂表示第二预测值。

优选地，Prophet模型根据获取时间序列生成工业生产指数第二预测值之前还包括：Prophet模型支持的数据的两列为“ds”，“y”，对DataFrame格式进行重命名；

将读到的时间序列进行归一化，经过处理的数据均值为0，标准差为1转化公式为：

优选地，Prophet模型的算法公式如下：y(t)＝g(t)+s(t)+ h(t)+∈_t；其中g(t)为趋势项，表示的是时间序列在非周期上的趋势变化规律；s(t)表示为周期项，或者称作季节项；h(t)为节假日项，表示当天是否是节假日；∈_t是误差项或称残差项。

优选地，所述SARIMA模型根据获取时间序列生成工业生产指数第一预测值之前，还包括：

进行时间序列的平稳性、随机性和季节性的检验；

运用AutoARIMA的网格搜索法功能对ARIMA(p,d,q)模型的参数进行选取；

进行模型的统计学检验，利用残差检验模型的可行性；

利用AutoARIMA模型网格搜索法拟合数据后最终的模型为 SARIMA(1,1,2)x(2,0,2)[6]。

优选地，所述进行模型的统计学检验，利用残差检验模型的可行性，具体包括：当残差检验的p值>0.05时，模型通过检验，确定 AutoARIMA模型的最终形式；

如果p值<0.05，模型没有通过检验，重新选取参数，直至选择的最终模型通过残差检验。

第二方面，提供一种处理器，处理器用于执行工业生产指数预测方法。

本发明通过SARIMA模型根据获取时间序列生成工业生产指数第一预测值；

Prophet模型根据获取时间序列生成工业生产指数第二预测值；回归模型根据第一预测值和第二预测值生成工业生产指数第三预测值；由于Prophet模型忽略了残差的自相关关系，SARIMA严格考虑了残差自相关并进行了统计学的检验。本模型使用组合模型，对比单一的模型具有最小预测误差略小于单项模型的最小预测误差的优点。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，标示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明工业生产指数预测方法的流程图；

图2为本发明的原始时间序列图；

图3为本发明的一阶差分后时序图；

图4为本发明的ACF图；

图5为本发明的归一化的时间序列图；

图6为本发明的Prophet模型分解结果；

图7为本发明的Prophet模型预测结果。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

本发明的公开了一种工业生产指数的预测方法，参考图1-7，包括：

步骤100，获取时间序列；

步骤200，SARIMA模型根据获取时间序列生成工业生产指数第一预测值；

步骤300，Prophet模型根据获取时间序列生成工业生产指数第二预测值；

步骤400，回归模型根据第一预测值和第二预测值生成工业生产指数第三预测值；

回归模型表达式为：

y＝β₀+β₁x₁+β₂x₂+ε

其中y指的第三预测值，x₁表示第一预测值，x₂表示第二预测值， β₀,β₁和β₂表示未知的回归系数，ε表示随机误差。

优选地，回归模型采用最小二乘法求解，回归模型表达式为：y＝ 1.2413+2.01x₁-1.03x₂，其中y指的第三预测值，x₁表示第一预测值，x₂表示第二预测值。

获取回归模型之后，还包括步骤500，进行回归模型的检验。首先是计算两个统计项ESS和TSS。回归平方和：

总离差平方和：

其次是进行F检验，F检验的目的是检验真实值和两个模型的预测值之间是否有线性关系，需要进行线性关系的检验，检验线性关系是否在整体上显著。进行假设性检验：原假设H₀：β₁＝β₂＝0。H₁：β₁，β₂有一个至少不为0。

在α＝0.05的显著性水平下，模型F>F(k,n-k-1),模型通过F 检验。

最后是进行t检验。t检验的目的是为了两个模型预测值分别对真实值的作用都是显著的，即真实值与单个模型预测值之间是否有显著的线性关系。进行假设性检验：原假设H₀：β_i＝0。H₁：β₁≠0， i＝1,2。

其中，C(X^TX)^-1,

C_j为矩阵C主对角线上的第j个元素。

给定显著性水平α＝0.05，可得|t|＞t_α/2(n-k-1)时，模型通过t检验，即认为组合回归模型与单个模型线性相关。

优选地，步骤300，Prophet模型根据获取时间序列生成工业生产指数第二预测值之前还包括：步骤210，Prophet模型支持的数据的两列为“ds”，“y”，对DataFrame格式进行重命名；

Prophet模型是基于时间序列分解理论为基础的时间序列预测策略。Prophet模型的算法公式如下：

y(t)＝g(t)+s(t)+h(t)+∈_t (4)

其中g(t)为趋势项，表示的是时间序列在非周期上的趋势变化规律，比如趋势上升，趋势下降等等。在Prophet模型中趋势项有两个重要函数：逻辑回归函数和分段线性函数。逻辑回归函数的表达式为公式(5)

C为曲线的最大趋近值，k表示曲线的增长率，m表示曲线的中点。因为逻辑回归函数用来拟合趋势线需要根据数据业务需要制定一个最大值，但对于工业生产指数数据，因其整体保持向上增长的趋势，所以趋势项g(t)不需要给定一个最大值。因此我们采用分段线性函数来拟合增长趋势。分段线性函数的公式如下：

g(t)＝(k+a(t)δ)·t(m+a(t)^Tγ) (6)

其中k表示增长率，m表示偏移量，δ表示增长率的变化量， a(t)∈{0,1}^S，γ表示偏移率的变化量。

其中，a(t)＝(a₁(t),…,a_S(t))^T,δ＝(δ₁,…,δ_S)^T,γ＝ (γ₁,…,γ_S)^T。

s(t)表示为周期项，或者称作季节项，通常以周、月、年为单位。因为时间序列的数据特征可能会随着周期进行波动。在数学中，周期波动用 sinx,cosx函数来表示。用傅里叶级数来模拟时间序列的周期性，公式如下：

P表示时间序列周期，前面通过step2得知m＝6,表示周期为半年，这里P以天为单位，所以P＝182.5。

Prophet还增加了节假日项h(t)，表示当天是否是节假日。对于这一项，节假日通常会影响工业生产，可能对工业生产指数有影响，因此我们保留这个设置，使用默认参数。不同的节假日可以看成相互独立的模型，为节假日设置不同的窗口值表示节假日前后的时间序列受此节假日影响。

∈_t是误差项或称残差项。是指原始时间序列分解为不能分解的子序列后的剩余项。由于Prophet模型没有考虑残差性的自相关性，因此我们使用SARIMA的模型进行组合预测。

Prophet就是通过拟合这几项，然后通过累加或者累乘得到，我们使用基于累乘的时间序列分解模式。

步骤220，将读到的时间序列进行归一化，经过处理的数据均值为0，标准差为1转化公式为：

步骤230，Prophet模型的算法公式如下：y(t)＝g(t)+s(t)+ h(t)+∈_t；其中g(t)为趋势项，表示的是时间序列在非周期上的趋势变化规律；s(t)表示为周期项，或者称作季节项；h(t)为节假日项，表示当天是否是节假日；∈_t是误差项或称残差项。

所述回归模型采用最小二乘法求解，回归模型表达式为：y＝ 1.2413+2.01x₁-1.03x₂，其中y指的第三预测值，x₁表示第一预测值，x₂表示第二预测值。从图片可知，trend反映工业生产指数在逐年保持上升趋势。从holidays可知数值随年份呈现规律性变化。

从weekly可以看出，数据总体在星期六、日保持下降趋势，工作日的数据比较大周末大。从yearly月度来看，5-7月，10-12月有上升趋势。从daily数据来看，上午数据大于下午。从monthly来看，2月份数据开始下降，5月份数据开始上升。Prophet进行模型预测的曲线图如图7，黑点表示实际值，实线表示预测值，阴影区域表示预测的置信区间。

步骤200，SARIMA模型根据获取时间序列生成工业生产指数第一预测值之前，还包括：

步骤110，进行时间序列的平稳性、随机性和季节性的检验；

Step111:检验时间序列平稳性。如果时间序列是非平稳的，那么进行时间序列的预测时产生误差较大，时间序列失去研究意义。平稳时间序列需要满足的三个特征是：时间序列数据的均值和时间变量无关、时间序列数据的方差和时间变量无关、协方差与时间序列具体点无关，与时间间隔有关。先绘制时间序列原始曲线图如图2所示，从定性分析的角度：我们可以看到该序列具有明显的单调递增的趋势，可以初步判断为非平稳时间序列。

为了更近一步从定量的角度分析说明这是个非平稳时间序列，需要进行时间序列的单位根检验即ADF检验。单位根检验的结果如表1，可以看到单位根检验对应的p值显著大于0.05，接受原假设，则认为该序列为非平稳时间序列。

表1原始序列的单位根检验

对时间序列进行平稳化的做法有：差分、对数变换和平滑等操作。最常用的方法是差分。差分可以去除原始时间序列中的趋势项以及季节项。将当前数据与前一个数据求差就是一阶差分，将当前数据与一个周期前的数据求差就是季节性差分。对原始时间序列进行一阶差分，原始序列进行一阶差分后的时间序列如图3所示，时序图显示差分后均值在0附近进行平稳性波动，初步判断一阶差分后时间序列平稳。所以差分系数d＝1。

对差分后的时间序列进行单位根检验的结果如表2，p值小于 0.05,所以一阶差分后时间序列是平稳时间序列。

表2一阶差分后的单位根检验

Step112:因为白噪声序列没有规律，不具备分析意义，所以必须保证读取进来的时间序列数据为非白噪声数据。针对白噪声的检验也即随机性的检验，使用LB统计量，由样本各个延迟期数的自相关系数可以得到检验统计量。白噪声检验结果如表三，p值小于0.05，所以一阶差分后的数据是平稳非白噪声数据。

LB统计量	P值
		124.6334	6.1221e-29

表3一阶差分后的白噪声检验

步骤113:接下来进行季节性检验，绘制ACF图，发现横坐标为6 的倍数时出现一个峰值，说明数据每6个月出现一次周期性。因此季节性周期m可以取6,12,18等。因为通过ACF图和PACF图的截尾和拖尾情况来进行模型定参比较依赖分析者经验，截尾指的是ACF图和 PACF图在大于某个常数后迅速趋近于0，拖尾指的是ACF图和PACF 图不会在大于某个常数后就趋近于0，而是会一直保持非零值。通过图示难以快速分析出最佳参数，因此采用AutoARIMA模型来搜索最佳参数。

步骤120，运用AutoARIMA的网格搜索法功能对ARIMA(p,d,q) 模型的参数进行选取；

运用AutoARIMA的网格搜索法功能：前面分别确定d和m的取值，我们在做实验时只需要给一个最大值p，最大值q，且季节性参数设置为True就可以利用网格搜索法自动查找AIC最小的模型。

AutoARIMA的主要参数解析如表4。

表4AutoARIMA模型主要参数

通过步骤120的数据预处理，我们知道d＝1,m＝6n(n＝ 1,2,3,…)，需要选择m取不同值时最好模型，结果如表5。

模型	AIC	Times(s)
			ARIMA(1,1,2)(2,0,2)[6]	2554.083	98.794
ARIMA(1,1,2)(1,0,1)[12]	2555.511	110.409
			ARIMA(4,1,4)(2,0,2)[18]	2641.502	787.252

表5m取不同值的模型比较

选定的模型是SARIMA(1,1,2)x(2,0,2)[6]。

ARIMA(p,d,q)模型的算法原理如下：

ARIMA(p,d,q)模型由两部分构成：AR(自回归)模型和MA模型(移动平均)模型组成。μ代表常数。φ代表自回归系数，θ代表移动平均的系数。d表示的是平稳处理的差分次数，y_t代表样本值， e_t代表服从(0,δ²)分布的白噪声序列。

SARIMA(p,d,q)x(P,D,Q)s模型的算法原理如下所示.

p，d，q与ARIMA模型中的含义相同，P，D，Q表示在p，d， q的基础上增加了季节性，y_t表示样本值，S表示周期长度，

表示差分次数为d次，

表示序列的季节性差分次数为D次，B表示后移算子，φ_p(B)和Φ_p(B^S)分别表示非季节性和季节性的自回归分量， θ_q和Θ_Q(B^S)表示非季节性和季节性移动平均分量，ε_t表示白噪声序列。

步骤130，进行模型的统计学检验，利用残差检验模型的可行性；

步骤140，利用AutoARIMA模型网格搜索法拟合数据后最终的模型为SARIMA(1,1,2)x(2,0,2)[6]。

步骤130，进行模型的统计学检验，利用残差检验模型的可行性，具体包括：步骤131，当残差检验的p值>0.05时，模型通过检验，确定AutoARIMA模型的最终形式；

步骤132，如果p值<0.05，模型没有通过检验，重新选取参数，直至选择的最终模型通过残差检验。通过SARIMA模型的残差检验可得：p＝0.07453>0.05，表明通过SARIMA(1,1,2)x(2,0,2)[6] 的模型检验并确定最终模型。

步骤140，利用AutoARIMA模型网格搜索法拟合数据后最终的模型为SARIMA(1,1,2)x(2,0,2)[6]，这个模型最终的形式为SARIMA模型。

将SRIMA+Prophet模型与ARIMA，SARIMA、Prophet、LSTM、Holter-Winters、Holter-Winters+Prophet、SARIMA+ Holter-Winters等模型进行实验对比，以MAE(平均绝对误差)、RMSE (均方根误差)、MSE(均方误差)、MAPE(平均绝对百分比误差)、SMAPE (对称平均绝对百分比误差)等为评估指标，结果如表6所示。

Model	MAE	RMSE	MSE	MAPE	SMAPE
						ARIMA	9.155	11.253	126.643	0.095	0.0902
SARIMA	6.537	7.995	63.917	0.067	0.065
						Prophet	9.323	12.035	144.853	0.093	0.087
Holter-Winters	39.448	43.464	1889.125	0.394	0.320
						LSTM	10.499	13.434	180.480	0.099	0.107
LSTM+Prophet	10.315	11.678	138.454	0.084	0.058
						SARIMA+LSTM	6.132	7.968	48.145	0.061	0.051
SRIMA+Prophet	5.469	6.687	44.663	0.054	0.054

表6实验结果对比

从实验结果可以看出本发明模型在带有季节性的工业生产指数时，模型SARIMA、LSTM、Prophet的预测效果比较好。其中SARIMA+ Prophet训练时的MAE、RMSE、MSE、MAPE均小于其他模型组合形式，而SARIMA+Prophet的SMAPE大于SARIMA+LSTM。综合看，SARIMA+Prophet仍然是处理我们数据的较优模型。

本发明可以对比深度学习模型，本发明使用了统计学模型的组合，减少了模型训练时间，且模型预测的准确率并没有大幅降低。

本模型使用组合模型，对比单一的模型具有最小预测误差略小于单项模型的最小预测误差的优点。

时间序列的分析对于初学者很难把握模型的定参过程，因此采用网格搜索的方法结合参数简单的Prophet模型，易于建模。

对于具有季节性的时间序列具有很好的拟合效果。

第二方面，提供了一种处理器，处理器用于执行工业生产指数预测方法；处理器可以是一个或多个图形处理器(graphics processing unit，GPU)，在处理器是一个GPU的情况下，该GPU可以是单核GPU，也可以是多核GPU。可选的，处理器可以是多个GPU构成的处理器组，多个处理器之间通过一个或多个总线彼此耦合。可选的，该处理器还可以为其他类型的处理器等等，本申请实施例不作限定。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种工业生产指数的预测方法，其特征在于，包括：

获取时间序列；

SARIMA模型根据获取时间序列生成工业生产指数第一预测值；

Prophet模型根据获取时间序列生成工业生产指数第二预测值；

回归模型根据所述第一预测值和所述第二预测值生成工业生产指数第三预测值；

所述回归模型表达式为：

y＝β₀+β₁x₁+β₂x₂+ε

其中y指的第三预测值，x₁表示第一预测值，x₂表示第二预测值，β₀，β₁和β₂表示未知的回归系数，ε表示随机误差。

2.根据权利要求1所述的工业生产指数的预测方法，其特征在于，包括：所述回归模型采用最小二乘法求解，回归模型表达式为：y＝1.2413+2.01x₁-1.03x₂，其中y指的第三预测值，x₁表示第一预测值，x₂表示第二预测值。

3.根据权利要求1所述的工业生产指数的预测方法，其特征在于，Prophet模型根据获取时间序列生成工业生产指数第二预测值之前还包括：Prophet模型支持的数据的两列为“ds”，“y”，对DataFrame格式进行重命名；

4.根据权利要求1所述的工业生产指数的预测方法，其特征在于，Prophet模型的算法公式如下：y(t)＝g(t)+s(t)+h(t)+∈_t；其中g(t)为趋势项，表示的是时间序列在非周期上的趋势变化规律；s(t)表示为周期项，或者称作季节项；h(t)为节假日项，表示当天是否是节假日；∈_t是误差项或称残差项。

5.根据权利要求1所述的工业生产指数的预测方法，其特征在于，所述SARIMA模型根据获取时间序列生成工业生产指数第一预测值之前，还包括：

进行时间序列的平稳性、随机性和季节性的检验；

运用AutoARIMA的网格搜索法功能对ARIMA(p，d，q)模型的参数进行选取；

进行模型的统计学检验，利用残差检验模型的可行性；

利用AutoARIMA模型网格搜索法拟合数据后最终的模型为SARIMA(1，1，2)x(2，0，2)[6]。

6.根据权利要求5所述的工业生产指数的预测方法，其特征在于，所述进行模型的统计学检验，利用残差检验模型的可行性，具体包括：当残差检验的p值>0.05时，模型通过检验，确定AutoARIMA模型的最终形式；

7.一种处理器，其特征在于，所述处理器用于执行如权利要求1至6中任意一项所述的方法。