发明内容
针对现有技术的缺陷,本发明一种高压电缆接头温度趋势预测方法,解决的主要技术问题是,如何将时间序列中的ARIMA模型应用在高压电缆接头温度预测中,以及如何提高电缆接头温度预测精度。
为了解决所述技术问题,本发明采用的技术方案是:一种高压电缆接头温度趋势预测方法,包括以下步骤;
S01)、选取D天的电缆接头温度数据,并将每天等分成24个小时,得到D天24小时的24*D组电缆接头温度数据,作为训练集Xt,
其中xi(t)表示第i天t时刻的电缆接头温度值(i=1,2…D,t=1,2…24);
将训练集Xt表示为时间序列形式:Yt=[T1,T2,...Tn],(n=24*D);
S02)、将季节因素从电缆接头温度数据中剔除;
S03)、观察电缆接头温度数据的趋势图和相关图,判断其是否随着时间的变化呈现周期性因素,如果呈现线性周期,采用差分法或者移动平均法将电缆接头温度数据序列中的长期趋势与周期变动去掉,如果呈现非线性周期,采用分解的方法将电缆接头温度数据序列中的长期趋势与周期变动去掉;
S04)、采用单位根检验方法验证电缆接头温度数据的平稳性,如果平稳,执行步骤S05,如果不平稳,进行d阶差分,再进行单位根检验,直到平稳;
S05)、检验电缆接头温度数据序列是否为白噪声序列,如果是白噪声序列,即电缆接头温度历史值对现在的值以及将来的值都没有影响,则本方法结束,如果不是,执行下一步骤;
S06)、根据自相关系数和偏自相关系数选定预测模型,自相关系数ACF表示历史序列{x1,…,xk}与当前时间序列{xk+1,…,xn}之间的相关性,自相关系数为:
其中xt表示时间序列X的第t个值(t=1,2…,n),μX表示时间序列X={x1,…,xn}的均值,k为时间序列的滞后次数,偏自相关系数PACF是计算时间序列xt变量对xt+k变量的相关影响,需要排除k-1个({xt+1,…,xt+k-1})中间变量的影响,偏自相关系数PACF为:
其中xt表示时间序列X的第t个值,μX表示X={x1,…,xn}时间序列的平均值,μXk+1,n表示{xk+1,…,xn}时间序列的平均值,μX1,k表示{x1,…,xk}时间序列的平均值,k为时间序列的滞后次数,
观察自相关系数和偏自相关系数图的截尾数和拖尾数进行模型选择,选择依据为:若自相关系数ACF具有拖尾性,则ACF(k)不会在大于某个常数后就恒等于0,若偏自相关系数PACF具有截尾性,则PACF(k)在k>p时变为0;根据上述依据确定p、q值,基于步骤S04确定差分阶数d;
基于上述得到的d、p、q值,建立ARIMA(p,d,q)模型:
其中:
是自相关系数,θ
1,θ
1,...θ
q是偏自相关系数,ε
t是误差序列,p为自回归阶数,q为滑动平均阶数;
S07)、根据时间序列的自相关函数ACF和偏自相关函数PACF进行ARIMA(p,d,q)的p、q参数估计值,设置95%置信区间,得到自相关和偏自相关系数;S08)、结合贝叶斯信息判断模型BIC准则,通过最小化BIC指标得到模型的最优阶数p和q;
S08)、使用最小二乘估计来计算模型的参数,建立电缆接头温度的ARIMA(p,d,q)模型,利用模型进行电缆接头温度趋势预测。
进一步的,采用移动平均趋势剔除法将季节因素从电缆接头温度数据中剔除,过程为:
S21)、计算移动平均数,并对结果进行中心化处理,即将移动平均的结果再进行一次2项移动平均,得出中心化移动平均值CMA;
S22)、计算移动平均值的比率,即将序列的各观察值除以相应的中心化移动平均值,然后计算出各比值的季度、月份或日平均值;
S23)、季节指数调整,将步骤S22计算的每个季节比率的平均值除以它们的总平均值。
进一步的,步骤S21计算移动平均数时,如果是季度数据,采用4项移动平均,如果是月份数据,采用12项移动平均,如果是日统计数据,采用24项移动平均。
进一步的,采用单位根检验方法检验电缆接头温度数据平稳性的过程为:ADF可以检验一个自回归模型是否存在单位根:若原序列存在单位根,为非平稳序列;若原序列不存在单位根,为平稳序列。
ADF检验通过python中的statsmodels模块实现,返回值分别为:adf:T检验,假设检验值。
pvalue:假设检验结果。
usedlag:使用的滞后阶数。
nobs:用于ADF回归和计算临界值用到的观测值数目。
Critical Value 1%:1%程度拒绝原假设的统计值。
Critical Value 5%:5%程度拒绝原假设的统计值。。
Critical Value 10%:10%程度拒绝原假设的统计值。。
ADF检验的原假设是存在单位根,只要计算得到的假设检验值小于三个置信度(10%,5%,1%),则对应有(90%,95,99%)的把握来拒绝原假设,即得到假设检验值与检验临界值进行比较,若小于临界值,Yt为平稳序列,若大于临界值,则Yt为非平稳序列。
进一步的,通过Barlett定理构造检验统计量P来检验电缆接头温度数据是否是白噪声,检验过程为:
拒绝原假设:当检验统计量的P值小于0.05时,那么以为置信水平拒绝原假设,即判定该序列为非白噪声序列。
接受原假设:当检验统计量的P值大于0.05那么以为置信水平接受原假设,即判定该序列为白噪声序列。
进一步的,结合贝叶斯信息判断模型BIC准则,通过最小化BIC指标得到模型的最优阶数p和q的过程为:
根据贝叶斯信息准则进行定阶,相应函数定义为:
BIC(p,q)=kln(n)-2ln(L),
其中k为模型中参数的个数,n为样本数量,L为似然函数,对于q的不同取值,从低阶到高阶分别建立ARIMA模型,并进行参数估计,计算所有的BIC值,选择使得BIC值达到最小的模型,即为最优模型。
进一步的,步骤S08建立的预测模型为:
进一步的,D=30。
进一步的,步骤S07之后,通过自相关函数来检验残差序列的随机性,验证残差之间是否是独立的,如果是,则建立的预测模型可行。
本发明的有益效果:
1、基于ARIMA模型可以预测48小时的温度值,而且得到的电缆接头温度预测精度最高,实现高效、准确的判断电缆接头的发热情况。
2、通过ARIMA模型预测方法,能对电缆接头温度升高异常时及时告警,通知运维人员对出现的安全运行隐患及时处置,可有效减少巡检人员的劳动强度,提高管理水平和提高工作效率,保障电缆隧道安全稳定运行。
具体实施方式
下面结合附图和具体实施例对本发明作进一步的说明。
实施例1
本实施例公开一种高压电缆接头温度趋势预测方法,本方法的基本思想是:确定某一电缆接头作为预测对象,将该电缆接头某一时间段的温度数据作为时间序列,以自相关分析为基础,用数学模型描述这个时间序列,模型连接可以预测未来电缆接头的温度值。
以某一电缆接头为例,基于趋势分解的ARIMA模型的电缆接头温度趋势预测方法具体描述如下:
S01)、基于分布式光纤测温获取电缆接头温度数据,每15分钟上传一次温度数据,取1小时时间内的最高温度作为1小时时间段的温度值,以电缆1#接头7月份30天的接头温度数据作为对象,构成的训练集:
x
i(t)表示第i天t时刻的电缆接头温度值(i=1,2…30,t=1,2…24);
训练集Xt转换为时间序列形式为:Yt=[T1,T2,...T720];
S02)、电缆接头温度的变化过程不仅受到确定性因素的影响,且受到随机性因素的影响,致其趋势错综复杂。让数据变得不稳定的原因主要是:趋势(trend)和季节性(seasonality)。以电缆接头温度的日变化趋势为例,该时间序列是由三种因素组成的:长期趋势、周期变动、残差序列。周期变动和残差序列因素会掩盖电缆接头温度的稳定变化过程,因此,当我们对一个时间序列进行预测时,应该考虑将上述三种因素从时间序列中分解出来,分析他们之间的相互作用,以及他们对时间序列的综合影响。当去掉某些影响因素后,就可以客观的反映事物变化发展规律,残差序列可以用来建立回归模型,从而提高预测精度。
采用移动平均趋势剔除法将季节因素从具有明显长期趋势变动的复合型序列(电缆接头温度数据)中分解出来,剔除季节变动的影响,以进行下一步预测,实施过程为:
S21)、计算移动平均数(如果是季度数据,则采用4项移动平均,月份数据则采用12项移动平均,日统计数据则采用24项移动平均),并对结果进行中心化处理,即将移动平均的结果再进行一次2项移动平均,得出中心化移动平均值CMA。
S22)、计算移动平均值的比率,也称为季节比率,即将序列的各观察值除以相应的中心化移动平均值,然后计算出各比值的季度、月份、或日平均值。
S23)、季节指数调整。由于各季节指数的平均数应等于1或100%,若根据步骤S22计算的季节比率的平均值不等于1,则需要调整。具体方法是:将第2步计算的每个季节比率的平均值除以它们的总平均值。
S03)、电缆接头温度序列平稳化处理
观察电缆接头温度数据的趋势图和相关图,判断其是否随着时间的变化呈现周期性因素,如果呈现线性周期,采用差分法或者移动平均法将电缆接头温度数据序列中的长期趋势与周期变动去掉,如果呈现非线性周期,采用分解的方法将电缆接头温度数据序列中的长期趋势与周期变动去掉。
本实施例的趋势图如图2所示,时间序列ACF图如图3所示,趋势图和ACF图显示时间序列有非线性周期性,说明序列是非平稳的。时间序列平稳化采用分解方法,把时序数据中的趋势和周期性数据都分离出来。对原始数据进行分解,将original数据拆分成了三份。Trend数据具有明显的趋势性,Seasonality数据具有明显的周期性,Residuals是剩余的残差序列部分,如图4所示。可以认为去除了趋势和周期性数据之后的残差序列,更适用于我们进行稳定性判断,提高预测模型精度。
S04)、平稳性检验
采用单位根检验方法验证电缆接头温度数据的平稳性,如果平稳,执行步骤S05,如果不平稳,进行d阶差分,再进行单位根检验,直到平稳。
采用单位根检验方法验证平稳性的具体过程为:
ADF可以检验一个自回归模型是否存在单位根:若原序列存在单位根,为非平稳序列;若原序列不存在单位根,为平稳序列。
ADF检验通过python中的statsmodels模块实现,展示对本专利有价值的返回值分别为:
adf:-11.4。
Critical Value(1%):-3.44。
Critical Value(5%):-2.87。
Critical Value(10%):-2.57。
ADF检验的原假设是存在单位根,只要计算得到的检验统计量小于1%水平下的检验临界值,就可以拒绝原假设,认为数据是平稳的。对残差序列的检验结果如表2所示。由结果可知,原时间序列Yt的ADF检验统计量为-11.4小于1%水平下的检验临界值-3.44,在1%置信区间下不接受原假设,认为序列是平稳的,所以不需要再进行差分,ARIMA(p,d,q)模型的阶数d=0。
表2原序列平稳检验结果
S05)、白噪声检验
检验电缆接头温度数据序列是否为白噪声序列,如果是白噪声序列,即电缆接头温度历史值对现在的值以及将来的值都没有影响,那么这样的时问序列是不能用來进行分析预测的,本方法结束,如果不是,执行下一步骤。
对于白噪声的检验,可以通过Barlett定理构造检验统计量来检验:
拒绝原假设:当统计量的P值小于0.05时,那么以为置信水平拒绝原假设,即判定该序列为非白噪声序列。
接受原假设:当统计量的P值大于0.05时,那么以为信水平接受原假设,即判定该序列为白噪广序列。
本实施例中,通过python中的AutocorrelationTest[]函数得到白噪声检验P值7.56e-21小于0.05,则认为序列为非白噪声序列。
S06)、根据自相关系数和偏自相关系数选定预测模型,自相关系数ACF表示历史序列{x1,…,xk}与当前时间序列{xk+1,…,xn}之间的相关性,自相关系数为:
其中xt表示时间序列X的第t个值(t=1,2…,n),μX表示时间序列X={x1,…,xn}的均值,k为时间序列的滞后次数。
偏自相关系数PACF是计算时间序列xt变量对xt+k变量的相关影响,需要排除k-1个({xt+1,…,xt+k-1})中间变量的影响,偏自相关系数PACF为:
其中xt表示时间序列X的第t个值,μX表示X={x1,...,xn}时间序列的平均值,μXk+1,n表示{xk+1,…,xn}时间序列的平均值,μX1,k表示{x1,…,xk}时间序列的平均值,k为时间序列的滞后次数。
观察自相关系数和偏自相关系数图的截尾数和拖尾数进行模型选择,选择依据如下表所示:
表1模型选择依据
|
AR(p) |
MA(q) |
ARMA(<u>p,q)</u> |
自相关系数ACF |
拖尾 |
<u>截尾</u> |
拖尾 |
<u>偏自相关系数</u>PACF |
<u>截尾</u> |
拖尾 |
拖尾 |
若自相关系数ACF具有拖尾性,则ACF(k)不会在k大于某个常数p之后就恒等于0,若偏自相关系数PACF具有截尾性,则PACF(k)在k>p时变为0;根据上述依据确定p、q值,基于步骤S04确定差分阶数d;
基于上述得到的d、p、q值,建立ARIMA(P,d,q)模型:
其中:
是自相关系数,θ
1,θ
1,...θ
q是偏自相关系数,ε
t是误差序列,p为自回归阶数,q为滑动平均阶数。
通过对时间序列自相关函数和偏自相关函数的分析图(图5所示)可知,自相关系数和偏自相关系数都存在拖尾,所以选择ARMR(p,q)模型。
S07)、模型阶数
根据时间序列的自相关函数ACF和偏自相关函数PACF进行ARIMA(D,d,q)的p、q参数估计值,设置95%置信区间,得到自相关和偏自相关系数;
观察图6所示的ACF图和PACF图,对平稳序列Yt进行ARMA(p,q)模型选择。由图中结果分析,上下两条线之间是95%置信区间,p的值就是ACF第一次穿过上置信区间时的横轴值,q的值就是PACF第一次穿过上置信区间的横轴值。所以从图6中可以得到p=1,q=1,模型为ARMA(1,1)。
ACF系数为:[1.-0.12106388,-0.01460978,0.00417764,-0.10697407,-0.03432665,-0.06786017,0.01228868,-0.06971997,-0.06452861,-0.04234086],
PACF系数为[1.-0.12123808,-0.0297884,-0.00126474,-0.10936382,-0.0630906,-0.08875369,-0.01236675,-0.09166567,-0.10530016,-0.09936618]。S08)、结合贝叶斯信息判断模型BIC准则,通过最小化BIC指标得到模型的最优阶数p和q;
根据贝叶斯信息准则(BIC准则法)进行定阶,相应函数定义如下:
BIC(p,q)=kln(n)-2ln(L)
其中:k为模型中参数的个数,n为样本数量,L为似然函数。对于q的不同取值,从低阶到高阶分别建立ARIMA模型,并进行参数估计,计算所有的BIC值,选择使得BIC值达到最小的模型,即为最优模型。
本实施例根据贝叶斯信息准则(BIC准则法)进行定阶,通过过类似于网格搜索的方式来寻找模型最佳的p,q组合,在BIC最小原则下,得到的结果为:BIC(1,1)。经过上述分析,ARIMA(1,0,1)模型为最优模型。
S08)、参数估计
使用最小二乘估计来计算模型的参数,建立电缆接头温度的ARIMA(p,d,q)模型,利用模型进行电缆接头温度趋势预测。
最小二乘估计(残差平方和最小):对于样本序列{Y
t},当j≧p+1时,计白噪声[ε
t]的估计为:
即:
本实施例中,
S09)、模型检验
通过检验残差序列的随机性,验证残差之间是独立的。残差序列的随机性可以通过自相关函数法来检验,即做残差的自相关函数图,如图8所示。在95%置信区间内,ARIMA(1,0,1)模型是一个可行的模型。
S10)、模型预测
Yt=2.39e-06+0.76Yt-1+εt-0.99εt-1。
以重庆某110kv电缆,A相电缆终端接头2020年7月份1号到30号的30天数据作为训练样本集,预测48小时的电缆接头温度,预测结果如图所示。以预测得到的值与实际值计算均方根,得到的均方根结果是0.01256%。
S11)、电缆接头温度预测模型应用检验
基于支持向量机的电缆接头温度趋势预测,预测结果的相对误差为0.021%,大于基于ARIMA模型得到的0.01256%。所以基于ARIMA模型得到的预测精度更高。
以重庆110KV电缆A相1#接头为例,根据现场运行半年后的数据进行比较,本预测方法得出的未来48小时电缆接头温度与实际电缆接头温度误差保持在0.01%左右,本预测方法有较高的预测精度。
以上描述的仅是本发明的基本原理和优选实施例,本领域技术人员根据本发明作出的改进和替换,属于本发明的保护范围。