CN111563776B

CN111563776B - 一种基于K近邻异常检测和Prophet模型的电量分解和预测方法

Info

Publication number: CN111563776B
Application number: CN202010384677.5A
Authority: CN
Inventors: 卜广峰; 姚奔; 陆圣芝; 詹昕; 廖良才; 金诚; 刘烨; 付蕾
Original assignee: State Grid Jiangsu Electric Power Co ltd Yangzhou Power Supply Branch; State Grid Jiangsu Electric Power Co Ltd
Current assignee: State Grid Jiangsu Electric Power Co ltd Yangzhou Power Supply Branch; State Grid Jiangsu Electric Power Co Ltd
Priority date: 2020-05-08
Filing date: 2020-05-08
Publication date: 2021-07-16
Anticipated expiration: 2040-05-08
Also published as: CN111563776A

Abstract

一种基于K近邻异常检测和Prophet模型的电量分解和预测方法。将时序的电量序列看作一群离散的点，对每一个数据点，使用K近邻方法找出它的K近邻点，即距离此点最近的K个点。再通过每个点的K近邻点集合计算反向K近邻，K近邻和反向K近邻的并集构成了每个点的影响空间(IS)。通过影响空间计算每个点的INFLO值，对每个点的INFLO值进行排序，剔除INFLO值较大的点。对处理后的电量序列使用Prophet模型进行分解建模，将一维电量序列分解成趋势、季节性、节假日影响三个成分，分别对三个成分的表达式进行拟合，以此来进行电量序列变化的分析和预测。本发明应用于电量序列的分析和短期预测。

Description

一种基于K近邻异常检测和Prophet模型的电量分解和预测方法

技术领域

本发明涉及时间序列分析和预测技术领域，尤其涉及一种基于K近邻异常检测和Prophet模型的电量分解和预测方法。

背景技术

时间序列分析(Time-Series Analysis)是统计学科的一个分支，通过将原来的序列分解为四部分来看——趋势、周期、时期和不稳定因素，然后综合这些因素，提出序列预测。它包括一般统计分析(如自相关分析，谱分析等)，统计模型的建立与推断，以及关于时间序列的最优预测、控制与滤波等内容。经典的统计分析都假定数据序列具有独立性，而时间序列分析则侧重研究数据序列的互相依赖关系。其模型类型主要分为ARIMA类和指数平滑类。因为机器学习在特征提取和多维非线性建模上的优势，近年来被认为是用于时间序列建模的传统的统计方法的一个替代方案。

然而，传统方法如ARIMA、指数平滑等，其思想都是建立序列变量之间的自相关性，需要保证序列发展的宽平稳(WSS)，不适应于线性增长的序列。机器学习方法存在的过拟合效应会增加预测误差，不能对原始序列进行分解等。在电量预测当中，电量的变化情况多种多样，且季节性成分明显，上述的方法不适用于电量的分解和预测。

发明内容

本发明所要解决的技术问题在于，提供一种基于K近邻异常检测和Prophet模型的电量分解和预测方法，可应用于电量序列的分解和预测。

本发明的技术方案为：包括如下步骤：

(1)将时序的电量序列看成一组离散的点，对每一个数据点，使用K近邻方法找出它的K近邻点，并计算每个点的K近邻距离；

(2)再通过每个点的K近邻点集合计算反向K近邻；

(3)K近邻和反向K近邻的并集构成了每个点的影响空间，通过影响空间计算每个点的INFLO值，剔除INFLO值较大的点；

(4)对处理后的电量序列使用Prophet模型进行分解建模，将一维电量序列分解成趋势、季节性、节假日影响三个成分，分别对三个成分的表达式进行拟合，以此来进行电量序列变化的分析和预测。

步骤(1)包括以下步骤：

设一组电量序列为：

X＝[x(1)，x(2)，x(3)，...，x(n)]

式中，n为序列采样点个数，计算每两点之间的欧几里得距离得到距离矩阵{d_ij}_n×n：

d_ij＝dis(x(i)，x(j)) 1≤i，j≤n

根据距离矩阵可以得到距离每个点x(i)最近的k个点，称这k个点为x(i)的K近邻，计为NN_k(x(i))，根据K近邻计算每个点的K近邻距离：

K_dis(x(i))＝Max(d_ij，x(j)∈NN_k(x(i)))。

步骤(2)中，通过每个点的K近邻点集合计算反向K近邻，计为RNN_k(x(i))。

步骤(3)中，第i个点x(i)的影响空间IS_k(x(i))＝NN_k(x(i))∪RNN_k(x(i))，INFLO值的计算过程如下：

den(x(i))表示点x(i)的可达密度，是点x(i)的K近邻距离的K_dis(x(i))倒数；den_avg(IS_k(x(i)))表示点x(i)的平均可达密度，由x(i)的影响空间IS_k(x(i))中所有点的可达密度的平均值计算得到；

x(i)的INFLO得分INFLO_k(x(i))由这个点的平均可达密度den_avg(IS_k(x(i)))除以可达密度den(x(i))获得；

INFLO值越大则为异常点的可能性越大，剔除INFLO值过大的点，用前后均值的方法填充。

步骤(4)中，Prophet模型将电量序列分为三个成分：

x(t)＝g(t)+s(t)+h(t)+∈_t t为正整数

g(t)用来表征数据整体的趋势走向,s(t)代表电量的周期性变化，h(t)是节假日成分，∈_t表示模型拟合误差；

其中，

(51)趋势的模型为线性模型或非线性模型，

线性模型的表达式如下：

g(t)＝(k+α(t)^Tδ)t+(m+α(t)^Tγ)

k是增长率，δ表示的是一个增长率调整的向量，模型增长率发生变化的点为变异点，假设共有S个变异点，分别在时间点s_j，j＝1，...，S，δ_j表示的是在s_j点增长率的调整值；模型在任意时间点t的增长率等于基础增长率k加上这个时间点之前的速率调整值：k+∑_j：t＞s_jδ_j；可以通过定义一个长度为S的一维向量α(t)∈{0，1}^S来表示:

在t≥s_j时，a_j(t)＝1；其余情况，a_j(t)＝0；

这样，在时间点t的速率为k+α(t)^Tδ，m是模型偏置，γ_j＝-s_jδ_j；

非线性模型的表达式如下：

C是饱和值，表明函数g(t)所能增长到的最大值，其他的变量定义和线性模型一样，这里

(52)季节性成分用一个傅里叶级数表示，表达式如下：

P表示周期，a_n和b_n为待拟合的参数，拟合此傅里叶序列模型需要估计2N个参数β＝[a₁，b₁，...，a_N，b_N]^T，N越大模型可以拟合的频率越大，N取10拟合以年为周期的周期性成分；定义

则

s(t)＝y(t)β

参数β先验估计服从0均值方差σ²的正态分布，即，β～Normal(0，σ²)；

(53)设每一个节日i，D_i为每年这个节日的日期；对每一个节假日指定一个参数κ_i表示这个节假日所造成的电量影响大小，生成如下回归矩阵：

Z(t)＝[1(t∈D₁)，...，1(t∈D_L)]

h(t)＝Z(t)κ

同时假设κ～Normal(0，v²)。

步骤(51)中，变异点的位置从指定的候选点进行选择。

步骤(4)中，模型的拟合过程如下：

先验假设：

k～Normal(0，5)

m～Normal(0，5)

∈_t～Normal(0，0.5)

δ～Double Exponential(0，τ)

β～Normal(0，σ²)

κ～Normal(0，v²)

k表示模型的增长率，m表示偏置，∈_t是误差，δ表示增长率的调整量，β表示傅里叶级数的参数，κ表示节假日的电量影响大小；

x～Normal(μ，σ²)，其概率密度函数如下：

x～Double Exponential(μ，τ)表示x服从双参指数分布，概率密度函数如下：

其中，τ、σ以及v根据时序的特性来决定；对参数进行先验估计后，使用L-BFGS算法通过以下两个似然函数对参数进行最大后验估计，得到参数k，m，δ，β，κ的估计值，根据拟合的效果，选择表现较好的一个模型，

y～Normal((k+α(t)^Tδ)t+(m+α(t)^Tγ)+X(t)β+Z(t)k，∈_t)

通过模型用于表现时间序列的发展过程，可以很好地描绘时间序列的线性趋势或者非线性趋势，得到不同成分的量化值，具有解释性。

本发明将影响电量的成分归结于三个符合经验的成分的和，分别是季节性、趋势和节假日带来的短暂性影响。使用K近邻的异常检测方法对电网采集的电量信息进行一个过滤，因为电网在采集中难免会有采集错误的点，使用人工过滤的方法效率低下而且往往会带来主观性，所以此方法可以剔除掉大部分的不符合常理的突变点，便于后期预测的准确性。Prophet模型可以直观地显示三个成分的大小，便于人为观察和分析，同时与经验模型有一定的一致性。

附图说明

图1为本发明对某电量序列进行异常值检测的结果图，

图2为本发明对某电量序列进行分解的结果图。

具体实施方式

本发明包括如下步骤：

(1)将时序的电量序列看成一组离散的点，对每一个数据点，使用K近邻方法找出它的K近邻点，即距离此点最近的K个点，并计算每个点的K近邻距离；

(2)再通过每个点的K近邻点集合计算反向K近邻(如果q是p的K近邻，那么p就是q的反向K近邻)；

(3)K近邻和反向K近邻的并集构成了每个点的影响空间(IS)。通过影响空间计算每个点的INFLO值(Influenced outlierness，受影响异常得分)，对每个点的INFLO值进行排序，根据拉依达准则(3σ准则)剔除INFLO值较大的点。独立计算INFLO平均值和每一点的剩余误差：

每点的剩余误差计算：

v(x(i))＝INFLO_k(x(i))-INFLO_avg

并按贝塞尔公式算出标准偏差σ,若点x(i)满足v(x(i))＞3σ,则认为是异常点；

(4)对处理后的电量序列使用Prophet模型(时间序列预测模型)进行分解建模，将一维电量序列分解成趋势、季节性、节假日影响三个成分，分别对三个成分的表达式进行拟合，以此来进行电量序列变化的分析和预测。

步骤(1)包括以下步骤：

设一组电量序列为：

X＝[x(1)，x(2)，x(3)，...，x(n)]

d_ij＝dis(x(i)，x(j)) 1≤i，j≤n

K_dis(x(i))＝Max(d_ij，x(j)∈NN_k(x(i)))。

步骤(2)中，通过每个点的K近邻点集合计算反向K近邻，计为RNN_k(x(i))；如果点x(j)属于点x(i)的K近邻，那么x(i)属于x(j)的反向K近邻。

den(x(i))表示点x(i)的可达密度，是点x(i)的K近邻距离的K_dis(x(i))倒数，den_avg(IS_k(x(i)))表示点x(i)的平均可达密度，由x(i)的影响空间IS_k(x(i))中所有点的可达密度的平均值计算得到。x(i)的INFLO得分INFLO_k(x(i))由这个点的平均可达密度den_avg(IS_k(x(i)))除以可达密度den(x(i))获得。

INFLO值越大则为异常点的可能性越大。剔除INFLO值过大的点，用前后均值的方法填充，当x(i)被判定为异常点后，用

对其值进行替换以保证数据量的不变。若x(i-1)也为异常点，则继续往前用x(i-2)计算。

步骤(4)中，Prophet模型将电量序列分为三个成分：

x(t)＝g(t)+s(t)+h(t)+∈_t t为正整数

g(t)用来表征数据整体的趋势走向,s(t)代表电量的周期性变化，h(t)是节假日成分，∈_t表示模型拟合误差。

其中，

(51)趋势的模型为线性模型或非线性模型，可根据拟合效果选择一个。

线性模型的表达式如下：

g(t)＝(k+α(t)^Tδ)t+(m+α(t)^Tγ)

k是增长率，也称为斜率，δ表示的是一个增长率调整的向量，表明增长率发生了变化；模型增长率发生变化的点称之为变异点，假设共有S个变异点，分别在时间点s_j，j＝1，...，S，δ_j表示的是在s_j点增长率的调整值；之所以引入了变异点的概念，是为了适应时间序列在发展过程中的增长率发生的变化，更好的拟合原始数据。所以模型在任意时间点t的增长率等于基础增长率k加上所以这个时间点之前的速率调整值：

可以通过定义一个长度为S的一维向量α(t)∈{0，1}^S来更清楚地表示:

在t≥s_j时，a_j(t)＝1；其余情况，a_j(t)＝0；

这样，在时间点t的速率可以表示为k+α(t)^Tδ，m是模型偏置，γ_j＝-s_jδ_j是用以保证不同斜率的线性函数之间的连续性，可以由计算得出；

非线性模型的表达式如下：

C是饱和值(又称承载容量),是一个常量，表明函数g(t)所能增长到的最大值，其他的变量定义和线性模型一样，这里

其中，承载容量C可以用时变函数C(t)来替代，因为承载容量随着时间的推移可能会发生变化；

(52)季节性成分用一个傅里叶级数表示，表达式如下：

季节性成分往往是周期性的，而周期性数据都可以分解为傅里叶级数；因此，这里使用傅里叶级数拟合季节性成分，其可以灵活地拟合不同类型的季节性成分。

P表示周期，如果季节性周期为一年则P为365.25，一周则为7。a_n和b_n为待拟合的参数，拟合此傅里叶序列模型需要估计2N个参数β＝[a₁，b₁，...，a_N，b_N]^T，N越大模型可以拟合的频率越大，N过大会导致过拟合的效应。经验表明，N取10足够拟合以年为周期的周期性成分；定义

则

s(t)＝y(t)β

(53)在电力系统中，节假日会对电量的波动产生较大的影响。例如，春节期间，城区的用电量会出现一个较大的低谷。除此之外，劳动节、国庆节等其他法定节假日也会造成电量短期内出现较大波动。如将其建模到季节性成分则存在两个问题：首先是变化太快需要N很大，容易出现过拟合效应；其次，每年农历节假日在公历的日期不同，并不遵循一个周期性的变化。因此，考虑到节假日对电量的影响性巨大，需单独对其建模。

设每一个节日i，D_i为每年这个节日的日期；对每一个节假日指定一个参数κ_i表示这个节假日所造成的电量影响大小，如劳动节当天电量会减少100kw，则κ_i即为-100kw。生成如下回归矩阵：

Z(t)＝[1(t∈D₁)，...，1(t∈D_L)]

h(t)＝Z(t)κ

假设一年中有五个节假日影响较大(分别为春节、劳动节、端午节、中秋节和国庆节)，则Z(t)为一个1×5的矩阵，在春节当天这个矩阵为[1，0，0，0，0],劳动节则为[0，1，0，0，0]，依次类推，每个节日造成的电量影响这里假设κ_i是固定不变的。

同时假设κ～Normal(0，v²)，假设节假日对电量影响符合正态分布。由于节假日的影响会持续多日，需根据实际情况判断节假日影响起止的日期。

步骤(51)中，变异点的位置从一系列指定的候选点进行选择，例如对每个月初指定一个变异点。假设变异点速率变化量δ_j服从零均值尺度参数为τ的Laplace分布，利用τ直接控制速率变化的灵活性。即δ_j～Laplace(0，τ)。拉普拉斯分布是一个经验分布，便于后面进行参数估计。

步骤(4)中，模型的拟合过程如下：

模型的参数拟合方案使用最大后验估计，先给出需要拟合的参数的先验分布，在根据最大似然函数进行拟合即可，这里使用Stan’s L-BFGS方法进行拟合，这是一个开源的参数估计工具。

三个成分累加在一起进行拟合，拟合的结果可以表示三个不同的成分，预测的结果也是三个成分的累加和。

先验假设：

k～Normal(0，5)

m～Normal(0，5)

∈_t～Normal(0，0.5)

δ～Double Exponential(0，τ)

β～Normal(0，σ²)

κ～Normal(0，v²)

x～Normal(μ，σ²)，其概率密度函数如下：

y～Normal((k+α(t)^Tδ)t+(m+α(t)^Tγ)+X(t)β+Z(t)κ，∈_t)

这两公式就是模型的表达式，通过这两个表达式进行最大似然估计。

通过模型用于表现时间序列的发展过程，可以很好地描绘时间序列的线性趋势或者非线性趋势，得到不同成分的量化值，具有一定的解释性。

图1为对某个电量序列进行异常值检测的结果，线为原始序列，圆点表示检测到的序列中的异常点。图1中横坐标是时间指标t,建模的第一天t＝0,以此类推。纵坐标是当天的售电量值，单位为kw*h。

图2为基于图1剔除检测到的异常点的序列分解结果，坐标意义与图1相同。实线表示原始的电量序列，“—”线表示序列中的季节性成分，“+”线表示节假日对序列叠加的影响，“|”线为序列中包含的趋势成分，“△”线为分解出的三个成分叠加的结果。由三个成分的表达式可以得出每个成分的预测值，进行叠加得到原始序列的预测值。

在本实施实例中，在对某电量序列进行异常值检测中，圆点的位置大都是处于一个较为明显的离群点处。在某几处电量使用的量为0，可能是因为故障等不可控因素导致的，这样的点不利于模型的构建。经过剔除后，序列变得更为平滑。分解出的趋势成分呈现一个较为平缓的上升过程，季节性电量也呈季节性波动，节假日的影响较为直观，符合电量预测的经验。最后用10天的预测数据与实际值比较，得到的预测结果和真实值的平均误差仅为2.86％，在电网建设中具有较大的参考意义。