CN111563776B - 一种基于K近邻异常检测和Prophet模型的电量分解和预测方法 - Google Patents
一种基于K近邻异常检测和Prophet模型的电量分解和预测方法 Download PDFInfo
- Publication number
- CN111563776B CN111563776B CN202010384677.5A CN202010384677A CN111563776B CN 111563776 B CN111563776 B CN 111563776B CN 202010384677 A CN202010384677 A CN 202010384677A CN 111563776 B CN111563776 B CN 111563776B
- Authority
- CN
- China
- Prior art keywords
- point
- model
- electric quantity
- points
- neighbor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000000354 decomposition reaction Methods 0.000 title claims abstract description 17
- 238000001514 detection method Methods 0.000 title claims abstract description 14
- 230000002441 reversible effect Effects 0.000 claims abstract description 15
- 230000014509 gene expression Effects 0.000 claims abstract description 14
- 230000006870 function Effects 0.000 claims description 14
- 230000001932 seasonal effect Effects 0.000 claims description 13
- 230000000694 effects Effects 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 10
- 230000000737 periodic effect Effects 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 3
- 238000012163 sequencing technique Methods 0.000 abstract description 2
- 230000002159 abnormal effect Effects 0.000 description 11
- 230000005611 electricity Effects 0.000 description 4
- 238000012731 temporal analysis Methods 0.000 description 4
- 238000000700 time series analysis Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000007619 statistical method Methods 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- YHXISWVBGDMDLQ-UHFFFAOYSA-N moclobemide Chemical class C1=CC(Cl)=CC=C1C(=O)NCCN1CCOCC1 YHXISWVBGDMDLQ-UHFFFAOYSA-N 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Finance (AREA)
- Marketing (AREA)
- Theoretical Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Tourism & Hospitality (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于K近邻异常检测和Prophet模型的电量分解和预测方法。将时序的电量序列看作一群离散的点,对每一个数据点,使用K近邻方法找出它的K近邻点,即距离此点最近的K个点。再通过每个点的K近邻点集合计算反向K近邻,K近邻和反向K近邻的并集构成了每个点的影响空间(IS)。通过影响空间计算每个点的INFLO值,对每个点的INFLO值进行排序,剔除INFLO值较大的点。对处理后的电量序列使用Prophet模型进行分解建模,将一维电量序列分解成趋势、季节性、节假日影响三个成分,分别对三个成分的表达式进行拟合,以此来进行电量序列变化的分析和预测。本发明应用于电量序列的分析和短期预测。
Description
技术领域
本发明涉及时间序列分析和预测技术领域,尤其涉及一种基于K近邻异常检测和Prophet模型的电量分解和预测方法。
背景技术
时间序列分析(Time-Series Analysis)是统计学科的一个分支,通过将原来的序列分解为四部分来看——趋势、周期、时期和不稳定因素,然后综合这些因素,提出序列预测。它包括一般统计分析(如自相关分析,谱分析等),统计模型的建立与推断,以及关于时间序列的最优预测、控制与滤波等内容。经典的统计分析都假定数据序列具有独立性,而时间序列分析则侧重研究数据序列的互相依赖关系。其模型类型主要分为ARIMA类和指数平滑类。因为机器学习在特征提取和多维非线性建模上的优势,近年来被认为是用于时间序列建模的传统的统计方法的一个替代方案。
然而,传统方法如ARIMA、指数平滑等,其思想都是建立序列变量之间的自相关性,需要保证序列发展的宽平稳(WSS),不适应于线性增长的序列。机器学习方法存在的过拟合效应会增加预测误差,不能对原始序列进行分解等。在电量预测当中,电量的变化情况多种多样,且季节性成分明显,上述的方法不适用于电量的分解和预测。
发明内容
本发明所要解决的技术问题在于,提供一种基于K近邻异常检测和Prophet模型的电量分解和预测方法,可应用于电量序列的分解和预测。
本发明的技术方案为:包括如下步骤:
(1)将时序的电量序列看成一组离散的点,对每一个数据点,使用K近邻方法找出它的K近邻点,并计算每个点的K近邻距离;
(2)再通过每个点的K近邻点集合计算反向K近邻;
(3)K近邻和反向K近邻的并集构成了每个点的影响空间,通过影响空间计算每个点的INFLO值,剔除INFLO值较大的点;
(4)对处理后的电量序列使用Prophet模型进行分解建模,将一维电量序列分解成趋势、季节性、节假日影响三个成分,分别对三个成分的表达式进行拟合,以此来进行电量序列变化的分析和预测。
步骤(1)包括以下步骤:
设一组电量序列为:
X=[x(1),x(2),x(3),...,x(n)]
式中,n为序列采样点个数,计算每两点之间的欧几里得距离得到距离矩阵{dij}n×n:
dij=dis(x(i),x(j)) 1≤i,j≤n
根据距离矩阵可以得到距离每个点x(i)最近的k个点,称这k个点为x(i)的K近邻,计为NNk(x(i)),根据K近邻计算每个点的K近邻距离:
Kdis(x(i))=Max(dij,x(j)∈NNk(x(i)))。
步骤(2)中,通过每个点的K近邻点集合计算反向K近邻,计为RNNk(x(i))。
步骤(3)中,第i个点x(i)的影响空间ISk(x(i))=NNk(x(i))∪RNNk(x(i)),INFLO值的计算过程如下:
den(x(i))表示点x(i)的可达密度,是点x(i)的K近邻距离的Kdis(x(i))倒数;denavg(ISk(x(i)))表示点x(i)的平均可达密度,由x(i)的影响空间ISk(x(i))中所有点的可达密度的平均值计算得到;
x(i)的INFLO得分INFLOk(x(i))由这个点的平均可达密度denavg(ISk(x(i)))除以可达密度den(x(i))获得;
INFLO值越大则为异常点的可能性越大,剔除INFLO值过大的点,用前后均值的方法填充。
步骤(4)中,Prophet模型将电量序列分为三个成分:
x(t)=g(t)+s(t)+h(t)+∈t t为正整数
g(t)用来表征数据整体的趋势走向,s(t)代表电量的周期性变化,h(t)是节假日成分,∈t表示模型拟合误差;
其中,
(51)趋势的模型为线性模型或非线性模型,
线性模型的表达式如下:
g(t)=(k+α(t)Tδ)t+(m+α(t)Tγ)
k是增长率,δ表示的是一个增长率调整的向量,模型增长率发生变化的点为变异点,假设共有S个变异点,分别在时间点sj,j=1,...,S,δj表示的是在sj点增长率的调整值;模型在任意时间点t的增长率等于基础增长率k加上这个时间点之前的速率调整值:k+∑j:t>sjδj;可以通过定义一个长度为S的一维向量α(t)∈{0,1}S来表示:
在t≥sj时,aj(t)=1;其余情况,aj(t)=0;
这样,在时间点t的速率为k+α(t)Tδ,m是模型偏置,γj=-sjδj;
非线性模型的表达式如下:
C是饱和值,表明函数g(t)所能增长到的最大值,其他的变量定义和线性模型一样,这里
(52)季节性成分用一个傅里叶级数表示,表达式如下:
s(t)=y(t)β
参数β先验估计服从0均值方差σ2的正态分布,即,β~Normal(0,σ2);
(53)设每一个节日i,Di为每年这个节日的日期;对每一个节假日指定一个参数κi表示这个节假日所造成的电量影响大小,生成如下回归矩阵:
Z(t)=[1(t∈D1),...,1(t∈DL)]
h(t)=Z(t)κ
同时假设κ~Normal(0,v2)。
步骤(51)中,变异点的位置从指定的候选点进行选择。
步骤(4)中,模型的拟合过程如下:
先验假设:
k~Normal(0,5)
m~Normal(0,5)
∈t~Normal(0,0.5)
δ~Double Exponential(0,τ)
β~Normal(0,σ2)
κ~Normal(0,v2)
k表示模型的增长率,m表示偏置,∈t是误差,δ表示增长率的调整量,β表示傅里叶级数的参数,κ表示节假日的电量影响大小;
x~Normal(μ,σ2),其概率密度函数如下:
x~Double Exponential(μ,τ)表示x服从双参指数分布,概率密度函数如下:
其中,τ、σ以及v根据时序的特性来决定;对参数进行先验估计后,使用L-BFGS算法通过以下两个似然函数对参数进行最大后验估计,得到参数k,m,δ,β,κ的估计值,根据拟合的效果,选择表现较好的一个模型,
y~Normal((k+α(t)Tδ)t+(m+α(t)Tγ)+X(t)β+Z(t)k,∈t)
通过模型用于表现时间序列的发展过程,可以很好地描绘时间序列的线性趋势或者非线性趋势,得到不同成分的量化值,具有解释性。
本发明将影响电量的成分归结于三个符合经验的成分的和,分别是季节性、趋势和节假日带来的短暂性影响。使用K近邻的异常检测方法对电网采集的电量信息进行一个过滤,因为电网在采集中难免会有采集错误的点,使用人工过滤的方法效率低下而且往往会带来主观性,所以此方法可以剔除掉大部分的不符合常理的突变点,便于后期预测的准确性。Prophet模型可以直观地显示三个成分的大小,便于人为观察和分析,同时与经验模型有一定的一致性。
附图说明
图1为本发明对某电量序列进行异常值检测的结果图,
图2为本发明对某电量序列进行分解的结果图。
具体实施方式
本发明包括如下步骤:
(1)将时序的电量序列看成一组离散的点,对每一个数据点,使用K近邻方法找出它的K近邻点,即距离此点最近的K个点,并计算每个点的K近邻距离;
(2)再通过每个点的K近邻点集合计算反向K近邻(如果q是p的K近邻,那么p就是q的反向K近邻);
(3)K近邻和反向K近邻的并集构成了每个点的影响空间(IS)。通过影响空间计算每个点的INFLO值(Influenced outlierness,受影响异常得分),对每个点的INFLO值进行排序,根据拉依达准则(3σ准则)剔除INFLO值较大的点。独立计算INFLO平均值和每一点的剩余误差:
每点的剩余误差计算:
v(x(i))=INFLOk(x(i))-INFLOavg
并按贝塞尔公式算出标准偏差σ,若点x(i)满足v(x(i))>3σ,则认为是异常点;
(4)对处理后的电量序列使用Prophet模型(时间序列预测模型)进行分解建模,将一维电量序列分解成趋势、季节性、节假日影响三个成分,分别对三个成分的表达式进行拟合,以此来进行电量序列变化的分析和预测。
步骤(1)包括以下步骤:
设一组电量序列为:
X=[x(1),x(2),x(3),...,x(n)]
式中,n为序列采样点个数,计算每两点之间的欧几里得距离得到距离矩阵{dij}n×n:
dij=dis(x(i),x(j)) 1≤i,j≤n
根据距离矩阵可以得到距离每个点x(i)最近的k个点,称这k个点为x(i)的K近邻,计为NNk(x(i)),根据K近邻计算每个点的K近邻距离:
Kdis(x(i))=Max(dij,x(j)∈NNk(x(i)))。
步骤(2)中,通过每个点的K近邻点集合计算反向K近邻,计为RNNk(x(i));如果点x(j)属于点x(i)的K近邻,那么x(i)属于x(j)的反向K近邻。
步骤(3)中,第i个点x(i)的影响空间ISk(x(i))=NNk(x(i))∪RNNk(x(i)),INFLO值的计算过程如下:
den(x(i))表示点x(i)的可达密度,是点x(i)的K近邻距离的Kdis(x(i))倒数,denavg(ISk(x(i)))表示点x(i)的平均可达密度,由x(i)的影响空间ISk(x(i))中所有点的可达密度的平均值计算得到。x(i)的INFLO得分INFLOk(x(i))由这个点的平均可达密度denavg(ISk(x(i)))除以可达密度den(x(i))获得。
INFLO值越大则为异常点的可能性越大。剔除INFLO值过大的点,用前后均值的方法填充,当x(i)被判定为异常点后,用对其值进行替换以保证数据量的不变。若x(i-1)也为异常点,则继续往前用x(i-2)计算。
步骤(4)中,Prophet模型将电量序列分为三个成分:
x(t)=g(t)+s(t)+h(t)+∈t t为正整数
g(t)用来表征数据整体的趋势走向,s(t)代表电量的周期性变化,h(t)是节假日成分,∈t表示模型拟合误差。
其中,
(51)趋势的模型为线性模型或非线性模型,可根据拟合效果选择一个。
线性模型的表达式如下:
g(t)=(k+α(t)Tδ)t+(m+α(t)Tγ)
k是增长率,也称为斜率,δ表示的是一个增长率调整的向量,表明增长率发生了变化;模型增长率发生变化的点称之为变异点,假设共有S个变异点,分别在时间点sj,j=1,...,S,δj表示的是在sj点增长率的调整值;之所以引入了变异点的概念,是为了适应时间序列在发展过程中的增长率发生的变化,更好的拟合原始数据。所以模型在任意时间点t的增长率等于基础增长率k加上所以这个时间点之前的速率调整值:可以通过定义一个长度为S的一维向量α(t)∈{0,1}S来更清楚地表示:
在t≥sj时,aj(t)=1;其余情况,aj(t)=0;
这样,在时间点t的速率可以表示为k+α(t)Tδ,m是模型偏置,γj=-sjδj是用以保证不同斜率的线性函数之间的连续性,可以由计算得出;
非线性模型的表达式如下:
C是饱和值(又称承载容量),是一个常量,表明函数g(t)所能增长到的最大值,其他的变量定义和线性模型一样,这里
其中,承载容量C可以用时变函数C(t)来替代,因为承载容量随着时间的推移可能会发生变化;
(52)季节性成分用一个傅里叶级数表示,表达式如下:
季节性成分往往是周期性的,而周期性数据都可以分解为傅里叶级数;因此,这里使用傅里叶级数拟合季节性成分,其可以灵活地拟合不同类型的季节性成分。
P表示周期,如果季节性周期为一年则P为365.25,一周则为7。an和bn为待拟合的参数,拟合此傅里叶序列模型需要估计2N个参数β=[a1,b1,...,aN,bN]T,N越大模型可以拟合的频率越大,N过大会导致过拟合的效应。经验表明,N取10足够拟合以年为周期的周期性成分;定义则
s(t)=y(t)β
参数β先验估计服从0均值方差σ2的正态分布,即,β~Normal(0,σ2);
(53)在电力系统中,节假日会对电量的波动产生较大的影响。例如,春节期间,城区的用电量会出现一个较大的低谷。除此之外,劳动节、国庆节等其他法定节假日也会造成电量短期内出现较大波动。如将其建模到季节性成分则存在两个问题:首先是变化太快需要N很大,容易出现过拟合效应;其次,每年农历节假日在公历的日期不同,并不遵循一个周期性的变化。因此,考虑到节假日对电量的影响性巨大,需单独对其建模。
设每一个节日i,Di为每年这个节日的日期;对每一个节假日指定一个参数κi表示这个节假日所造成的电量影响大小,如劳动节当天电量会减少100kw,则κi即为-100kw。生成如下回归矩阵:
Z(t)=[1(t∈D1),...,1(t∈DL)]
h(t)=Z(t)κ
假设一年中有五个节假日影响较大(分别为春节、劳动节、端午节、中秋节和国庆节),则Z(t)为一个1×5的矩阵,在春节当天这个矩阵为[1,0,0,0,0],劳动节则为[0,1,0,0,0],依次类推,每个节日造成的电量影响这里假设κi是固定不变的。
同时假设κ~Normal(0,v2),假设节假日对电量影响符合正态分布。由于节假日的影响会持续多日,需根据实际情况判断节假日影响起止的日期。
步骤(51)中,变异点的位置从一系列指定的候选点进行选择,例如对每个月初指定一个变异点。假设变异点速率变化量δj服从零均值尺度参数为τ的Laplace分布,利用τ直接控制速率变化的灵活性。即δj~Laplace(0,τ)。拉普拉斯分布是一个经验分布,便于后面进行参数估计。
步骤(4)中,模型的拟合过程如下:
模型的参数拟合方案使用最大后验估计,先给出需要拟合的参数的先验分布,在根据最大似然函数进行拟合即可,这里使用Stan’s L-BFGS方法进行拟合,这是一个开源的参数估计工具。
三个成分累加在一起进行拟合,拟合的结果可以表示三个不同的成分,预测的结果也是三个成分的累加和。
先验假设:
k~Normal(0,5)
m~Normal(0,5)
∈t~Normal(0,0.5)
δ~Double Exponential(0,τ)
β~Normal(0,σ2)
κ~Normal(0,v2)
k表示模型的增长率,m表示偏置,∈t是误差,δ表示增长率的调整量,β表示傅里叶级数的参数,κ表示节假日的电量影响大小;
x~Normal(μ,σ2),其概率密度函数如下:
x~Double Exponential(μ,τ)表示x服从双参指数分布,概率密度函数如下:
其中,τ、σ以及v根据时序的特性来决定;对参数进行先验估计后,使用L-BFGS算法通过以下两个似然函数对参数进行最大后验估计,得到参数k,m,δ,β,κ的估计值,根据拟合的效果,选择表现较好的一个模型,
y~Normal((k+α(t)Tδ)t+(m+α(t)Tγ)+X(t)β+Z(t)κ,∈t)
这两公式就是模型的表达式,通过这两个表达式进行最大似然估计。
通过模型用于表现时间序列的发展过程,可以很好地描绘时间序列的线性趋势或者非线性趋势,得到不同成分的量化值,具有一定的解释性。
图1为对某个电量序列进行异常值检测的结果,线为原始序列,圆点表示检测到的序列中的异常点。图1中横坐标是时间指标t,建模的第一天t=0,以此类推。纵坐标是当天的售电量值,单位为kw*h。
图2为基于图1剔除检测到的异常点的序列分解结果,坐标意义与图1相同。实线表示原始的电量序列,“—”线表示序列中的季节性成分,“+”线表示节假日对序列叠加的影响,“|”线为序列中包含的趋势成分,“△”线为分解出的三个成分叠加的结果。由三个成分的表达式可以得出每个成分的预测值,进行叠加得到原始序列的预测值。
在本实施实例中,在对某电量序列进行异常值检测中,圆点的位置大都是处于一个较为明显的离群点处。在某几处电量使用的量为0,可能是因为故障等不可控因素导致的,这样的点不利于模型的构建。经过剔除后,序列变得更为平滑。分解出的趋势成分呈现一个较为平缓的上升过程,季节性电量也呈季节性波动,节假日的影响较为直观,符合电量预测的经验。最后用10天的预测数据与实际值比较,得到的预测结果和真实值的平均误差仅为2.86%,在电网建设中具有较大的参考意义。
Claims (6)
1.一种基于K近邻异常检测和Prophet模型的电量分解和预测方法,其特征在于,包括如下步骤:
(1)将时序的电量序列看成一组离散的点,对每一个数据点,使用K近邻方法找出它的K近邻点,并计算每个点的K近邻距离;
(2)再通过每个点的K近邻点集合计算反向K近邻;
(3)K近邻和反向K近邻的并集构成了每个点的影响空间,通过影响空间计算每个点的INFLO值,剔除INFLO值较大的点;
(4)对处理后的电量序列使用Prophet模型进行分解建模,将一维电量序列分解成趋势、季节性、节假日影响三个成分,分别对三个成分的表达式进行拟合,以此来进行电量序列变化的分析和预测;
步骤(4)中,Prophet模型将电量序列分为三个成分:
x(t)=g(t)+s(t)+h(t)+∈tt为正整数
g(t)用来表征数据整体的趋势走向,s(t)代表电量的周期性变化,h(t)是节假日成分,∈t表示模型拟合误差;
其中,
(51)趋势的模型为线性模型或非线性模型,
线性模型的表达式如下:
g(t)=(k+α(t)Tδ)t+(m+α(t)Tγ)
k是增长率,δ表示的是一个增长率调整的向量,模型增长率发生变化的点为变异点,假设变异点的数量为S,分别在时间点sj,j=1,...,S,δj表示的是在sj点增长率的调整值;模型在任意时间点t的增长率等于基础增长率k加上这个时间点之前的速率调整值:可以通过定义一个长度为S的一维向量α(t),aj(t)∈{0,1}来表示:
在t≥sj时,aj(t)=1;其余情况,aj(t)=0;
这样,在时间点t的速率为k+α(t)Tδ,m是模型偏置,γj=-sjδj;
非线性模型的表达式如下:
C是饱和值,表明函数g(t)所能增长到的最大值,其他的变量定义和线性模型一样,
(52)季节性成分用一个傅里叶级数表示,表达式如下:
s(t)=y(t)β
参数β先验估计服从0均值方差σ2的正态分布,即,β~Normal(0,σ2);
(53)设每一个节日i,Di为每年这个节日的日期;对每一个节假日指定一个参数κi 表示这个节假日所造成的电量影响大小,生成如下回归矩阵:
Z(t)=[1(t∈D1),...,1(t∈DL)]
h(t)=Z(t)κ,
同时假设κ~Normal(0,v2)。
2.如权利要求1所述的基于K近邻异常检测和Prophet模型的电量分解和预测方法,其特征在于,步骤(1)包括以下步骤:
设一组电量序列为:
X=[x(1),x(2),x(3),...,x(n)]
式中,n为序列采样点个数,计算每两点之间的欧几里得距离得到距离矩阵{dij}n×n:
dij=dis(x(i),x(j))1≤i,j≤n
根据距离矩阵可以得到距离每个点x(i)最近的k个点,称这k个点为x(i)的K近邻,计为NNk(x(i)),根据K近邻计算每个点的K近邻距离:
Kdis(x(i))=Max(dij)x(j)∈NNk(x(i))。
3.如权利要求1所述的基于K近邻异常检 测和Prophet模型的电量分解和预测方法,其特征在于,步骤(2)中,通过每个点的K近邻点集合计算反向K近邻,计为RNNk(x(i))。
4.如权利要求1所述的基于K近邻异常检测和Prophet模型的电量分解和预测方法,其特征在于,步骤(3)中,第i个点x(i)的影响空间ISk(x(i))=NNk(x(i))∪RNNk(x(i)),INFLO值的计算过程如下:
den(x(i))表示点x(i)的可达密度,是点x(i)的K近邻距离的Kdis(x(i))倒数;denavg(ISk(x(i)))表示点x(i)的平均可达密度,由x(i)的影响空间ISk(x(i))中所有点的可达密度的平均值计算得到;
x(i)的INFLO得分INFLOk(x(i))由这个点的平均可达密度denavg(ISk(x(i)))除以可达密度den(x(i))获得,INFLO值大小表明了异常值的可能性。
5.如权利要求1所述的基于K近邻异常检测和Prophet模型的电量分解和预测方法,其特征在于,步骤(51)中,变异点的位置从指定的候选点进行选择。
6.如权利要求1所述的基于K近邻异常检测和Prophet模型的电量分解和预测方法,其特征在于,步骤(4)中,模型的拟合过程如下:
先验假设:
k~Normal(0,5)
m~Normal(0,5)
∈t~Normal(0,0.5)
δ~Double Exponential(0,τ)
β~Normal(0,σ2)
κ~Normal(0,v2)
k表示模型的增长率,m是模型偏置,∈t表示模型拟合误差,v表示的是一个增长率调整的向量,β表示傅里叶级数的参数,κ表示节假日的电量影响大小;
x~Normal(μ,σ2),其概率密度函数如下:
x~Double Exponential(μ,σ)表示x服从双参指数分布,概率密度函数如下:
其中,μ、σ根据时序的特性来决定;对参数进行先验估计后,使用L-BFGS算法通过以下两个似然函数对参数进行最大后验估计,得到参数k,m,δ,β,κ的估计值,根据拟合的效果,选择表现较好的一个模型,
y~Normal((k+α(t)Tδ)t+(m+α(t)Tγ)+X(t)β+Z(t)κ,∈t)
通过模型用于表现时间序列的发展过程,可以很好地描绘时间序列的线性趋势或者非线性趋势,得到不同成分的量化值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010384677.5A CN111563776B (zh) | 2020-05-08 | 2020-05-08 | 一种基于K近邻异常检测和Prophet模型的电量分解和预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010384677.5A CN111563776B (zh) | 2020-05-08 | 2020-05-08 | 一种基于K近邻异常检测和Prophet模型的电量分解和预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111563776A CN111563776A (zh) | 2020-08-21 |
CN111563776B true CN111563776B (zh) | 2021-07-16 |
Family
ID=72072029
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010384677.5A Active CN111563776B (zh) | 2020-05-08 | 2020-05-08 | 一种基于K近邻异常检测和Prophet模型的电量分解和预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111563776B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112612822B (zh) * | 2020-12-11 | 2023-04-28 | 中铁第四勘察设计院集团有限公司 | 一种北斗坐标时间序列的预测方法、装置、设备和存储介质 |
CN112836871A (zh) * | 2021-01-27 | 2021-05-25 | 广东电网有限责任公司广州供电局 | 一种配电网可靠性预测方法、装置、设备和介质 |
CN115484188A (zh) * | 2021-06-16 | 2022-12-16 | 中国移动通信集团广东有限公司 | Tap设备监控方法和系统、电子设备及可读存储介质 |
CN114169568A (zh) * | 2021-11-03 | 2022-03-11 | 国网浙江省电力有限公司瑞安市供电公司 | 基于Prophet模型的配电线路电流预测与重过载预警及系统 |
CN115081681B (zh) * | 2022-05-25 | 2023-05-02 | 四川大学 | 一种基于prophet算法的风电功率预测方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102708172A (zh) * | 2012-05-02 | 2012-10-03 | 广州中大微电子有限公司 | 一种用于挖掘rfid数据孤立点的方法 |
EP3161527A1 (en) * | 2014-06-30 | 2017-05-03 | Siemens Aktiengesellschaft | Solar power forecasting using mixture of probabilistic principal component analyzers |
CN109242041A (zh) * | 2018-09-28 | 2019-01-18 | 南方电网科学研究院有限责任公司 | 一种电能表异常数据检测方法、装置、设备及存储介质 |
CN109886332A (zh) * | 2019-02-18 | 2019-06-14 | 重庆大学 | 基于对称邻居关系的改进dpc聚类算法及系统 |
CN110362558A (zh) * | 2019-06-12 | 2019-10-22 | 广东工业大学 | 一种基于邻域传播聚类的能耗数据清洗方法 |
CN110414724A (zh) * | 2019-07-10 | 2019-11-05 | 东软集团股份有限公司 | 用于预测耗电量的方法、装置、可读存储介质及电子设备 |
CN111062539A (zh) * | 2019-12-25 | 2020-04-24 | 东南大学 | 基于次级用电量特性聚类分析的总电量预测方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109767061B (zh) * | 2018-12-06 | 2022-07-01 | 中国电力科学研究院有限公司 | 一种电能表失效率的评估方法及装置 |
CN110210658B (zh) * | 2019-05-22 | 2023-10-03 | 东南大学 | 基于小波变换的Prophet与高斯过程用户网络流量预测方法 |
-
2020
- 2020-05-08 CN CN202010384677.5A patent/CN111563776B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102708172A (zh) * | 2012-05-02 | 2012-10-03 | 广州中大微电子有限公司 | 一种用于挖掘rfid数据孤立点的方法 |
EP3161527A1 (en) * | 2014-06-30 | 2017-05-03 | Siemens Aktiengesellschaft | Solar power forecasting using mixture of probabilistic principal component analyzers |
CN109242041A (zh) * | 2018-09-28 | 2019-01-18 | 南方电网科学研究院有限责任公司 | 一种电能表异常数据检测方法、装置、设备及存储介质 |
CN109886332A (zh) * | 2019-02-18 | 2019-06-14 | 重庆大学 | 基于对称邻居关系的改进dpc聚类算法及系统 |
CN110362558A (zh) * | 2019-06-12 | 2019-10-22 | 广东工业大学 | 一种基于邻域传播聚类的能耗数据清洗方法 |
CN110414724A (zh) * | 2019-07-10 | 2019-11-05 | 东软集团股份有限公司 | 用于预测耗电量的方法、装置、可读存储介质及电子设备 |
CN111062539A (zh) * | 2019-12-25 | 2020-04-24 | 东南大学 | 基于次级用电量特性聚类分析的总电量预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111563776A (zh) | 2020-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111563776B (zh) | 一种基于K近邻异常检测和Prophet模型的电量分解和预测方法 | |
CN111260030B (zh) | 基于a-tcn电力负荷预测方法、装置、计算机设备及存储介质 | |
CN112018758A (zh) | 基于数字孪生的含高比例新能源交直流混联系统建模方法 | |
CN111950805B (zh) | 中长期电力负荷预测方法、装置、计算机设备及存储介质 | |
CN111008726B (zh) | 一种电力负荷预测中类图片转换方法 | |
Junior et al. | Optimized hybrid ensemble learning approaches applied to very short-term load forecasting | |
CN112783938B (zh) | 一种水文遥测实时数据异常检测方法 | |
CN113379168B (zh) | 一种时间序列的预测处理方法、装置及设备 | |
CN112183868B (zh) | 交通流量预测模型的构建方法及电子设备 | |
Wang et al. | A data-centric predictive control approach for nonlinear chemical processes | |
CN115115127A (zh) | 一种基于深度学习的低压台区智能调控方法及系统 | |
EP1672578A1 (en) | Method and system for analyzing the risk of a project | |
CN115169746A (zh) | 基于融合模型的电力负荷短期预测方法、装置及相关介质 | |
CN111582593A (zh) | 一种基于工业用电大数据的数据清洗的集成方法 | |
Beltrán et al. | Two-stage and multi-stage decompositions for the medium-term hydrothermal scheduling problem: A computational comparison of solution techniques | |
CN112700050B (zh) | 一种光伏电站超短期第1点功率预测方法及系统 | |
CN117034197A (zh) | 基于多维Isolate-Detect多变点检测的企业用电典型模式分析方法 | |
CN115169721B (zh) | 一种基于迁移辨识的精馏过程单吨能耗预测方法及系统 | |
CN111144569A (zh) | 一种基于遗传算法的良率提升适用模型的优化方法 | |
CN115935285A (zh) | 基于掩码图神经网络模型的多元时间序列异常检测方法和系统 | |
CN115619563A (zh) | 一种基于神经网络的股票价格分析方法 | |
CN115201394A (zh) | 一种多组分变压器油色谱在线监测方法及相关装置 | |
CN110262410B (zh) | 一种数据驱动的生产线设备调配控制方法 | |
CN115687948A (zh) | 一种基于负荷曲线的电力专变用户无监督分类方法 | |
CN112801388B (zh) | 一种基于非线性时间序列算法的电力负荷预测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |