CN116245212A - 基于pca-lstm的电力数据异常检测与预测方法及系统 - Google Patents
基于pca-lstm的电力数据异常检测与预测方法及系统 Download PDFInfo
- Publication number
- CN116245212A CN116245212A CN202211560224.9A CN202211560224A CN116245212A CN 116245212 A CN116245212 A CN 116245212A CN 202211560224 A CN202211560224 A CN 202211560224A CN 116245212 A CN116245212 A CN 116245212A
- Authority
- CN
- China
- Prior art keywords
- data
- lstm
- power data
- pca
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000001514 detection method Methods 0.000 title claims abstract description 43
- 238000013528 artificial neural network Methods 0.000 claims abstract description 64
- 230000007787 long-term memory Effects 0.000 claims abstract description 37
- 238000000513 principal component analysis Methods 0.000 claims abstract description 32
- 230000015654 memory Effects 0.000 claims abstract description 26
- 238000012545 processing Methods 0.000 claims abstract description 23
- 238000012360 testing method Methods 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 21
- 230000009467 reduction Effects 0.000 claims abstract description 17
- 238000007781 pre-processing Methods 0.000 claims abstract description 16
- 238000012163 sequencing technique Methods 0.000 claims abstract description 4
- 230000002159 abnormal effect Effects 0.000 claims description 48
- 230000002779 inactivation Effects 0.000 claims description 23
- 230000005611 electricity Effects 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 17
- 230000000630 rising effect Effects 0.000 claims description 14
- 239000013598 vector Substances 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 7
- 230000005856 abnormality Effects 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 abstract description 6
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 238000011160 research Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 4
- 238000007405 data analysis Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000006403 short-term memory Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000008014 freezing Effects 0.000 description 2
- 238000007710 freezing Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 241001123248 Arma Species 0.000 description 1
- 101001095088 Homo sapiens Melanoma antigen preferentially expressed in tumors Proteins 0.000 description 1
- 102100037020 Melanoma antigen preferentially expressed in tumors Human genes 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- YHXISWVBGDMDLQ-UHFFFAOYSA-N moclobemide Chemical compound C1=CC(Cl)=CC=C1C(=O)NCCN1CCOCC1 YHXISWVBGDMDLQ-UHFFFAOYSA-N 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000012847 principal component analysis method Methods 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本发明提供一种基于PCA‑LSTM的电力数据异常检测与预测方法及系统,该方法通过获得原始用电采集数据,进行数据排序,得到时间序列的电力数据;进行预处理,获得预处理后的电力数据;采用主成分分析法PCA进行降维,获得降维后的数据,并分为训练集和测试集;构建长短期记忆神经网络预测模型LSTM,对长短期记忆神经网络预测模型LSTM进行优化后,获得最终的长短期记忆神经网络预测模型LSTM;通过得到的最终的长短期记忆神经网络预测模型LSTM进行预测;本发明能够高精度高效率实现电力数据时间序列的数据预测,能够有效去除冗余数据,降低计算复杂度,提升数据处理速度,并有效降低预测误差。
Description
技术领域
本发明涉及一种基于PCA-LSTM的电力数据异常检测与预测方法及系统,属于电力数据预测技术领域。
背景技术
当前的电力大数据,数据体量大:常规的调度自动化系统包含数十万个采集点,配用电、数据中心将达到千万级;电力数据类型繁多:实时数据、历史数据、文本数据、多媒体数据、时间序列数据等各类结构化、半结构化数据以及非结构化数据;价值密度低:所采集的绝大部分数据都是正常的,只有极少量的异常数据,而异常数据才是进行状态检修的最重要依据。信息化程度的快速提升所产生的海量的实时数据,不仅大大增加了电力系统处理分析数据的难度,并且电力网络中信息系统与物理系统的深度融合,会导致系统在遭受恶意的外部攻击或异常数据的影响时,会产生各种难以想象的故障和问题,甚至对电力系统的运转产生不良的影响。
因此,在这个高度信息化的时代,基于深度学习设计一种灵活、实时、高效的电力数据核查与预测方法,实现对长期时间序列电力数据的分析预测,对电网规划、经济部门的管理决策和电力资源优化配置具有重要的指导意义。
针对时间序列电力数据的研究方法主要分为两类:一种是基于统计的方法,包括传统的自回归模型,自回归移动平均(Autoregressive Moving Average,ARMA)模型和自回归综合移动平均(Autoregressive Integrated Moving Average,ARIMA)模型;另一种是基于人工智能,主要以支持向量回归算法、反向传播(Back Propagation,BP)神经网络和人工深度神经网络算法为代表的机器学习方法和适用于复杂非线性时间序列。
而以递归神经网络(Recurrent Neural Network,RNN)为代表的深度神经网络具有通用性强、预测精度高等优点,逐渐成为时间序列预测的研究热点方向。为解决RNN的梯度消失和梯度爆炸问题,引入了长短期记忆神经网络(Long Short-term Memory NeuralNetwork,LSTM),可以有效地弥补RNN的缺陷。但是,对于具有多个可测量的影响因素的原始数据,即具有多个维度的数据,却大大增加了神经网络的计算复杂度,导致效率低下。
上述问题是在电力数据异常检测与预测过程中应当予以考虑并解决的问题。
发明内容
本发明的目的是提供一种基于PCA-LSTM的电力数据异常检测与预测方法及系统解决现有技术中存在的计算复杂度高,效率有待提高的问题。
本发明的技术解决方案是:
一种基于PCA-LSTM的电力数据异常检测与预测方法,包括以下步骤,
S1、获得m行n列的原始用电采集数据,进行数据排序,得到时间序列的电力数据;
S2、对时间序列的电力数据进行预处理,获得预处理后的电力数据;
S3、采用主成分分析法PCA对预处理后的电力数据进行降维,获得降维后的数据,将得到的降维后的数据分为训练集和测试集;
S4、构建长短期记忆神经网络预测模型LSTM,采用步骤S3得到的训练集由构建的长短期记忆神经网络预测模型LSTM获得预测值,与测试集的测试值进行对比后,对长短期记忆神经网络预测模型LSTM进行优化后,获得最终的长短期记忆神经网络预测模型LSTM;
S5、通过步骤S4得到的最终的长短期记忆神经网络预测模型LSTM进行预测。
进一步地,步骤S1中,获得m行n列的原始用电采集数据,进行数据排序,得到时间序列的电力数据,具体为,
S11、读取电表ID以及设定日期范围内的对应的日冻结示值,作为m行n列的原始用电采集数据;
S12、将得到的m行n列的原始用电采集数据,按电表ID排序,每个电表ID的数据按日期排序,得到时间序列的电力数据。
进一步地,步骤S2中,对时间序列的电力数据进行预处理,获得预处理后的电力数据,具体为,
S21、对时间序列的电力数据,进行异常数据检测与去除处理,获得去除异常后的电力数据,其中,异常数据包括异常数据包括缺失值、重复值、异常下降值和异常上升值;
S22、对去除异常后的电力数据进行归一化处理后,获得预处理后的电力数据。
进一步地,步骤S21中,对时间序列的电力数据,进行异常数据检测与去除处理,具体为,
S211、对时间序列的电力数据进行缺失值检测,在检测到缺失值时,删除缺失值所在的行;
S212、按日期顺序读取表格数据,在同一日期出现两条重复记录时,删除其中一条数据;
S213、使用箱型图法对数据中存在的离群点进行判断,并去除离群值所在的行后,对数据进行异常下降判断,并剔除异常下降点;
S214、采用三倍标准差法进行异常上升的数据检测,并删除异常上升的数据。
进一步地,步骤S213中,使用箱型图法对数据中存在的离群点进行判断,具体为,
S2131、箱型图划定的正确数据区域为上、下界内的区间,关键数据为下四分位数Q1、上四分位数Q3和四分位差IQR;
S2132、假设样本数据个数为n,则下四分位数Q1=(n+1)/4,上四分位数Q3=3*(n+1)/4,四分位差IQR=Q3-Q1;
S2133、包含正确数据的区间为(Q1-1.5*IQR,Q3+1.5*IQR),在此区间外的数据为离群点并视为异常点。
进一步地,步骤S214中,采用三倍标准差法进行异常上升的数据检测,具体为,
S2141、计算用户在设定时间跨度内的电表数据平均值mean与标准差std;
S2142、设定时间跨度内的当日电表读数为xi,由于电表示值的下限保证xi+1>xi,其中,i>0,因此只需判断电表示值的上限是否符合要求即可;若当日电表读数xi>mean+3std,则将当日电表读数xi视为异常上升数据,否则视为正常数据。
进一步地,步骤S3中,采用主成分分析法PCA对预处理后的电力数据进行降维,获得降维后的数据,具体为,
S31、预处理后的电力数据为m`行n`列数据,组成数据集矩阵Xm`×n`,求得数据集矩阵Xm`×n`的协方差矩阵Cov(X);
S32、求协方差矩阵Cov(X)的特征值及其对应的特征向量;
S33、选择最大的k个特征值所对应的特征向量,组成矩阵P,则降维后的数据集矩阵Y=PXm`×n`。
进一步地,步骤S4中,构建长短期记忆神经网络预测模型LSTM,具体为,长短期记忆神经网络预测模型LSTM包括长短期记忆层即LSTM层、第一随机失活层、第一全连接层、第二随机失活层和第二全连接层,
LSTM层:包含4个记忆单元,每个记忆单元进行信息的迭代更新,并输出每个记忆单元更新后的信息;
第一随机失活层:即dropout层,用于减少中间特征数量,LSTM层通过的第一随机失活层连接第一全连接层;
第一全连接层:设置节点数为5,每个节点都与LSTM层经过dropout层之后的所有输出节点相连,进行矩阵向量相乘,以最大限度保证原始信息的完整性;
第二随机失活层:用于防止过拟合,第一全连接层的节点经过第二随机失活层的信息随机失活后与第二全连接层的节点相连:
第二全连接层:设置节点数为1,与第一全连接层的5个节点相连,延展成一维向量,使长短期记忆神经网络预测模型LSTM的输出结果的维度为1。
一种采用上述任一项基于PCA-LSTM的电力数据异常检测与预测方法的系统,其特征在于:包括数据采集模块、数据预处理模块、数据降维模块和预测模块,
数据采集模块:获得m行n列的原始用电采集数据,进行数据排序,得到时间序列的电力数据;
数据预处理模块:对时间序列的电力数据进行预处理,获得预处理后的电力数据;
数据降维模块:采用主成分分析法PCA对预处理后的电力数据进行降维,获得降维后的数据,将得到的降维后的数据分为训练集和测试集;
预测模块:构建长短期记忆神经网络预测模型LSTM,采用训练集由构建的长短期记忆神经网络预测模型LSTM获得预测值,与测试集的测试值进行对比后,对长短期记忆神经网络预测模型LSTM进行优化后,获得最终的长短期记忆神经网络预测模型LSTM;通过最终的长短期记忆神经网络预测模型LSTM进行预测。
本发明的有益效果是:
一、该种基于PCA-LSTM的电力数据异常检测与预测方法及系统,通过采用主成分分析法PCA与长短期记忆神经网络预测模型LSTM,能够高精度高效率实现电力数据时间序列的数据预测,能够有效去除冗余数据,降低计算复杂度,提升数据处理速度,并有效降低预测误差。
二、本发明,通过将箱型图与三倍标准差法,进行电力数据时间序列的数据预处理,能够准确剔除电力数据中存在的缺失值、重复值、异常下降值与异常上升值;
三、该种基于PCA-LSTM的电力数据异常检测与预测方法及系统,能够准确实现用户研究工作的长期时间序列电力数据分析预测。可以有效避免统计方法中数据假设的过度依赖,避免LSTM网络操作复杂性的弊端。
附图说明
图1是本发明实施例基于PCA-LSTM的电力数据异常检测与预测方法的流程示意图;
图2实施例基于PCA-LSTM的电力数据异常检测与预测方法中采用PCA-LSTM模型的说明示意图;
图3是实施例基于PCA-LSTM的电力数据异常检测与预测方法与的预测效果对比示意图,其中,(a)是BP模型的预测结果示意图,(b)是PCA-BP模型的预测结果示意图,(c)是GRU模型的预测结果示意图,(d)是PCA-GRU模型的预测结果示意图,(e)是LSTM模型的预测结果示意图,(f)是实施例的PCA-LSTM模型的预测结果示意图。
具体实施方式
下面结合附图详细说明本发明的优选实施例。
实施例
一种基于PCA-LSTM的电力数据异常检测与预测方法,如图1,包括以下步骤,
S1、获得m行n列的原始用电采集数据,进行数据排序,得到时间序列的电力数据。
S11、读取电表ID以及设定日期范围内的对应的日冻结示值,作为m行n列的原始用电采集数据;
S12、将得到的m行n列的原始用电采集数据,按电表ID排序,每个电表ID的数据按日期排序,得到时间序列的电力数据。
S2、对时间序列的电力数据进行预处理,获得预处理后的电力数据。
S21、对时间序列的电力数据,进行异常数据检测与去除处理,获得去除异常后的电力数据,其中,异常数据包括异常数据包括缺失值、重复值、异常下降值和异常上升值。
步骤S21中,由于日冻结示值的定义为在每天零点冻结的电能数据,可知日冻结示值数据会随时间不断递增,将数据集中的异常数据分成四类:缺失值、重复值、异常下降值和异常上升值。
步骤S21中,对时间序列的电力数据,进行异常数据检测与去除处理,具体为,
S211、对时间序列的电力数据进行缺失值检测,在检测到缺失值时,删除缺失值所在的行,以实现对缺失值的处理。
步骤S211中,在实验所采用的电力数据集中,若不处理缺失值,则会影响后续的数据特征计算,因此不能忽略缺失值。又因为原始数据本身存在一定的趋势性,若采用均值插补法对缺失值进行处理,可能会对原始数据造成异常上升或者异常下降等误差,使得该处的数据不符合原始数据的趋势。因此,这里对于数据集中可能存在的缺失值,在检测到数据中的空值后,选择直接删除缺失值所在的行,从而实现对缺失值的处理。
S212、按日期顺序读取表格数据,在同一日期出现两条重复记录时,删除其中一条数据。
步骤S212中,由于电表在读取数据时可能存在重复记录的情况,就会造成数据库中存储了重复的数据,这类数据必须剔除,否则会影响后续异常检测算法的准确度。模型在读取数据的同时会按照日期顺序核查数值,当连续读取同一天的数值时判定为冗余值,并进行删除。
S213、使用箱型图法对数据中存在的离群点进行判断,并去除离群值所在的行后,对数据进行异常下降判断,并剔除异常下降点。
步骤S213中,使用箱型图法对数据中存在的离群点进行判断,具体为,
S2131、箱型图划定的正确数据区域为上、下界内的区间,关键数据为下四分位数Q1、上四分位数Q3和四分位差IQR;
S2132、假设样本数据个数为n,则下四分位数Q1=(n+1)/4,上四分位数Q3=3*(n+1)/4,四分位差IQR=Q3-Q1;
S2133、包含正确数据的区间为(Q1-1.5*IQR,Q3+1.5*IQR),在此区间外的数据为离群点并视为异常点。
步骤S213中,能够筛选出电力数据中明显的离群点后,再删除离群点所在的行,从而达到处理明显离群点的目的。
步骤S213中,虽然电力数据基本表现为递增,但想要检测出异常下降的部分,并不能简单地将比前一天低的数据视为异常下降数据,这容易对后面的正常数据造成误判。使用箱型图法,能够准确稳定地描绘出数据的离散分布情况,去除离群值后,再对数据进行异常下降判断,由此剔除异常下降点。
S214、采用三倍标准差法进行异常上升的数据检测,并删除异常上升的数据。
步骤S214中,采用三倍标准差法进行异常上升的数据检测,具体为,
S2141、计算用户在设定时间跨度内的电表数据平均值mean与标准差std;
S2142、设定时间跨度内的当日电表读数为xi,由于电表示值的下限保证xi+1>xi,其中,i>0,因此只需判断电表示值的上限是否符合要求即可;若当日电表读数xi>mean+3std,则将当日电表读数xi视为异常上升数据,否则视为正常数据。
S22、对去除异常后的电力数据进行归一化处理后,获得预处理后的电力数据。
步骤S22中,由于不同用户之间存在不同的影响因素,用户的电力消耗千差万别,用户的短期用电量时间序列数据也会产生各种各样的变化。如果直接加工处理,预测结果将是不准确的,所以为了提高预测的数据分析的准确性,需要对每个维度的数据进行规范化来减少错误和提高准确性。为去除数据的单位限制,转化为量纲的纯数值,便于不同单位或数量级的指标能够进行比较和加权。因此,为了保证结果的可靠性,对原始数据进行标准化处理,采用Min-max标准化,对原始数据进行线性变换,将值映射到[0,1]之间,即:对序列x1,x2,……,xn进行变换则新序列y1,y2,……,yn∈[0,1],且无量纲。
S3、采用主成分分析法PCA对预处理后的电力数据进行降维,获得降维后的数据,将得到的降维后的数据分为训练集和测试集。步骤S3中,整个数据集的前80%设置为训练集,后20%设置为测试集。
步骤S3中,采用主成分分析法PCA对预处理后的电力数据进行降维,获得降维后的数据。具体为:
S31、预处理后的电力数据为m`行n`列数据,组成数据集矩阵Xm`×n`,求得数据集矩阵Xm`×n`的协方差矩阵Cov(X);
S32、求协方差矩阵Cov(X)的特征值及其对应的特征向量;
S33、选择最大的k个特征值所对应的特征向量,组成矩阵P,则降维后的数据集矩阵Y=PXm`×n`。
步骤S3中,采用主成分分析法PCA,对多维原始数据进行降维,可将原始数据的n维特征映射到k维上(k<n),即在原有n维特征的基础上重新构造出来k维特征,这k维是全新的正交特征。这k维特征称为主成分,是重新构造出来的k维特征。n可取40(除用户ID和日期以外的数值项),k取4。主成分分析法PCA完全无参数限制,能够降低计算开销,去除噪声,使得结果更容易理解。采用主成分分析法PCA降低电力数据的维度,能够减少后续神经网络计算过程中的负荷。能够将高维度的数据保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的。
步骤S3中,由于电力数据具有覆盖范围广、维度高、时效性强等特点,在实际的时序数据预测中,用户用电量的短期时序数据往往包含多个影响因素,导致信息量比较大,甚至是冗余信息,深度神经网络的训练样本维度过大,神经网络的复杂性也会增加,使得模型训练时间增长,效率低下,预测精度也可能相应下降。步骤S3通过采用主成分分析法PCA对原始数据样本进行降维处理时,能够提高神经网络的训练效率,大大提高预测性能。
S4、构建长短期记忆神经网络预测模型LSTM,采用步骤S3得到的训练集由构建的长短期记忆神经网络预测模型LSTM获得预测值,与测试集的测试值进行对比后,对长短期记忆神经网络预测模型LSTM进行迭代优化,获得最终的长短期记忆神经网络预测模型LSTM;
步骤S4中,构建长短期记忆神经网络预测模型LSTM,具体为,如图2,长短期记忆神经网络预测模型LSTM包括长短期记忆层即LSTM层、第一随机失活层、第一全连接层、第二随机失活层和第二全连接层,
LSTM层:包含4个记忆单元,每个记忆单元进行信息的迭代更新,并输出每个记忆单元更新后的信息;
第一随机失活层:即dropout层,用于减少中间特征数量,提高模型泛化性,LSTM层通过的第一随机失活层连接第一全连接层,第一随机失活层的dropout值设置为0.01;
第一全连接层:设置节点数为5,每个节点都与LSTM层经过dropout层之后的所有输出节点相连,进行矩阵向量相乘,以最大限度保证原始信息的完整性;
第二随机失活层:用于防止过拟合,第一全连接层的节点经过第二随机失活层的信息随机失活后与第二全连接层的节点相连,第二随机失活层的dropout值设置为0.01:
第二全连接层:设置节点数为1,与第一全连接层的5个节点相连,延展成一维向量,使长短期记忆神经网络预测模型LSTM的输出结果的维度为1。
步骤S4中,采用步骤S3得到的训练集对长短期记忆神经网络预测模型LSTM进行训练后,获得训练后的长短期记忆神经网络预测模型LSTM,具体为,对长短期记忆神经网络预测模型LSTM输入预先设定的模型参数与步骤S3得到的训练集,输出预测值,与待预测日期的真实值即测试集中的测试值进行对比后,进而对长短期记忆神经网络预测模型LSTM的迭代优化,获得最终的长短期记忆神经网络预测模型LSTM。
步骤S4中,长短期记忆神经网络预测模型LSTM采用堆叠式LSTM网络结构,基本结构为串联结构,增加了LSTM网络的深度,增强模型整体的特征表示能力,也增加了网络模型的预测准确性。Dropout层可以有效缓解模型的过拟合问题,使得训练更深更宽的网络成为可能。
S5、通过步骤S4得到的最终的长短期记忆神经网络预测模型LSTM进行预测。
该种基于PCA-LSTM的电力数据异常检测与预测方法,通过采用主成分分析法PCA与长短期记忆神经网络预测模型LSTM,能够高精度高效率实现电力数据时间序列的数据预测,能够有效去除冗余数据,降低计算复杂度,提升数据处理速度,并有效降低预测误差。
本发明,通过将箱型图与三倍标准差法,进行电力数据时间序列的数据预处理,能够准确剔除电力数据中存在的缺失值、重复值、异常下降值与异常上升值;
该种基于PCA-LSTM的电力数据异常检测与预测方法,能够准确实现用户研究工作的长期时间序列电力数据分析预测。可以有效避免统计方法中数据假设的过度依赖,避免LSTM网络操作复杂性的弊端。
实施例还提供一种采用上述任一项基于PCA-LSTM的电力数据异常检测与预测方法的系统,其特征在于:包括数据采集模块、数据预处理模块、数据降维模块和预测模块,
数据采集模块:获得m行n列的原始用电采集数据,进行数据排序,得到时间序列的电力数据;
数据预处理模块:对时间序列的电力数据进行预处理,获得预处理后的电力数据;
数据降维模块:采用主成分分析法PCA对预处理后的电力数据进行降维,获得降维后的数据,将得到的降维后的数据分为训练集和测试集;
预测模块:构建长短期记忆神经网络预测模型LSTM,采用训练集由构建的长短期记忆神经网络预测模型LSTM获得预测值,与测试集的测试值进行对比后,对长短期记忆神经网络预测模型LSTM进行优化后,获得最终的长短期记忆神经网络预测模型LSTM;通过最终的长短期记忆神经网络预测模型LSTM进行预测。
该种基于PCA-LSTM的电力数据异常检测与预测方法及系统,通过在时序数据预处理部分,去除异常数据,再通过主成分分析方法(Principal Components Analysis,PCA)提取时间序列电力数据中的主要影响因素,之后通过长短期记忆(Long Short-Term Memory,LSTM)神经网络预测模型对一段时间内的电力数据进行预测。该种基于PCA-LSTM的电力数据异常检测与预测方法及系统,能够及时发现数据质量问题,剔除异常数据,提升数据问题处理时效性,并对时间序列的电力数据进行预测,可以帮助业务人员尽早解用户用电情况,对指挥用电调度具有较高的研究意义。
该种基于PCA-LSTM的电力数据异常检测与预测方法及系统,通过读取数据、数据排序、数据异常检测、数据归一化、PCA降维、LSTM预测,能够得到高精度预测结果,能够避免现阶段电力数据异常情况对人为观察的依赖性,以及传统神经网络在电力数据预测中误差较大的情况,适应智能电网对电力核心数据准确性、完整性和可靠性的要求。
该种基于PCA-LSTM的电力数据异常检测与预测方法及系统,经实验验证,进行预测值与真实值的对比,以及LSTM模型与PCA-LSTM模型的均方根误差对比,通过与传统LSTM网络模型进行比较,可以得出该方法对电力数据进行主成分分析之后,能够有效去除冗余数据,提高数据信息的处理效率,并能够有效减小误差,大幅提升预测精度,进而可有效提高智能电网对用电情况的整体把握。
实施例的该种基于PCA-LSTM的电力数据异常检测与预测方法进行实验验证如下:
实验采用数据源为原始电表采集数据中的日冻结示值,即终端在日末或者日初冻结的电表的数据,由此可知日冻结示值的基本特性表现为递增。来源于江苏某电力公司提供的原始用电采集数据,其中包含一百位用户从2021.8.1到2022.1.31共计184天的用电量记录,主要通过智能电表进行采样。待处理的数据集规模为18400×42,包含用户ID、日期、正向有功总电能示值(PAP_R)、正向无功总电能示值(PRP_R)、反向有功总电能示值(RAP_R)、反向无功总电能示值(RRP_R)等。
实施例的PCA-LSTM与LSTM、GRU、BP、PCA-GRU、PCA-BP六种算法模型对用户的短期用电时间序列数据进行预测,并比较电力数据的预测效果。这里的预测周期是20天。由于各种算法的预测效果相对相似,为了避免混淆,将各种算法的预测结果分别显示出来,然后根据不同的评价准则判断各种算法预测效果的优劣。实验的结果如图3所示。图3中,(a)是BP模型的预测结果示意图,(b)是PCA-BP模型的预测结果示意图,(c)是GRU模型的预测结果示意图,(d)是PCA-GRU模型的预测结果示意图,(e)是LSTM模型的预测结果示意图,(f)是实施例的PCA-LSTM模型的预测结果示意图。图3中,横坐标是预测时间,纵坐标是要显示的正的总有效电能指示值(PAPR,也称为第一分量)。
通过比较图3中的实验结果,可以看出:实施例的PCA-LSTM方法的预测效果明显更好,预测精度更高,PCA在多维数据处理中起着积极的作用。在预测用户用电量时间序列数据时,PCA-LSTM模型在PCA-BP模型、PCA-GRU模型和PCA-LSTM模型中表现较好,因此实施例的预测方法是有效的。
对实施例的PCA-LSTM与LSTM、GRU、BP、PCA-GRU、PCA-BP六种算法模型,采用均方根误差RMSE、均方误差MSE、平均绝对误差MAE和平均基本百分比误差MAPE进行实验误差比较结果如表1。
表1实施例的PCA-LSTM与LSTM、GRU、BP、PCA-GRU、PCA-BP六种算法模型的实验误差对比。
通过比较表1中各种评价指标的结果,可以看出,1)在加入主成分分析维度减化之前,与BP模型和GRU模型相比,LSTM模型的错误较小。也就是说,LSTM模型在预测时间序列数据时表现得更好。2)在加入主成分分析维度减化后,主成分分析-线性时间序列模型的误差指标仍低于主成分分析-BP模型和主成分分析-格鲁模型。换句话说,PCA-LSTM模型仍然具有比其他两种模型更高的预测精度。3)比较LSTM模型和实施例的PCA-LSTM模型,可以看出电力数据的降维处理有助于减少预测效果的各种误差。因此,实施例的PCA-LSTM模型具有较高的预测效果和较高的预测精度。用户的时间序列数据和用电模式可以更好地拟合PCA-LSTM。这意味着短时间内分析和预测用户用电量时间序列数据的目标基本实现。所建立的电力数据预测模型对于电力资源优化配置和电力系统故障处理分析也具有一定的实际意义。
该种基于PCA-LSTM的电力数据异常检测与预测方法,能够及时发现数据中的质量问题,提高数据处理的效率。实验结果比较,验证了实施例的PCA-LSTM模型的可行性。实验结果表明,所建议的预测系统不仅提高了对时间序列数据的预测精度,而且加快了LSTM的通讯汇流。实验测试结论性地证明了该模型的有效性和适用性。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (9)
1.一种基于PCA-LSTM的电力数据异常检测与预测方法,其特征在于:包括以下步骤,
S1、获得m行n列的原始用电采集数据,进行数据排序,得到时间序列的电力数据;
S2、对时间序列的电力数据进行预处理,获得预处理后的电力数据;
S3、采用主成分分析法PCA对预处理后的电力数据进行降维,获得降维后的数据,将得到的降维后的数据分为训练集和测试集;
S4、构建长短期记忆神经网络预测模型LSTM,采用步骤S3得到的训练集由构建的长短期记忆神经网络预测模型LSTM获得预测值,与测试集的测试值进行对比后,对长短期记忆神经网络预测模型LSTM进行优化后,获得最终的长短期记忆神经网络预测模型LSTM;
S5、通过步骤S4得到的最终的长短期记忆神经网络预测模型LSTM进行预测。
2.如权利要求1所述的基于PCA-LSTM的电力数据异常检测与预测方法,其特征在于:步骤S1中,获得m行n列的原始用电采集数据,进行数据排序,得到时间序列的电力数据,具体为,
S11、读取电表ID以及设定日期范围内的对应的日冻结示值,作为m行n列的原始用电采集数据;
S12、将得到的m行n列的原始用电采集数据,按电表ID排序,每个电表ID的数据按日期排序,得到时间序列的电力数据。
3.如权利要求1所述的基于PCA-LSTM的电力数据异常检测与预测方法,其特征在于:步骤S2中,对时间序列的电力数据进行预处理,获得预处理后的电力数据,具体为,
S21、对时间序列的电力数据,进行异常数据检测与去除处理,获得去除异常后的电力数据,其中,异常数据包括异常数据包括缺失值、重复值、异常下降值和异常上升值;
S22、对去除异常后的电力数据进行归一化处理后,获得预处理后的电力数据。
4.如权利要求3所述的基于PCA-LSTM的电力数据异常检测与预测方法,其特征在于:步骤S21中,对时间序列的电力数据,进行异常数据检测与去除处理,具体为,
S211、对时间序列的电力数据进行缺失值检测,在检测到缺失值时,删除缺失值所在的行;
S212、按日期顺序读取表格数据,在同一日期出现两条重复记录时,删除其中一条数据;
S213、使用箱型图法对数据中存在的离群点进行判断,并去除离群值所在的行后,对数据进行异常下降判断,并剔除异常下降点;
S214、采用三倍标准差法进行异常上升的数据检测,并删除异常上升的数据。
5.如权利要求4所述的基于PCA-LSTM的电力数据异常检测与预测方法,其特征在于:步骤S213中,使用箱型图法对数据中存在的离群点进行判断,具体为,
S2131、箱型图划定的正确数据区域为上、下界内的区间,关键数据为下四分位数Q1、上四分位数Q3和四分位差IQR;
S2132、假设样本数据个数为n,则下四分位数Q1=(n+1)/4,上四分位数Q3=3*(n+1)/4,四分位差IQR=Q3-Q1;
S2133、包含正确数据的区间为(Q1-1.5*IQR,Q3+1.5*IQR),在此区间外的数据为离群点并视为异常点。
6.如权利要求4所述的基于PCA-LSTM的电力数据异常检测与预测方法,其特征在于:步骤S214中,采用三倍标准差法进行异常上升的数据检测,具体为,
S2141、计算用户在设定时间跨度内的电表数据平均值mean与标准差std;
S2142、设定时间跨度内的当日电表读数为xi,由于电表示值的下限保证xi+1>xi,其中,i>0,因此只需判断电表示值的上限是否符合要求即可;若当日电表读数xi>mean+3std,则将当日电表读数xi视为异常上升数据,否则视为正常数据。
7.如权利要求1-6任一项所述的基于PCA-LSTM的电力数据异常检测与预测方法,其特征在于:步骤S3中,采用主成分分析法PCA对预处理后的电力数据进行降维,获得降维后的数据,具体为,
S31、预处理后的电力数据为m`行n`列数据,组成数据集矩阵Xm`×n`,求得数据集矩阵Xm`×n`的协方差矩阵Cov(X);
S32、求协方差矩阵Cov(X)的特征值及其对应的特征向量;
S33、选择最大的k个特征值所对应的特征向量,组成矩阵P,则降维后的数据集矩阵Y=PXm`×n`。
8.如权利要求1-6任一项所述的基于PCA-LSTM的电力数据异常检测与预测方法,其特征在于:步骤S4中,构建长短期记忆神经网络预测模型LSTM,具体为,长短期记忆神经网络预测模型LSTM包括长短期记忆层即LSTM层、第一随机失活层、第一全连接层、第二随机失活层和第二全连接层,
LSTM层:包含4个记忆单元,每个记忆单元进行信息的迭代更新,并输出每个记忆单元更新后的信息;
第一随机失活层:即dropout层,用于减少中间特征数量,LSTM层通过的第一随机失活层连接第一全连接层;
第一全连接层:设置节点数为5,每个节点都与LSTM层经过dropout层之后的所有输出节点相连,进行矩阵向量相乘,以最大限度保证原始信息的完整性;
第二随机失活层:用于防止过拟合,第一全连接层的节点经过第二随机失活层的信息随机失活后与第二全连接层的节点相连:
第二全连接层:设置节点数为1,与第一全连接层的5个节点相连,延展成一维向量,使长短期记忆神经网络预测模型LSTM的输出结果的维度为1。
9.一种采用权利要求1-8任一项基于PCA-LSTM的电力数据异常检测与预测方法的系统,其特征在于:包括数据采集模块、数据预处理模块、数据降维模块和预测模块,
数据采集模块:获得m行n列的原始用电采集数据,进行数据排序,得到时间序列的电力数据;
数据预处理模块:对时间序列的电力数据进行预处理,获得预处理后的电力数据;
数据降维模块:采用主成分分析法PCA对预处理后的电力数据进行降维,获得降维后的数据,将得到的降维后的数据分为训练集和测试集;
预测模块:构建长短期记忆神经网络预测模型LSTM,采用训练集由构建的长短期记忆神经网络预测模型LSTM获得预测值,与测试集的测试值进行对比后,对长短期记忆神经网络预测模型LSTM进行优化后,获得最终的长短期记忆神经网络预测模型LSTM;通过最终的长短期记忆神经网络预测模型LSTM进行预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211560224.9A CN116245212A (zh) | 2022-12-06 | 2022-12-06 | 基于pca-lstm的电力数据异常检测与预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211560224.9A CN116245212A (zh) | 2022-12-06 | 2022-12-06 | 基于pca-lstm的电力数据异常检测与预测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116245212A true CN116245212A (zh) | 2023-06-09 |
Family
ID=86630246
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211560224.9A Pending CN116245212A (zh) | 2022-12-06 | 2022-12-06 | 基于pca-lstm的电力数据异常检测与预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116245212A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117079736A (zh) * | 2023-10-17 | 2023-11-17 | 河北金锁安防工程股份有限公司 | 一种用于智能气体传感的气体浓度预测方法及系统 |
-
2022
- 2022-12-06 CN CN202211560224.9A patent/CN116245212A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117079736A (zh) * | 2023-10-17 | 2023-11-17 | 河北金锁安防工程股份有限公司 | 一种用于智能气体传感的气体浓度预测方法及系统 |
CN117079736B (zh) * | 2023-10-17 | 2024-02-06 | 河北金锁安防工程股份有限公司 | 一种用于智能气体传感的气体浓度预测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7240691B1 (ja) | データドライブの能動配電網異常状態検知方法及びシステム | |
CN112508275B (zh) | 一种基于聚类和趋势指标的配电网线路负荷预测方法和设备 | |
CN105071983B (zh) | 一种面向云计算在线业务的异常负载检测方法 | |
CN106845717B (zh) | 一种基于多模型融合策略的能源效率评价方法 | |
CN113156917B (zh) | 基于人工智能的电网设备故障诊断方法及系统 | |
CN110837866A (zh) | 基于XGBoost的电力二次设备缺陷程度评估方法 | |
CN113723010B (zh) | 一种基于lstm温度-位移相关模型的桥梁损伤预警方法 | |
CN113193551A (zh) | 基于多因素和改进特征筛选策略的短期电力负荷预测方法 | |
CN116245212A (zh) | 基于pca-lstm的电力数据异常检测与预测方法及系统 | |
CN111027841A (zh) | 一种基于梯度提升决策树的低压台区线损计算方法 | |
CN110956281A (zh) | 一种基于Log分析的电力设备异常检测报警系统 | |
CN110781206A (zh) | 一种学习拆回表故障特征规则预测在运电能表是否故障的方法 | |
CN112559741B (zh) | 核电设备缺陷记录文本分类方法、系统、介质及电子设备 | |
CN117458440A (zh) | 基于关联特征融合的生成式电力负荷预测方法及系统 | |
CN115965160B (zh) | 一种数据中心能耗预测方法、装置、存储介质及电子设备 | |
CN115035966B (zh) | 基于主动学习和符号回归的超导体筛选方法、装置及设备 | |
CN116149895A (zh) | 大数据集群性能预测方法、装置和计算机设备 | |
CN116167004A (zh) | 电力数据的无监督最优异常检测模型选择方法及系统 | |
CN115616408A (zh) | 电池热管理数据处理方法及系统 | |
Khalyasmaa et al. | Fuzzy inference algorithms for power equipment state assessment | |
Dai et al. | Life prediction method of hydrogen energy battery based on MLP and LOESS | |
CN112685933B (zh) | 一种滚轮丝杠副剩余使用寿命预测方法 | |
Xie et al. | PCA-LSTM Anomaly Detection and Prediction Method Based on Time Series Power Data | |
Dong et al. | Log fusion technology of power information system based on fuzzy reasoning | |
Xingjia et al. | Hadoop Based Data Mining and Short-Term Power Load Forecasting |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |