CN111079989A - 一种基于dwt-pca-lstm的供水公司供水量预测装置 - Google Patents
一种基于dwt-pca-lstm的供水公司供水量预测装置 Download PDFInfo
- Publication number
- CN111079989A CN111079989A CN201911201430.9A CN201911201430A CN111079989A CN 111079989 A CN111079989 A CN 111079989A CN 201911201430 A CN201911201430 A CN 201911201430A CN 111079989 A CN111079989 A CN 111079989A
- Authority
- CN
- China
- Prior art keywords
- water supply
- data
- prediction
- sequence
- lstm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 title claims abstract description 157
- 230000009467 reduction Effects 0.000 claims abstract description 42
- 230000002159 abnormal effect Effects 0.000 claims abstract description 34
- 238000000034 method Methods 0.000 claims abstract description 27
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 238000003062 neural network model Methods 0.000 claims abstract description 12
- 238000010219 correlation analysis Methods 0.000 claims abstract description 3
- 239000011159 matrix material Substances 0.000 claims description 33
- 230000000694 effects Effects 0.000 claims description 18
- 238000013528 artificial neural network Methods 0.000 claims description 17
- 238000000354 decomposition reaction Methods 0.000 claims description 14
- 238000005457 optimization Methods 0.000 claims description 9
- 238000000513 principal component analysis Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 6
- 230000003044 adaptive effect Effects 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims 1
- 238000011946 reduction process Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 18
- 238000013135 deep learning Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 15
- 230000004913 activation Effects 0.000 description 3
- YHXISWVBGDMDLQ-UHFFFAOYSA-N moclobemide Chemical compound C1=CC(Cl)=CC=C1C(=O)NCCN1CCOCC1 YHXISWVBGDMDLQ-UHFFFAOYSA-N 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000004134 energy conservation Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000001932 seasonal effect Effects 0.000 description 1
- 238000004659 sterilization and disinfection Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- General Business, Economics & Management (AREA)
- Molecular Biology (AREA)
- Water Supply & Treatment (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于DWT‑PCA‑LSTM的供水公司供水量预测装置,包括:数据采集模块,用于通过采集城市中供水公司的日供水量数据,日供水量对应的气象数据以及节假日、工作日情况,生成日需水量数据的时间序列;数据预处理模块,用于进行日供水量数据时间序列的异常值去除和日供水量数据时间序列的降噪处理;预测变量确定模块,用于对数据预处理模块得到的日需水量数据的时间序列进行相关性分析,根据异常值去除后的时间序列和降噪序列计算残差序列,初步确定输入预测模型中的预测变量;数据预测模块,用于通过建立LSTM神经网络模型完成对未来供水量的预测。本发明通过深度学习方法来实现供水公司日供水量预测,能为供水公司提供供水调整依据。
Description
技术领域
本发明涉及城市供水监测技术,尤其涉及一种基于DWT-PCA-LSTM的供水公司供水量预测装置。
背景技术
精确的城市需水量预测在构建城市智能供水系统中起着关键作用,高效可靠的智能供水系统能有效促进智慧城市的建设。对供水公司而言,有关供水方案、绿色节能以及水资源优化利用等决策活动都取决于需水量的预测。与此同时,精确的需水量预测结果也有助于供水质量的提升,可最大程度的减少水在管道中的存留时间,提高居民生活用水质量。
城市需水量数据具有较强的非线性和随机性,传统基于数学理论的线性预测方法,如ARIMA模型、MLR模型均无法较好的对历史数据中非线性部分进行学习,而实际工程中随机性事件的突发会使得数据源具有较强的非线性和随机性。
为了提高模型对数据中复杂成分的学习,一些非线性方法如支持向量机(SVM)、多重随机森林回归模型(MRFR)和人工神经网络(ANN)被广泛用于时间序列的预测,其中ANN模型随着近年来深度学习的崛起得到广泛应用。ANN模型属于一种基于数据驱动和非参数类型的方法,它能够通过自学习不断逼近输入历史数据中的非线性成分,然而ANN网络对于全局搜索能力较弱,在训练过程中容易陷入局部最优值。
为了提高模型的全局优化能力,一种改进后的深度学习网络,即循环神经网络(RNN)被用于解决ANN模型中全局搜索能力较弱的问题。RNN神经网络的输入不仅包括当前时刻的数据输入还包括上一时刻或下一时刻隐藏层的输出,具有较强的全局优化能力。然而由于训练过程中易出现梯度爆炸或梯度消失,使得RNN模型不具备长期依赖的能力,容易丢失序列中关键性的信息。
以上这些方法在一定程度上解决了时间序列的预测问题,但城市需水量历史数据具有较强的随机性波动且受季节因素的影响,具有一定程度的周期性,因此以上模型的预测效果仍然难以令人满意。
发明内容
本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种基于DWT-PCA-LSTM的供水公司供水量预测装置。
本发明解决其技术问题所采用的技术方案是:一种基于DWT-PCA-LSTM的供水公司供水量预测装置,包括:
数据采集模块,用于通过采集城市中供水公司的日供水量数据,日供水量对应的气象数据以及节假日、工作日情况,生成日需水量数据的时间序列;所述气象数据包括:天气数据、当日的最高温度和最低温度;
数据预处理模块,用于进行日供水量数据时间序列的异常值去除和日供水量数据时间序列的降噪处理,获得异常值去除后的时间序列和降噪序列;
预测变量确定模块,用于对数据预处理模块得到的日需水量数据的时间序列进行相关性分析,根据异常值去除后的时间序列和降噪序列计算残差序列,初步确定输入预测模型中的预测变量;
数据预测模块,用于通过建立LSTM神经网络模型完成对未来供水量的预测。
按上述方案,所述数据采集模块中日供水量数据至少包括365个日供水量数据。
按上述方案,所述数据预处理模块中,日供水量数据时间序列的异常值去除,具体如下:利用拉依达准则确定历史需水数据中的异常值,假设异常值在第t日出现,对第t-2,t-1,t+1,t+2日的需水量数据进行加权平均,用加权平均值替换第t天的异常值,得到异常值处理后序列{X1,X2,X3,……,Xt},表达如下:
Xt=θ1Wt-2+θ2Wt-1+θ3Wt+1+θ4Wt+2
式中,Xt为取代第t天异常值的供水量数据,θi为日供水量数据对应的预设权重值,i=1,2,…,4。
按上述方案,所述数据预处理模块中,日供水量数据时间序列的降噪处理,具体如下:
对数据预处理模块中得到的时间序列{X1,X2,X3,……Xt}进行一维离散小波变换DWT得到降噪后的序列{Xdwt1,Xdwt2,Xdwt3,……,Xdwtt}。
按上述方案,所述降噪处理中一维离散小波变换的小波基以及小波分解尺度通过均方根误差RMSE和信噪比增益SNR评价指标确定,RMSE值越低、SNR值越高则代表小波变换效果越好,根据该判断标准选择指标值最优的小波基和分解长度对序列{X1,X2,X3,……,Xt}进行降噪处理,得到降噪后序列{Xdwt1,Xdwt2,Xdwt3,……,Xdwtt}。
按上述方案,所述预测变量确定模块中根据异常值去除后的时间序列和降噪序列计算残差序列为用异常值去除后的时间序列{X1,X2,X3,……,Xt}减去降噪序列{Xdwt1,Xdwt2,Xdwt3,……,Xdwtt},得到残差序列{Xdiff1,Xdiff2,Xdiff3,……,Xdifft}。
按上述方案,所述所述预测变量确定模块中确定的预测变量包括可变预测变量和固定预测变量,作为数据预测模块中LSTM神经网络模型的输入;所述固定预测变量包括日需水量对应的天气数据、当日的最高温度和最低温度以及节假日、工作日情况;
对天气数据、最高温度、最低温度以及节假日、工作日输入变量进行主成分分析,具体步骤为:
1)将上述变量合并成一个m行n列的原始矩阵R,并求取矩阵R的转置矩阵X;其中,m表示样本数,n=5;
2)将矩阵X的每一行(代表一个维度的数据)进行零均值化,即减去该行数据的均值;
3)对矩阵X求取协方差矩阵C;
4)求取协方差矩阵的特征值及对应特征向量;
5)将特征值从大到小排序,并将特征向量按照特征值大小按行排列成矩阵;运用累计贡献率法选出贡献率大于等于85%的前k个特征值对应的特征向量作为新载荷矩阵P;
6)Y=(PX)T即为降维后得到的k维数据。
主成分分析得到的输入变量{X,Y1,Y2,…,Yr}中r<5,Yr代表降维后第r个输入变量,其中在基于降噪序列的LSTM预测模型中X表示降噪序列{Xdwt1,Xdwt2,Xdwt3,……,Xdwtt},在基于残差序列的LSTM预测模型中X表示残差序列{Xdiff1,Xdiff2,Xdiff3,……,Xdifft}。
按上述方案,所述天气数据在主成分分析前为由非数值变量转换为标签化数值的数值数据。
按上述方案,所述数据预测模块中建立LSTM神经网络模型的具体过程如下:
确定LSTM神经网络的内部结构:将均方根误差RMSE以及解释方差分EVS作为评价模型预测效果的指标,通过建立对比试验来确定预测模型的隐藏层层数以及隐藏层节点数;
模型参数设置:为了得到最优的预测模型需设置合适的损失函数来衡量每次迭代过程中模型的预测值与实际值之间的差距程度,并设置对应的优化算法来优化该损失函数,经过多次迭代从而得到最优的预测模型。
按上述方案,所述数据预测模块中LSTM神经网络模型的损失函数参数设置如下:LSTM神经网络采用mean_absolute_error损失函数,并通过adaptive moment estimation优化算法对损失函数进行优化;模型训练时迭代次数设为100次。
按上述方案,所述数据预测模块中对未来供水量的预测是根据得到的LSTM预测模型分别建立基于降噪序列的LSTM预测模型以及基于残差序列的降噪模型,并分别对降噪后序列{Xdwt1,Xdwt2,Xdwt3,……,Xdwtt}以及残差序列{Xdiff1,Xdiff2,Xdiff3,……,Xdifft}作出预测,将基于不同序列的预测结果相加得到供水公司日供水量预测数据。
本发明产生的有益效果是:
1、本发明通过使用深度学习方法来实现供水公司日供水量预测,较传统预测装置,本发明对数据特征的学习更充分,对数据中存在的异常波动适应性更好。
2、本发明通过运用主成分分析(PCA)、离散小波变换(DWT)与长短期记忆神经网络(LSTM)相结合的方法高效准确预测供水公司日供水量数据。
3、本发明可预测供水公司未来n天的日供水量数据,供水公司可参考模型预测值来制定供水方案。
4、本发明所提出的基于DWT-PCA-LSTM的供水量预测装置对时间序列的预测效果显著,可用于其他领域时间序列的预测。在用于其他时间序列的预测时需保证所采集的历史数据至少含有365个样本数据。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例的结构示意图;
图2是本发明实施例所采集供水公司原始日供水量时间序列;
图3是本发明实施例所采集日供水量数据异常值处理后时间序列;
图4是本发明实施例降噪处理后时间序列;
图5是本发明实施例残差处理后时间序列;
图6是本发明实施例基于降噪序列LSTM模型的预测序列;
图7是本发明实施例基于残差序列LSTM模型的预测序列;
图8是本发明实施例对供水公司未来100天日供水量的预测序列;
图9是本发明实施例基于不同算法对历史数据最后100天日供水量预测结果对比图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,为根据本发明实施例基于DWT-PCA-LSTM的城市供水量预测装置的数据处理流程示意图,包括以下步骤:
数据采集模块,本实施例通过传感器采集供水公司的历史日供水量数据,得到关于日供水量的时间序列{W1,W2,…,Wt}。并搜集历史供水量当天的天气数据、最高温度、最低温度以及节假日(假期用1表示,工作日用0表示)、工作日(星期数)情况。
如图2所示,为本发明实施例所采集的供水公司历史日供水量时间序列{W1,W2,…,Wt}。
数据预处理模块,用于对日供水量时间序列{W1,W2,…,Wt}进行异常值处理和离散小波降噪处理;对所搜集的天气数据进行数值标签化处理。
异常值识别与处理。计算出历史供水量原始时间序列的平均值μ以及标准方差σ,利用拉依达准则确定原始序列中的异常值。在数据等精度重复测量基础上拉依达准则认为数值分布在(μ-3σ,μ+3σ)中的概率为0.9974,超出这个范围的可能性不到0.003,因此本发明将不在该范围内的历史供水量视为异常值。按上述方案确定历史序列中的异常值。假设异常值在第t日出现,对第t-2,t-1,t+1,t+2日的供水量数据进行加权平均,用加权平均值替换第t天的异常值,表达如下:
Xt=θ1Wt-2+θ2Wt-1+θ3Wt+1+θ4Wt+2
式中,Xt为取代第t天异常值的供水量数据,θi为各日供水量数据对应的预设权重值(i=1,2,…,4),本发明实施例中θ1=0.2,θ2=0.3,θ3=0.3,θ4=0.2。最终得到异常值处理后序列{X1,X2,X3,……,Xt}。
如图3所示,为本发明实施例所采集供水公司日供水量数据异常值处理后的时间序列{X1,X2,X3,……,Xt}。
离散小波降噪处理。本实施例在完成对异常值处理后,对日供水量时间序列数据进行离散小波降噪处理,具体操作如下:
加载日供水量时间序列{X1,X2,X3,……,Xt},命名为sig。本实施例通过对比不同小波基以及分解长度情况下的降噪指标(RMSE、SNR)来确定最优的降噪方案,即降噪效果最佳的小波基和分解长度的组合。
数据预处理模块中,本发明利用RMSE(均方根误差)和SNR(信噪比增益)评价指标来衡量在不同小波基以及分解长度情况下小波变换的去噪效果,确定最优小波基以及分解长度。其中RMSE值越低、SNR值越高则代表小波变换效果越好。均方根误差RMSE计算公式如下:
式中Xt表示序列{X1,X2,X3,……,Xt}中第t天的供水量数值,Xdwtt表示序列{Xdwt1,Xdwt2,Xdwt3,……,Xdwtt}中第t天的供水量数值。
信噪比SNR计算公式如下:
式中:
式中Xt表示序列{X1,X2,X3,……,Xt}中第t天的供水量数值,Xdwtt表示序列{Xdwt1,Xdwt2,Xdwt3,……,Xdwtt}中第t天的供水量数值。
本实施例在‘db’类小波基中进行择优,由于大多数情况下当分解长度大于3后降噪效果提升非常缓慢,因此本实施例最大分解长度设为3。如表1所示,为基于不同小波基及分解长度的降噪指标数值。
表1基于不同小波基及分解长度的降噪指标数值
在其他条件相同情况下,RMSE值越小、SNR值越大代表降噪效果越好。由表1可知当采用‘db1’作为小波基且分解长度为1时降噪效果最优,因此本实施例采用该组合方案对加载序列sig进行降噪处理。
运用Wavedec(sig,1,db1)命令对加载后序列进行分解,得到序列的分解单元系数C以及系数单元长度L(其中C、L均为矢量);本发明专利采用阈值法去除噪声,利用ddencmp(‘den’,‘wv’,sig)命令计算默认的阈值参数thr、sorh以及keepapp(thr为阈值,sorh表示软阈值处理,keepapp表示保持分解得到的近似系数);用wdencmp(‘gb1’,C,L,‘db1’,1,thr,sorh,keepapp)命令对分解后得到的矢量C和L执行实际的去噪过程,最终得到降噪处理后的时间序列{Xdwt1,Xdwt2,Xdwt3,……Xdwtt},如图4所示。为了提高峰值预测效果,将得到的降噪时间序列{Xdwt1,Xdwt2,Xdwt3,……Xdwtt}与序列{X1,X2,X3,……Xt}做差值计算,得到残差时间序列{Xdiff1,Xdiff2,Xdiff3,……Xdifft},如图5所示。
确定预测模型的输入变量。为降低预测模型训练的复杂度,本发明实施例运用主成分分析法(PCA)对所收集的天气数据、最高温度、最低温度以及节假日、工作日数据进行降维处理。具体步骤为:
1)将上述变量合并成一个m行(m表示样本数)n列(n=5)的原始矩阵R,并求取矩阵R的转置矩阵X;
2)将矩阵X的每一行(代表一个维度的数据)进行零均值化,即减去该行数据的均值;
3)对矩阵X求取协方差矩阵C;
4)求取协方差矩阵的特征值及对应特征向量;
5)将特征值从大到小排序,并将特征向量按照特征值大小按行排列成矩阵。如表2所示为协方差矩阵C对应的特征值,表3为按行排列后不同特征值对应的特征向量。
表2协方差矩阵C对应特征值
表3协方差矩阵C不同特征值对应特征向量。
6)运用累计贡献率法选出贡献率大于等于85%的前k个特征值对应的特征向量作为新载荷矩阵P;累计贡献率计算公式为:
式中λi为协方差矩阵C的第i个特征值,k为满足该公式的最少特征值个数,n为协方差矩阵C的特征值总个数,S为特征值的累计贡献率。本发明实施例中,k值为2,n值为5,新载荷矩阵P=[V1,V2]T。
7)Y=(PX)T即为降维后得到的2维预测变量[Y1,Y2]。
经降维处理,本发明实施例中基于降噪序列的LSTM预测模型的预测变量为{Xdwtt,Y1,Y2},其中Xdwtt代表降噪序列{Xdwt1,Xdwt2,Xdwt3,……,Xdwtt};基于残差序列的LSTM预测模型的预测变量为{Xddiff,Y1,Y2},其中Xddiff代表残差序列{Xdiff1,Xdiff2,Xdiff3,……,Xdifft}。
确定LSTM神经网络结构。本实施例通过对比不同隐藏层数以及隐藏层节点数情况下对应的RMSE、EVS值来确定LSTM预测模型的结构。RMSE值越小表示模型预测误差越小,EVS值越接近1表示模型预测值的波动越符合实际波动效果。由前述内容可知基于降噪序列的LSTM模型与基于残差序列的LSTM模型具有相同的结构。
确定隐藏层层数。为防止训练结果出现过拟合情况,本实施例设置的最大LSTM隐藏层层数为3。其他参数设置具体为:输入层节点数为3,隐藏层节点数为50,隐藏层激活函数为‘tanh’,LSTM神经网络模型的损失函数为‘mean_absolute_error’,采用‘adaptivemoment estimation’优化算法对损失函数进行优化,模型的迭代次数为100次。如表4所示为不同隐藏层层数情况下基于DWT-PCA-LSTM预测模型的预测指标值。
表4不同隐藏层层数模型的预测指标数值。
由表4可知,当LSTM隐藏层层数为2时,模型的RMSE值最低为0.0198,且EVS值为0.4605略低于LSTM隐藏层层数为3时的EVS值。考虑到隐藏层层数越多模型的训练时间越长,因此为了提高模型预测效率,将LSTM隐藏层层数为2时视为最佳情况。
确定隐藏层节点数。由上述对比实验知,其他条件不变时当隐藏层层数为2时模型具有最优的预测效果。为了进一步寻找模型的最优结构,本实施例在相同条件下对拥有不同隐藏层节点数的DWT-PCA-LSTM预测模型进行了实验。其他结构及参数设置为:隐藏层层数为2,输入层节点数为3,隐藏层激活函数为‘tanh’,LSTM神经网络模型的损失函数为‘mean_absolute_error’,采用‘adaptive moment estimation’优化算法对损失函数进行优化,模型的迭代次数为100次。如表5所示,为不同隐藏层节点时基于DWT-PCA-LSTM预测模型的预测指标。
表5不同隐藏层节点模型的预测指标值。
由表5可知,当隐藏层节点数为200时,预测模型的RMSE值最低但对应EVS值较低,且随着隐藏层节点数的增加模型的训练时间也随之增加。因此综合考虑RMSE、EVS的评价规则以及模型的预测效率,本实施例将隐藏层节点数为50时视为最佳情况,此时RMSE值为0.0198,EVS值为0.4605。
LSTM隐藏层与输出层之间为全连接层,且输出节点数为1。
数据预测模块。综上所述,本实施例确定的最优预测模型的结构参数如下:预测模型输入层节点数为6,LSTM隐藏层层数为2,隐藏层节点数为50,隐藏层激活函数为‘tanh’,输出层节点数为1。预测模型的损失函数为‘mean_absolute_error’,损失函数的优化函数为‘adaptive moment estimation’,模型的迭代次数为100次。
应用上述最优预测模型建立基于降噪序列{Xdwt1,Xdwt2,Xdwt3,……Xdwtt}的LSTM预测模型以及基于残差序列{Xdiff1,Xdiff2,Xdiff3,……,Xdifft}的LSTM预测模型,
数据预测模块中LSTM神经网络模型的输入为{X,Y1,Y2,…,Yr}(其中r<5;在基于降噪序列的LSTM预测模型中X表示降噪序列{Xdwt1,Xdwt2,Xdwt3,……,Xdwtt},在基于残差序列的LSTM预测模型中X表示残差序列{Xdiff1,Xdiff2,Xdiff3,……,Xdifft};Yr代表降维后第r个输入变量),
分别得到基于降噪序列的预测序列{fdwt1,fdwt2,…,fdwt100},如图6所示,以及基于残差序列的预测序列{fdiff1,fdiff2,…,fdiff100},如图7所示。将图6、7中的预测序列相加得到供水公司历史供水量序列最后100天的供水量预测数据,经计算,本次预测结果中均方根误差(RMSE)为0.0198,解释方差分(EVS)为0.4605。
如图8所示,为运用最佳DWT-PCA-LSTM预测模型对日供水量序列{X1,X2,X3,……Xt}中最后100天的预测值与实际值的对比。
最后本发明实施例将基于DWT-PCA-LSTM的预测装置与应用较为广泛的其它预测方法进行对比。本发明实施例采用的对比算法为ARIMA模型和BP神经网络(BPNN)模型。通过对比不同模型的预测精度来突出基于DWT-PCA-LSTM神经网络预测装置在供水公司日供水量预测方面的实用性。评价指标为均方根误差(RMSE)以及解释分方差(EVS)。如图9所示,为不同模型预测效果对比图。如表6所示,为不同模型的预测指标值。
表6基于不同预测模型的预测指标值
由图9及表6知,基于DWT-PCA-LSTM的预测装置的预测效果要明显优于ARIMA和BPNN模型。
本发明中基于DWT-PCA-LSTM的预测装置在预测供水公司未来日供水量方面有较高的精度,相比于传统的预测方法有显著改善。供水公司可根据本发明装置对公司未来日供水量做出预测,来作为现有预测方法的补充,并根据这些预测值制定相应的供水方案。
在现有预测方法的基础上,结合本发明的预测结果,供水公司可以制定最优的开泵方案以及消毒策略,减少能耗,最大限度降低水处理成本,及时调控可用水资源的库存,避免由于库存不足影响供水质量。
根据本发明的预测结果,供水公司因供水能力不足需要停水时,可以根据预测结果,确定需停水的最少用水单位集合,以最大限度降低停水造成的生产影响。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (10)
1.一种基于DWT-PCA-LSTM的供水公司供水量预测装置,其特征在于,包括:
数据采集模块,用于通过采集城市中供水公司的日供水量数据,日供水量对应的气象数据以及节假日、工作日情况,生成日需水量数据的时间序列;所述气象数据包括:天气数据、当日的最高温度和最低温度;
数据预处理模块,用于进行日供水量数据时间序列的异常值去除和日供水量数据时间序列的降噪处理,获得异常值去除后的时间序列和降噪序列;
预测变量确定模块,用于对数据预处理模块得到的日需水量数据的时间序列进行相关性分析,根据异常值去除后的时间序列和降噪序列计算残差序列,初步确定输入预测模型中的预测变量;
数据预测模块,用于通过建立LSTM神经网络模型完成对未来供水量的预测。
2.根据权利要求1所述的基于DWT-PCA-LSTM的供水公司供水量预测装置,其特征在于,所述数据采集模块中日供水量数据至少包括365个日供水量数据。
3.根据权利要求1所述的基于DWT-PCA-LSTM的供水公司供水量预测装置,其特征在于,所述数据预处理模块中,日供水量数据时间序列的异常值去除,具体如下:利用拉依达准则确定历史需水数据中的异常值,假设异常值在第t日出现,对第t-2,t-1,t+1,t+2日的需水量数据进行加权平均,用加权平均值替换第t天的异常值,得到异常值处理后序列{X1,X2,X3,……,Xt},表达如下:
Xt=θ1Wt-2+θ2Wt-1+θ3Wt+1+θ4Wt+2
式中,Xt为取代第t天异常值的供水量数据,θi为日供水量数据对应的预设权重值,i=1,2,…,4。
4.根据权利要求1所述的基于DWT-PCA-LSTM的供水公司供水量预测装置,其特征在于,所述数据预处理模块中,日供水量数据时间序列的降噪处理,具体如下:
对数据预处理模块中得到的时间序列{X1,X2,X3,……Xt}进行一维离散小波变换DWT得到降噪后的序列{Xdwt1,Xdwt2,Xdwt3,……,Xdwtt}。
5.根据权利要求4所述的基于DWT-PCA-LSTM的供水公司供水量预测装置,其特征在于,所述降噪处理中一维离散小波变换的小波基以及小波分解尺度通过均方根误差RMSE和信噪比增益SNR评价指标确定,RMSE值越低、SNR值越高则代表小波变换效果越好,根据该判断标准选择指标值最优的小波基和分解长度对序列{X1,X2,X3,……,Xt}进行降噪处理,得到降噪后序列{Xdwt1,Xdwt2,Xdwt3,……,Xdwtt}。
6.根据权利要求1所述的基于DWT-PCA-LSTM的供水公司供水量预测装置,其特征在于,所述预测变量确定模块中根据异常值去除后的时间序列和降噪序列计算残差序列为用异常值去除后的时间序列减去降噪处理后得到的降噪序列,得到残差序列。
7.根据权利要求1所述的基于DWT-PCA-LSTM的供水公司供水量预测装置,其特征在于,所述预测变量确定模块中确定的预测变量包括可变预测变量和固定预测变量,作为数据预测模块中LSTM神经网络模型的输入;所述固定预测变量包括日需水量对应的天气数据、当日的最高温度和最低温度以及节假日、工作日情况;
对天气数据、最高温度、最低温度以及节假日、工作日输入变量进行主成分分析,具体步骤为:
1)将上述变量合并成一个m行n列的原始矩阵R,并求取矩阵R的转置矩阵X;其中,m表示样本数,n=5;
2)将矩阵X的每一行进行零均值化,即减去该行数据的均值;
3)对矩阵X求取协方差矩阵C;
4)求取协方差矩阵的特征值及对应特征向量;
5)将特征值从大到小排序,并将特征向量按照特征值大小按行排列成矩阵;运用累计贡献率法选出贡献率大于等于85%的前k个特征值对应的特征向量作为新载荷矩阵P;
6)Y=(PX)T即为降维后得到的k维数据;
主成分分析得到的输入变量{X,Y1,Y2,…,Yr}中r<5,Yr代表降维后第r个输入变量,其中在基于降噪序列的LSTM预测模型中X表示降噪序列{Xdwt1,Xdwt2,Xdwt3,……,Xdwtt},在基于残差序列的LSTM预测模型中X表示残差序列{Xdiff1,Xdiff2,Xdiff3,……,Xdifft}。
8.根据权利要求1所述的基于DWT-PCA-LSTM的供水公司供水量预测装置,其特征在于,所述数据预测模块中建立LSTM神经网络模型的具体过程如下:
确定LSTM神经网络的内部结构:将均方根误差RMSE以及解释方差分EVS作为评价模型预测效果的指标,通过建立对比试验来确定预测模型的隐藏层层数以及隐藏层节点数;
模型参数设置:为了得到最优的预测模型需设置合适的损失函数来衡量每次迭代过程中模型的预测值与实际值之间的差距程度,并设置对应的优化算法来优化该损失函数,经过多次迭代从而得到最优的预测模型。
9.根据权利要求1所述的基于DWT-PCA-LSTM的供水公司供水量预测装置,其特征在于,所述数据预测模块中LSTM神经网络模型的损失函数参数设置如下:LSTM神经网络采用mean_absolute_error损失函数,并通过adaptive moment estimation优化算法对损失函数进行优化;模型训练时迭代次数设为100次。
10.根据权利要求1所述的基于DWT-PCA-LSTM的供水公司供水量预测装置,其特征在于,所述数据预测模块中对未来供水量的预测是根据得到的LSTM预测模型分别建立基于降噪序列的LSTM预测模型以及基于残差序列的降噪模型,并分别对降噪后序列{Xdwt1,Xdwt2,Xdwt3,……,Xdwtt}以及残差序列{Xdiff1,Xdiff2,Xdiff3,……,Xdifft}作出预测,将基于不同序列的预测结果相加得到供水公司日供水量预测数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911201430.9A CN111079989B (zh) | 2019-11-29 | 2019-11-29 | 一种基于dwt-pca-lstm的供水公司供水量预测装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911201430.9A CN111079989B (zh) | 2019-11-29 | 2019-11-29 | 一种基于dwt-pca-lstm的供水公司供水量预测装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111079989A true CN111079989A (zh) | 2020-04-28 |
CN111079989B CN111079989B (zh) | 2023-06-20 |
Family
ID=70312085
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911201430.9A Active CN111079989B (zh) | 2019-11-29 | 2019-11-29 | 一种基于dwt-pca-lstm的供水公司供水量预测装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111079989B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111626518A (zh) * | 2020-05-29 | 2020-09-04 | 上海交通大学 | 基于深度学习神经网络的城市天级需水量在线预测方法 |
CN111863153A (zh) * | 2020-07-24 | 2020-10-30 | 青岛洪锦智慧能源技术有限公司 | 一种基于数据挖掘的废水中悬浮固体总量的预测方法 |
CN112036668A (zh) * | 2020-09-30 | 2020-12-04 | 北京百度网讯科技有限公司 | 用水量预测方法、装置、电子设备以及计算机可读介质 |
CN112580260A (zh) * | 2020-12-22 | 2021-03-30 | 广州杰赛科技股份有限公司 | 管网水流量的预测方法、装置以及计算机可读存储介质 |
CN113128754A (zh) * | 2021-03-31 | 2021-07-16 | 西安理工大学 | 一种基于gru神经网络的居民用水预测系统及预测方法 |
CN113592169A (zh) * | 2021-07-26 | 2021-11-02 | 清华大学 | 基于区域影响关系的节假日供需预测方法与装置 |
CN113887812A (zh) * | 2021-10-14 | 2022-01-04 | 广东电网有限责任公司 | 基于聚类的小样本负荷预测方法、装置、设备及存储介质 |
CN117648568A (zh) * | 2024-01-26 | 2024-03-05 | 成都市三宇仪表科技发展有限公司 | 基于物联网的水表计量大数据优化处理方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180336452A1 (en) * | 2017-05-22 | 2018-11-22 | Sap Se | Predicting wildfires on the basis of biophysical indicators and spatiotemporal properties using a long short term memory network |
CN108921279A (zh) * | 2018-03-26 | 2018-11-30 | 西安电子科技大学 | 水库日入水量预测方法 |
CN109142171A (zh) * | 2018-06-15 | 2019-01-04 | 上海师范大学 | 基于特征扩张的融合神经网络的城市pm10浓度预测方法 |
WO2019156070A1 (ja) * | 2018-02-09 | 2019-08-15 | 国立大学法人静岡大学 | 機械学習システム及び機械学習方法 |
-
2019
- 2019-11-29 CN CN201911201430.9A patent/CN111079989B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180336452A1 (en) * | 2017-05-22 | 2018-11-22 | Sap Se | Predicting wildfires on the basis of biophysical indicators and spatiotemporal properties using a long short term memory network |
WO2019156070A1 (ja) * | 2018-02-09 | 2019-08-15 | 国立大学法人静岡大学 | 機械学習システム及び機械学習方法 |
CN108921279A (zh) * | 2018-03-26 | 2018-11-30 | 西安电子科技大学 | 水库日入水量预测方法 |
CN109142171A (zh) * | 2018-06-15 | 2019-01-04 | 上海师范大学 | 基于特征扩张的融合神经网络的城市pm10浓度预测方法 |
Non-Patent Citations (1)
Title |
---|
邢立文;崔宁博;董娟;: "基于LSTM深度学习模型的华北地区参考作物蒸散量预测研究", 水利水电技术 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111626518A (zh) * | 2020-05-29 | 2020-09-04 | 上海交通大学 | 基于深度学习神经网络的城市天级需水量在线预测方法 |
CN111863153A (zh) * | 2020-07-24 | 2020-10-30 | 青岛洪锦智慧能源技术有限公司 | 一种基于数据挖掘的废水中悬浮固体总量的预测方法 |
CN112036668A (zh) * | 2020-09-30 | 2020-12-04 | 北京百度网讯科技有限公司 | 用水量预测方法、装置、电子设备以及计算机可读介质 |
CN112036668B (zh) * | 2020-09-30 | 2023-06-16 | 北京百度网讯科技有限公司 | 用水量预测方法、装置、电子设备以及计算机可读介质 |
CN112580260A (zh) * | 2020-12-22 | 2021-03-30 | 广州杰赛科技股份有限公司 | 管网水流量的预测方法、装置以及计算机可读存储介质 |
CN113128754A (zh) * | 2021-03-31 | 2021-07-16 | 西安理工大学 | 一种基于gru神经网络的居民用水预测系统及预测方法 |
CN113592169A (zh) * | 2021-07-26 | 2021-11-02 | 清华大学 | 基于区域影响关系的节假日供需预测方法与装置 |
CN113887812A (zh) * | 2021-10-14 | 2022-01-04 | 广东电网有限责任公司 | 基于聚类的小样本负荷预测方法、装置、设备及存储介质 |
CN113887812B (zh) * | 2021-10-14 | 2023-07-07 | 广东电网有限责任公司 | 基于聚类的小样本负荷预测方法、装置、设备及存储介质 |
CN117648568A (zh) * | 2024-01-26 | 2024-03-05 | 成都市三宇仪表科技发展有限公司 | 基于物联网的水表计量大数据优化处理方法及系统 |
CN117648568B (zh) * | 2024-01-26 | 2024-05-10 | 成都市三宇仪表科技发展有限公司 | 基于物联网的水表计量大数据优化处理方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111079989B (zh) | 2023-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111079989B (zh) | 一种基于dwt-pca-lstm的供水公司供水量预测装置 | |
CN113962364B (zh) | 一种基于深度学习的多因素用电负荷预测方法 | |
CN111860982B (zh) | 一种基于vmd-fcm-gru的风电场短期风电功率预测方法 | |
US11409347B2 (en) | Method, system and storage medium for predicting power load probability density based on deep learning | |
CN111967688B (zh) | 一种基于卡尔曼滤波器与卷积神经网络的电力负荷预测方法 | |
CN110163429B (zh) | 一种基于相似日优化筛选的短期负荷预测方法 | |
CN101383023B (zh) | 基于样本动态组织与温度补偿的神经网络短期电力负荷预测 | |
CN111027772B (zh) | 基于pca-dbilstm的多因素短期负荷预测方法 | |
CN112990556A (zh) | 一种基于Prophet-LSTM模型的用户用电能耗预测方法 | |
CN113554466B (zh) | 一种短期用电量预测模型构建方法、预测方法和装置 | |
CN110705743A (zh) | 一种基于长短期记忆神经网络的新能源消纳电量预测方法 | |
CN111027775A (zh) | 基于长短期记忆网络的梯级水电站发电量预测方法 | |
CN114119273B (zh) | 一种园区综合能源系统非侵入式负荷分解方法及系统 | |
CN114862032B (zh) | 一种基于XGBoost-LSTM的电网负荷预测方法及装置 | |
CN112396234A (zh) | 一种基于时域卷积神经网络的用户侧负荷概率预测方法 | |
CN114169416B (zh) | 一种基于迁移学习的小样本集下短期负荷预测方法 | |
CN114358389A (zh) | 结合vmd分解和时间卷积网络的短期电力负荷预测方法 | |
CN109934422A (zh) | 一种基于时间序列数据分析的神经网络风速预测方法 | |
CN115222106A (zh) | 一种自适应模型的用户日前负荷预测方法 | |
CN111680818B (zh) | 一种短期无功负荷预测方法和系统 | |
CN117114160A (zh) | 一种短期光伏功率预测方法 | |
CN116151464A (zh) | 一种光伏发电功率预测方法、系统及可存储介质 | |
CN111652422A (zh) | 基于建筑物分类的供热系统负荷预测方法、装置及系统 | |
CN117407681B (zh) | 一种基于向量聚类的时序数据预测模型建立方法 | |
CN113762591B (zh) | 一种基于gru和多核svm对抗学习的短期电量预测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |