CN114548592A - 一种基于cemd和lstm的非平稳时间序列数据预测方法 - Google Patents
一种基于cemd和lstm的非平稳时间序列数据预测方法 Download PDFInfo
- Publication number
- CN114548592A CN114548592A CN202210199667.3A CN202210199667A CN114548592A CN 114548592 A CN114548592 A CN 114548592A CN 202210199667 A CN202210199667 A CN 202210199667A CN 114548592 A CN114548592 A CN 114548592A
- Authority
- CN
- China
- Prior art keywords
- data
- lstm
- prediction
- neural network
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000012549 training Methods 0.000 claims abstract description 48
- 238000013528 artificial neural network Methods 0.000 claims abstract description 37
- 238000012360 testing method Methods 0.000 claims abstract description 35
- 230000006870 function Effects 0.000 claims abstract description 32
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 16
- 239000013598 vector Substances 0.000 claims abstract description 14
- 238000010248 power generation Methods 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000012937 correction Methods 0.000 claims description 5
- 230000002159 abnormal effect Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000009826 distribution Methods 0.000 claims description 2
- 230000001105 regulatory effect Effects 0.000 claims 1
- 238000003062 neural network model Methods 0.000 description 4
- 230000015654 memory Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 208000025174 PANDAS Diseases 0.000 description 1
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Human Resources & Organizations (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Strategic Management (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Operations Research (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Quality & Reliability (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Development Economics (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于时间序列预测领域,尤其涉及一种基于CEMD和LSTM的非平稳时间序列数据预测方法,包括通过历史数据构建训练集,通过实时数据构建测试集;使用经验模态分解将测试集和训练集中的目标序列分解为n个本征模态函数和1个残差序列;通过聚类算法对n个本征模态函数聚类为m组,形成m个子序列;利用训练集中子序列的特征向量对深度LSTM神经网络进行训练,获取完成训练的深度LSTM神经网络;将测试集中子序列输入完成训练的深度LSTM神经网络进行预测,得到非平稳时间序列预测结果;本发明结合了EMD和聚类算法对非平稳时间序列进行重构,使得预测模型的误差更小、训练时间更短。
Description
技术领域
本发明属于时间序列预测领域,尤其涉及一种基于聚类经验模态分解(Clustering Empirical Mode Decomposition,CEMD)和长短期记忆网络(Long Short-Term Memory,LSTM)的非平稳时间序列数据预测方法。
背景技术
时间序列数据是指同一种统计指标的数值按其发生时间先后排序而成的序列,用于描述现象随时间变化的情况,常见的时序数据包括股票价格、气温变化、工业传感器数据、服务器系统监控数据、车联网数据等。随着云计算技术和IoT的发展,时间序列数据的数据量急剧膨胀,高效地分析时间序列数据使、其产生业务价值成为一个热门的研究领域。然而由于时间序列数据可能受到某些客观因素的影响表现出非平稳性,比如光伏发电数据受气象因素的影响比较大,导致白天发电量非常大,而夜晚发电量几乎为0;网络流量数据可能因为大量用户同时访问导致某一时段的流量陡然增加。对于不平稳的时间序列数据单纯使用传统预测方法进行预测得到的结果非常不理想,目前使用比较多的非平稳数据预测方法主要就是对时间序列进行分解。下面将针对目前已有的非平稳时间序列数据预测方法进行描述。
申请号为202011605395.X的一种基于ARIMA-LSTM-DBN的光伏发电预测方法提出的ARIMA-LSTM-DBN光伏发电模型,没有针对时间序列数据的非平稳性进行处理,所以可能存在预测精度不足的问题;申请号为201910533501.9的一种短期光伏发电预测方法及系统以及《电力工程技术》第39卷,第2期论文基于EMD-LSTM的光伏发电预测模型都使用了信号分解的方法对非平稳的数据进行处理,但是都存在分解出来的子序列数量较多导致训练深度神经网络的时间较长的问题。同时EMD自身的特性会导致因为训练集和测试集数据的规模不同分解出来IMFs数量不同的问题(比如训练集分解出11个IMFs和一个res,然后训练了12个预测模型,但是测试集数据分解出来8个IMFs和一个res,就会造成预测模型和测试集序列数量不等的问题)。
发明内容
针对上述问题,本发明提出一种基于CEMD和LSTM的非平稳时间序列数据预测方法,包括获取目标数据的历史数据,对历史目标数据进行异常值处理,得到处理后的目标数据;目标数据为光伏发电量数据;根据处理后的历史目标数据预测得到用于光伏发电系统电力调配的目标光伏发电量数据的时序预测具体包括以下步骤:
S1、通过历史数据构建训练集,通过实时数据构建测试集;
S2、使用经验模态分解将测试集和训练集中的目标序列分解为n个本征模态函数和1个残差序列;
S3、通过聚类算法对n个本征模态函数聚类为m组,形成m个子序列;
S4、利用训练集中子序列的特征向量分别对深度LSTM神经网络和AR模型进行训练,获取完成训练的深度LSTM神经网络和AR模型;
S5、将测试集中子序列输入完成训练的深度LSTM神经网络和AR模型进行预测,得到非平稳时间序列预测结果;
S6、深度LSTM神经网络和AR模型得到预测结果输入卡尔曼滤波器进行矫正,得到最终预测结果。
进一步的,将训练集和测试集的m个子序列分别与目标序列具有高度相关性的特征向量进行拼接组合,将拼接后的子序列作为深度LSTM神经网络的输入。
进一步的,通过历史数据构建训练集或者通过实时数据构建测试集的过程包括对数据集进行预处理保证数据格式的一致性;预处理后进行标准化处理,即将数据按比例缩放,将数据转化为无量纲的纯数值。
进一步的,使用经验模态分解将目标序列分解为n个本征模态函数和1个残差序列的过程包括:
S21、从训练集或者测试集中分离出目标序列x(t),本发明中一个训练集或者一个待检测的数据集包含一个目标序列向量和若干个相关特征向量,可以采用pandas自带的iloc函数分离得到目标序列;
S22、初始化r0=x(t),i=1;
S23、计算第i个IMF,初始化h0=ri-1(t),j=1;
S24、找到hj-1(t)的局部极大值点和局部极小值点;
S25、对hj-1(t)的局部极大值点和局部极小值点分别进行三次样条函数插值,形成上、下包络线;
S26、计算上、下包络线的平均值mj-1(t);
S27、判断hj(t)=hj-1(t)–mj-1(t)是否为本征模态函数,如果是则imfi(t)=hj(t)且转到步骤S28;否则转到步骤S24;
S28、计算序列的剩余量ri(t)=ri-1(t)–imfi(t);
进一步的,通过k-Shape聚类算法对n个本征模态函数聚类为m组,形成m个子序列的过程包括:
S31、计算各个本征模态函数的动态时间归整值,将该值作为各个本征模态函数之间的相似度;
S32、将n个本征模态函数作为聚类样本,并从中随机选择m个样本作为初始簇心;
S33、将其他样本根据动态时间归整值分别分类到与其最相似的簇心所在的簇,将计算每个样本与其簇内其他样本的距离之和,将该距离之和最小的样本作为新的簇心,重复本步骤直到簇心不再发生变化;
S34、当簇心不再变化,判断是否每个样本的轮廓值是否超过设定的阈值,若超过则输出聚类结果,否则返回步骤S32。
进一步的,样本i的轮廓值表示为:
其中,s(i)为样本i的轮廓值;a(i)为样本i的簇内不相似度,其值为样本i到当前簇中其他样本的平均距离,本发明采用DTW距离;b(i)样本i的簇外不相似度,其值为样本i到当前簇外样本的平均距离。
进一步的,深度LSTM神经网络包括:
ft=σg(Wfxt+Ufht-1+bf);
it=σg(Wixt+Uiht-1+bi);
ot=σg(Woxt+Uoht-1+bo);
其中,ft,it和ot分别表示遗忘门、输入门、输出门;Wf,Uf,Wi,Ui,Wo,Uo,Wc和Uc是计算过程中的权值矩阵;bf,bi,bo和bc是偏执向量;xt是在t时刻的输入;ht-1是前一时刻LSTM的隐藏状态;σ()是sigmoid激活函数;表示矩阵乘法
进一步的,通过elbow方法确定m的值。
进一步的,深度LSTM神经网络和AR模型得到预测结果输入卡尔曼滤波器进行矫正,即计算深度LSTM神经网络的预测结果和AR模型的预测结果的预测偏差,根据该预测偏差获取卡尔曼增益,根据卡尔曼增益计算得到最终的预测结果,表示为:
进一步的,卡尔曼增益Hk表示为:
相较于已有的非平稳时间序列预测方法,本发明在数据处理阶段结合了EMD和聚类算法对非平稳时间序列进行重构,使得预测模型的误差更小、训练时间更短。就误差而言,采用了EMD的信号分解方法,把原本波动较大的、不平稳的光伏发电功率数据分解为瞬时频率较小的分量之后分别预测,然后再把预测结果线性相加,使得预测结果与真实值的误差降低。在模型的训练时间方面,本发明使用基于DTW的k-Shape聚类算法把EMD分解得到的分量数据根据波形相似度进一步分类,对于每一个子序列数据训练一个深度LSTM神经网络,大大减少了模型的个数,从而减少了大量模型训练的时间。
附图说明
图1为本发明一种基于CEMD和LSTM的非平稳时间序列数据预测方法流程图;
图2为本发明中CEMD-LSTM预测模型流程图;
图3为本发明中EMD算法流程图;
图4为本发明实施例中采用的k-Shape聚类算法流程图;
图5为本发明实施例中采用的LSTM神经网络模型。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出一种基于CEMD和LSTM的非平稳时间序列数据预测方法,包括获取目标数据的历史数据,对历史目标数据进行异常值处理,得到处理后的目标数据;目标数据为光伏发电量数据;将处理后的历史目标数据输入到训练好的CEMD-LSTM模型中,预测得到用于光伏发电系统电力调配的目标光伏发电量数据的时序预测,如图1,具体包括以下步骤:
S1、通过历史数据构建训练集,通过实时数据构建测试集;
S2、使用经验模态分解将测试集和训练集中的目标序列分解为n个本征模态函数和1个残差序列;
S3、通过聚类算法对n个本征模态函数聚类为m组,形成m个子序列;
S4、利用训练集中子序列的特征向量分别对深度LSTM神经网络和AR模型进行训练,获取完成训练的深度LSTM神经网络和AR模型;
S5、将测试集中子序列输入完成训练的深度LSTM神经网络和AR模型进行预测,得到非平稳时间序列预测结果;
S6、深度LSTM神经网络和AR模型得到预测结果输入卡尔曼滤波器进行矫正,得到最终预测结果;
其中,本发明中所述的测试集指对系统性能进行分析的测试数据,也指实际应用过程中的实时数据。
如图2,本实施例中将原始光伏发电量数据经过EMD分解得到17个IMF分量分别为IMF1~IMF17,将17个IMF分量通过基于DTW的聚类算法是指使用动态时间规整作为两个节点之间的距离对节点进行聚类,聚类算法可以选择现有技术中心的任意一种算法,本实施例中选择K-Shape聚类算法,本实施例中选择将17个IMF分量聚类为3个簇,得到3个子序列,每个子序列分别与其他气象特征进行拼接后形成子数据集,将子数据集分别输入深度LSTM神经网络进行预测,所有子数据集的预测结果之和作为深度LSTM神经网络的预测结果;同理,将子数据集输入AR模型进行预测,得到入AR模型的预测结果;深度LSTM神经网络和AR模型的结构可以采用现有技术中已有的结构,此处不再赘述深度LSTM神经网络和AR模型的预测过程;作为一种优选的实施方式,本发明处理光伏发电量数据时,将与其相关的特征进行拼接,如图2,在本实施例中将光伏发电量数据与其对应的其他气象特征进行拼接,其他气象特征包括温度、湿度、天气状况等因素,其他天气特征可以通过从当地气象局爬取。
首先,介绍该发明的大致流程,然后针对流程中比较重要的步骤进行详细介绍说明。图4是该发明的流程图,主要由以下几个步骤:
步骤S1:构建训练集和测试集;为了降低数据的采集频率,在采集训练数据和测试数据的过程中对数据进行降采样处理;
步骤S2:使用EMD将测试集和训练集中的目标序列分解为n个本征模态函数(IMFs)和1个残差(res)序列;
步骤S3:使用基于DTW的k-Shape聚类算法把步骤S2中得到的IMFs聚类为m组,并形成m个子序列(m通过elbow方法确定,为定值);
步骤S4:将m个子序列和与目标序列具有高度相关性的特征向量进行拼接组合,形成m个子训练集(或测试集),如果没有其他特征向量可以忽略此步;
步骤S5:分别利用训练集和测试集的特征向量对深度LSTM神经网络进行训练和测试,得到训练完成的深度LSTM神经网络;
步骤S6:将需要预测的目标序列重构为m组,并利用训练完成的深度LSTM神经网络对非平稳时间序列进行预测得到预测结果。
下面将针对上述总体流程中的各个步骤进行详细说明。步骤S1构建训练集和测试集,主要包括以下几个步骤:
步骤P1:数据预处理,主要针对数据集中的异常值和空缺值进行处理,保证数据格式的一致性;
步骤P2:标准化处理,按照公式(1)将数据按比例缩放,落入一个较小的特定区间,把数据转化为无量纲的纯数值。
步骤P3:数据划分,将数据按照训练集占70%、测试集占30%的比例进行划分得到训练集和测试集。
步骤S2使用EMD算法将测试集和训练集中的目标序列分解为n个本征模态函数(IMFs)和1个残差(res)序列,如图3,主要包括以下几个步骤:
步骤E1:从训练集(或者测试集)中分离出目标序列x(t);
步骤E2:初始化r0=x(t),i=1;
步骤E3:计算第i个IMF,初始化h0=ri-1(t),j=1;
步骤E4:找到hj-1(t)的局部极大值点和局部极小值点;
步骤E5:对hj-1(t)的局部极大值点和局部极小值点分别进行三次样条函数插值,形成上下包络线;
步骤E6:计算上下包络线线的平均值mj-1(t);
步骤E7:判断hj(t)=hj-1(t)–mj-1(t)是否为IMF,如果是则imfi(t)=hj(t)且转到步骤E8;否则转到步骤U4;
步骤E8:计算序列的剩余量ri(t)=ri-1(t)–imfi(t)
步骤S3使用基于DTW的k-Shape聚类算法把步骤S2中得到的IMFs聚类为m组,并形成m个子序列(m是定值,通过elbow方法确定),如图4,其中k-Shape算法的大致流程如下:
步骤K1:计算各个分量之间的DTW值来评估形状的相似度
步骤K2:计算样本i的簇内不相似度a(i)和样本i的簇间不相似度b(i)。其中a(i)是样本i到当前簇中其他样本的平均距离,a(i)越小则说明样本i更应该被聚类到该簇;b(i)是样本i到所有样本的平均距离,b(i)越大说明样本i和其他样本更远,即更应该被聚类到当前簇中。然后根据样本i的簇内不相似度a(i)和簇间不相似度b(i),定义计算样本i的轮廓系数公式如下:
步骤K3:随机选取m个初始簇心;
步骤K4:根据各个分量和簇心之间的距离,将各个分量分到每个簇中;
步骤K5:判断每个样本所属簇的情况是否发生变化,如果发生变化则重新计算每个簇的中心样本并回到步骤K4,否则继续步骤K6;
步骤K6:判断所有样本的轮廓值是否满足条件,如果满足则输出分组情况并结束,否则回到步骤K3循环执行直到轮廓值满足条件。
步骤S5中分别利用训练集和测试集对深度LSTM神经网络进行训练和测试,模型的训练参数设置可以根据实际情况自行调整,得到训练完成的深度LSTM神经网络。深度LSTM神经网络模型如图5所示。在某一时刻t,深度LSTM神经网络模型通过三个门:输入门it、输出门ot和遗忘门ft。接收当前时间序列数据以及其他特征的状态xt和上一时刻LSTM的隐藏状态ht-1这两个外部信息输入。此外,每一个门还接受一个内部信息输入,即记忆单元状态Ct-1。接收了外部以及内部输入信息后,每一个门通过对不同来源输入进行运算,并且由逻辑函数决定是否激活。输入门经过非线性函数σ的变化与遗忘门处理过的记忆单元状态进行叠加,形成新的记忆单元状态Ct。最终,记忆单元状态Ct经过非线性函数σ变化和遗忘门的动态控制形成LSTM神经网络模型的输出ht。
模型中的计算如公式(2)-(6)所示
ft=σg(Wfxt+Ufht-1+bf) (2)
it=σg(Wixt+Uiht-1+bi) (3)
ot=σg(Woxt+Uoht-1+bo) (4)
其中,ft、it和ot分别表示遗忘门、输入门、输出门;Wf、Uf、Wi、Ui、Wo、Uo、Wc和Uc是计算过程中的权值矩阵;bf、bi、bo和bc是偏执向量;xt是在t时刻的输入;ht-1是前一时刻LSTM的隐藏状态;σ()是sigmoid激活函数;是Hadamard production(一种矩阵乘法)。
以上是采用基于CEMD和LSTM的非平稳时间序列数据预测,预测结果往往还存在误差,本发明在此基础上,利用得到的训练数据对AR模型进行有训练,完成训练的深度LSTM神经网络和AR模型分别对待检测的数据进行预测,将两个模型的预测结果输入卡尔曼滤波器进行优化,得到最终的预测结果,即分解后的IMFs通过LSTM预测得到的结果和通过AR模型预测得到的结果预测偏差和通过一下公式计算:
计算Kalman增益,表示为:
则卡尔曼滤波器得到的最终预测结果表示为:
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (10)
1.一种基于CEMD和LSTM的非平稳时间序列数据预测方法,其特征在于,包括获取目标数据的历史数据,对历史目标数据进行异常值处理,得到处理后的目标数据;目标数据为光伏发电量数据;根据处理后的历史目标数据预测得到用于光伏发电系统电力调配的目标光伏发电量数据的时序预测具体包括以下步骤:
S1、通过历史数据构建训练集,通过实时数据构建测试集;
S2、使用经验模态分解将测试集和训练集中的目标序列分解为n个本征模态函数和1个残差序列;
S3、通过聚类算法对n个本征模态函数聚类为m组,形成m个子序列;
S4、利用训练集中子序列的特征向量分别对深度LSTM神经网络和AR模型进行训练,获取完成训练的深度LSTM神经网络和AR模型;
S5、将测试集中子序列输入完成训练的深度LSTM神经网络和AR模型进行预测,得到非平稳时间序列预测结果;
S6、深度LSTM神经网络和AR模型得到预测结果输入卡尔曼滤波器进行矫正,得到最终预测结果。
2.根据权利要求1所述的一种基于CEMD和LSTM的非平稳时间序列数据预测方法,其特征在于,将训练集和测试集的m个子序列分别与目标序列具有高度相关性的特征向量进行拼接组合,将拼接后的子序列作为深度LSTM神经网络的输入。
3.根据权利要求1所述的一种基于CEMD和LSTM的非平稳时间序列数据预测方法,其特征在于,通过历史数据构建训练集或者通过实时数据构建测试集的过程包括对数据集进行预处理保证数据格式的一致性;预处理后进行标准化处理,即将数据按比例缩放,将数据转化为无量纲的纯数值。
4.根据权利要求1所述的一种基于CEMD和LSTM的非平稳时间序列数据预测方法,其特征在于,使用经验模态分解将目标序列分解为n个本征模态函数和1个残差序列的过程包括:
S21、从训练集或者测试集中分离出目标序列x(t);
S22、初始化r0=x(t),i=1;
S23、计算第i个IMF,初始化h0=ri-1(t),j=1;
S24、找到hj-1(t)的局部极大值点和局部极小值点;
S25、对hj-1(t)的局部极大值点和局部极小值点分别进行三次样条函数插值,形成上、下包络线;
S26、计算上、下包络线的平均值mj-1(t);
S27、判断hj(t)=hj-1(t)–mj-1(t)是否为本征模态函数,如果是则imfi(t)=hj(t)且转到步骤S28;否则转到步骤S24;
S28、计算序列的剩余量ri(t)=ri-1(t)–imfi(t);
5.根据权利要求1所述的一种基于CEMD和LSTM的非平稳时间序列数据预测方法,其特征在于,通过k-Shape聚类算法对n个本征模态函数聚类为m组,形成m个子序列的过程包括:
S31、计算各个本征模态函数的动态时间归整值,将该值作为各个本征模态函数之间的相似度;
S32、将n个本征模态函数作为聚类样本,并从中随机选择m个样本作为初始簇心;
S33、将其他样本根据动态时间归整值分别分类到与其最相似的簇心所在的簇,将计算每个样本与其簇内其他样本的距离之和,将该距离之和最小的样本作为新的簇心,重复本步骤直到簇心不再发生变化;
S34、当簇心不再变化,判断是否每个样本的轮廓值是否超过设定的阈值,若超过则输出聚类结果,否则返回步骤S32。
8.根据权利要求1所述的一种基于CEMD和LSTM的非平稳时间序列数据预测方法,其特征在于,通过elbow方法确定m的值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210199667.3A CN114548592A (zh) | 2022-03-01 | 2022-03-01 | 一种基于cemd和lstm的非平稳时间序列数据预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210199667.3A CN114548592A (zh) | 2022-03-01 | 2022-03-01 | 一种基于cemd和lstm的非平稳时间序列数据预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114548592A true CN114548592A (zh) | 2022-05-27 |
Family
ID=81660777
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210199667.3A Pending CN114548592A (zh) | 2022-03-01 | 2022-03-01 | 一种基于cemd和lstm的非平稳时间序列数据预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114548592A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115499344A (zh) * | 2022-08-25 | 2022-12-20 | 鹏城实验室 | 一种网络流量实时预测方法及系统 |
CN115545362A (zh) * | 2022-12-05 | 2022-12-30 | 南方电网数字电网研究院有限公司 | 一种ai与tsd结合的新能源中期功率组合预测方法 |
CN116760723A (zh) * | 2023-05-17 | 2023-09-15 | 广州天懋信息系统股份有限公司 | 基于预测树模型的数据预测方法、装置、设备及介质 |
CN117240312A (zh) * | 2023-11-14 | 2023-12-15 | 成都嘉晨科技有限公司 | 基于深度学习的滤波器优化方法 |
CN117709690A (zh) * | 2024-02-05 | 2024-03-15 | 人民法院信息技术服务中心 | 一种司法案件任务调度方法及装置 |
-
2022
- 2022-03-01 CN CN202210199667.3A patent/CN114548592A/zh active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115499344A (zh) * | 2022-08-25 | 2022-12-20 | 鹏城实验室 | 一种网络流量实时预测方法及系统 |
CN115499344B (zh) * | 2022-08-25 | 2024-03-19 | 鹏城实验室 | 一种网络流量实时预测方法及系统 |
CN115545362A (zh) * | 2022-12-05 | 2022-12-30 | 南方电网数字电网研究院有限公司 | 一种ai与tsd结合的新能源中期功率组合预测方法 |
CN116760723A (zh) * | 2023-05-17 | 2023-09-15 | 广州天懋信息系统股份有限公司 | 基于预测树模型的数据预测方法、装置、设备及介质 |
CN116760723B (zh) * | 2023-05-17 | 2024-03-08 | 广州天懋信息系统股份有限公司 | 基于预测树模型的数据预测方法、装置、设备及介质 |
CN117240312A (zh) * | 2023-11-14 | 2023-12-15 | 成都嘉晨科技有限公司 | 基于深度学习的滤波器优化方法 |
CN117240312B (zh) * | 2023-11-14 | 2024-01-23 | 成都嘉晨科技有限公司 | 基于深度学习的滤波器优化方法 |
CN117709690A (zh) * | 2024-02-05 | 2024-03-15 | 人民法院信息技术服务中心 | 一种司法案件任务调度方法及装置 |
CN117709690B (zh) * | 2024-02-05 | 2024-04-12 | 人民法院信息技术服务中心 | 一种司法案件任务调度方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114548592A (zh) | 一种基于cemd和lstm的非平稳时间序列数据预测方法 | |
Wen et al. | Stock market trend prediction using high-order information of time series | |
CN111091233B (zh) | 一种风电场短期风电预测建模方法 | |
Gangopadhyay et al. | Spatiotemporal attention for multivariate time series prediction and interpretation | |
Shang et al. | Short-term load forecasting based on PSO-KFCM daily load curve clustering and CNN-LSTM model | |
CN111027772B (zh) | 基于pca-dbilstm的多因素短期负荷预测方法 | |
CN113177633B (zh) | 一种深度解耦时间序列预测方法 | |
CN110458187B (zh) | 一种恶意代码家族聚类方法和系统 | |
Wang et al. | Correlation aware multi-step ahead wind speed forecasting with heteroscedastic multi-kernel learning | |
Shao et al. | Short-term forecast of stock price of multi-branch LSTM based on K-means | |
CN106709588B (zh) | 预测模型构建方法和设备以及实时预测方法和设备 | |
CN112434848B (zh) | 基于深度信念网络的非线性加权组合风电功率预测方法 | |
CN113642225A (zh) | 一种基于attention机制的CNN-LSTM短期风电功率预测方法 | |
CN110633846A (zh) | 燃气负荷预测方法和装置 | |
CN115310674A (zh) | 基于并行神经网络模型LDformer的长时间序列预测方法 | |
CN114218872A (zh) | 基于dbn-lstm半监督联合模型的剩余使用寿命预测方法 | |
CN114117852B (zh) | 一种基于有限差分工作域划分的区域热负荷滚动预测方法 | |
CN115034430A (zh) | 碳排放量预测方法、装置、终端及存储介质 | |
CN114925767A (zh) | 一种基于变分自编码器的场景生成方法和装置 | |
CN114880538A (zh) | 基于自监督的属性图社团检测方法 | |
Han et al. | A Hybrid BPNN-GARF-SVR PredictionModel Based on EEMD for Ship Motion. | |
CN114240687A (zh) | 一种适用于综合能源系统的能源托管效率分析方法 | |
CN111863153A (zh) | 一种基于数据挖掘的废水中悬浮固体总量的预测方法 | |
CN115544890A (zh) | 一种短期电力负荷预测方法及系统 | |
CN114881347A (zh) | 一种采用加权残差聚类的天然气负荷预测区间估计方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |