CN113762078A - 基于vmd-cssa-lstm-mlr组合模型的湖泊tn预测方法 - Google Patents

基于vmd-cssa-lstm-mlr组合模型的湖泊tn预测方法 Download PDF

Info

Publication number
CN113762078A
CN113762078A CN202110885473.4A CN202110885473A CN113762078A CN 113762078 A CN113762078 A CN 113762078A CN 202110885473 A CN202110885473 A CN 202110885473A CN 113762078 A CN113762078 A CN 113762078A
Authority
CN
China
Prior art keywords
lstm
population
signal
frequency
adopting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110885473.4A
Other languages
English (en)
Inventor
吴绍飞
贺淼
黄彬彬
康传雄
唐明
刘晓峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanchang Institute of Technology
Original Assignee
Nanchang Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanchang Institute of Technology filed Critical Nanchang Institute of Technology
Priority to CN202110885473.4A priority Critical patent/CN113762078A/zh
Publication of CN113762078A publication Critical patent/CN113762078A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Economics (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Educational Administration (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于VMD‑CSSA‑LSTM‑MLR组合模型的湖泊TN预测方法。该方法首先通过VMD分解为K个本征模态分量;然后分别采用LSTM神经网络对高频信号进行处理预测,采用CSSA优化LSTM神经网络的超参数;采用MLR对低频信号进行处理预测;叠加所有模态分量的预测值,得到实际预测结果。本发明有效解决了其它常用的信号分解方法存在的模态混叠、端点效应等问题,且该方法运行速度快,分解结果稳定;同时,提高了算法的运行效率以及模型的预测精度,解决了LSTM神经网络的超参数人工确定难的问题,提高了预测模型的效率及精度。

Description

基于VMD-CSSA-LSTM-MLR组合模型的湖泊TN预测方法
技术领域
本发明属于水质预测技术领域,具体涉及一种基于VMD-CSSA-LSTM-MLR组合模型的湖泊TN预测方法。
背景技术
目前,用于水质预测的方法主要有4类:第一是水质模拟模型预测法,第二是基于传统的数理统计模型的预测方法,第三是基于机器学习的数据驱动的预测方法,第四是采用组合预测模型的方法。
自60年代开始,人们着手研究水环境系统中的不确定性,建立了各种类型的随机水体污染物模拟模型,其中已提出的随机分析技术主要包括随机游走、Markov链、Kalman滤波、一阶分析、Monte Carlo模拟及随机微分方程模型等,尽管水质预测模型可以用来预测水体中污染物变化趋势,但仅适用于较小时间尺度的模拟预测。基于传统的数理统计模型的预测方法如指数平滑法、时间序列分析法等方法模型计算简洁,具有较快的预测速度,但对复杂非线性、非平稳或者具有较强随机性的数据预测能力较差。随着机器学习,尤其是深度学习的快速发展,数据驱动的机器学习预测方法得到了领域内专家学者的广泛关注,相较于传统方法,其在非线性数据预测中具有较高的预测精度,但机器学习算法普遍存在超参数难以确定的问题,且不同的机器学习模型在实际预测中具有较大的差异。对几种模型组合的方法来进行水质预测,可以结合各模型的优势弥补单一模型的不足使得水质预测更加精准,组合预测模型一种做法是将不同模型预测结果通过一定的权重获得最终的组合预测结果,另一种方法是将原始序列进行预处理,采用小波分解、经验模态分解(EMD)和集合经验模态分解(EEMD)等将其分解为不同时间尺度的多个分量,然后对每个分量分别建立预测模型,将各分量预测结果叠加获得最终预测值,但小波分解选择不同的小波基对于分解的结果具有较大的影响,EMD和EEMD会出现端点效应、模态混叠和噪声残余等问题。
发明内容
本文发明的目的是提供一种基于VMD-CSSA-LSTM-MLR组合模型的湖泊TN预测方法,采用变分模态分解(VMD)克服现有数据预处理技术存在的端点效应、模态混叠和噪声残余的缺陷,并将分解后的各分量划分高、低频,分别采用合适的机器学习预测模型进行预测以提高模型的预测精度,同时引入混沌麻雀搜索优化算法(CSSA)解决机器学习模型超参数难以确定的问题,最后将各分量的预测结果叠加得到最终的TN预测结果。
为达到上述目的,本发明采用如下技术方案:
一种基于VMD-CSSA-LSTM-MLR组合模型的湖泊TN预测方法,包括以下步骤:
步骤1、利用EMD将收集的原始TN数据序列信号进行自适应分解,获得有效模态分量数K,然后根据K对原始TN数据序列信号进行VMD,分解为K个本征模态分量;
步骤2、将K个本征模态分量划分为高频和低频两类信号;其中,过零率大于10%为高频信号,反之则为低频信号,过零率计算公式如下:
Figure BDA0003193929920000021
其中,Z表示过零率;nzero表示过零次数,即若相邻信号值异号,则表示一次过零;N表示信号长度;
步骤3、对高频的本征模态分量采用LSTM进行处理预测,LSTM的超参数采用CSSA进行寻优;对低频的本征模态分量采用MLR进行处理预测,输入变量为与低频的本征模态分量的相关系数绝对值大于0.3的特征,所述特征为pH值、溶解氧、电导率、浊度、氨氮、水温、降水、入湖总量、水位、含沙量、输沙率;并根据输入变量的PACF确定滞后天数;
步骤4、将步骤3中得到的各模态分量的预测结果,叠加后得到实际预测结果。
优选地,步骤1中VMD分解的具体过程为:
步骤1.1:对原始TN数据序列信号采用Hilbert变换计算每个模态函数uk(t)的解析信号,从而得到其单边谱为:
Figure BDA0003193929920000022
,其中,t表示第t时刻,k表示第k个模态,j表示虚数单位,σ(t)表示第k个模态在第t时刻的中心频率;
步骤1.2:通过各模态解析信号与所对应的中心频率
Figure BDA0003193929920000024
项混合,将各模态的频谱调制到基频带:
Figure BDA0003193929920000023
,其中,wk表示第k个模态的角频率;
步骤1.3、对信号进行解调,计算其梯度的平方L2范数,进而得到各个分解模态的带宽。分解后的各模态量都为调幅-调频信号,其变分约束模型为:
Figure BDA0003193929920000031
Figure BDA0003193929920000032
,其中,
Figure BDA0003193929920000033
表示对t求偏导,f表示原始输入信号;
步骤1.4:
步骤1.4.1:为求取变分约束模型的最优解,引入二次罚函数项α和拉格朗日乘子算子λ(t),得到的拉格朗日函数如下:
Figure BDA0003193929920000034
步骤1.4.2:初始化参数;
步骤1.4.3:采用交替方向乘子法更新
Figure BDA0003193929920000035
n为迭代次数,求解改进后拉格朗日表达式“鞍点”:
(1)uk的更新公式:
Figure BDA0003193929920000036
(2)ωk的更新公式:
Figure BDA0003193929920000037
(3)λ的更新公式:
Figure BDA0003193929920000038
(4)采用均方误差判断其是否达到收敛条件:
Figure BDA0003193929920000039
给定判别精度ξ,ξ>0,若mse<ξ,则停止迭代,获得第一个分量U1,重复步骤1.4.3则可获得其余分量U2、U3、…、Uk。
优选地,步骤3中采用CSSA优化LSTM超参数的具体过程为:
步骤3.3.1:创建LSTM神经网络,根据所求解问题的输入、输出样本集,根据本领域技术人员的常规手段即可确定神经网络的结构;
步骤3.3.2:初始化种群,根据LSTM神经网络待优化的参数确定目标函数的维度,初始化种群规模、发现者个数、侦查预警个数及上下边界,采用Tent混沌序列初始化麻雀种群初始位置;
步骤3.3.3:计算麻雀种群的适应度,个体的适应度函数为LSTM神经网络的均方误差,并对适应度排序;
步骤3.3.4:选取前20%作为发现者,其余作为加入者,并从麻雀种群中随机选取总数的20%只麻雀进行侦查预警,并进行位置更新;
步骤3.3.5:一次迭代完成,计算种群适应度以及种群平均适应度,当出现聚集现象,采用高斯变异进行变异,当出现发散现象,采用混沌扰动进行扰动;
步骤3.3.6:更新种群所经历的最优适应度和最差适应度,及对应的最优位置和最差位置;
步骤3.3.7:判断算法是否达到最大迭代次数或求解精度,若是,循环结束并输出寻优结果,否则,返回步骤3.3.3。最大迭代次数和求解精度都是人为设定的,最大迭代次数设定较小,优化效果会较差,设定较大,则会导致训练时间太长,针对不同的实际问题,设定值会有所不同,一般最大迭代次数都是在100以内(较复杂的问题),正常都是设置在10-50,求解精度类似,根据实际问题人为确定精度参数,以上均为本领域技术人员根据实际需求可进行选择的。
优选地,CSSA的参数为:麻雀种群数量Pop=30,最大迭代次数MaxIter=100;LSTM隐含层神经元个数、时间窗长度、Dropout比率、学习速率及批处理大小的搜索范围分别为[1,100],[1,30],(0,0.5],[0.001,1],[1,100]。
其中,麻雀搜索算法(SSA)的原理为:
麻雀觅食过程可抽象为发现者-加入者模型,并加入侦察预警机制。假设在一个D维搜索空间中,存在N只麻雀,则第i只麻雀在D维搜索空间中的位置为,Xi=[xi1,…,xid,…,xiD],其中i=1,2,…,N,xid表示第i只麻雀在第d维的位置。
(1)发现者一般占到种群的10%~20%,位置更新公式如下:
Figure BDA0003193929920000041
其中,t代表当前迭代次数;T为最大的迭代次数;α为(0,1]之间的均匀随机数;Q是服从标准正态分布的随机数;L表示大小为1×d,元素均为1的矩阵;R2∈[0,1]和ST∈[0.5,1]分别表示预警值和安全值。当R2<ST时,种群未发现捕食者的存在或其他危险,搜索环境安全,发现者可广泛搜索,引导种群获取更高的适应度;当R2≥ST时,侦查麻雀发现捕食者,并立即释放危险信号,种群立刻做出反捕食行为,调整搜索策略,迅速向安全区域靠拢;
(2)除了发现者,剩余的麻雀均作为加入者,并根据下式进行位置更新:
Figure BDA0003193929920000051
其中,
Figure BDA0003193929920000052
表示种群第t次迭代时麻雀在第d维的最劣位置;
Figure BDA0003193929920000053
表示种群第t+1次迭代时麻雀在第d维的最优位置;当i>n/2时,表明第i个加入者没有获得食物,处于饥饿状态,适应度较低,为获得更高的能量,需要飞到其他地方进行觅食;当i≤n/2时,第i个加入者将在当前最优位置xb附近随机找一个位置进行觅食;
(3)侦查预警的麻雀一般占到种群的10%~20%,位置更新如下:
Figure BDA0003193929920000054
其中,β表示步长控制参数,是服从均值为0,方差为1的正态分布随机数;K是[-1,1[之间的一个随机数,表示麻雀移动的方向,同时也是步长控制参数;e是一个极小的常数,以避免分母为0的情况出现;fi表示第i只麻雀的适应度值,fg和fw分别是当前麻雀种群的最优和最差适应度值。当fi≠fg时,表明该麻雀正处于种群的边缘,极易受到捕食者攻击;当fi=fg时,表明该麻雀正处于种群中间,由于意识到捕食者的威胁,为避免被捕食者攻击,及时靠近其他麻雀来调整搜索策略。
混沌麻雀搜索优化算法(CSSA)的原理为:
(1)采样Tent映射混沌算子并引入随机变量对麻雀算法进行种群初始化:
Figure BDA0003193929920000055
newXd=mind+(maxd-mind)·Zd
其中,z表示Tent映射混沌算子,NT是混沌序列内的粒子个数,rand(0,1)是[0,1]之间的随机数,newXd是第d维麻雀个体的值,mind和maxd是第d维变量newXd的最小和最大值,Zd是第d维Tent映射混沌算子的值。
采样Tent映射混沌算子初始化种群大小为N的麻雀种群:先随机产生一个d维向量,每维取值均为(0,1),作为初始的算子,并对其每一个维度做迭代运算,求得其余(N-1)个算子,再采用上式(15)得到麻雀个体的值;
(2)混沌扰动
为了避免算法陷入局部最优,提高全局搜索能力和寻优精度,算法引入混沌扰动,个体混沌扰动公式为:
Figure BDA0003193929920000061
其中,X′表示需要进行混沌扰动的个体,newX为产生的混沌扰动能量,newX′为混沌扰动后的个体;
步骤3.2.3:高斯变异策略
在麻雀算法的求解后期,种群逐渐都会向最优个体聚集,导致种群的多样性不足。为此,引入高斯变异策略,对种群最优个体进行变异操作,并从变异前后的个体选择最优个体进行下一次迭代,其公式如下:
mutation(x)=x(1+N(0,1))
其中,x表示种群最优个体的值,mutation(x)表示种群最优个体变异后的值,N(0,1)表示期望为0,方差为1的正态分布随机数。
本发明的有益效果:与现有技术相比,本发明的优点是:
1、利用经验模态分解自适应获得变分模态分解的关键参数本征模态分量数K,它可以有效解决其它常用的信号分解方法存在的模态混叠、端点效应等问题,且该方法运行速度快,分解结果稳定。
2、将各模态分量划分高、低频,针对高频的非线性、非平稳信号采用LSTM神经网络进行预测,针对低频的光滑、平稳且周期性较强的信号采用多元线性回归模型进行预测,提高了算法的运行效率以及模型的预测精度。
3、基于CSSA算法优化LSTM神经网络的超参数策略,通过引入Tent映射混沌算子和高斯变异改善了算法全局搜索能力,防止陷入局部最优,并增强了算法的鲁棒性。解决了LSTM神经网络的超参数人工确定难的问题,提高了预测模型的效率及精度。
附图说明
图1所示为实施例1预测方法的整体框图;
图2所示为实施例1中CSSA算法的流程图;
图3所示为CSSA优化LSTM超参数的流程图;
图4所示为自动监测站的TN时间序列数据图;
图5所示为TN数据VMD分解结果图;
图6所示为输入变量的PACF图;
图7所示为预测结果图。
具体实施方式
以下将结合实施例和附图对本发明的构思及产生的技术效果进行清楚、完整的描述,以充分地理解本发明的目的、方案和效果。
实施例1:
一种基于VMD-CSSA-LSTM-MLR组合模型的湖泊TN预测方法,如图1所示,包括以下步骤:
步骤1、利用经验模态分解(EMD)将收集的原始TN数据序列信号自适应分解获得有效模态分量数K,根据有效模态分量数K对原始信号进行变分模态分解(VMD),分解为K个本征模态分量;
步骤1.1:对于原始TN数据序列信号采用Hilbert变换计算每个模态分量uk(t)的解析信号,从而得到其单边谱为:
Figure BDA0003193929920000071
其中,t表示第t时刻,k表示第k个模态,j表示虚数单位,σ(t)表示第k个模态在第t时刻的中心频率;
步骤1.2:通过各模态解析信号与所对应的中心频率
Figure BDA0003193929920000073
项混合,将各模态的频谱调制到基频带:
Figure BDA0003193929920000072
其中,wk表示第k个模态的角频率;
步骤1.3:对信号进行解调,计算其梯度的平方L2范数,进而得到各个分解模态的带宽。分解后的各模态量都为调幅-调频信号,其变分约束模型为:
Figure BDA0003193929920000081
Figure BDA0003193929920000082
其中
Figure BDA0003193929920000083
表示对t求偏导,f表示原始输入信号;
步骤1.4:对步骤1.3中的问题求解包括以下步骤
步骤1.4.1:为求取变分约束模型的最优解,引入二次罚函数项α和拉格朗日乘子算子λ(t),得到的拉格朗日函数如下:
Figure BDA0003193929920000084
Figure BDA0003193929920000085
步骤1.4.2:初始化参数;
步骤1.4.3:采用交替方向乘子法更新
Figure BDA0003193929920000086
(n为迭代次数)求解改进后拉格朗日表达式“鞍点”:
(1)uk的更新公式:
Figure BDA0003193929920000087
(2)ωk的更新公式:
Figure BDA0003193929920000088
(3)λ的更新公式:
Figure BDA0003193929920000089
(4)采用均方误差判断其是否达到收敛条件:
Figure BDA00031939299200000810
给定判别精度ξ(ξ>0),若mse<ξ,则停止迭代,获得第一个分量U1,重复步骤1.4.3则可获得其余分量U2、U3、…、Uk。
步骤2、将K个本征模态分量划分为高频和低频两类信号;
步骤2.1:定义过零率,以10%作为界限来划分高、低频。过零率计算如下式:
Figure BDA0003193929920000091
其中:Z表示过零率;nzero表示过零次数,即若相邻信号值异号,则表示一次过零;N表示信号长度。
步骤3、对高频的本征模态分量采用LSTM(长短时记忆神经网络)进行处理预测,LSTM的超参数采用CSSA(混沌麻雀搜索优化算法)进行寻优;
其中,CSSA算法流程(如图2)如下:
步骤3.1.1:初始化,包括种群规模N,发现者个数pNum,侦察预警的麻雀个数sNum,目标函数的维数D,初始值的上下界lb、ub,最大迭代次数T;
步骤3.1.2:应用Tent混沌序列初始化种群,生成N个D维向量Zi,并将其各分量通过式(15)载波到原问题空间变量的取值范围内;
步骤3.1.3:计算每只麻雀的适应度fi,选出当前最优适应度fg和其所对应的位置xb,以及当前最劣适应度fw和其对应的位置xw;
步骤3.1.4:选取适应度最优的前pNum个麻雀作为发现者,剩余的作为加入者,并更新发现者和加入者的位置;
步骤3.1.5:从麻雀种群中随机选取sNum只麻雀进行侦察预警,并更新其位置;
步骤3.1.6:一次迭代完成,重新计算麻雀的适应度fi和麻雀种群的平均适应度值favg
(1)当fi<favg时,表明出现“聚集”现象,进行高斯变异,如果比变异之前的个体更优,则用变异后的个体替代变异前的个体,否则保持原个体不变;
(2)当fi≥favg时,表明出现“发散”趋势,对个体i进行Tent混沌扰动,如果扰动后的个体性能更优,则用扰动后的个体替代扰动前的个体,否则保持原个体不变。
步骤3.1.7:根据麻雀种群当前的状态,更新整个种群所经历的最优位置xg和其适应度fg,以及最差位置xw和其适应度fw
步骤3.1.8:判断算法运行是否达到最大迭代次数,若是,循环结束,输出寻优结果;否则返回步骤3.1.3。
其中,混沌麻雀搜索优化算法(CSSA)优化LSTM超参数的流程图如图3所示,具体为:
采用CSSA优化LSTM模型的超参数时间窗口长度、批处理大小、和隐藏层单元数目。
步骤3.2.1:创建LSTM神经网络,根据所求解问题的输入、输出样本集,确定神经网络的结构;
步骤3.2.2:初始化种群,根据LSTM神经网络待优化的参数确定目标函数的维度,初始化种群规模、发现者个数、侦查预警个数及上下边界,采用Tent混沌序列初始化麻雀种群位置;
步骤3.2.3:计算麻雀种群的适应度,个体的适应度函数为LSTM神经网络的均方误差,并对适应度排序;
步骤3.2.4:选取前20%作为发现者,其余作为加入者,并从麻雀种群中随机选取总数的20%只麻雀进行侦查预警,并根据公式(11)-(13)更新位置;
步骤3.2.5:一次迭代完成,计算种群适应度以及种群平均适应度,当出现聚集现象,采用高斯变异进行变异,当出现发散现象,采用混沌扰动进行扰动;
步骤3.2.6:更新种群所经历的最优适应度和最差适应度,及对应的最优位置和最差位置;
步骤3.2.7:判断算法是否达到最大迭代次数或求解精度,若是,循环结束并输出寻优结果,否则,返回步骤3.2.3
步骤4、对低频的本征模态分量采用MLR(多元线性回归)进行处理预测,输入变量为与低频的本征模态分量的相关系数绝对值大于0.3的特征,特征为pH值、溶解氧、电导率、浊度、氨氮、水温、降水、入湖总量、水位、含沙量、输沙率,并根据输入变量的PACF确定滞后天数;
步骤5、将得到的各模态分量的预测结果,叠加后得到实际预测结果。
实施例2:
收集鄱阳湖湖区水质自动监测站(都昌站)2018年6月18日至2019年12月31日的所有TN时间序列数据,如图4所示,可以看出,其数据表现出一定的非线性和非平稳性特征。
将上述数据按照时间序列,后20%作为验证集,前80%作为训练集代入至实施例1中的方法中,得到的VMD分解结果如图5所示(添加VMD分解的参数K取值为7的原因(如图5分解为7个子分量),首先是根据EMD(经验模态分解)自适应分解结果为7(这一步与图1的流程图是相对应的),同时根据图5(b)的频谱图可以发现分解为7时未发生中心频率重叠的问题,表明这个参数选择为7的合理性),其中,根据过零率可以确认IFM1和IFM2为低频分量,其它为高频分量。
采用LSTM对高频分量进行处理预测,其输入变量即为每一个高频IMF分量,其时间窗口长度采用CSSA进行自动寻优,CSSA的参数为:麻雀种群数量Pop=30,最大迭代次数MaxIter=100;LSTM隐含层神经元个数、时间窗长度、Dropout比率、学习速率及批处理大小的搜索范围分别为[1,100],[1,30],(0,0.5],[0.001,1],[1,100]。
低频分量采用MLR进行处理预测,分别计算两个低频分量与都昌站其他11个特征(pH值、溶解氧、电导率、浊度、氨氮、水温、降水、入湖总量、水位、含沙量、输沙率)之间的相关系数,并选择相关系数绝对值大于0.3的特征作为模型输入特征。并根据PACF(特征偏自相关)图确定输入变量的滞后天数,结果如图6所示。
将得到的各模态分量的预测结果,叠加后得到实际预测结果,并利用测试集数据进行验证,结果如图7(a)所示。
采用同样的方法对鄱阳湖区其它3个水质自动监测站的TN数据进行预测,结果如图7(b)-(d)所示。由图7可知,本实施例的预测结果与实际观测值基本一致,仅仅在某一些突变点上有一定误差,预测结果与实际观测值拟合程度较好,R2介于为0.89-0.93,这也表明了本实施例的TN预测方法精度较高。
以上所述,只是本发明的较佳实施例而已,本发明并不局限于上述实施方式,只要其以相同的手段达到本发明的技术效果,都应属于本发明的保护范围。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。

Claims (4)

1.一种基于VMD-CSSA-LSTM-MLR组合模型的湖泊TN预测方法,其特征在于,包括以下步骤:
步骤1、利用EMD将收集的原始TN数据序列信号进行自适应分解,获得有效模态分量数K,然后根据K对原始TN数据序列信号进行VMD,分解为K个本征模态分量;
步骤2、将K个本征模态分量划分为高频和低频两类信号;其中,过零率大于10%为高频信号,反之则为低频信号,过零率计算公式如下:
Figure FDA0003193929910000011
其中,Z表示过零率;nzero表示过零次数,即若相邻信号值异号,则表示一次过零;N表示信号长度;
步骤3、对高频的本征模态分量采用LSTM进行处理预测,LSTM的超参数采用CSSA进行寻优;对低频的本征模态分量采用MLR进行处理预测,输入变量为与低频的本征模态分量的相关系数绝对值大于0.3的特征,所述特征为pH值、溶解氧、电导率、浊度、氨氮、水温、降水、入湖总量、水位、含沙量、输沙率,并根据输入变量的PACF确定滞后天数;
步骤4、将步骤3中得到的各模态分量的预测结果,叠加后得到实际预测结果。
2.根据权利要求1所述的方法,其特征在于,步骤1中VMD分解的具体过程为:
步骤1.1:对原始TN数据序列信号采用Hilbert变换计算每个模态函数uk(t)的解析信号,从而得到其单边谱为:
Figure FDA0003193929910000012
其中,t表示第t时刻,k表示第k个模态,j表示虚数单位,σ(t)表示第k个模态在第t时刻的中心频率;
步骤1.2:通过各模态解析信号与所对应的中心频率
Figure FDA0003193929910000014
项混合,将各模态的频谱调制到基频带:
Figure FDA0003193929910000013
其中,wk表示第k个模态的角频率;
步骤1.3、对信号进行解调,计算其梯度的平方L2范数,进而得到各个分解模态的带宽。分解后的各模态量都为调幅-调频信号,其变分约束模型为:
Figure FDA0003193929910000021
Figure FDA0003193929910000022
其中,
Figure FDA0003193929910000023
表示对t求偏导,f表示原始输入信号;
步骤1.4:
步骤1.4.1:为求取变分约束模型的最优解,引入二次罚函数项α和拉格朗日乘子算子λ(t),得到的拉格朗日函数如下:
Figure FDA0003193929910000024
步骤1.4.2:初始化参数;
步骤1.4.3:采用交替方向乘子法更新
Figure FDA0003193929910000025
n为迭代次数,求解改进后拉格朗日表达式“鞍点”:
(1)uk的更新公式:
Figure FDA0003193929910000026
(2)ωk的更新公式:
Figure FDA0003193929910000027
(3)λ的更新公式:
Figure FDA0003193929910000028
(4)采用均方误差判断其是否达到收敛条件:
Figure FDA0003193929910000029
给定判别精度ξ,ξ>0,若mse<ξ,则停止迭代,获得第一个分量U1,重复步骤1.4.3则可获得其余分量U2、U3、…、Uk。
3.根据权利要求1所述的方法,其特征在于,步骤3中采用CSSA优化LSTM超参数的具体过程为:
步骤3.3.1:创建LSTM神经网络;
步骤3.3.2:初始化种群,根据LSTM神经网络待优化的参数确定目标函数的维度,初始化种群规模、发现者个数、侦查预警个数及上下边界,采用Tent混沌序列初始化麻雀种群初始位置;
步骤3.3.3:计算麻雀种群的适应度,个体的适应度函数为LSTM神经网络的均方误差,并对适应度排序;
步骤3.3.4:选取前20%作为发现者,其余作为加入者,并从麻雀种群中随机选取总数的20%只麻雀进行侦查预警,并进行位置更新;
步骤3.3.5:一次迭代完成,计算种群适应度以及种群平均适应度,当出现聚集现象,采用高斯变异进行变异,当出现发散现象,采用混沌扰动进行扰动;
步骤3.3.6:更新种群所经历的最优适应度和最差适应度,及对应的最优位置和最差位置;
步骤3.3.7:判断算法是否达到最大迭代次数或求解精度,若是,循环结束并输出寻优结果,否则,返回步骤3.3.3。
4.根据权利要求3所述的方法,其特征在于,CSSA的参数为:麻雀种群数量Pop=30,最大迭代次数MaxIter=100;LSTM隐含层神经元个数、时间窗长度、Dropout比率、学习速率及批处理大小的搜索范围分别为[1,100],[1,30],(0,0.5],[0.001,1],[1,100]。
CN202110885473.4A 2021-08-03 2021-08-03 基于vmd-cssa-lstm-mlr组合模型的湖泊tn预测方法 Pending CN113762078A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110885473.4A CN113762078A (zh) 2021-08-03 2021-08-03 基于vmd-cssa-lstm-mlr组合模型的湖泊tn预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110885473.4A CN113762078A (zh) 2021-08-03 2021-08-03 基于vmd-cssa-lstm-mlr组合模型的湖泊tn预测方法

Publications (1)

Publication Number Publication Date
CN113762078A true CN113762078A (zh) 2021-12-07

Family

ID=78788411

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110885473.4A Pending CN113762078A (zh) 2021-08-03 2021-08-03 基于vmd-cssa-lstm-mlr组合模型的湖泊tn预测方法

Country Status (1)

Country Link
CN (1) CN113762078A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114417712A (zh) * 2022-01-01 2022-04-29 西北工业大学 基于混沌初始化ssa-bp神经网络的飞艇螺旋桨可靠性估计方法
CN117850367A (zh) * 2023-12-29 2024-04-09 淮阴工学院 一种基于多生产线的vmd分解与生产线优化系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107016453A (zh) * 2016-12-08 2017-08-04 中国农业大学 一种水产养殖溶解氧预测方法及装置
CN109118000A (zh) * 2018-08-07 2019-01-01 广东工业大学 一种基于ceemd-vmd-ga-orelm模型的短期风速预测方法
CN109255200A (zh) * 2018-10-23 2019-01-22 中国农业大学 一种养殖水体氨氮的软测量方法及装置
CN110648017A (zh) * 2019-08-30 2020-01-03 广东工业大学 一种基于二层分解技术的短期冲击负荷预测方法
CN111882120A (zh) * 2020-07-14 2020-11-03 西安工业大学 基于VMD-MQPSO-BPn网络的电力负荷预测方法
CN112418406A (zh) * 2020-12-09 2021-02-26 甘肃靖远航天风力发电有限公司 基于ssa-lstm模型的风电塔筒倾角缺失数据补齐方法
CN113156325A (zh) * 2021-03-18 2021-07-23 吉林大学 一种对电池的健康状态进行估计的方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107016453A (zh) * 2016-12-08 2017-08-04 中国农业大学 一种水产养殖溶解氧预测方法及装置
CN109118000A (zh) * 2018-08-07 2019-01-01 广东工业大学 一种基于ceemd-vmd-ga-orelm模型的短期风速预测方法
CN109255200A (zh) * 2018-10-23 2019-01-22 中国农业大学 一种养殖水体氨氮的软测量方法及装置
CN110648017A (zh) * 2019-08-30 2020-01-03 广东工业大学 一种基于二层分解技术的短期冲击负荷预测方法
CN111882120A (zh) * 2020-07-14 2020-11-03 西安工业大学 基于VMD-MQPSO-BPn网络的电力负荷预测方法
CN112418406A (zh) * 2020-12-09 2021-02-26 甘肃靖远航天风力发电有限公司 基于ssa-lstm模型的风电塔筒倾角缺失数据补齐方法
CN113156325A (zh) * 2021-03-18 2021-07-23 吉林大学 一种对电池的健康状态进行估计的方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114417712A (zh) * 2022-01-01 2022-04-29 西北工业大学 基于混沌初始化ssa-bp神经网络的飞艇螺旋桨可靠性估计方法
CN117850367A (zh) * 2023-12-29 2024-04-09 淮阴工学院 一种基于多生产线的vmd分解与生产线优化系统

Similar Documents

Publication Publication Date Title
Zhang et al. At-lstm: An attention-based lstm model for financial time series prediction
CN105391083B (zh) 基于变分模态分解和相关向量机的风功率区间短期预测方法
Liu et al. A hybrid WA–CPSO-LSSVR model for dissolved oxygen content prediction in crab culture
Girard et al. Gaussian process priors with uncertain inputs application to multiple-step ahead time series forecasting
CN108764540B (zh) 基于并行lstm串联dnn的供水管网压力预测方法
CN113762078A (zh) 基于vmd-cssa-lstm-mlr组合模型的湖泊tn预测方法
CN110751318A (zh) 一种基于ipso-lstm的超短期电力负荷预测方法
CN111368892A (zh) 一种广义s变换和svm的电能质量扰动高效识别方法
CN112784920A (zh) 云边端协同的旋转部件对抗域自适应故障诊断方法
CN112367130A (zh) 一种无线网络信号传输强度计算方法及计算机存储介质
Osogami et al. Bidirectional learning for time-series models with hidden units
CN115600105A (zh) 基于mic-lstm的水体缺失数据插补方法及装置
CN116303786A (zh) 一种基于多维数据融合算法的区块链金融大数据管理系统
Dastgerdi et al. Investigating the effect of noise elimination on LSTM models for financial markets prediction using Kalman filter and wavelet transform
Moss et al. BetaZero: Belief-state planning for long-horizon POMDPs using learned approximations
CN117420514A (zh) 一种提取雷达参数变化量的电子干扰效果评估方法
CN117894389A (zh) 基于ssa优化vmd和lstm的变压器油中溶解气体浓度数据预测方法
CN116227952A (zh) 一种关键信息缺失下的来袭目标防御策略选择方法及装置
CN116502676A (zh) 利用麻雀算法优化卷积神经网络的抗干扰效果评估方法
Rojas et al. Short-term prediction of chaotic time series by using RBF network with regression weights
Szeląg et al. Application of selected methods of black box for modelling the settleability process in wastewater treatment plant
CN115481715A (zh) 一种基于am-gru-bpnn的产品质量指标预测方法、系统
CN114912653A (zh) 一种基于自适应啁啾模态分解和SSA-BiLSTM的短期负荷组合预测方法
Casarin Monte Carlo Methods using Matlab
Toutiaee et al. Gaussian function on response surface estimation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20211207