CN103886218A - 基于多元非平稳时间序列分析与神经网络及支持向量机补偿的湖库藻类水华预测方法 - Google Patents
基于多元非平稳时间序列分析与神经网络及支持向量机补偿的湖库藻类水华预测方法 Download PDFInfo
- Publication number
- CN103886218A CN103886218A CN201410138148.1A CN201410138148A CN103886218A CN 103886218 A CN103886218 A CN 103886218A CN 201410138148 A CN201410138148 A CN 201410138148A CN 103886218 A CN103886218 A CN 103886218A
- Authority
- CN
- China
- Prior art keywords
- factor
- error
- time series
- sign
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 50
- 238000012706 support-vector machine Methods 0.000 title claims abstract description 34
- 238000012731 temporal analysis Methods 0.000 title claims abstract description 20
- 238000000700 time series analysis Methods 0.000 title claims abstract description 20
- 239000005422 algal bloom Substances 0.000 title claims abstract description 16
- 238000000714 time series forecasting Methods 0.000 claims description 95
- 230000000694 effects Effects 0.000 claims description 24
- 238000004458 analytical method Methods 0.000 claims description 20
- 230000000737 periodic effect Effects 0.000 claims description 20
- IJGRMHOSHXDMSA-UHFFFAOYSA-N Atomic nitrogen Chemical compound N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 claims description 18
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 claims description 14
- 229910052760 oxygen Inorganic materials 0.000 claims description 14
- 239000001301 oxygen Substances 0.000 claims description 14
- 229910052757 nitrogen Inorganic materials 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 10
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 229910052698 phosphorus Inorganic materials 0.000 claims description 9
- 239000011574 phosphorus Substances 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 8
- 230000002123 temporal effect Effects 0.000 claims description 8
- 230000002068 genetic effect Effects 0.000 claims description 7
- 238000005457 optimization Methods 0.000 claims description 7
- 230000001537 neural effect Effects 0.000 claims description 5
- 238000003062 neural network model Methods 0.000 claims description 4
- 230000008520 organization Effects 0.000 claims description 3
- 210000000349 chromosome Anatomy 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims description 2
- 210000002569 neuron Anatomy 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims description 2
- 238000005094 computer simulation Methods 0.000 abstract description 9
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 abstract description 9
- 230000008569 process Effects 0.000 abstract description 7
- 238000012544 monitoring process Methods 0.000 abstract description 5
- 230000008901 benefit Effects 0.000 abstract description 3
- 238000000513 principal component analysis Methods 0.000 abstract 1
- ATNHDLDRLWWWCB-AENOIHSZSA-M chlorophyll a Chemical compound C1([C@@H](C(=O)OC)C(=O)C2=C3C)=C2N2C3=CC(C(CC)=C3C)=[N+]4C3=CC3=C(C=C)C(C)=C5N3[Mg-2]42[N+]2=C1[C@@H](CCC(=O)OC\C=C(/C)CCC[C@H](C)CCC[C@H](C)CCCC(C)C)[C@H](C)C2=C5 ATNHDLDRLWWWCB-AENOIHSZSA-M 0.000 description 41
- 229930002875 chlorophyll Natural products 0.000 description 40
- 235000019804 chlorophyll Nutrition 0.000 description 40
- 230000006870 function Effects 0.000 description 16
- 241000195493 Cryptophyta Species 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 241000192710 Microcystis aeruginosa Species 0.000 description 2
- XKMRRTOUMJRJIA-UHFFFAOYSA-N ammonia nh3 Chemical compound N.N XKMRRTOUMJRJIA-UHFFFAOYSA-N 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012851 eutrophication Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000005309 stochastic process Methods 0.000 description 2
- UPLPHRJJTCUQAY-WIRWPRASSA-N 2,3-thioepoxy madol Chemical compound C([C@@H]1CC2)[C@@H]3S[C@@H]3C[C@]1(C)[C@@H]1[C@@H]2[C@@H]2CC[C@](C)(O)[C@@]2(C)CC1 UPLPHRJJTCUQAY-WIRWPRASSA-N 0.000 description 1
- 241000251468 Actinopterygii Species 0.000 description 1
- 230000005791 algae growth Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011109 contamination Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000556 factor analysis Methods 0.000 description 1
- 239000013505 freshwater Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 235000016709 nutrition Nutrition 0.000 description 1
- 230000035764 nutrition Effects 0.000 description 1
- 230000003449 preventive effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 239000003053 toxin Substances 0.000 description 1
- 231100000765 toxin Toxicity 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于多元非平稳时间序列分析与神经网络及支持向量机补偿的湖库藻类水华预测方法,属于水质监测技术领域。所述方法包括特征因素多元非平稳时序建模;误差影响因素核主成分分析;针对大样本数据情形,神经网络误差建模;针对小样本数据情形,支持向量机误差建模;最后进行误差补偿,得到预测结果。本发明解决了现有的水华预测精度不高、难以针对小样本数据预测等问题,对水华形成过程的描述更符合实际,使水华建模预测的结果更加准确。本发明实现了适于线性系统建模的时序分析方法与适于非线性系统建模的统计学习方法的优势互补,提高了水华预测精度。
Description
技术领域
本发明涉及一种水华预测方法,属于水质监测技术领域,具体地说,是指在多元非平稳时序分析多种特征因素水华生成的随机过程基础上,对其进行时序建模预测,加以神经网络或支持向量机算法对预测模型进行修正,提高预测精度的水华预测方法。
背景技术
随着社会经济发展,水在国民经济和社会发展中的地位和作用越来越突出。然而,近些年来我国湖库由于接纳过量的氮、磷等植物性营养物,使藻类和其它水生植物异常繁殖,出现了水体透明度和溶解氧下降,鱼类及其它生物大量死亡的水体富营养化现象,进而导致藻类水华出现。湖库水华是水体富营养化的一种典型表现,其危害性不仅在于严重污染稀缺的淡水资源,甚至严重破坏了生态环境而且由其产生的藻毒素会通过食物链直接威胁人类的健康,已成为地区经济发展的重要制约因素。因此,湖库水华治理工作亟待加强。
水华的暴发是由水体的物理、化学和生物过程等多种因素共同作用的结果,但各要素之间关系复杂,由于其存在随机性、不确定性和非线性等特征,目前虽然已有针对水华的多种预测方法,但现有水华预测方法仍存在预测精度不高、难以针对小样本数据预测等问题。
由于水华发生的机理很复杂,影响因素较多,因而对其进行预测一直以来都是水华治理和防治工作中的一个难点。近些年来,随着研究的深入,许多基于智能方法建立的模型被应用到水质评价和预测当中,如回归模型、神经网络模型等。
时间序列分析是一种动态数据处理的数理统计方法,适于描述和预测多种特征因素水华生成的随机过程。采用多元时序分析方法,对水华形成的特征因素多元时序建模,从而进行水华预测为一种有效途径。时间序列分析预测的特点在于其突出时间因素在预测中的作用,仅依靠过去时刻的数据就可以对未来时刻的数据进行预测,而无需依赖未来时刻外界因素对数据的影响。
然而,传统的时间序列模型通常只适于平稳性时序、线性系统的建模分析,但是在实际应用中,时间序列通常具有非平稳以及不规则、混沌等非线性特征,采用传统时序分析方法很难对实际系统建立理想的模型。此外,当未来时刻外界影响因素发生较大变化,时间序列分析预测往往会有较大偏差,因此需要采用适于反映未来时刻外界影响因素对数据相关关系的模型对时序预测误差进行补偿。
神经网络与支持向量机是统计学习的代表方法,均适于预测以及非线性系统建模,并且是通过未来时刻外界影响因素与预测对象之间的相关关系而实现对数据的预测。
神经网络方法是基于传统统计学的基础,传统统计学研究的内容是样本量无穷大时的渐进理论,即当样本量趋于无穷多时的统计性质,而实际问题中样本量往往是有限的。因此,假设样本量无穷多,并以此推导出的各种算法很难在样本量有限时取得理想的应用效果。
支持向量机方法是基于统计学理论的基础,与传统统计学理论不同,支持向量机主要是针对小样本情况,且最优解是基于有限的样本信息,而不是样本量趋于无穷大时的最优解。但是当针对大样本情况时该方法的存储和计算将耗费大量的机器内存和运算时间。
发明内容
本发明对湖库水华预测方法进行研究,目的是解决现有的水华预测精度不高、难以针对小样本数据预测等问题,针对实际具有非平稳和非线性特性的水华形成过程特征因素时序,采用多元非平稳时序分析方法建模,并考虑不同样本量的情况下,利用适于非线性系统建模的神经网络及支持向量机方法对时序模型的预测误差进行补偿,从而提高水华预测精度,为环保部门提供有效的参考依据,对湖库水环境的保护和改善起到重要的防治作用。
为便于说明,本说明书中所有未经解释的名词及字母含义均由下述假设解释:与水华现象有关的特征因素分为两种:一种是影响水华发生的特征因素,例如氮、磷、pH值、溶解氧、水温、光照度等,以下叫做影响因素;另一种是表征水华发生的特征因素,例如叶绿素浓度、藻密度等,以下叫做表征因素。以Yt表示t时刻的特征因素向量;以yit表示第i个特征因素在t时刻的量值,总采样时间为N,t=1,2,…,N,共有n个特征因素,i=1,2,…,n。
本发明提供的基于多元非平稳时间序列分析与神经网络及支持向量机补偿的湖库藻类水华预测方法主要包括以下五个步骤:
步骤一、特征因素多元非平稳时序建模;
1、确定特征因素时序结构;
考虑到实际水华形成过程中特征因素时序可能存在的非平稳、周期性以及随机性变化,采用多元非平稳时间序列分析技术,将t时刻的特征因素向量Yt分解为趋势项Ft、周期项Ct和随机项Rt的叠加,以fit表示第i个特征因素的趋势项,cit为第i个特征因素的周期项,rit为第i个特征因素的随机项,i=1,2,…,n,即
Yt=Ft+Ct+Rt(1)
2、建立特征因素时序趋势项模型;
由于水华藻类生长过程中每个特征因素会具有不同程度的单调性变化趋势,趋势项Ft为n维以时间t为自变量的回归函数向量,其表达式为:
其中,F(t)为n维回归函数向量,gi(t)为第i个特征因素的回归函数,其函数结构由第i个特征因素与时间的相关关系决定,y0i为第i个特征因素的初始值,i=1,2,…,n。
3、建立特征因素时序周期项模型及随机项模型;
对特征因素时序周期项和随机项分别采用特征因素的多重潜周期模型和多元自回归模型建模。
4、表征因素时序预测;
利用所建特征因素多元非平稳时序模型,即回归-多重潜周期-多元自回归混合模型对表征因素采用最佳预测公式进行预测。
为了后续对表征因素时序预测误差的建模工作,需将表征因素时序预测值分为误差建模用数据和预测用数据。首先对前Nt(1<Nt<N)个时刻的特征因素时序进行多元非平稳时序建模,得到Nt+1,Nt+2,…,N,N+1,N+2,…时刻的表征因素时序预测值。
将Nt+1,Nt+2,…,N时刻表征因素时序预测值作为误差建模用数据,根据Nt+1,Nt+2,…,N时刻表征因素真实值,得到Nt+1,Nt+2,…,N时刻表征因素时序预测误差,即
表征因素时序预测误差=表征因素真实值-表征因素时序预测值(3)则该表征因素时序预测误差即可为后续的误差影响因素核主成分分析及表征因素时序预测误差建模所用。
将N+1,N+2,…时刻表征因素时序预测值作为预测用数据,以实现对N+1,N+2,…时刻表征因素的最终预测。
步骤二、误差影响因素核主成分分析;
影响水华暴发的因素众多,如果将所有水华影响因素考虑进来进行表征因素时序预测误差模型构建,不但模型的复杂度会增多,稳定性也会下降,降低了模型的预测能力。同时,有些水华影响因素对表征因素时序预测误差影响较其它因素来说较小,并考虑到各因素间可能存在的非线性关系,因此用核主成分分析法进行误差影响因素分析。
对于众多水华影响因素,通过引入核函数,应用核主成分分析的方法将水华影响因素与表征因素时序预测误差进行非线性变换分析,提取出各因素之间的非线性关系,通过比较各水华影响因素与表征因素预测误差的相关性,最终确定表征因素预测误差的主要影响因素。
如果表征因素预测误差的主要影响因素为大样本数据,转步骤三;否则转步骤四。
步骤三、神经网络误差建模;
针对大样本数据情形,例如可获得表征因素时序预测误差及误差影响因素时序的样本量N-Nt大于等于100时,采用BP神经网络作为误差预测模型。利用适于大样本数据下描述非线性系统的BP神经网络,对Nt+1,Nt+2,…,N时刻表征因素时序预测误差进行建模训练,将由步骤二确定的表征因素预测误差影响因素作为神经网络的输入,输出表征因素时序预测误差的预测值,从而实现对N+1,N+2,…时刻表征因素时序预测误差的预测。
步骤四、支持向量机误差建模;
针对小样本数据情形,例如可获得表征因素时序预测误差及误差影响因素时序的样本量N-Nt小于100时,采用支持向量机作为误差预测模型。利用适于小样本数据下描述非线性系统的支持向量回归机,对Nt+1,Nt+2,…,N时刻表征因素时序预测误差进行建模训练,将由步骤二确定的表征因素预测误差影响因素作为支持向量机的输入,输出表征因素时序预测误差的预测值,从而实现对N+1,N+2,…时刻表征因素时序预测误差的预测。
步骤五、误差补偿;
将N+1,N+2,…时刻的表征因素时序预测值与表征因素时序预测误差的预测值相加,得到N+1,N+2,…时刻表征因素最终预测值,即表征因素时序预测误差补偿后的预测值,其公式如下:
表征因素最终预测值=表征因素时序预测值+表征因素时序预测误差的预测值(4)从而实现采用非线性的神经网络及支持向量机模型建立的误差预测模型对线性的多元非平稳时序模型预测结果的误差补偿。
本发明的优点在于:
1、本发明提出采用多元非平稳时序分析方法对水华特征因素时序进行建模,通过在特征因素时序模型中增加趋势项模型,考虑了实际水华形成过程中特征因素时序可能存在的非平稳变化情况,对水华形成过程的描述更符合实际,使水华建模预测的结果更加准确。
2、本发明对于水华暴发的众多影响因素,考虑各水华影响因素及表征因素时序预测误差之间可能存在的非线性关系,提出对水华影响因素与表征因素时序预测误差进行核主成分分析,从而提取出与表征因素时序预测误差相关性较大的主要影响因素,减少了参与表征因素时序预测误差模型构建的影响因素个数,降低了误差预测模型的复杂度,提高了模型稳定性及预测能力。
3、本发明考虑到藻类水华形成过程存在复杂非线性特性,针对时序模型预测误差变化特点,提出采用适于非线性系统建模的神经网络及支持向量机方法对时序模型的预测误差进行补偿,实现了适于线性系统建模的时序分析方法与适于非线性系统建模的统计学习方法的优势互补,提高了水华预测精度。
4、本发明提出的采用适于反映未来时刻外界影响因素对数据相关关系的模型对时序预测误差进行补偿,能够在未来时刻外界影响因素发生较大变化时,对时序预测误差进行及时修正,提高了水华预测精度。
5、本发明提出的神经网络误差预测模型适合于大样本情况下的水华预测以及非线性系统建模,使得在样本量充足的情况下,能够保证水华预测精度的同时还保证运算的快速高效。
6、本发明提出的支持向量机误差预测模型适合于小样本情况下的水华预测以及非线性系统建模,使得在样本量有限的情况下,能够保证水华预测的精度,解决现有水华预测中难以针对小样本数据预测的问题。
附图说明
图1是本发明基于多元非平稳时序分析与神经网络及支持向量机补偿的湖库藻类水华预测方法的流程图;
图2是叶绿素时序预测误差补偿示意图;
图3是第901天到1050天的pH值、耗氧量、水温、浊度四个水华影响因素;
图4是第901天到1050天的氨氮、总氮、总磷、溶解氧四个水华影响因素;
图5是第901天到1050天的叶绿素真实值的误差建模用数据和预测用数据;
图6是第901天到1050天的叶绿素时序预测值的误差建模用数据和预测用数据;
图7是第901天到1050天的叶绿素时序预测误差真实值的误差建模用数据和预测用数据;
图8是小样本情况下的叶绿素时序预测误差预测结果;
图9是小样本情况下的叶绿素最终预测结果;
图10是大样本情况下的叶绿素时序预测误差预测结果;
图11是大样本情况下的叶绿素最终预测结果。
具体实施方式
下面将结合附图对本发明作进一步的详细说明。
本发明提供一种基于多元非平稳时间序列分析与神经网络及支持向量机补偿的湖库藻类水华预测方法,如图1所示流程,具体步骤如下:
步骤一、特征因素多元非平稳时序建模;
对前Nt(1<Nt<N)个时刻的特征因素时序进行多元非平稳时序建模。
1、确定特征因素时序结构;
将t时刻的特征因素向量Yt按公式(1)分解为趋势项Ft、周期项Ct和随机项Rt的叠加。
2、建立特征因素时序趋势项模型;
本发明针对不同类型的特征因素,采用其相应常用的时间函数模型作为该特征因素的趋势项模型,即:
针对pH、耗氧量、温度、总氮、总磷、溶解氧等水华影响因素,以及叶绿素、藻密度等水华表征因素,采用对数函数如ln(a/t)、指数函数如a·et、多项式函数如t(a+t)等常用时间函数模型,其中a为常数,作为各特征因素的候选趋势项模型,根据各特征因素时序Yt,利用最小二乘法等曲线拟合方法,对各特征因素时序进行曲线拟合,选取各特征因素的最优曲线拟合时间函数,即曲线拟合误差最小者,作为各特征因素的趋势项模型向量Ft。
3、建立特征因素时序周期项模型及随机项模型;
从Yt减去Ft后,采用多重潜周期模型描述特征因素时序周期项Ct。
从Yt减去Ft及Ct后,对随机项即Yt的平稳随机性部分Rt采用多元自回归模型描述。
4、表征因素时序预测;
所建特征因素多元非平稳时序模型,即回归-多重潜周期-多元自回归混合模型如下:
其中C(t)为多重潜周期模型的多重潜周期函数,p为多元自回归阶数,Ηj为n×n多元自回归系数矩阵,Rt-j为在t-j时刻下的随机项,Εt为相互独立且服从N[0,Q]的n维白噪声向量,Q为n维白噪声的方差矩阵。
对表征因素在Nt时刻向前预测l(l=1,2,…)步,采用特征因素多元非平稳时序模型最佳预测公式:
进行预测,其中为Nt+l时刻的特征因素向量预测值,F(Nt+l)为Nt+l时刻趋势项预测值,C(Nt+l)为Nt+l时刻周期项预测值,为Nt+l-j时刻随机项预测值,取其中的表征因素预测值作为表征因素时序预测结果。
步骤二、误差影响因素核主成分分析;
本发明对误差影响因素进行核主成分分析的核函数采用高斯径向基函数。
对误差影响因素进行核主成分分析的具体步骤如下:
1、对数据预处理,将pH、耗氧量、温度、总氮、总磷、溶解氧等水华影响因素以及表征因素预测误差共n个指标(每个指标有(N-Nt)个样本)的一批数据写成一个((N-Nt)×n)维数据矩阵;
2、通过核主成分分析的方法提取出该数据矩阵中各因素之间的非线性关系,根据主成分的特征向量比较各水华影响因素与表征因素预测误差的相关性,从而确定最终的表征因素预测误差影响因素。
如果最终确定的影响因素为大样本数据,转步骤三进行神经网络误差建模;否则,转步骤四,进行支持向量机误差建模。
步骤三、神经网络误差建模;
由于BP神经网络的初始权值是随机的,导致模型每次的预测结果差异较大,因此加入遗传算法对BP神经网络的初始权值进行优化,提高网络的泛化能力。
神经网络误差建模的具体步骤如下:
1、遗传算法优化初值;
根据由步骤二得到的表征因素预测误差影响因素的个数以及表征因素的个数进行种群初始化,即采用实数编码方式,设有若干个个体的实数编码种群,它的染色体长L为:
L=L1*R+R*L2+R+L2
其中L1、L2分别为BP神经网络的输入、输出数据向量的维数,即表征因素预测误差影响因素的个数以及表征因素的个数,R为BP神经网络隐层神经元的个数。通过遗传算法,从该种群中搜索出最优个体,从而得到BP神经网络初始权值的最优解。
2、神经网络建模训练;
将由步骤二确定的Nt+1,Nt+2,…,N时刻的表征因素预测误差影响因素作为BP神经网络的输入,将Nt+1,Nt+2,…,N时刻的表征因素时序预测误差作为输出,以遗传算法得出的优化初值作为BP神经网络的初始权值,对表征因素时序预测误差进行BP神经网络建模训练。
3、神经网络误差预测;
采用训练好的BP神经网络模型,将N+1,N+2,…时刻的表征因素预测误差影响因素作为BP神经网络的输入,输出N+1,N+2,…时刻的表征因素预测误差的预测值。
步骤四、支持向量机误差建模;
采用最小二乘支持向量机对表征因素时序预测误差建模。最小二乘支持向量机所使用的核函数为径向基核函数。
支持向量机误差建模具体步骤如下:
1、支持向量机模型参数优化;
根据Nt+1,Nt+2,…,N时刻的表征因素预测误差影响因素及表征因素时序预测误差寻找最优化的最小二乘支持向量机模型参数,即正则化参数γ和核函数参数σ2。对于支持向量机预测问题,通过网格搜索,对模型参数的多种组合采用留一法等计算方法得到平均绝对误差最小的模型参数组合,作为最优化参数。
2、支持向量机建模训练;
将由步骤二确定的Nt+1,Nt+2,…,N时刻的表征因素预测误差影响因素作为最小二乘支持向量机的输入,将Nt+1,Nt+2,…,N时刻的表征因素时序预测误差作为输出,以得出的最优化参数作为最小二乘支持向量机的模型参数,对表征因素时序预测误差进行最小二乘支持向量机建模训练。
3、支持向量机误差预测;
采用训练好的最小二乘支持向量机模型,将N+1,N+2,…时刻的表征因素预测误差影响因素作为最小二乘支持向量机的输入,输出N+1,N+2,…时刻的表征因素预测误差的预测值。
步骤五、误差补偿;
误差补偿的具体步骤如下:
1、N+1,N+2,…时刻的表征因素时序预测;
采用步骤一的方法,将N+1,N+2,…时刻表征因素时序预测值作为预测用数据。
2、N+1,N+2,…时刻表征因素时序预测误差预测;
根据可获得表征因素时序预测误差及误差影响因素时序的样本量N-Nt大小,选择采用步骤三所建立的神经网络误差预测模型或步骤四所建立的支持向量机误差预测模型,根据N+1,N+2,…时刻的误差影响因素,得到N+1,N+2,…时刻的表征因素时序预测误差的预测值。
3、N+1,N+2,…时刻的表征因素误差补偿。
根据公式(4),将N+1,N+2,…时刻的表征因素时序预测值与N+1,N+2,…时刻的表征因素时序预测误差预测值进行叠加,得到N+1,N+2,…时刻的表征因素最终预测值,实现表征因素误差补偿,以叶绿素作为表征因素为例,误差补偿示意图见图2,将叶绿素时序预测误差预测值与叶绿素时序预测值叠加得到叶绿素最终预测值。
实施例1:
步骤一、特征因素多元非平稳时序建模;
对江苏省太湖2009年6月至2012年6月的9个水华特征因素进行监测,具体见表1。
表1水华特征因素监测名单
名称 | pH值 | 耗氧量 | 水温 | 浊度 | 氨氮 | 总氮 | 总磷 | 溶解氧 | 叶绿素 |
单位 | 无 | mg/L | ℃ | NTU | mg/L | mg/L | mg/L | mg/L | mg/L |
其中叶绿素为水华表征因素,其余的8个特征因素为水华影响因素。监测设备一共记录了1050天的水华特征因素数据,其9个特征因素原始时序经零均值化处理后的901天监测数据用于多元非平稳时序建模,对901天到1050天的表征因素叶绿素进行多元非平稳时序预测,第901天到1050天的水华影响因素见图3和图4。
为将本发明提出的两种误差建模方法在不同样本量下误差预测结果进行比较,将901天到990天共90天的叶绿素真实值、叶绿素时序预测值以及叶绿素时序预测误差真实值作为小样本情况下的误差建模用数据,将991天到1010天共20天的叶绿素真实值、叶绿素时序预测值以及叶绿素时序预测误差真实值作为小样本情况下的预测用数据;将901天到1030天共130天的叶绿素真实值、叶绿素时序预测值以及叶绿素时序预测误差真实值作为大样本情况下的误差建模用数据,将1031天到1050天共20天的叶绿素真实值、叶绿素时序预测值以及叶绿素时序预测误差真实值作为大样本情况下的预测用数据。
叶绿素真实值、叶绿素时序预测值以及叶绿素时序预测误差真实值在两种样本量情况下的误差建模用数据和预测用数据分别见图5、图6和图7。
步骤二、误差影响因素核主成分分析;
分别针对小样本和大样本情况下的水华影响因素进行误差影响因素的核主成分分析,分析结果如表2和表3。
表2误差影响因素核主成分分析特征向量(小样本情况)
表3误差影响因素核主成分分析特征向量(大样本情况)
从表2和表3可以看到:对于小样本和大样本情况,第1主成分中均以溶解氧、叶绿素时序预测误差的特征向量绝对值较大,第2主成分中均以总磷、总氮的特征向量绝对值较大,因此筛选出溶解氧、总磷、总氮三个水华影响因素作为叶绿素时序预测误差影响因素。
步骤三、神经网络误差建模;
分别针对小样本和大样本情况下对经步骤二筛选后的误差影响因素和叶绿素时序预测误差进行神经网络误差建模。所建神经网络模型的误差预测结果分别如图8和图10所示。
步骤四、支持向量机误差建模;
分别针对小样本和大样本情况下对经步骤二筛选后的误差影响因素和叶绿素时序预测误差进行支持向量机误差建模。所建支持向量机模型的误差预测结果分别如图8和图10所示。
步骤五、误差补偿。
分别将小样本和大样本情况下的叶绿素时序预测值(预测用数据),与由神经网络及支持向量机模型得到的误差预测值进行叠加,得到叶绿素最终预测值,结果如图9和图11所示,最终预测误差如表4所示。
表4叶绿素最终预测相对误差
样本量 | 支持向量机最终预测误差 | 神经网络最终预测误差 |
小样本 | 0.3857 | 0.5389 |
大样本 | 0.4346 | 0.3721 |
由预测结果对比可知,在小样本情况下,采用支持向量机作为误差预测模型对叶绿素时序预测误差补偿后的最终预测结果相比采用神经网络作为误差预测模型更接近叶绿素的真实值;而在大样本情况下,采用神经网络作为误差预测模型对叶绿素时序预测误差补偿后的最终预测结果相比采用支持向量机作为误差预测模型更接近叶绿素的真实值,因此验证了本发明提出的误差补偿预测方法。
Claims (4)
1.基于多元非平稳时间序列分析与神经网络及支持向量机补偿的湖库藻类水华预测方法,其特征在于:
步骤一、特征因素多元非平稳时序建模;
(1)、确定特征因素时序结构;
以Yt表示t时刻的特征因素向量;以yit表示第i个特征因素在t时刻的量值,总采样时间为N,t=1,2,…,N,共有n个特征因素,i=1,2,…,n;将t时刻的特征因素向量Yt分解为趋势项Ft、周期项Ct和随机项Rt的叠加,以fit表示第i个特征因素的趋势项,cit为第i个特征因素的周期项,rit为第i个特征因素的随机项,i=1,2,…,n,即
Yt=Ft+Ct+Rt(1)
(2)、建立特征因素时序趋势项模型;
趋势项Ft为n维以时间t为自变量的回归函数向量,其表达式为:
(3)、建立特征因素时序周期项模型及随机项模型;
对特征因素时序周期项和随机项分别采用特征因素的多重潜周期模型和多元自回归模型建模;
(4)、表征因素时序预测;
将表征因素时序预测值分为误差建模用数据和预测用数据;首先对前Nt个时刻的特征因素时序进行多元非平稳时序建模,得到Nt+1,Nt+2,…,N,N+1,N+2,…时刻的表征因素时序预测值,1<Nt<N;
将Nt+1,Nt+2,…,N时刻表征因素时序预测值作为误差建模用数据,根据Nt+1,Nt+2,…,N时刻表征因素真实值,得到Nt+1,Nt+2,…,N时刻表征因素时序预测误差,即
表征因素时序预测误差=表征因素真实值-表征因素时序预测值(3)则该表征因素时序预测误差即可为后续的误差影响因素核主成分分析及表征因素时序预测误差建模所用;
将N+1,N+2,…时刻表征因素时序预测值作为预测用数据,以实现对N+1,N+2,…时刻表征因素的最终预测;所建特征因素多元非平稳时序模型,如下:
其中C(t)为多重潜周期模型的多重潜周期函数,p为多元自回归阶数,Ηj为n×n多元自回归系数矩阵,Rt-j为在t-j时刻下的随机项,Εt为相互独立且服从N[0,Q]的n维白噪声向量,Q为n维白噪声的方差矩阵。
对表征因素在Nt时刻向前预测l步,l=12,…,采用特征因素多元非平稳时序模型最佳预测公式:
进行预测,其中为Nt+l(l>0)时刻的特征因素向量预测值,F(Nt+l)为Nt+l时刻趋势项预测值,C(Nt+l)为Nt+l时刻周期项预测值,为Nt+l-j时刻随机项预测值,取其中的表征因素预测值作为表征因素时序预测结果;
步骤二、误差影响因素核主成分分析;
如果表征因素预测误差的主要影响因素为大样本数据,转步骤三;否则转步骤四;
步骤三、神经网络误差建模;
步骤四、支持向量机误差建模;
步骤五、误差补偿;
将N+1,N+2,…时刻的表征因素时序预测值与表征因素时序预测误差的预测值相加,得到N+1,N+2,…时刻表征因素最终预测值,即表征因素时序预测误差补偿后的预测值,其公式如下:
表征因素最终预测值=表征因素时序预测值+表征因素时序预测误差的预测值(4)从而实现采用非线性的神经网络及支持向量机模型建立的误差预测模型对线性的多元非平稳时序模型预测结果的误差补偿。
2.根据权利要求1所述的基于多元非平稳时间序列分析与神经网络及支持向量机补偿的湖库藻类水华预测方法,其特征在于:对误差影响因素进行核主成分分析的具体步骤如下:
(1)对数据预处理,将水华影响因素,以及表征因素预测误差共n个指标的一批数据写成一个((N-Nt)×n)维数据矩阵;所述影响因素包括pH、耗氧量、温度、总氮、总磷和溶解氧;
(2)通过核主成分分析的方法提取出该数据矩阵中各因素之间的非线性关系,根据主成分的特征向量比较各水华影响因素与表征因素预测误差的相关性,从而确定最终的表征因素预测误差影响因素。
3.根据权利要求1所述的基于多元非平稳时间序列分析与神经网络及支持向量机补偿的湖库藻类水华预测方法,其特征在于:神经网络误差建模的具体步骤如下:
(1)遗传算法优化初值;
根据由步骤二得到的表征因素预测误差影响因素的个数以及表征因素的个数进行种群初始化,即采用实数编码方式,设有若干个个体的实数编码种群,它的染色体长L为:
L=L1*R+R*L2+R+L2
其中L1、L2分别为BP神经网络的输入、输出数据向量的维数,即表征因素预测误差影响因素的个数以及表征因素的个数,R为BP神经网络隐层神经元的个数;通过遗传算法,从该种群中搜索出最优个体,从而得到BP神经网络初始权值的最优解;
(2)神经网络建模训练;
将由步骤二确定的Nt+1,Nt+2,…,N时刻的表征因素预测误差影响因素作为BP神经网络的输入,将Nt+1,Nt+2,…,N时刻的表征因素时序预测误差作为输出,以遗传算法得出的优化初值作为BP神经网络的初始权值,对表征因素时序预测误差进行BP神经网络建模训练;
(3)神经网络误差预测;
采用训练好的BP神经网络模型,将N+1,N+2,…时刻的表征因素预测误差影响因素作为BP神经网络的输入,输出N+1,N+2,…时刻的表征因素预测误差的预测值。
4.根据权利要求1所述的基于多元非平稳时间序列分析与神经网络及支持向量机补偿的湖库藻类水华预测方法,其特征在于:支持向量机误差建模具体步骤如下:
(1)、支持向量机模型参数优化;
根据Nt+1,Nt+2,…,N时刻的表征因素预测误差影响因素及表征因素时序预测误差寻找最优化的最小二乘支持向量机模型参数,即正则化参数γ和核函数参数σ2;对于支持向量机预测问题,通过网格搜索,对模型参数的多种组合采用留一法得到平均绝对误差最小的模型参数组合,作为最优参数;
(2)、支持向量机建模训练;
将由步骤二确定的Nt+1,Nt+2,…,N时刻的表征因素预测误差影响因素作为最小二乘支持向量机的输入,将Nt+1,Nt+2,…,N时刻的表征因素时序预测误差作为输出,以得出的最优化参数作为最小二乘支持向量机的模型参数,对表征因素时序预测误差进行最小二乘支持向量机建模训练;
(3)、支持向量机误差预测;
采用训练好的最小二乘支持向量机模型,将N+1,N+2,…时刻的表征因素预测误差影响因素作为最小二乘支持向量机的输入,输出N+1,N+2,…时刻的表征因素预测误差的预测值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410138148.1A CN103886218B (zh) | 2014-04-08 | 2014-04-08 | 基于多元非平稳时间序列分析与神经网络及支持向量机补偿的湖库藻类水华预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410138148.1A CN103886218B (zh) | 2014-04-08 | 2014-04-08 | 基于多元非平稳时间序列分析与神经网络及支持向量机补偿的湖库藻类水华预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103886218A true CN103886218A (zh) | 2014-06-25 |
CN103886218B CN103886218B (zh) | 2016-08-24 |
Family
ID=50955108
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410138148.1A Expired - Fee Related CN103886218B (zh) | 2014-04-08 | 2014-04-08 | 基于多元非平稳时间序列分析与神经网络及支持向量机补偿的湖库藻类水华预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103886218B (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104699979A (zh) * | 2015-03-24 | 2015-06-10 | 北京工商大学 | 基于复杂网络的城市湖库藻类水华混沌时间序列预测方法 |
CN104899653A (zh) * | 2015-06-02 | 2015-09-09 | 北京工商大学 | 基于专家系统及蓝藻生长机理时序模型的湖库蓝藻水华预测方法 |
CN105260616A (zh) * | 2015-10-30 | 2016-01-20 | 刘炜 | 一种医院数据的自动分析方法及自动分析系统 |
CN107153874A (zh) * | 2017-04-11 | 2017-09-12 | 中国农业大学 | 水质预测方法及系统 |
CN107729988A (zh) * | 2017-09-30 | 2018-02-23 | 北京工商大学 | 基于动态深度置信网络的蓝藻水华预测方法 |
CN108053054A (zh) * | 2017-11-22 | 2018-05-18 | 中国农业大学 | 一种河流水质预测方法 |
CN108549740A (zh) * | 2018-03-06 | 2018-09-18 | 华南理工大学 | 一种基于混合智能算法的厌氧系统出水氨氮软测量方法 |
CN108803520A (zh) * | 2018-06-11 | 2018-11-13 | 宁波大学 | 一种基于变量非线性自相关性剔除的动态过程监测方法 |
CN108875230A (zh) * | 2018-06-26 | 2018-11-23 | 北京高能时代环境技术股份有限公司 | 水库水质预测模型的建立方法及装置 |
CN109902882A (zh) * | 2019-03-21 | 2019-06-18 | 北京工业大学 | 原子钟钟差预测模型训练方法及装置 |
CN110046645A (zh) * | 2019-03-04 | 2019-07-23 | 三峡大学 | 一种基于主成分分析与bp神经网络的藻类水华预测方法 |
CN110212570A (zh) * | 2019-05-14 | 2019-09-06 | 国网内蒙古东部电力有限公司电力科学研究院 | 基于mmse挖掘的风电场等值模型及其构建方法和应用 |
CN110568127A (zh) * | 2019-09-09 | 2019-12-13 | 北京工业大学 | 一种基于时域加权的空气污染物浓度监测方法 |
CN110689179A (zh) * | 2019-09-18 | 2020-01-14 | 北京工商大学 | 基于时空序列混合模型的水华预测方法 |
CN111382929A (zh) * | 2020-02-26 | 2020-07-07 | 中国环境科学研究院 | 一种构建河流硅藻水华预警模型的方法及装置 |
CN112989281A (zh) * | 2021-02-20 | 2021-06-18 | 中国科学院南京地理与湖泊研究所 | 一种基于遥感藻总量的藻华预测方法 |
CN113510234A (zh) * | 2021-09-14 | 2021-10-19 | 深圳市信润富联数字科技有限公司 | 轮毂低压铸造的质量监控方法、装置及电子设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9262723B2 (en) * | 2010-10-04 | 2016-02-16 | Ofs Fitel, Llc | Predicting climate data using climate attractors derived from a global climate model |
CN102135531A (zh) * | 2010-12-24 | 2011-07-27 | 中国科学院南京地理与湖泊研究所 | 大型浅水湖泊72小时蓝藻水华预测方法 |
CN102495937A (zh) * | 2011-10-18 | 2012-06-13 | 南京信息工程大学 | 一种基于时间序列的预测方法 |
CN103049669B (zh) * | 2013-01-07 | 2015-09-23 | 北京工商大学 | 基于多元周期平稳时序分析及灰色理论的水华预测及因素分析方法 |
-
2014
- 2014-04-08 CN CN201410138148.1A patent/CN103886218B/zh not_active Expired - Fee Related
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104699979A (zh) * | 2015-03-24 | 2015-06-10 | 北京工商大学 | 基于复杂网络的城市湖库藻类水华混沌时间序列预测方法 |
CN104899653A (zh) * | 2015-06-02 | 2015-09-09 | 北京工商大学 | 基于专家系统及蓝藻生长机理时序模型的湖库蓝藻水华预测方法 |
CN104899653B (zh) * | 2015-06-02 | 2018-01-12 | 北京工商大学 | 基于专家系统及蓝藻生长机理时序模型的湖库蓝藻水华预测方法 |
CN105260616A (zh) * | 2015-10-30 | 2016-01-20 | 刘炜 | 一种医院数据的自动分析方法及自动分析系统 |
CN107153874B (zh) * | 2017-04-11 | 2019-12-20 | 中国农业大学 | 水质预测方法及系统 |
CN107153874A (zh) * | 2017-04-11 | 2017-09-12 | 中国农业大学 | 水质预测方法及系统 |
CN107729988A (zh) * | 2017-09-30 | 2018-02-23 | 北京工商大学 | 基于动态深度置信网络的蓝藻水华预测方法 |
CN108053054B (zh) * | 2017-11-22 | 2020-09-01 | 中国农业大学 | 一种河流水质预测方法 |
CN108053054A (zh) * | 2017-11-22 | 2018-05-18 | 中国农业大学 | 一种河流水质预测方法 |
CN108549740A (zh) * | 2018-03-06 | 2018-09-18 | 华南理工大学 | 一种基于混合智能算法的厌氧系统出水氨氮软测量方法 |
CN108803520B (zh) * | 2018-06-11 | 2020-06-16 | 宁波大学 | 一种基于变量非线性自相关性剔除的动态过程监测方法 |
CN108803520A (zh) * | 2018-06-11 | 2018-11-13 | 宁波大学 | 一种基于变量非线性自相关性剔除的动态过程监测方法 |
CN108875230A (zh) * | 2018-06-26 | 2018-11-23 | 北京高能时代环境技术股份有限公司 | 水库水质预测模型的建立方法及装置 |
CN110046645A (zh) * | 2019-03-04 | 2019-07-23 | 三峡大学 | 一种基于主成分分析与bp神经网络的藻类水华预测方法 |
CN109902882A (zh) * | 2019-03-21 | 2019-06-18 | 北京工业大学 | 原子钟钟差预测模型训练方法及装置 |
CN110212570A (zh) * | 2019-05-14 | 2019-09-06 | 国网内蒙古东部电力有限公司电力科学研究院 | 基于mmse挖掘的风电场等值模型及其构建方法和应用 |
CN110212570B (zh) * | 2019-05-14 | 2023-03-28 | 国网内蒙古东部电力有限公司电力科学研究院 | 基于mmse挖掘的风电场等值模型及其构建方法和应用 |
CN110568127A (zh) * | 2019-09-09 | 2019-12-13 | 北京工业大学 | 一种基于时域加权的空气污染物浓度监测方法 |
CN110568127B (zh) * | 2019-09-09 | 2021-07-30 | 北京工业大学 | 一种基于时域加权的空气污染物浓度监测方法 |
CN110689179A (zh) * | 2019-09-18 | 2020-01-14 | 北京工商大学 | 基于时空序列混合模型的水华预测方法 |
CN111382929A (zh) * | 2020-02-26 | 2020-07-07 | 中国环境科学研究院 | 一种构建河流硅藻水华预警模型的方法及装置 |
CN112989281A (zh) * | 2021-02-20 | 2021-06-18 | 中国科学院南京地理与湖泊研究所 | 一种基于遥感藻总量的藻华预测方法 |
CN112989281B (zh) * | 2021-02-20 | 2023-09-12 | 中国科学院南京地理与湖泊研究所 | 一种基于遥感藻总量的藻华预测方法 |
CN113510234A (zh) * | 2021-09-14 | 2021-10-19 | 深圳市信润富联数字科技有限公司 | 轮毂低压铸造的质量监控方法、装置及电子设备 |
CN113510234B (zh) * | 2021-09-14 | 2022-01-07 | 深圳市信润富联数字科技有限公司 | 轮毂低压铸造的质量监控方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN103886218B (zh) | 2016-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103886218A (zh) | 基于多元非平稳时间序列分析与神经网络及支持向量机补偿的湖库藻类水华预测方法 | |
Tian | Modes decomposition forecasting approach for ultra-short-term wind speed | |
Piltan et al. | Energy demand forecasting in Iranian metal industry using linear and nonlinear models based on evolutionary algorithms | |
Vatter et al. | Generalized additive models for pair-copula constructions | |
Yu et al. | Error correction method based on data transformational GM (1, 1) and application on tax forecasting | |
CN108416460B (zh) | 基于多因素时序—随机深度置信网络模型的蓝藻水华预测方法 | |
Ono et al. | Think outside the grids: An objective approach to define spatial strata for catch and effort analysis | |
CN111652425A (zh) | 一种基于粗糙集和长短期记忆网络的河流水质预测方法 | |
Kogekar et al. | A CNN-BiLSTM-SVR based deep hybrid model for water quality forecasting of the river Ganga | |
Deng et al. | Spatiotemporal characterization and forecasting of coastal water quality in the semi-enclosed Tolo Harbour based on machine learning and EKC analysis | |
Ni et al. | An improved graph convolutional network with feature and temporal attention for multivariate water quality prediction | |
CN115099461A (zh) | 基于双分支特征提取的太阳辐射预测方法及系统 | |
Syeed et al. | Flood prediction using machine learning models | |
Yi | RETRACTED ARTICLE: Forecast of agricultural water resources demand based on particle swarm algorithm | |
Cui et al. | A VMD-MSMA-LSTM-ARIMA model for precipitation prediction | |
Jiang et al. | Deep-reinforcement-learning-based water diversion strategy | |
Liu et al. | Forecasting short-term water demands with an ensemble deep learning model for a water supply system | |
Stutz | Modeling the pre-industrial roots of modern super-exponential population growth | |
Spezia et al. | Periodic multivariate normal hidden Markov models for the analysis of water quality time series | |
Li et al. | Prediction of Barrier Option Price Based on Antithetic Monte Carlo and Machine Learning Methods | |
Liu et al. | Determination of the optimal training principle and input variables in artificial neural network model for the biweekly chlorophyll-a prediction: a case study of the Yuqiao reservoir, China | |
Durell et al. | Hybrid forecasting for functional time series of dissolved oxygen profiles | |
Ebrahimi et al. | A feature-based adaptive combiner for coupling meta-modelling techniques to increase accuracy of river flow prediction | |
Xian et al. | Incremental nonlinear trend fuzzy granulation for carbon trading time series forecast | |
Huang et al. | Cultural creativity, industrial scale, management methods, and their roles in rural revitalization from the perspective of big data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160824 |