CN103886218A

CN103886218A - 基于多元非平稳时间序列分析与神经网络及支持向量机补偿的湖库藻类水华预测方法

Info

Publication number: CN103886218A
Application number: CN201410138148.1A
Authority: CN
Inventors: 王立; 王小艺; 许继平; 于家斌; 施彦; 王凌斌
Original assignee: Beijing Technology and Business University
Current assignee: Beijing Technology and Business University
Priority date: 2014-04-08
Filing date: 2014-04-08
Publication date: 2014-06-25
Anticipated expiration: 2034-04-08
Also published as: CN103886218B

Abstract

本发明公开了一种基于多元非平稳时间序列分析与神经网络及支持向量机补偿的湖库藻类水华预测方法，属于水质监测技术领域。所述方法包括特征因素多元非平稳时序建模；误差影响因素核主成分分析；针对大样本数据情形，神经网络误差建模；针对小样本数据情形，支持向量机误差建模；最后进行误差补偿，得到预测结果。本发明解决了现有的水华预测精度不高、难以针对小样本数据预测等问题，对水华形成过程的描述更符合实际，使水华建模预测的结果更加准确。本发明实现了适于线性系统建模的时序分析方法与适于非线性系统建模的统计学习方法的优势互补，提高了水华预测精度。

Description

基于多元非平稳时间序列分析与神经网络及支持向量机补偿的湖库藻类水华预测方法

技术领域

本发明涉及一种水华预测方法，属于水质监测技术领域，具体地说，是指在多元非平稳时序分析多种特征因素水华生成的随机过程基础上，对其进行时序建模预测，加以神经网络或支持向量机算法对预测模型进行修正，提高预测精度的水华预测方法。

背景技术

随着社会经济发展，水在国民经济和社会发展中的地位和作用越来越突出。然而，近些年来我国湖库由于接纳过量的氮、磷等植物性营养物，使藻类和其它水生植物异常繁殖，出现了水体透明度和溶解氧下降，鱼类及其它生物大量死亡的水体富营养化现象，进而导致藻类水华出现。湖库水华是水体富营养化的一种典型表现，其危害性不仅在于严重污染稀缺的淡水资源，甚至严重破坏了生态环境而且由其产生的藻毒素会通过食物链直接威胁人类的健康，已成为地区经济发展的重要制约因素。因此，湖库水华治理工作亟待加强。

水华的暴发是由水体的物理、化学和生物过程等多种因素共同作用的结果，但各要素之间关系复杂，由于其存在随机性、不确定性和非线性等特征，目前虽然已有针对水华的多种预测方法，但现有水华预测方法仍存在预测精度不高、难以针对小样本数据预测等问题。

由于水华发生的机理很复杂，影响因素较多，因而对其进行预测一直以来都是水华治理和防治工作中的一个难点。近些年来，随着研究的深入，许多基于智能方法建立的模型被应用到水质评价和预测当中，如回归模型、神经网络模型等。

时间序列分析是一种动态数据处理的数理统计方法，适于描述和预测多种特征因素水华生成的随机过程。采用多元时序分析方法，对水华形成的特征因素多元时序建模，从而进行水华预测为一种有效途径。时间序列分析预测的特点在于其突出时间因素在预测中的作用，仅依靠过去时刻的数据就可以对未来时刻的数据进行预测，而无需依赖未来时刻外界因素对数据的影响。

然而，传统的时间序列模型通常只适于平稳性时序、线性系统的建模分析，但是在实际应用中，时间序列通常具有非平稳以及不规则、混沌等非线性特征，采用传统时序分析方法很难对实际系统建立理想的模型。此外，当未来时刻外界影响因素发生较大变化，时间序列分析预测往往会有较大偏差，因此需要采用适于反映未来时刻外界影响因素对数据相关关系的模型对时序预测误差进行补偿。

神经网络与支持向量机是统计学习的代表方法，均适于预测以及非线性系统建模，并且是通过未来时刻外界影响因素与预测对象之间的相关关系而实现对数据的预测。

神经网络方法是基于传统统计学的基础，传统统计学研究的内容是样本量无穷大时的渐进理论，即当样本量趋于无穷多时的统计性质，而实际问题中样本量往往是有限的。因此，假设样本量无穷多，并以此推导出的各种算法很难在样本量有限时取得理想的应用效果。

支持向量机方法是基于统计学理论的基础，与传统统计学理论不同，支持向量机主要是针对小样本情况，且最优解是基于有限的样本信息，而不是样本量趋于无穷大时的最优解。但是当针对大样本情况时该方法的存储和计算将耗费大量的机器内存和运算时间。

发明内容

本发明对湖库水华预测方法进行研究，目的是解决现有的水华预测精度不高、难以针对小样本数据预测等问题，针对实际具有非平稳和非线性特性的水华形成过程特征因素时序，采用多元非平稳时序分析方法建模，并考虑不同样本量的情况下，利用适于非线性系统建模的神经网络及支持向量机方法对时序模型的预测误差进行补偿，从而提高水华预测精度，为环保部门提供有效的参考依据，对湖库水环境的保护和改善起到重要的防治作用。

为便于说明，本说明书中所有未经解释的名词及字母含义均由下述假设解释：与水华现象有关的特征因素分为两种：一种是影响水华发生的特征因素，例如氮、磷、pH值、溶解氧、水温、光照度等，以下叫做影响因素；另一种是表征水华发生的特征因素，例如叶绿素浓度、藻密度等，以下叫做表征因素。以Y_t表示t时刻的特征因素向量；以y_it表示第i个特征因素在t时刻的量值，总采样时间为N，t=1,2,…,N，共有n个特征因素，i=1,2,…,n。

本发明提供的基于多元非平稳时间序列分析与神经网络及支持向量机补偿的湖库藻类水华预测方法主要包括以下五个步骤：

步骤一、特征因素多元非平稳时序建模；

1、确定特征因素时序结构；

考虑到实际水华形成过程中特征因素时序可能存在的非平稳、周期性以及随机性变化，采用多元非平稳时间序列分析技术，将t时刻的特征因素向量Y_t分解为趋势项F_t、周期项C_t和随机项R_t的叠加，以f_it表示第i个特征因素的趋势项，c_it为第i个特征因素的周期项，r_it为第i个特征因素的随机项，i=1,2,…,n，即

Y_t＝F_t+C_t+R_t(1)

Y_{t} = (\begin{matrix} y_{1 t} \\ y_{2 t} \\ . \\ . \\ . \\ y_{nt} \end{matrix}), F_{t} = (\begin{matrix} f_{1 t} \\ f_{2 t} \\ . \\ . \\ . \\ f_{nt} \end{matrix}), C_{t} = (\begin{matrix} c_{1 t} \\ c_{2 t} \\ . \\ . \\ . \\ c_{nt} \end{matrix}), R_{t} = (\begin{matrix} r_{1 t} \\ r_{2 t} \\ . \\ . \\ . \\ r_{nt} \end{matrix})

2、建立特征因素时序趋势项模型；

由于水华藻类生长过程中每个特征因素会具有不同程度的单调性变化趋势，趋势项F_t为n维以时间t为自变量的回归函数向量，其表达式为：

F_{t} = F (t) = (\begin{matrix} f_{1 t} \\ f_{2 t} \\ . \\ . \\ . \\ f_{nt} \end{matrix}) = (\begin{matrix} g_{1} (t) + y_{01} \\ g_{2} (t) + y_{02} \\ . \\ . \\ . \\ g_{n} (t) + y_{0 n} \end{matrix}) - - - (2)

其中，F(t)为n维回归函数向量，g_i(t)为第i个特征因素的回归函数，其函数结构由第i个特征因素与时间的相关关系决定，y_0i为第i个特征因素的初始值，i=1,2,…,n。

3、建立特征因素时序周期项模型及随机项模型；

对特征因素时序周期项和随机项分别采用特征因素的多重潜周期模型和多元自回归模型建模。

4、表征因素时序预测；

利用所建特征因素多元非平稳时序模型，即回归-多重潜周期-多元自回归混合模型对表征因素采用最佳预测公式进行预测。

为了后续对表征因素时序预测误差的建模工作，需将表征因素时序预测值分为误差建模用数据和预测用数据。首先对前N_t(1<N_t<N)个时刻的特征因素时序进行多元非平稳时序建模，得到N_t+1，N_t+2，…，N，N+1，N+2，…时刻的表征因素时序预测值。

将N_t+1，N_t+2，…，N时刻表征因素时序预测值作为误差建模用数据，根据N_t+1，N_t+2，…，N时刻表征因素真实值，得到N_t+1，N_t+2，…，N时刻表征因素时序预测误差，即

表征因素时序预测误差=表征因素真实值-表征因素时序预测值(3)则该表征因素时序预测误差即可为后续的误差影响因素核主成分分析及表征因素时序预测误差建模所用。

将N+1，N+2，…时刻表征因素时序预测值作为预测用数据，以实现对N+1，N+2，…时刻表征因素的最终预测。

步骤二、误差影响因素核主成分分析；

影响水华暴发的因素众多，如果将所有水华影响因素考虑进来进行表征因素时序预测误差模型构建，不但模型的复杂度会增多，稳定性也会下降，降低了模型的预测能力。同时，有些水华影响因素对表征因素时序预测误差影响较其它因素来说较小，并考虑到各因素间可能存在的非线性关系，因此用核主成分分析法进行误差影响因素分析。

对于众多水华影响因素，通过引入核函数，应用核主成分分析的方法将水华影响因素与表征因素时序预测误差进行非线性变换分析，提取出各因素之间的非线性关系，通过比较各水华影响因素与表征因素预测误差的相关性，最终确定表征因素预测误差的主要影响因素。

如果表征因素预测误差的主要影响因素为大样本数据，转步骤三；否则转步骤四。

步骤三、神经网络误差建模；

针对大样本数据情形，例如可获得表征因素时序预测误差及误差影响因素时序的样本量N-N_t大于等于100时，采用BP神经网络作为误差预测模型。利用适于大样本数据下描述非线性系统的BP神经网络，对N_t+1，N_t+2，…，N时刻表征因素时序预测误差进行建模训练，将由步骤二确定的表征因素预测误差影响因素作为神经网络的输入，输出表征因素时序预测误差的预测值，从而实现对N+1，N+2，…时刻表征因素时序预测误差的预测。

步骤四、支持向量机误差建模；

针对小样本数据情形，例如可获得表征因素时序预测误差及误差影响因素时序的样本量N-N_t小于100时，采用支持向量机作为误差预测模型。利用适于小样本数据下描述非线性系统的支持向量回归机，对N_t+1，N_t+2，…，N时刻表征因素时序预测误差进行建模训练，将由步骤二确定的表征因素预测误差影响因素作为支持向量机的输入，输出表征因素时序预测误差的预测值，从而实现对N+1，N+2，…时刻表征因素时序预测误差的预测。

步骤五、误差补偿；

将N+1，N+2，…时刻的表征因素时序预测值与表征因素时序预测误差的预测值相加，得到N+1，N+2，…时刻表征因素最终预测值，即表征因素时序预测误差补偿后的预测值，其公式如下：

表征因素最终预测值=表征因素时序预测值+表征因素时序预测误差的预测值(4)从而实现采用非线性的神经网络及支持向量机模型建立的误差预测模型对线性的多元非平稳时序模型预测结果的误差补偿。

本发明的优点在于：

1、本发明提出采用多元非平稳时序分析方法对水华特征因素时序进行建模，通过在特征因素时序模型中增加趋势项模型，考虑了实际水华形成过程中特征因素时序可能存在的非平稳变化情况，对水华形成过程的描述更符合实际，使水华建模预测的结果更加准确。

2、本发明对于水华暴发的众多影响因素，考虑各水华影响因素及表征因素时序预测误差之间可能存在的非线性关系，提出对水华影响因素与表征因素时序预测误差进行核主成分分析，从而提取出与表征因素时序预测误差相关性较大的主要影响因素，减少了参与表征因素时序预测误差模型构建的影响因素个数，降低了误差预测模型的复杂度，提高了模型稳定性及预测能力。

3、本发明考虑到藻类水华形成过程存在复杂非线性特性，针对时序模型预测误差变化特点，提出采用适于非线性系统建模的神经网络及支持向量机方法对时序模型的预测误差进行补偿，实现了适于线性系统建模的时序分析方法与适于非线性系统建模的统计学习方法的优势互补，提高了水华预测精度。

4、本发明提出的采用适于反映未来时刻外界影响因素对数据相关关系的模型对时序预测误差进行补偿，能够在未来时刻外界影响因素发生较大变化时，对时序预测误差进行及时修正，提高了水华预测精度。

5、本发明提出的神经网络误差预测模型适合于大样本情况下的水华预测以及非线性系统建模，使得在样本量充足的情况下，能够保证水华预测精度的同时还保证运算的快速高效。

6、本发明提出的支持向量机误差预测模型适合于小样本情况下的水华预测以及非线性系统建模，使得在样本量有限的情况下，能够保证水华预测的精度，解决现有水华预测中难以针对小样本数据预测的问题。

附图说明

图1是本发明基于多元非平稳时序分析与神经网络及支持向量机补偿的湖库藻类水华预测方法的流程图；

图2是叶绿素时序预测误差补偿示意图；

图3是第901天到1050天的pH值、耗氧量、水温、浊度四个水华影响因素；

图4是第901天到1050天的氨氮、总氮、总磷、溶解氧四个水华影响因素；

图5是第901天到1050天的叶绿素真实值的误差建模用数据和预测用数据；

图6是第901天到1050天的叶绿素时序预测值的误差建模用数据和预测用数据；

图7是第901天到1050天的叶绿素时序预测误差真实值的误差建模用数据和预测用数据；

图8是小样本情况下的叶绿素时序预测误差预测结果；

图9是小样本情况下的叶绿素最终预测结果；

图10是大样本情况下的叶绿素时序预测误差预测结果；

图11是大样本情况下的叶绿素最终预测结果。

具体实施方式

下面将结合附图对本发明作进一步的详细说明。

本发明提供一种基于多元非平稳时间序列分析与神经网络及支持向量机补偿的湖库藻类水华预测方法，如图1所示流程，具体步骤如下：

步骤一、特征因素多元非平稳时序建模；

对前N_t(1<N_t<N)个时刻的特征因素时序进行多元非平稳时序建模。

1、确定特征因素时序结构；

将t时刻的特征因素向量Y_t按公式（1）分解为趋势项F_t、周期项C_t和随机项R_t的叠加。

2、建立特征因素时序趋势项模型；

本发明针对不同类型的特征因素，采用其相应常用的时间函数模型作为该特征因素的趋势项模型，即：

针对pH、耗氧量、温度、总氮、总磷、溶解氧等水华影响因素，以及叶绿素、藻密度等水华表征因素，采用对数函数如ln(a/t)、指数函数如a·e^t、多项式函数如t(a+t)等常用时间函数模型，其中a为常数，作为各特征因素的候选趋势项模型，根据各特征因素时序Y_t，利用最小二乘法等曲线拟合方法，对各特征因素时序进行曲线拟合，选取各特征因素的最优曲线拟合时间函数，即曲线拟合误差最小者，作为各特征因素的趋势项模型向量F_t。

3、建立特征因素时序周期项模型及随机项模型；

从Y_t减去F_t后，采用多重潜周期模型描述特征因素时序周期项C_t。

从Y_t减去F_t及C_t后，对随机项即Y_t的平稳随机性部分R_t采用多元自回归模型描述。

4、表征因素时序预测；

所建特征因素多元非平稳时序模型，即回归-多重潜周期-多元自回归混合模型如下：

Y_{t} = F_{t} + C_{t} + R_{t} = F (t) + C (t) + Σ_{j = 1}^{p} H_{j} R_{t - j} + E_{t} .

其中C(t)为多重潜周期模型的多重潜周期函数，ｐ为多元自回归阶数，Η_j为n×n多元自回归系数矩阵，R_t-j为在t-j时刻下的随机项，Ε_t为相互独立且服从N[0，Q]的n维白噪声向量，Q为n维白噪声的方差矩阵。

对表征因素在N_t时刻向前预测l（l=1,2,…）步，采用特征因素多元非平稳时序模型最佳预测公式：

Y_{N_{t} + 1} = F (N_{t} + l) + C (N_{t} + l) + Σ_{j = 1}^{p} H_{j} R_{N_{t} + l - j}

进行预测，其中为N_t+l时刻的特征因素向量预测值，F(N_t+l)为N_t+l时刻趋势项预测值，C(N_t+l)为N_t+l时刻周期项预测值，

为N_t+l-j时刻随机项预测值，取其中的表征因素预测值作为表征因素时序预测结果。

步骤二、误差影响因素核主成分分析；

本发明对误差影响因素进行核主成分分析的核函数采用高斯径向基函数。

对误差影响因素进行核主成分分析的具体步骤如下：

1、对数据预处理，将pH、耗氧量、温度、总氮、总磷、溶解氧等水华影响因素以及表征因素预测误差共n个指标（每个指标有（N-N_t）个样本）的一批数据写成一个（（N-N_t）×n）维数据矩阵；

2、通过核主成分分析的方法提取出该数据矩阵中各因素之间的非线性关系，根据主成分的特征向量比较各水华影响因素与表征因素预测误差的相关性，从而确定最终的表征因素预测误差影响因素。

如果最终确定的影响因素为大样本数据，转步骤三进行神经网络误差建模；否则，转步骤四，进行支持向量机误差建模。

步骤三、神经网络误差建模；

由于BP神经网络的初始权值是随机的，导致模型每次的预测结果差异较大，因此加入遗传算法对BP神经网络的初始权值进行优化，提高网络的泛化能力。

神经网络误差建模的具体步骤如下：

1、遗传算法优化初值；

根据由步骤二得到的表征因素预测误差影响因素的个数以及表征因素的个数进行种群初始化，即采用实数编码方式，设有若干个个体的实数编码种群，它的染色体长L为：

L＝L1*R+R*L2+R+L2

其中L1、L2分别为BP神经网络的输入、输出数据向量的维数，即表征因素预测误差影响因素的个数以及表征因素的个数，R为BP神经网络隐层神经元的个数。通过遗传算法，从该种群中搜索出最优个体，从而得到BP神经网络初始权值的最优解。

2、神经网络建模训练；

将由步骤二确定的N_t+1，N_t+2，…，N时刻的表征因素预测误差影响因素作为BP神经网络的输入，将N_t+1，N_t+2，…，N时刻的表征因素时序预测误差作为输出，以遗传算法得出的优化初值作为BP神经网络的初始权值，对表征因素时序预测误差进行BP神经网络建模训练。

3、神经网络误差预测；

采用训练好的BP神经网络模型，将N+1，N+2，…时刻的表征因素预测误差影响因素作为BP神经网络的输入，输出N+1，N+2，…时刻的表征因素预测误差的预测值。

步骤四、支持向量机误差建模；

采用最小二乘支持向量机对表征因素时序预测误差建模。最小二乘支持向量机所使用的核函数为径向基核函数。

支持向量机误差建模具体步骤如下：

1、支持向量机模型参数优化；

根据N_t+1，N_t+2，…，N时刻的表征因素预测误差影响因素及表征因素时序预测误差寻找最优化的最小二乘支持向量机模型参数，即正则化参数γ和核函数参数σ₂。对于支持向量机预测问题，通过网格搜索，对模型参数的多种组合采用留一法等计算方法得到平均绝对误差最小的模型参数组合，作为最优化参数。

2、支持向量机建模训练；

将由步骤二确定的N_t+1，N_t+2，…，N时刻的表征因素预测误差影响因素作为最小二乘支持向量机的输入，将N_t+1，N_t+2，…，N时刻的表征因素时序预测误差作为输出，以得出的最优化参数作为最小二乘支持向量机的模型参数，对表征因素时序预测误差进行最小二乘支持向量机建模训练。

3、支持向量机误差预测；

采用训练好的最小二乘支持向量机模型，将N+1，N+2，…时刻的表征因素预测误差影响因素作为最小二乘支持向量机的输入，输出N+1，N+2，…时刻的表征因素预测误差的预测值。

步骤五、误差补偿；

误差补偿的具体步骤如下：

1、N+1，N+2，…时刻的表征因素时序预测；

采用步骤一的方法，将N+1，N+2，…时刻表征因素时序预测值作为预测用数据。

2、N+1，N+2，…时刻表征因素时序预测误差预测；

根据可获得表征因素时序预测误差及误差影响因素时序的样本量N-N_t大小，选择采用步骤三所建立的神经网络误差预测模型或步骤四所建立的支持向量机误差预测模型，根据N+1，N+2，…时刻的误差影响因素，得到N+1，N+2，…时刻的表征因素时序预测误差的预测值。

3、N+1，N+2，…时刻的表征因素误差补偿。

根据公式（4），将N+1，N+2，…时刻的表征因素时序预测值与N+1，N+2，…时刻的表征因素时序预测误差预测值进行叠加，得到N+1，N+2，…时刻的表征因素最终预测值，实现表征因素误差补偿，以叶绿素作为表征因素为例，误差补偿示意图见图2，将叶绿素时序预测误差预测值与叶绿素时序预测值叠加得到叶绿素最终预测值。

实施例1：

步骤一、特征因素多元非平稳时序建模；

对江苏省太湖2009年6月至2012年6月的9个水华特征因素进行监测，具体见表1。

表1水华特征因素监测名单

名称

pH值

耗氧量

水温

浊度

氨氮

总氮

总磷

溶解氧

叶绿素

单位

无

mg/L

℃

NTU

mg/L

其中叶绿素为水华表征因素，其余的8个特征因素为水华影响因素。监测设备一共记录了1050天的水华特征因素数据，其9个特征因素原始时序经零均值化处理后的901天监测数据用于多元非平稳时序建模，对901天到1050天的表征因素叶绿素进行多元非平稳时序预测，第901天到1050天的水华影响因素见图3和图4。

为将本发明提出的两种误差建模方法在不同样本量下误差预测结果进行比较，将901天到990天共90天的叶绿素真实值、叶绿素时序预测值以及叶绿素时序预测误差真实值作为小样本情况下的误差建模用数据，将991天到1010天共20天的叶绿素真实值、叶绿素时序预测值以及叶绿素时序预测误差真实值作为小样本情况下的预测用数据；将901天到1030天共130天的叶绿素真实值、叶绿素时序预测值以及叶绿素时序预测误差真实值作为大样本情况下的误差建模用数据，将1031天到1050天共20天的叶绿素真实值、叶绿素时序预测值以及叶绿素时序预测误差真实值作为大样本情况下的预测用数据。

叶绿素真实值、叶绿素时序预测值以及叶绿素时序预测误差真实值在两种样本量情况下的误差建模用数据和预测用数据分别见图5、图6和图7。

步骤二、误差影响因素核主成分分析；

分别针对小样本和大样本情况下的水华影响因素进行误差影响因素的核主成分分析，分析结果如表2和表3。

表2误差影响因素核主成分分析特征向量（小样本情况）

表3误差影响因素核主成分分析特征向量（大样本情况）

从表2和表3可以看到：对于小样本和大样本情况，第1主成分中均以溶解氧、叶绿素时序预测误差的特征向量绝对值较大，第2主成分中均以总磷、总氮的特征向量绝对值较大，因此筛选出溶解氧、总磷、总氮三个水华影响因素作为叶绿素时序预测误差影响因素。

步骤三、神经网络误差建模；

分别针对小样本和大样本情况下对经步骤二筛选后的误差影响因素和叶绿素时序预测误差进行神经网络误差建模。所建神经网络模型的误差预测结果分别如图8和图10所示。

步骤四、支持向量机误差建模；

分别针对小样本和大样本情况下对经步骤二筛选后的误差影响因素和叶绿素时序预测误差进行支持向量机误差建模。所建支持向量机模型的误差预测结果分别如图8和图10所示。

步骤五、误差补偿。

分别将小样本和大样本情况下的叶绿素时序预测值(预测用数据)，与由神经网络及支持向量机模型得到的误差预测值进行叠加，得到叶绿素最终预测值，结果如图9和图11所示，最终预测误差如表4所示。

表4叶绿素最终预测相对误差

样本量	支持向量机最终预测误差	神经网络最终预测误差
			小样本	0.3857	0.5389
大样本	0.4346	0.3721

由预测结果对比可知，在小样本情况下，采用支持向量机作为误差预测模型对叶绿素时序预测误差补偿后的最终预测结果相比采用神经网络作为误差预测模型更接近叶绿素的真实值；而在大样本情况下，采用神经网络作为误差预测模型对叶绿素时序预测误差补偿后的最终预测结果相比采用支持向量机作为误差预测模型更接近叶绿素的真实值，因此验证了本发明提出的误差补偿预测方法。

Claims

1.基于多元非平稳时间序列分析与神经网络及支持向量机补偿的湖库藻类水华预测方法，其特征在于：

步骤一、特征因素多元非平稳时序建模；

(1)、确定特征因素时序结构；

以Y_t表示t时刻的特征因素向量；以y_it表示第i个特征因素在t时刻的量值，总采样时间为N，t=1,2,…,N，共有n个特征因素，i=1,2,…,n；将t时刻的特征因素向量Y_t分解为趋势项F_t、周期项C_t和随机项R_t的叠加，以f_it表示第i个特征因素的趋势项，c_it为第i个特征因素的周期项，r_it为第i个特征因素的随机项，i=1,2,…,n，即

Y_t＝F_t+C_t+R_t(1)

Y_{t} = (\begin{matrix} y_{1 t} \\ y_{2 t} \\ . \\ . \\ . \\ y_{nt} \end{matrix}), F_{t} = (\begin{matrix} f_{1 t} \\ f_{2 t} \\ . \\ . \\ . \\ f_{nt} \end{matrix}), C_{t} = (\begin{matrix} c_{1 t} \\ c_{2 t} \\ . \\ . \\ . \\ c_{nt} \end{matrix}), R_{t} = (\begin{matrix} r_{1 t} \\ r_{2 t} \\ . \\ . \\ . \\ r_{nt} \end{matrix})

(2)、建立特征因素时序趋势项模型；

趋势项F_t为n维以时间t为自变量的回归函数向量，其表达式为：

F_{t} = F (t) = (\begin{matrix} f_{1 t} \\ f_{2 t} \\ . \\ . \\ . \\ f_{nt} \end{matrix}) = (\begin{matrix} g_{1} (t) + y_{01} \\ g_{2} (t) + y_{02} \\ . \\ . \\ . \\ g_{n} (t) + y_{0 n} \end{matrix}) - - - (2)

其中，F(t)为n维回归函数向量，g_i(t)为第i个特征因素的回归函数，其函数结构由第i个特征因素与时间的相关关系决定，y_0i为第i个特征因素的初始值，i=1,2,…,n；

(3)、建立特征因素时序周期项模型及随机项模型；

对特征因素时序周期项和随机项分别采用特征因素的多重潜周期模型和多元自回归模型建模；

(4)、表征因素时序预测；

将表征因素时序预测值分为误差建模用数据和预测用数据；首先对前N_t个时刻的特征因素时序进行多元非平稳时序建模，得到N_t+1，N_t+2，…，N，N+1，N+2，…时刻的表征因素时序预测值，1<N_t<N；

表征因素时序预测误差=表征因素真实值-表征因素时序预测值(3)则该表征因素时序预测误差即可为后续的误差影响因素核主成分分析及表征因素时序预测误差建模所用；

将N+1，N+2，…时刻表征因素时序预测值作为预测用数据，以实现对N+1，N+2，…时刻表征因素的最终预测；所建特征因素多元非平稳时序模型，如下：

Y_{t} = F_{t} + C_{t} + R_{t} = F (t) + C (t) + Σ_{j = 1}^{p} H_{j} R_{t - j} + E_{t} .

其中C(t)为多重潜周期模型的多重潜周期函数，p为多元自回归阶数，Η_j为n×n多元自回归系数矩阵，R_t-j为在t-j时刻下的随机项，Ε_t为相互独立且服从N[0，Q]的n维白噪声向量，Q为n维白噪声的方差矩阵。

对表征因素在N_t时刻向前预测l步，l=12,…，采用特征因素多元非平稳时序模型最佳预测公式：

Y_{N_{t} + 1} = F (N_{t} + l) + C (N_{t} + l) + Σ_{j = 1}^{p} H_{j} R_{N_{t} + l - j}

进行预测，其中

为N_t+l(l>0)时刻的特征因素向量预测值，F(N_t+l)为N_t+l时刻趋势项预测值，C(N_t+l)为Nt+l时刻周期项预测值，

为Nt+l-j时刻随机项预测值，取其中的表征因素预测值作为表征因素时序预测结果；

步骤二、误差影响因素核主成分分析；

如果表征因素预测误差的主要影响因素为大样本数据，转步骤三；否则转步骤四；

步骤三、神经网络误差建模；

步骤四、支持向量机误差建模；

步骤五、误差补偿；

2.根据权利要求1所述的基于多元非平稳时间序列分析与神经网络及支持向量机补偿的湖库藻类水华预测方法，其特征在于：对误差影响因素进行核主成分分析的具体步骤如下：

（1）对数据预处理，将水华影响因素，以及表征因素预测误差共n个指标的一批数据写成一个（（N-N_t）×n）维数据矩阵；所述影响因素包括pH、耗氧量、温度、总氮、总磷和溶解氧；

(2)通过核主成分分析的方法提取出该数据矩阵中各因素之间的非线性关系，根据主成分的特征向量比较各水华影响因素与表征因素预测误差的相关性，从而确定最终的表征因素预测误差影响因素。

3.根据权利要求1所述的基于多元非平稳时间序列分析与神经网络及支持向量机补偿的湖库藻类水华预测方法，其特征在于：神经网络误差建模的具体步骤如下：

（1）遗传算法优化初值；

L＝L1*R+R*L2+R+L2

其中L1、L2分别为BP神经网络的输入、输出数据向量的维数，即表征因素预测误差影响因素的个数以及表征因素的个数，R为BP神经网络隐层神经元的个数；通过遗传算法，从该种群中搜索出最优个体，从而得到BP神经网络初始权值的最优解；

（2）神经网络建模训练；

将由步骤二确定的N_t+1，N_t+2，…，N时刻的表征因素预测误差影响因素作为BP神经网络的输入，将N_t+1，N_t+2，…，N时刻的表征因素时序预测误差作为输出，以遗传算法得出的优化初值作为BP神经网络的初始权值，对表征因素时序预测误差进行BP神经网络建模训练；

（3）神经网络误差预测；

4.根据权利要求1所述的基于多元非平稳时间序列分析与神经网络及支持向量机补偿的湖库藻类水华预测方法，其特征在于：支持向量机误差建模具体步骤如下：

（1）、支持向量机模型参数优化；

根据N_t+1，N_t+2，…，N时刻的表征因素预测误差影响因素及表征因素时序预测误差寻找最优化的最小二乘支持向量机模型参数，即正则化参数γ和核函数参数σ₂；对于支持向量机预测问题，通过网格搜索，对模型参数的多种组合采用留一法得到平均绝对误差最小的模型参数组合，作为最优参数；

（2）、支持向量机建模训练；

将由步骤二确定的N_t+1，N_t+2，…，N时刻的表征因素预测误差影响因素作为最小二乘支持向量机的输入，将N_t+1，N_t+2，…，N时刻的表征因素时序预测误差作为输出，以得出的最优化参数作为最小二乘支持向量机的模型参数，对表征因素时序预测误差进行最小二乘支持向量机建模训练；

（3）、支持向量机误差预测；