CN107506857B

CN107506857B - 基于模糊支持向量机的城市湖库蓝藻水华多变量预测方法

Info

Publication number: CN107506857B
Application number: CN201710692183.1A
Authority: CN
Inventors: 王小艺; 张慧妍; 王立; 白晓哲; 许继平; 于家斌
Original assignee: Beijing Technology and Business University
Current assignee: Beijing Technology and Business University
Priority date: 2017-08-14
Filing date: 2017-08-14
Publication date: 2020-05-08
Anticipated expiration: 2037-08-14
Also published as: CN107506857A

Abstract

本发明公开了一种基于模糊支持向量机的城市湖库蓝藻水华多变量预测方法，包括以下几个步骤：步骤一、选取城市湖库蓝藻水华多变量预测建模中关键影响因素；步骤二、重构城市湖库蓝藻水华多变量时间序列的相空间；步骤三、最近邻域点优化确定；步骤四、获取城市湖库蓝藻水华多变量模糊支持向量机预测模型，进行城市湖库蓝藻水华预测。本发明提出相似系数分析定义对湖库蓝藻水华生成关键影响因素进行选取，将时间序列变化趋势一致性与时域特征结构相似性综合考虑以确定影响因素与表征因素之间的相似程度，以提取较完备的强相关信息，减少冗余信息，提高预测的鲁棒性和泛化能力。

Description

基于模糊支持向量机的城市湖库蓝藻水华多变量预测方法

技术领域

本发明涉及一种城市湖库蓝藻水华预测方法，属于环境工程技术领域。具体地说，是指在深入研究蓝藻水华生成过程中具有多重影响因素以及混沌属性的基础上，优化选取蓝藻水华生成的关键影响因素，而后依据测定的多个变量的时间序列数据，确定多变量时间序列的最优延迟时间和嵌入维数进行相空间重构，进而结合混沌时间序列预测中最近邻域点优化思想以及模糊支持向量机(Fuzzy Support Vector Machine，FSVM)的强非线性拟合能力，构建城市湖库蓝藻水华多变量预测算法以探索提高蓝藻水华预测精度的有效方法。

背景技术

随着社会与经济的发展，国内外很多湖泊、水库富营养化状态形势严峻。富营养化是指生物所需的氮、磷等营养物质大量进入湖泊、河口等缓流水体，导致藻类及其他浮游生物迅速繁殖，水体溶解氧含量下降，鱼类及其他生物大量死亡的现象。由于大量死亡的水生生物沉积到湖底，被微生物分解，消耗了大量的溶解氧，使得水体溶解氧含量急剧降低，水质恶化，以致影响到水生生物的生存，从而进一步加速了水体富营养化过程。

水华是淡水水体富营养化的表现之一，其中发生最普遍、研究较多的是蓝藻水华。蓝藻水华由于水生生物死亡分解时产生毒素，导致水体缺氧并破坏正常的食物链，进而威胁到饮用水安全、自然景观和公众健康，能够造成严重的经济损失和社会问题。几乎全世界的主干水系，包括非洲的维多利亚湖、欧洲的波罗的海、北美的伊利湖等都出现过严重的蓝藻水华。我国是世界上蓝藻水华发生最严重、分布最广泛的国家之一，其中太湖、巢湖和滇池的蓝藻水华暴发尤为严重。

在目前针对蓝藻水华的多种预测方法中，大部分是针对描述蓝藻水华现象的单一表征因素进行建模、预测。由于蓝藻水华生成过程是营养盐因素、环境因素和生物因素共同作用的结果。各个因素之间相互作用、相互制约，蓝藻水华预测模型的构建需要考虑不同复杂环境下的水体特征，因此采用单一因素建模对蓝藻水华预测而言是不完善的。此外，在时间序列长度相同的情况下，多变量时间序列通常包含了比单变量时间序列更丰富的动力学信息，具有一定的信息完备性和确定性。所以，采用多因素建信息建立多变量预测模型可以克服部分带有测量噪声的建模数据对预测精度的不良影响。

由于蓝藻水华生成过程具有非随机却貌似随机的混沌属性，因此借鉴混沌理论的部分研究成果可为探索这种复杂的非线性规律提供新的思路。混沌时间序列预测是混沌理论的一个重要应用领域和研究热点，它的关键是相空间重构。相空间重构是一种有效展现混沌吸引子动力学特性的方法，该方法的关键是需要确定非线性时间序列的嵌入维数，并选择合适的延迟时间。重构的相空间保持了原来系统的几何结构，并具有同样的动力学特性。这样，通过合理的选择嵌入维数与延迟时间，就可以把混沌时间序列中蕴藏的信息充分显露、挖掘出来，从而进行准确的预测。

近年来，鉴于蓝藻水华生成过程的复杂性，生态系统各个因素之间表现出的非线性和不确定性，以及现场监测信息的不连续性等特点，亟需探求更有效的方法用于蓝藻水华预测。智能建模方法作为一种用于模拟、延伸和扩展人类智能的方法，能够模拟人类思维将一些不完全、不可靠和不确定的信息和知识转变为相对完全、可靠和确定的信息和知识，进而能很好地模拟非线性过程。适合对机理不明确的高维非线性系统进行建模研究，从而为蓝藻水华预测建模提供了探索与实践工具。近年来，随着智能建模方法研究的深入，许多先进的智能方法例如粒子群算法、支持向量机等在非线性建模领域广泛应用，因此，融合智能化方法研究蓝藻水华建模预测问题也是非常必要的。

发明内容

本发明的目的是为解决现有的城市湖库蓝藻水华预测大多采用单一表征因素预测导致预测精度不高的问题。本发明对具有混沌属性的湖库蓝藻水华生成过程多变量时间序列进行建模时，首先，提出相似系数分析这一定义，用于对湖库蓝藻水华生成关键影响因素进行选取；其次，对每一分量时间序列分别依据互信息法和C-C法进行延迟时间的计算，之后确定嵌入维数的范围，再基于最小预测误差法确定最优匹配的延迟时间和嵌入维数，从而重构出预测效果更为准确的相空间；考虑到当嵌入维数较大时，仅基于欧式距离选取的最近邻域点性态往往反映与预测中心点的相关程度不够完备，本发明提出采用基于曲线相近性与相似性综合选取最佳邻域点的优化方法；然后，针对标准支持向量机预测算法中的固定惩罚系数会使得回归函数对孤立点非常敏感这一问题，提出依据训练样本在拟合中所做的贡献程度对样本赋予不同的模糊隶属度以减少孤立点和噪声的影响；最后，利用支持向量机对赋予了模糊隶属度的训练样本进行训练，得到优化的湖库蓝藻水华预测模型。本发明构建了基于多特征因素的城市湖库蓝藻水华生成过程多变量预测模型，可以为环保部门提供有效的预测与决策参考依据，对城市湖库水环境的保护和改善具有积极的推动作用。

本发明中，与城市湖库蓝藻水华生成有关的特征因素分为两种：一种是影响水华生成的特征因素，例如总氮、总磷、pH值、溶解氧、温度等，以下称为影响因素；另一种是表征水华生成的特征因素，例如叶绿素a浓度、藻密度等，以下称为表征因素。

本发明提供的基于模糊支持向量机的城市湖库蓝藻水华多变量预测方法包括以下四个步骤：

步骤一、选取城市湖库蓝藻水华多变量预测建模中关键影响因素；

1、城市湖库蓝藻水华生成表征因素的选取；

城市湖库蓝藻水华表征因素有叶绿素a浓度和藻密度，由于藻密度需要用显微镜观测，若要实现在线监测成本较高。而叶绿素a浓度在线实时监测方便且与藻密度密切相关；另外，叶绿素a浓度不仅可以表征藻类现存量，也是水体理化和生物指标的综合表现，故本发明采用叶绿素a浓度作为表征因素对湖库蓝藻水华生成过程进行表征。

2、城市湖库蓝藻水华生成关键影响因素的选取；

湖库蓝藻水华生成的影响因素有很多，例如pH值、温度、总氮、总磷和溶解氧等。由于建模数据的选取直接影响模型精度，本发明提出相似系数分析定义对湖库蓝藻水华生成关键影响因素进行选取，将时间序列的变化趋势一致性与时域特征结构相似性综合考虑以确定影响因素与表征因素之间的相似程度，用于剔除相似性较弱的信息，以提高最终预测精度。

步骤二、重构城市湖库蓝藻水华多变量时间序列的相空间；

城市湖库蓝藻水华生成过程是伴随着营养盐因素、环境因素、生物因素等多种因素共同作用的。前期实验表明城市湖库蓝藻水华这一复杂系统具有混沌属性，而混沌系统状态变量所需要的全部动力学信息能够包含在系统任一分量的时间序列中。在所获取的有限的城市蓝藻水华多变量时间序列数据中，由于往往存在噪声与畸变，因此并不能保证由单一变量时间序列重构的相空间能十分准确的描述系统演化轨迹，考虑到多变量时间序列常包含更丰富的信息，因此，有必要对多变量时间序列进行相空间重构。

混沌时间序列相空间重构的关键是嵌入维数和延迟时间的选取，因为它们决定了重构相空间的相似程度和混沌吸引子的大小。本发明对多变量混沌时间序列中的每一分量时间序列分别采用互信息法和C-C法确定不同的延迟时间，再根据得到的延迟时间与不同的嵌入维数进行匹配，而后利用最小预测误差法进行最优延迟时间对和嵌入维数对的确定，这样，可依据得到的最优参数可以重构更为准确的相空间。

步骤三、最近邻域点优化确定；

根据混沌吸引子的基本特征，在短期演化过程中，预测中心点与其最近邻域点遵循相似的演化规律，所以现有的混沌预测方法一般基于最近邻点，而最近邻域点的确定常基于欧式距离。在局域预测中，预测精度在很大程度上取决于欧式距离所确定的最近邻域点的性态，如果最近邻域点与预测中心点的相关程度大，则预测精度高，反之则较低。

由于城市湖库蓝藻水华时间序列中往往存在噪声，当嵌入维数较大时，欧式距离所确定的最近邻域点仅能反映与预测中心点距离的远近，但无法确定二者演化方向之间的夹角大小，即不能保证二者的同向性变化，故难以反映最近邻域点与预测中心点的相关程度，这会导致距离近的最近邻域点在经过一步或者多步迭代后可能会偏离预测轨道。因此，本发明依据欧式距离确定最近邻域点后，提出应再按照预测中心点与最近邻域点的综合关联度准则筛选出最佳邻域点。本发明提出的改进综合关联度越大则表示拟合程度越好，与预测中心点越邻近。

步骤四、城市湖库蓝藻水华多变量模糊支持向量机预测模型；

考虑到城市湖库蓝藻水华生成过程的强非线性特性，本发明采用具有强非线性回归能力的支持向量机对训练样本进行训练。近年来，基于结构风险最小化原则的支持向量机理论在很多领域中取得了不错的成果，但仍存在不足。标准支持向量机回归是在不敏感损失函数的基础上，寻求一个最优的预测决策函数，使得预测的期望风险最小。支持向量机训练过程中，最初的输入样本被赋予相同的惩罚系数，但偏离回归间隔程度不同的样本其损失函数值不同，对经验风险的贡献值也不同。因此固定惩罚系数，会使得回归函数对孤立点非常敏感。

为了尽量降低这种敏感性并减少误差，本发明对训练样本赋予不同的隶属度。这样，不同的训练样本对最优的预测决策函数的学习会有不同的贡献，从而减少了孤立点和噪声的影响。这里，模糊支持向量机的关键及难点就是对隶属度函数的选择，只有合适的隶属度函数才能准确的体现训练样本的重要程度，达到更好的拟合效果。基于对样本空间的度量，本发明采用融合Sigmoid型函数控制训练样本模糊程度的K-近邻法确定隶属度函数，提出一种改进的隶属度函数准则，使每一个训练样本都带有一个模糊特征，最后用支持向量机对带有模糊隶属度的训练样本进行拟合，用得到的最优预测决策函数建立城市湖库蓝藻水华预测模型。

本发明的优点在于：

(1)本发明针对城市湖库蓝藻水华采用单一表征因素预测导致预测精度不高的问题，提出相似系数分析定义对湖库蓝藻水华生成关键影响因素进行选取，将时间序列变化趋势一致性与时域特征结构相似性综合考虑以确定影响因素与表征因素之间的相似程度，以提取较完备的强相关信息，减少冗余信息，提高预测的鲁棒性和泛化能力，为城市湖库蓝藻水华生成过程多因素综合预测提供了可能；

(2)本发明针对多变量时间序列相空间重构关键参数选取进行研究，其中，对每一分量时间序列分别依据互信息法和C-C法进行延迟时间的选择；之后确定嵌入维数的范围，再根据得到的延迟时间与不同的嵌入维数进行匹配，采用最小预测误差法进行最优延迟时间和嵌入维数对的选取，从而重构出预测误差较小的相空间；

(3)本发明基于城市湖库蓝藻水华短期预测过程中预测中心点与其最近邻域点遵循相似演化规律的特性，考虑到当嵌入维数较大时，仅基于欧式距离选取的最近邻域点性态与预测中心点的相关程度不够完备，导致距离很近的最近邻域点在经过一步或者多步迭代后可能偏离预测轨道。故提出依据欧式距离确定最近邻域点后，再按照预测中心点与最近邻域点的综合关联度准则进行进一步筛选，即，依据曲线相似性与相近性综合选取最佳邻域点，剔除伪近邻域点在噪声或高嵌入维时对局域动力学演化造成的不利影响；

(4)本发明针对城市湖库蓝藻水华生成过程的强非线性特性，采用模糊支持向量机进行预测建模。基于样本空间的度量，采用融合Sigmoid型函数控制训练样本模糊程度的K-近邻法确定隶属度函数，提出一种改进的隶属度函数准则，对样本赋予不同的隶属度，使每一个训练样本都带有模糊特征，从而减少了孤立点和噪声的影响；针对得到的模糊训练样本、惩罚系数和核函数参数，训练生成模糊支持向量机回归模型，并基于最优预测决策函数建立蓝藻水华预测模型。可见，此建模方法既能反映复杂水环境下各种影响因素对蓝藻水华生成的影响，又能发挥数据驱动建模的优势，可适用于不同湖库水体环境要求，具有良好的可扩展性。

附图说明

图1是本发明提出的基于模糊支持向量机的城市湖库蓝藻水华多变量预测算法的流程图；

图2是基于互信息法的叶绿素a浓度时间序列延迟时间统计量计算结果；

图3是基于互信息法的总氮浓度时间序列延迟时间统计量计算结果；

图4是基于C-C法的叶绿素a浓度时间序列延迟时间统计量计算结果；

图5是基于C-C法的总氮浓度时间序列延迟时间统计量计算结果；

图6是不同嵌入维数对平均一步预测误差平方三维曲面图(延迟时间采用互信息法)；

图7是不同嵌入维数对平均一步预测误差平方三维曲面图(延迟时间采用C-C法)；

图8是支持向量机模型、模糊支持向量机模型预测结果与实测值的比较图；

具体实施方式

下面将结合附图和实施例对本发明作进一步的详细说明。

本发明提供的基于模糊支持向量机的城市湖库蓝藻水华多变量预测方法，如图1所示流程，具体步骤如下：

本发明提出相似系数分析定义对湖库蓝藻水华生成关键影响因素进行选取，将时间序列变化趋势一致性与时域特征结构相似性综合考虑来衡量影响因素与表征因素之间的相似程度：

首先，本发明选取叶绿素a浓度作为蓝藻水华生成表征因素，选取pH值、温度、总氮、总磷和溶解氧作为蓝藻水华生成影响因素；其次，计算每个影响因素与表征因素之间的关联度(即Corr(n))；再次，考虑每个特征因素时间序列的结构特征，计算每个特征因素的自相关系数；最后，基于时间序列变化趋势一致性与时域特征结构相似性，定义的相似系数指标为

式中，Sico(n)为第n个影响因素与表征因素之间的相似系数；Corr(n)为第n个影响因素与表征因素之间的关联度，体现了影响因素与表征因素之间的变化趋势一致性；Auco(n)为第n个影响因素的自相关系数，Auch为表征因素的自相关系数，体现了特征因素的时域结构特征。影响因素与表征因素关联度越大，则二者变化趋势越一致；影响因素与表征因素自相关系数差值越小，则二者时域特征结构越相似；故Sico(n)越大，影响因素与表征因素的相似性越大。将相似系数指标最大时对应的影响因素作为关键影响因素，与表征因素共同组成多变量时间序列。

步骤二、重构城市湖库蓝藻水华多变量时间序列的相空间；

合理选择嵌入维数和延迟时间是相空间重构中的关键基础问题。为了保证重构后的相空间足够精确，本发明采用互信息法、C-C法和最小预测误差法综合确定最佳延迟时间和最优嵌入维数：

首先，分别依据互信息法和C-C法对多变量时间序列的每一分量进行延迟时间的选择；其次，确定嵌入维数的范围；然后，由于预测精度在某个嵌入维上达到最大后，一般会随着嵌入维数的增加而下降，所以根据得到的不同延迟时间，对于确定的嵌入维数进行相空间重构，并计算平均一步预测误差平方，增加嵌入维数，直至所有的嵌入维数循环完毕；最后，确定最小平均一步预测误差平方所对应的最优延迟时间和嵌入维数对，从而使重构的相空间更接近原混沌动力系统的几何特征，最大程度地反映城市湖库蓝藻水华生成过程的动力学特征。

步骤三、最近邻域点优化确定；

基于欧式距离所确定的最近邻域点是依据时间序列曲线的相近性，但是有时两个距离相近的时间序列并不遵循相似的演化规律，所以本发明基于时间序列曲线相近性和相似性进行最近邻域点优化确定。通常采用的关联度为相对关联度和绝对关联度，相对关联度是基于相近性的角度考虑的；绝对关联度是基于相似性的角度考虑的，其基本思想是按照时间序列曲线变化态势的接近程度来计算关联度。对于离散数据序列，两曲线的接近程度是指两时间序列在各对应时段上曲线斜率的接近程度，如果两条曲线在各个时段上的曲线斜率相等或者相差较小，则二者的关联系数大；反之，则小。

本发明依据欧式距离选出最近邻域点后，再按照预测中心点与最近邻域点的综合关联度准则进行筛选，依据曲线相似性与相近性综合选取最佳邻域点，综合关联度的公式为

Comp(X_m)＝α·[Rel(X_m)]^p+(1-α)·[Abs(X_m)]^q (2)

式中，Comp(X_m)为依据欧式距离确定的第m个最近邻域点X_m与预测中心点的综合关联度，Rel(X_m)为最近邻域点X_m与预测中心点的相对关联度，ABS(X_m)为最近邻域点X_m与预测中心点的绝对关联度，p和q分别为相对关联度和绝对关联度的幂指数，α为平衡相对关联度与绝对关联度的权值。为了简化计算，本发明中取p＝q＝1，α＝0.5。

确定隶属度函数的方法有基于距离确定隶属度函数、基于Sigmoid型函数确定隶属度函数和基于K-近邻确定隶属度函数。其中，基于K-近邻是最具代表性的一种确定隶属度的方法。该方法有以下两个优点：一是算法运行较为稳定，鲁棒性强；二是计算量小，计算复杂度较低。为了控制训练样本的模糊程度同时保留基于K-近邻确定隶属度函数的优点，本发明提出一种改进的隶属度函数μ(x_i)，公式为

式中，d_i为样本x_i(i＝1,2,…,f)到训练样本集合中心均值点的距离，A、B为大于零的常数，且A＜B,用来控制训练样本的模糊程度，在这里，取A＝0.7*max(d_i)，B＝0.9*max(d_i)；对于每个训练样本x_i，找到离它最近的k个近邻点，组成集合S_I ^k＝{D₁,D₂,…,D_k}，其中D_j(j＝1,2,…,k)为x_i到第j个近邻点的距离，D_{i_average}(i＝1,2,…,f)为样本x_i到集合S_I ^k中每个元素的平均距离；D_max和D_min分别为D_{i_average}的最大值与最小值。

核函数的选择和参数的设置直接影响到支持向量机的性能，是支持向量机算法的关键。目前广泛应用的核函数包括线性核函数、多项式核函数、高斯核函数和Sigmoid核函数。由于高斯核函数可逼近任意非线性函数且只有一个参数，故本发明采用高斯核函数。最后，根据所建基于模糊支持向量机的城市湖库蓝藻水华多变量预测模型，可获取叶绿素a浓度下一步演化的预测值。由于混沌系统只能进行短期预测，故本发明只对最后一个参与建模的训练样本之后20个时间点的叶绿素a浓度进行预测测试。

实施例1：

实验采用的数据为太湖金墅站点的蓝藻水华生成监测数据，主要对6个蓝藻水华生成特征因素进行监测，具体见表1。

表1水华特征因素

名称

pH值

温度

总氮

总磷

溶解氧

叶绿素a浓度

单位

无

℃

mg/L

其中，叶绿素a浓度为蓝藻水华生成表征因素，其余的5个特征因素为蓝藻水华生成影响因素。模型采用监测站点2011年1月1日至2011年12月31日每天每隔4小时记录的2124组蓝藻水华生成特征因素数据进行分析建模，对2012年1月1日至2012年1月4日的20组叶绿素a浓度数据进行预测。

首先，利用关联分析计算5个影响因素时间序列与表征因素时间序列之间的变化一致性系数，如表2所示。

表2变化一致性系数

之后，根据时间序列时域特征结构相似性，计算蓝藻水华生成特征因素的自相关系数，如表3所示。

表3自相关系数

特征因素	pH值	温度	总氮	总磷	溶解氧	叶绿素a浓度
							自相关系数	0.0807	0.0968	0.0762	0.0759	0.0918	0.0673

最后，利用基于时间序列变化趋势一致性与时域特征结构相似性的相似系数指标计算影响因素与表征因素之间的相似系数，选取蓝藻水华生成关键影响因素，如表4所示。

表4相似系数

影响因素	pH值	温度	总氮	总磷	溶解氧
						相似系数	67.7910	29.6237	105.3820	104.9070	37.5265

由表4可得，总氮浓度时间序列与表征因素时间序列的相似系数最大。为了简化分析，本发明仅选取与表征因素相似系数最大的影响因素进行建模。

步骤二、重构城市湖库蓝藻水华多变量时间序列的相空间；

分别依据互信息法和C-C法对叶绿素a浓度时间序列和总氮浓度时间序列进行延迟时间的选择。由图2、3可以得到，依据互信息法确定的叶绿素a浓度时间序列和总氮浓度时间序列的延迟时间分别为τ₁₁＝16，τ₁₂＝8；由图4、5可以得到，依据C-C法确定的叶绿素a浓度时间序列和总氮浓度时间序列的延迟时间分别为τ₂₁＝5，τ₂₂＝8。设两时间序列嵌入维数的取值范围均为2～10的整数，依据之前求得的两对延迟时间计算不同嵌入维数对的平均一步预测误差平方。仿真表明：当平均一步预测误差平方最小时，其对应的最优延迟时间和嵌入维数分别为叶绿素a浓度时间序列延迟时间τ₁＝5、嵌入维数d₁＝3，总氮浓度时间序列延迟时间τ₂＝8、嵌入维数d₂＝5，如图6、7所示。之后根据得到的特征统计量时间序列进行相空间重构得到新的相空间。

步骤三、最近邻域点优化确定；

相空间重构完成之后，需优化选取预测中心点的最佳邻域点。首先，依据欧式距离确定与预测中心点相近性较大的最近邻域点；之后，根据获得的最近邻域点分别计算每个最近邻域点与预测中心点的综合关联度，筛选出综合关联度大的最近邻域点作为最佳邻域点，剔除了伪近邻域点以便去除噪声或高嵌入维数对局域动力学估计的不利影响，提高建模精度。

采用本发明提出的改进隶属度函数计算每个训练样本的模糊隶属度μ(x_i)，从而消除噪声点的影响。模糊支持向量机的参数设置如下：高斯核函数中的宽度参数取0.1，惩罚系数与核函数参数采用粒子群算法进行优化确定，之后利用模糊训练样本和惩罚系数、核函数参数，训练生成模糊支持向量机回归模型。

利用获得的模糊支持向量机模型，进行20步预测，得到模型预测结果及预测误差。为了验证改进隶属度函数的有效性，采用标准支持向量机对不加模糊隶属度的测试样本进行回归建模进行对比试验。将两个预测模型的预测结果与实测值进行比较，结果如图8和表5所示。

表5不同模型预测值与实测值对比

本发明提出相似系数分析定义对湖库蓝藻水华生成关键影响因素进行选取，用以确定相关性强的信息参与建模，较以往单独考虑单一表征因素或所有影响因素更具科学性，实现了较好的系统性预测；针对每一分量时间序列分别依据互信息法和C-C法进行延迟时间的计算、选择，之后确定嵌入维数的范围，再依据得到的延迟时间与不同的嵌入维数进行匹配，采用最小预测误差法进行最优延迟时间和嵌入维数的确定，从而重构出预测精度更为准确的相空间；基于重构相空间中相点间的相近性和相似性，首先通过欧式距离进行最近邻域点的初步确定，之后利用综合关联度对最近邻域点进行优化，筛选出最佳邻域点，使问题的求解更逼近优化解；根据确定的最佳邻域点样本同样不可避免地带有噪声，对训练样本在训练过程中所做的贡献程度对样本赋予不同的隶属度，以减少孤立点和噪声的影响；最后，采用支持向量机对带有模糊隶属度的训练样本进行训练，建立蓝藻水华预测模型。实例仿真结果表明，本发明的预测模型精度较高，表明了基于模糊支持向量机的城市湖库蓝藻水华多变量预测算法在城市湖库蓝藻水华预测中具有较好的预测效果。

Claims

1.基于模糊支持向量机的城市湖库蓝藻水华多变量预测方法，包括以下几个步骤：

具体为：

选取叶绿素a浓度作为蓝藻水华生成表征因素，选取pH值、温度、总氮、总磷和溶解氧作为蓝藻水华生成影响因素；

计算每个影响因素与表征因素之间的关联度Corr(n)，计算每个特征因素的自相关系数，基于时间序列变化趋势一致性与时域特征结构相似性，设相似系数为

式中，Sico(n)为第n个影响因素与表征因素之间的相似系数，Corr(n)为第n个影响因素与表征因素之间的关联度，Auco(n)为第n个影响因素的自相关系数，Auch为表征因素的自相关系数，

将相似系数指标最大时对应的影响因素作为关键影响因素，与表征因素共同组成多变量时间序列；

步骤二、重构城市湖库蓝藻水华多变量时间序列的相空间；

具体为：

采用互信息法、C-C法和最小预测误差法综合确定最佳延迟时间和最优嵌入维数：

首先，分别依据互信息法和C-C法对多变量时间序列的每一分量进行延迟时间的选择；其次，确定嵌入维数的范围；然后，根据得到的不同延迟时间，对于确定的嵌入维数进行相空间重构，并计算平均一步预测误差平方，增加嵌入维数，直至所有的嵌入维数循环完毕；最后，确定最小平均一步预测误差平方所对应的最优延迟时间和嵌入维数对；

步骤三、最近邻域点优化确定；

具体为：

根据欧式距离选出最近邻域点后，再按照预测中心点与最近邻域点的综合关联度准则进行筛选，依据曲线相似性与相近性综合选取最佳邻域点，综合关联度为：

Comp(X_m)＝α·[Rel(X_m)]^p+(1-α)·[Abs(X_m)]^q (2)

式中，Comp(X_m)为依据欧式距离确定的第m个最近邻域点X_m与预测中心点的综合关联度，Rel(X_m)为最近邻域点X_m与预测中心点的相对关联度，ABS(X_m)为最近邻域点X_m与预测中心点的绝对关联度，p和q分别为相对关联度和绝对关联度的幂指数，α为平衡相对关联度与绝对关联度的权值；

步骤四、获取城市湖库蓝藻水华多变量模糊支持向量机预测模型，进行城市湖库蓝藻水华预测；

具体为：

设隶属度函数μ(x_i)为：

式中，d_i为样本x_i到训练样本集合中心均值点的距离，i＝1,2,…,f，A、B为大于零的常数，A＝0.7*max(d_i)，B＝0.9*max(d_i)；对于每个训练样本x_i，找到离它最近的k个近邻点，组成集合S_I ^k＝{D₁,D₂,…,D_k}，其中D_j为x_i到第j个近邻点的距离，j＝1,2,…,k，D_{i_average}为样本x_i到集合S_I ^k中每个元素的平均距离；D_max和D_min分别为D_{i_average}的最大值与最小值；

采用高斯核函数，构建基于模糊支持向量机的城市湖库蓝藻水华多变量预测模型，获取叶绿素a浓度下一步演化的预测值。

2.根据权利要求1所述的基于模糊支持向量机的城市湖库蓝藻水华多变量预测方法，所述的p＝q＝1，α＝0.5。

3.根据权利要求1所述的基于模糊支持向量机的城市湖库蓝藻水华多变量预测方法，所述的A＝0.7*max(d_i)，B＝0.9*max(d_i)。