CN111242380A

CN111242380A - 一种基于人工智能算法的湖（库）富营养化预测方法

Info

Publication number: CN111242380A
Application number: CN202010050421.0A
Authority: CN
Inventors: 陈学凯; 刘晓波; 王若男; 彭文启; 姚嘉伟; 赵凌栋; 董飞; 廉秋月; 王世岩; 刘畅; 韩祯; 王伟杰; 司源; 黄爱平
Original assignee: China Institute of Water Resources and Hydropower Research
Current assignee: China Institute of Water Resources and Hydropower Research
Priority date: 2020-01-17
Filing date: 2020-01-17
Publication date: 2020-06-05

Abstract

本发明公开了一种基于人工智能算法的湖/库富营养化预测方法，包括以下步骤：1)采集数据建立数据库；2)构建径向基函数网络：第一层是输入层；第二层为隐含层，隐含节点输出为基函数；第三层为输出层，每个输出节点与所有隐含节点相连；径向基函数网络输出层的输出结果包括：叶绿素a浓度；输入层的输入指标包括：氮磷营养盐浓度、化学需氧量、水温、浊度、电导率、溶解氧浓度；3)径向基函数网络学习；4)径向基函数网络的预测功能检验。本方法克服了传统方法中采用水动力学水生态数学模型的参数率定困难、耗时相对较长的问题，也稳定的提高了湖(库)富营养的预测计算精度。

Description

一种基于人工智能算法的湖(库)富营养化预测方法

技术领域

本发明涉及水利工程领域，尤其涉及水环境管理领域，具体为一种基于人工智能算法的湖(库)富营养化预测方法。

背景技术

湖(库)的富营养化及水华爆发作为一类突发性水污染事件，其实质是营养物质在湖(库)富集，从而使水环境发生一系列物理、化学和生物学变化的复杂过程。在此过程中，氮、磷等营养物质为湖(库)水生生物(特别是浮游藻类) 的生长繁殖提供了物质基础。浮游藻类的大量繁殖，又影响水环境状况，如透明度降低、溶解氧下降等。在自然状态下，湖(库)水体的自然富营养化过程是极为缓慢的，往往需要几千年甚至几万年时间才能完成。但由于人为活动影响加剧，湖(库)富营养化进程已大大加快。人类活动对于湖(库)水体水质的影响主要体现在以下几个方面：(1)大量富含氮、磷等营养物质的污水排入水体，使湖(库)富营养化加剧；(2)打破湖(库)环境系统的平衡机制，湖(库)富营养化时。水中溶解氧减少，水下光照减弱，引起若干种不能适应变化的水生植物大量死亡，使湖(库)系统中的生物多样性逐渐减少；(3)对于一些以湖(库)作为饮用水源的地区，湖(库)富营养化会影响饮用水的供应；(4)湖(库)富营养化导致湖(库)的旅游价值大大降低；(5)湖(库)富营养化加速湖(库)的老化过程，使湖(库)在短短数十年内就荒漠化，直至死亡。目前湖(库)富营养化已成为国内外广泛关注的环境问题，为防止湖(库)富营养化，首先必须认识湖(库) 的富营养化状态及其变化动态，预测其变化和可能采取的对策和效果。藻类数量的增多(或叶绿素a浓度的上升)是藻类湖(库)富营养化程度的重要标志，以藻类数量(或叶绿素a浓度)对湖(库)富营养化进行预测是目前的主流思路。

目前，对于湖(库)富营养化预测模型主要有三大类：(1)水动力学水生态数学模型，具体的以湖(库)水动力学模型为基础建立的富营养化预测模型属于湖(库)生态动力学模型的范畴，生态动力学模型是以质量平衡方程为基础，以各生态变量的生态动力过程为核心，模拟生态变量的时空变化过程。该方法的优点是考虑了自然界中多种因素之间的相互作用，对湖(库)富营养化的动力过程有更深入的了解，但缺点是该数学模型包含的参数太多，模型的率定、验证十分困难，模型的通用性和综合性有待提高。(2)多元回归数学模型，具体的，从对水体水质的空间分布特征的表达上，多元回归模型与物质平衡模型类似，需要将预测水体作为整体的黑箱对待，其优点是具有简单、易懂的优点，但缺点是预测精度偏低。(3)人工智能算法数学模型。由于受到数据样本偏少以及人工智能算法不够成熟等因素的限制，以往采用人工智能算法数学模型对湖(库)富营养化进行预测的研究较少。

发明内容

本发明的目的是提供一种基于人工智能算法的湖(库)富营养化预测方法，该方法区别于传统的水动力学水生态数学模型和多元回归数学模型，而是采用人工智能算法，即通过人工神经网络(Artifical Neural Network,ANN)来预测湖(库) 的富营养化状态，总体上来说，人工神经网络是一种在生物神经网络的启示下建立的数据处理模型，人工神经网络由大量的人工神经元相互连接进行计算，根据外界的信息改变自身的结构，主要通过调整神经元之间的权重来对输入的数据进行建模，最终具备解决实际问题的能力。该方法的核心是通过考虑神经网络的算法效率来选取神经网络逼近函数，具体的，神经网络可以分为全局逼近网络和局部逼近网络，当神经网络的一个或多个可调参数(权值和阈值)对任何一个输出都有影响，则称该神经网络为全局逼近网络，多层前馈网络是全局逼近网络的典型例子，对于每个输入输出数据对，网络的每一个连接权均需进行调整，从而导致全局逼近网络学习速度很慢，对于有实时性要求的应用来说是不可容忍的。如果对网络输入空间的每个局部区域只有少数几个连接权影响网络的输出，则称该网络为局部逼近网络。对于每个输入－输出对，只有少量的连接权需要进行调整，从而使局部逼近网络具有学习速度快的优点，这一点对于有实时性要求的应用来说至关重要。综合上述因素，本发明采用了局部逼近神经网络，即径向基函数 (Radial Basis Function，RBF)网络，该网络结构简单、收敛速度快、能够逼近任意非线性函数，这对于湖(库)水环境管理的快速反应与应急处理要求来说至关重要。

本发明的目的是通过以下方案实现的：

本方法为一种基于人工智能算法的湖(库)富营养化预测方法，该方法针对目前湖(库)富营养化预测方法存在的不足，提出基于径向基函数(RBF)的人工神经网络(ANN)方法来预测湖(库)富营养化状态，不仅能够克服传统的水动力学水生态数学模型参数率定困难、计算周期较长的弊端，也能够解决采用多元回归数学模型预测结果精度偏低的问题。具体包括以下步骤：

一种基于人工智能算法的湖/库富营养化预测方法，具体包括以下步骤：

1)建立基于人工智能算法的湖/库富营养化预测数据库：收集目标水域的水质指标，所述水质指标包括：水温、浊度、电导率、溶解氧浓度、氮磷营养盐浓度、化学需氧量、叶绿素a浓度；

2)构建径向基函数网络：由三层构成，第一层是输入层，输入节点的个数等于输入向量维数；第二层为隐含层，隐含节点直接与输入节点相连，隐含节点输出为基函数；第三层为输出层，每个输出节点与所有隐含节点相连；

设实际输出为Y_k＝[y_k1,y_k2,…,y_kj,…,y_kJ]，J为输出节点的个数，表示第k个输入向量产生的输出，那么输入样本X_k时，网络第j个输出节点得出的结果为：

式中：y_kj为与输入样本X_k对应的网络第j个输出节点的实际输出；k为样本序号；j为输出节点序号；N为隐含层节点数，i＝1,2，…,N为隐含节点数；w_ij为从第i个隐含节点到第j个输出节点的权重；φ(X_k,X_i)为基函数；

径向基函数网络输出层的输出结果包括：叶绿素a浓度；径向基函数网络输入层的输入指标包括：氮磷营养盐浓度、化学需氧量、水温、浊度、电导率、溶解氧浓度；

3)径向基函数网络学习：需要训练的参数分别是隐含层中基函数的中心、隐含层中基函数的标准差和隐含层与输出层间的权重；

4)径向基函数网络的预测功能检验：通过训练好的径向基函数网络，学习样本得到预测值(即水质模拟值)，并与期望值(即水质指标实测值)进行比较；采用相关系数R²和相对误差RE来评价径向基函数网络的可靠性。

进一步的优选，所述基函数选用高斯函数，则φ(X_k，X_i)表示为：

式中：φ(X_k,X_i)为基函数；G(X_k,X_i)为Green函数；||X_k-X_i||为欧式范数；

X_i为高斯函数的中心；σ为高斯函数的标准方差。

进一步的，步骤3)包括以下步骤：

A、估计出径向基函数的中心：采用K-均值聚类算法计算聚类中心；假设有 I个聚类中心，第n次迭代的第i个聚类中心为t_i(n)，i＝1,2，…，I，执行以下步骤：

①初始化：从输入样本数据中随机选择I个不同的样本作为初始的聚类中心 t_i(0)；

②输入样本：从训练数据中随机抽取训练样本X_k作为输入；

③匹配：计算该输入样本距离哪一类聚类中心最近，就将其归为该聚类中心的同一类，即计算

式中：||X_k-t_i(n)||为欧式范数；t_i(n)为第n次迭代的第i个聚类中心，i＝1,2，…，I为聚类中心；X_k为从训练数据中随机抽取训练样本；

找到相应的i值，将X_k归化为第i类；

④更新聚类中心：由于X_k的加入，第i类的聚类中心会因此发生改变，新的聚类中心等于

式中：η为学习步长，0<η<1；t_i(n)为第n次迭代的第i个聚类中心；X_k为从训练数据中随机抽取训练样本,i＝1,2，…，I为聚类中心；

每次只会更新一个聚类中心，其他聚类中心不会被更新；

⑤判断：判断算法是否收敛，当聚类中心不再变化时，算法就收敛了；如果判断结果没有收敛，则转到第②步继续迭代；结束时求得的t_i(n)即最终确定的聚类中心；

B、基于聚类中心学习标准差：基函数表示为：

式中：||X_k-X_i||为欧式范数；X_i为高斯函数的中心；σ为高斯函数的标准方差。

则标准差计算公式为：

式中：n为隐含节点的个数；d_max为所选取的聚类中心之间的最大距离；

C、学习权重

采用最小均方算法，最小均方算法输入为隐含层产生的输出，假设d＝{d_kj} 为期望输出，d_kj是第k个输入向量在第j个输出节点的期望输出值，w_ij，i＝1,2,…,J 为从第i个隐含节点到到j个输出节点的权重，则输出权重矩阵w用下式求得：

w＝G⁺d (7)

式中：G＝{g_ki}；矩阵w＝w_ij，为从第i个隐含节点到到j个输出节点的权重；矩阵d＝d_kj，为第k个输入向量在第j个输出节点的期望输出值，其中

g_ki＝φ(||X_k-X_i||²),k＝1,2,...,K；i＝1,2,...,I (8)

式中：g_ki是第k个输入向量在第i个隐含节点的输出值，共有K个训练输入向量；||X_k-X_i||为欧式范数，X_i为高斯函数的中心，(·)⁺表示伪逆；

进一步的，步骤4)中：

式中：

为第i个水质实际监测值；

为第i个水质模拟值；n为模拟总个数。

进一步的，步骤2)中，对于输入层，只负责信息的传输，其输入与输出相同。

进一步的，步骤2)中，对于隐含层：对应输入层第q个输入产生的隐含层第i个神经节点的输入为

其数学表达式如式(11)所示：

式中：W1_ni为第i个神经节点和输入层神经节点n相连的连接权值矢量；

为第 n个输入矢量；b1_i为高斯函数的灵敏度值。

隐含层第i个神经节点的输出为

其数学表达式如式(12)所示。

式中：

为隐含层第i个神经节点的输出；

为输入层第q个输入产生的隐含层第i个神经节点的输入；W1_ni为第i个神经节点和输入层神经节点n相连的连接权值矢量；

为第n个输入矢量；b1_i为高斯函数的灵敏度值。

本发明的有益效果：在进行湖(库)富营养化计算时，传统方法采用复杂的水动力学水生态数学模型和预测结果偏低的多元回归数学模型，本方法提出的基于径向基函数(RBF)的人工神经网络(ANN)数学模型能够有效的克服水动力学水生态数学模型的参数率定困难、耗时相对较长的问题，也能够通过人工智能算法提高00湖(库)富营养化预测的计算精度，使预测结果更接近真实情景。另外，本发明提出的方法充分考虑了湖(库)水环境管理的实时性、应急性要求，采用了径向基函数(RBF)网络提高了预测效率。

附图说明

图1径向基网络结构图；

图2 RBF网络隐层神经元的输入与输出示意图；

图3 k-均值算法的流程图；

图4 YQ水库基于径向基函数(RBF)的人工神经网络结构；

图5基于径向基函数(RBF)的人工神经网络数学模型预测值与实测值比较；

图6基于径向基函数(RBF)的人工神经网络数学模型预测值与实测值相关性分析。

具体实施方式

1)建立基于人工智能算法的湖(库)富营养化预测数据库。收集目标水域的水质指标监测浓度，如物理指标：水温、浊度、电导率、溶解氧浓度，化学指标：氮磷营养盐浓度、化学需氧量浓度、叶绿素a浓度等。同时，根据实际水环境管理需要进行模型自变量的筛选。

2)设计径向基函数(RBF)网络。神经网络的结构设计是模仿人脑对非线性信息处理系统进行抽象和模拟的基础，也是关键所在，会直接决定输出层和输入层之间关联的有效性。径向基函数(RBF)网络是前向型网络中的一种，是由输入层、隐含层和输出层构成的三层前向网络：第一层为输入层，节点个数等于输入的维数；第二层为隐含层，节点个数视问题的复杂度而定；第三层为输出层，节点个数等于输出数据的维数。径向基函数网络的不同层有着不同的功能，隐含层是非线性的，采用径向基函数作为基函数，从而将输入向量空间转换到隐含层空间，使原来线性不可分的问题变得线性可分，输出层则是线性的。径向基函数网络的结构如图1所示，径向基函数由三层构成，第一层是由输入节点组成的，输入节点的个数等于输入向量x的维数m。第二层属于隐含层，由直接与输入节点相连的节点组成，一个隐含节点对应一个训练数据点，因此其个数与训练数据点的个数相同。第i个隐含节点输出为φ(||X-X_i||)，为基函数，X_i＝[x_i1,x_i2,…,x_im] 为基函数的中心。输出层包括若干个线性单元，每个线性单元与所有隐含节点相连，这里的“线性”是指网络最终的输出是各隐含节点输出的线性加权和。假如有K＝N个训练样本，从第i个隐含节点到第j个输出节点的权重为w_ij。

如图1所示，图中X₁,X₂,X₃。。。X_M为输入层的输入变量；

为隐含层的基函数；W₁₁,…,W_1j,…W_ij,…,W_NJ为第n个隐含节点到第j个输出节点的权重；y₁,…,y_J为输出层结果。

设实际输出为Y_k＝[y_k1,y_k2,…,y_kj,…,y_kJ]，J为输出单元的个数，表示第k个输入向量产生的输出。那么输入训练样本X_k时，网络第j个输出神经节点得出的结果为：

式中：y_kj为与输入样本X_k对应的网络的第j个输出节点的实际输出；k为样本序号；j为输出节点序号；N为隐含层节点数，i＝1,2，…,N为隐含节点数；w_ij为从第i个隐含节点到第j个输出节点的权重；φ(X_k,X_i)为基函数。

基函数一般选用高斯函数，则φ(X_k，X_i)可以表示为

式中：φ(X_k,X_i)为基函数；G(X_k,X_i)为Green函数；||X_k-X_i||为欧式范数； X_i为高斯函数的中心；σ为高斯函数的标准方差。

在进行湖(库)富营养化预测时，一般以叶绿素a浓度作为径向基函数(RBF) 网络输出层，即基于径向基函数(RBF)的人工神经网络(ANN)数学模型的因变量，将主要影响湖(库)富营养化因子作为径向基函数(RBF)网络输入层，即基于径向基函数(RBF)的人工神经网络(ANN)数学模型的自变量，如氮磷营养盐浓度、化学需氧量、水温、浊度、电导率、溶解氧浓度。

对于输入层，只负责信息的传输，其输入与输出相同。

对于隐层：每个神经节点将自己和输入层神经节点相连的连接权值矢量W1_i (也称为第i个隐层神经节点的基函数中心)与输入矢量X^q(表示第q个输入矢量，

)之间的距离乘以本身的阈值b1_i作为自己的输入，见图2所示。

图中

为第n个输入矢量；W1_ni为第i个神经节点和输入层神经节点n相连的连接权值矢量；||W1_i-X^q||为欧式范数；

为输入层第q个输入产生的隐含层第i 个神经节点的输入；b1_i为高斯函数的灵敏度值；

为隐含层第i个神经节点的输出。

从中可见：对应输入层第q个输入产生的隐含层第i个神经节点的输入为

其数学表达式如式(11)所示。

式中，

为第n个输入矢量；b1_i为高斯函数的灵敏度值。

隐含层第i个神经节点的输出为

其数学表达式如式(2)所示。

式中，

为隐含层第i个神经节点的输出；

为第n个输入矢量；b1_i为高斯函数的灵敏度值。

值得说明一点：径向基函数的阈值b1可以调节函数的灵敏度，但实际工作中更常用另一参数C(称为扩展常数)，b1和C的关系在实际应用中有多种确定方法，在MATLAB神经网络函数中b1和C的关系设置为b1_i＝0.8326/C_i，此时隐含层神经节点的输出如式(13)所示。

式中

为隐含层第i个神经节点的输出；W1_i为第i个神经节点和输入层神经节点相连的连接权值矢量；X^q为输入矢量；C_i为第i个神经节点的扩展常数。

3)径向基函数(RBF)网络学习算法。设计好网格的结构后，训练样本数据的准备也极为重要，输入的维数越多，变量越复杂，设计工况需求则也越高，其个数、准确程度和覆盖面均会影响预测效果。在径向基网络中，需要训练的参数分别是隐含层中基函数的中心、隐含层中基函数的标准差和隐含层与输出层间的权重。考虑到湖库水环境管理的实时性因素，在径向基函数网络学习训练中一般采用自组织选取中心的方法。自组织选取中心的方法包含以下阶段：

A、自组织学习阶段，估计出径向基函数的中心

在随机选取中心的方法中，径向基函数的中心是从输入样本中随机选取的，在这里则将采用聚类的方法给出合理的中心位置。最常见的聚类方法就是K-均值聚类算法，它将数据点划分为几大类，同一类型内部有相似的特点和性质，从而使得选取的中心点更有代表性。

假设有I个聚类中心，第n次迭代的第i个聚类中心为t_i(n)，i＝1,2，…，I，这里I值需要根据经验确定。执行以下步骤：

①初始化。从输入样本数据中随机选择I个不同的样本作为初始的聚类中心 t_i(0)。

②输入样本。从训练数据中随机抽取训练样本X_k作为输入。

③匹配。计算该输入样本距离哪一类聚类中心最近，就把它归为该聚类中心的同一类，即计算

式中||X_k-t_i(n)||为欧式范数；t_i(n)为第n次迭代的第i个聚类中心，i＝1,2，…，I为聚类中心；X_k为从训练数据中随机抽取训练样本。

找到相应的i值，将X_k归化为第i类。

④更新聚类中心。由于X_k的加入，第i类的聚类中心会因此发生改变。新的聚类中心等于

式中η为学习步长，0<η<1；t_i(n)为第n次迭代的第i个聚类中心；X_k为从训练数据中随机抽取训练样本,i＝1,2，…，I为聚类中心。

每次只会更新一个聚类中心，其他聚类中心不会被更新。

⑤判断。判断算法是否收敛，当聚类中心不再变化时，算法就收敛了。实际中常常设定一个较小的阈值，如果聚类中心的变化小于阈值，那么就没有必要再继续计算了。如果判断结果没有收敛，则转到第②步继续迭代。K-均值聚类算法的流程如图3所示。

结束时求得的t_i(n)即最终确定的聚类中心。

B、学习标准差

选定聚类中心之后，就可以计算标准差了。当基函数选用高斯函数时

式中||X_k-X_i||为欧式范数；X_i为高斯函数的中心；σ为高斯函数的标准方差。

则标准差计算公式为

式中n为隐含节点的个数；d_max为所选取的聚类中心之间的最大距离。

C、学习权重

一般采用最小均方算法(LMS)，LMS算法的输入为隐含层产生的输出。可采用求伪逆的方法。假设d＝{d_kj}为期望输出，d_kj是第k个输入向量在第j个输出节点的期望输出值，w_ij，i＝1,2,…,J为从第i个隐含节点到到j个输出节点的权重，则输出权重矩阵w可用下式求得：

w＝G⁺d (7)

式中G＝{g_ki}；矩阵w＝w_ij，为从第i个隐含节点到到j个输出节点的权重；矩阵 d＝d_kj，为第k个输入向量在第j个输出节点的期望输出值，其中

g_ki＝φ(||X_k-X_i||²),k＝1,2,...,K；i＝1,2,...,I(8)

式中g_ki是第k个输入向量在第i个隐含节点的输出值，共有K个训练输入向量； ||X_k-X_i||为欧式范数，X_i为高斯函数的中心。(·)⁺表示伪逆。

伪逆又称广义逆，可以通过奇异值分解(SVD)求得。假设A是一个M×N 的矩阵，对A做奇异值分解，[U,S,V]＝svd(A)，得到矩阵U、S、V。其中U是M ×N矩阵，U中的列向量成为左奇异向量，V是N×N矩阵，其中的列向量成为由奇异向量，S是M×N对角矩阵，主对角线元素是矩阵A的奇异值，S＝diag (σ₁,σ₂,…)。

4)径向基函数(RBF)网络的预测功能检验。通过训练好的径向基函数(RBF) 网络，通过学习样本得到预测值，并与期望值进行比较。将采用相关系数R²和相对误差RE来评价径向基函数网络的可靠性。

式中

为第i个水质实际监测值；

为第i个水质模拟值；n为模拟总个数。

实施例1

为了使本发明实施例的目的、技术方案和优点更加清楚，下面将本方法应用于YQ水库并进行实际的富营养化预测(图4～图6，表1)，以便对本发明专利提出的方法进行详细的说明。显然，所描述的实施例仅为本发明一部分实施例，而不是全部的实施例。

本实施例将一种基于人工智能算法的湖(库)富营养化预测方法应用我国北方YQ水库的实际水环境管理工作中，采用如下步骤进行实施：

(1)基础数据库的构建和模型自变量筛选

YQ水库库内共四个监测点，分别是库西、库北、库心和库东，这四个监测点空间距离相距较近，监测数据的空间差异性较小，所以本实施例采用库内四个监测点的监测数据平均值建立一个对整个库区的基于径向基函数(RBF)网络的人工神经网络数学模型。该人工神经网络数学模型选取了叶绿素a、水温、溶解氧、总氮、总磷等作为模型的自变量。

(2)径向基函数(RBF)网络的构建

根据径向基函数(RBF)网络的原理，设计出YQ水库富营养化预测网络结构，如图4所示。选用标准化后的总氮、总磷、溶解氧、水温和叶绿素a共5个水质指标作为径向基函数(RBF)输入条件，输入为五维数组，输出为一维数组：一个月后的叶绿素浓度。图4中G(X,Xp)为基函数；X为训练样本；Xp为每个基函数的中心；∑为各隐层神经节点输出的加权求和。

设计好网格的结构后，最重要的部分为训练样本数据的准备，输入的维数越多，变量越复杂，设计工况需求也越高，其个数、准确程度和覆盖面均会影响预测效果。在此数学模型应用中，选用n₁、n₂年两年的实测水质数据作为输入数据，即基于径向基函数(RBF)人工神经网络的学习样本。

为了检验该网络的预测功能，统计出n₁、n₂年两年共五维、48组监测数据，将其作为学习样本，并统计出n₃年的23组监测数据通过学习好的响应关系进行预测，并与期望值进行比较。通过试算，确定径向基函数(RBF)网络较合适的计算参数为LoopNumberEnd＝10。附表1为该数学模型预测结果，并将径向基函数(RBF)网络预测值与实测值进行对比，如图5所示。

表1基于径向基函数(RBF)的人工神经网络数学模型预测结果

由图6可以看出，径向基函数(RBF)网络的预测值接近期望值，计算误差平均值为32.9％，预测效果较好，能够满足精度要求，且由图6可知，模型预测值与实测值相关系数平方为0.61。因此，本发明建立的基于径向基函数(RBF) 的人工神经网络模型能够反映YQ水库藻类浓度的变化趋势，计算结果基本令人满意，可以满足实际应用的要求。随着样本的不断积累和扩充，模型预测的准确度和可靠性也会随之提高。

上述的实施例仅是本发明的部分体现，并不能涵盖本发明的全部，在上述实施例以及附图的基础上，本领域技术人员在不付出创造性劳动的前提下可获得更多的实施方式，因此这些不付出创造性劳动的前提下获得的实施方式均应包含在本发明的保护范围内。