CN114417227A

CN114417227A - 一种水体中叶绿素a浓度预测方法

Info

Publication number: CN114417227A
Application number: CN202111356824.9A
Authority: CN
Inventors: 黄劲松; 陈优良
Original assignee: Zhejiang Zhipu Engineering Technology Co ltd
Current assignee: Zhejiang Zhipu Engineering Technology Co ltd
Priority date: 2021-11-16
Filing date: 2021-11-16
Publication date: 2022-04-29

Abstract

本发明公开一种水体中叶绿素a浓度预测方法，包括以下步骤：S1、采集原始水质监测数据，其中，所述原始水质监测数据包括若干水质特征；S2、提取所述原始水质监测数据的特征子集，所述特征子集用于表示预测效果更佳的所述水质特征；S3、构建预测叶绿素a浓度模型，优化所述预测叶绿素a浓度模型的参数，利用所述特征子集训练所述预测叶绿素a浓度模型，获得训练好的预测叶绿素a浓度模型；S4、将待检测的所述特征子集输入所述训练好的预测叶绿素a浓度模型，获得叶绿素a浓度的预测结果。本发明大幅减少学习时间，增强学习效率，并提高了对叶绿素a浓度预测的准确性。

Description

一种水体中叶绿素a浓度预测方法

技术领域

本发明涉及水体检测技术领域，特别是涉及一种水体中叶绿素a浓度预测方法。

背景技术

随着社会的迅速发展，大量的工业废水和生活污水流入湖泊，使得水体中氮磷含量超出规定的指标，随之出现富营养化现象。湖泊中的浮游植物开始大量的繁殖，导致藻类水华的大面积爆发，不仅影响湖泊的水质，而且对湖泊的生态系统造成严重的破坏。叶绿素a存在于所有的水体藻类中，其浓度值可以反映水体藻类的含量。有效的预测叶绿素a浓度的变化，可以清楚地了解到湖泊水质的变化情况，为水体藻类爆发的预警工作和水环境的治理提供重大的帮助。

早期预测叶绿素a浓度变化的方法主要是基于数值分析方法，但随着数据量以及数据维度的增多，传统的预测模型已经不能满足要求。随着机器学习方法的兴起，大量的研究学者使用多元线性回归、支持向量机、人工神经网络等方法预测叶绿素a的浓度变化。目前研究学者多数使用BP神经网络预测叶绿素a浓度的变化，BP神经网络通过反向传播的方式完成训练过程，导致其学习效率较低，增加了数据处理的时间和计算量。

发明内容

本发明的目的是提供一种水体中叶绿素a浓度预测方法，以解决上述现有技术存在的问题，大幅减少学习时间，增强学习效率，并提高了对叶绿素a浓度预测的准确性。

为实现上述目的，本发明提供了如下方案：本发明提供一种水体中叶绿素a浓度预测方法，包括以下步骤：

S1、采集原始水质监测数据，其中，所述原始水质监测数据包括若干水质特征；

S2、提取所述原始水质监测数据的特征子集，所述特征子集用于表示预测效果更佳的所述水质特征；

S3、构建预测叶绿素a浓度模型，优化所述预测叶绿素a浓度模型的参数，利用所述特征子集训练所述预测叶绿素a浓度模型，获得训练好的预测叶绿素a浓度模型；

S4、将待检测的所述特征子集输入所述训练好的预测叶绿素a浓度模型，获得叶绿素a浓度的预测结果。

可选地，所述原始水质监测数据的水质特征包括温度数据、压强数据、PH值数据、氧化还原电位数据、溶解氧数据、电导率数据、盐度数据、浊度数据、硝酸盐数据、高锰酸盐指数数据、氨氮数据、总磷数据、总氮数据、叶绿素a数据。

可选地，采用基于互信息的最大相关最小冗余方法提取所述原始水质监测数据的特征子集。

可选地，所述S2中提取所述原始水质监测数据的特征子集包括：

基于所述原始水质监测数据，按照式(1)所示的方法获取除叶绿素a以外的其他所述水质特征与所述叶绿素a的互信息值：

其中，I(a,b)表示变量a和b之间的互信息值，p(a)和p(b)分别为变量a和变量b的概率密度，p(a,b)为其联合概率密度；

按照式(2)所示的方法计算最大相关：

其中，maxD(S,r)表示最大相关，S为特征子集，r为目标特征，|S|表示为特征数目，x_i表示特征集，I(x_i,r)表示特征集和目标特征之间的互信息；

按照式(3)所示的方法计算最小冗余：

其中，minR(S)表示最小冗余，其中S是特征子集；|S|表示为特征数目；x_i表示特征集；I(x_i,x_j)表示各特征值之间的互信息；

基于所述最大相关和所述最小冗余，按照式(4)所示的方法计算数据集之间的最大相关和最小冗余度：

maxφ(D，R)＝D-R (4)

其中，maxφ为最大相关度-最小冗余度的集合，D为最大相关，R为最小冗余。

可选地，所述S3中采用极限学习机网络构建所述预测叶绿素a浓度模型。

可选地，所述S3中采用精英遗传方法和模拟退火方法优化所述预测叶绿素a浓度模型的参数。

可选地，优化所述预测叶绿素a浓度模型的参数包括：

S3.1、初始化种群X＝{x₁,x₂,…,x_n},其中，n为种群的个体数量；

S3.2、按照式(6)所示的方法计算所述种群中每个个体的适应度fitness:

其中，N表示测试样本数；y_i表示测试样本的实测值；y_i'表示测试样本的预测值；

将适应度最优的个体记为x_i，判断是否达到最大进化次数，若达到最大进化次数，则输出最优个体及其解，并结束运算，否则，进行S3.3；

S3.3、使用选择、交叉、变异算子对所述种群中的个体进化，产生一个新种群X₁＝{X₁，X₂，…，X_m}；

S3.4、计算所述新种群X₁的适应度，获得最优个体为x_j,最劣个体为x_k；

S3.5、将所述S3.2中的最优个体x_i取代步骤S3.4中的最劣个体x_k；

S3.6、结合模拟退火机制，按照式(7)所示的Metroplis准则判断是否接受所述最优个体x_j：

其中，P为接受当前最优个体的概率；f(x_i)为上一代种群最优个体的适应度；f(x_j)为当前种群的最优个体的适应度；T为当前的温度；

S3.7、采用T＝0.99·T的线性函数退火，返回步骤S3.2。

可选地，所述S4中还包括对所述预测结果进行评估。

可选地，对所述预测结果进行评估包括：使用平均绝对误差、均方误差、决定系数对所述预测结果进行评估。

本发明公开了以下技术效果：

本发明提供的一种叶绿素a浓度预测方法，采用极限学习机网络构建预测模型，通过模拟退火方法融入精英遗传方法中，用于优化预测模型，并通过最大相关最小冗余分析，较好地解决了数据之间的冗余性，选出一组预测效果更好的特征子集输入预测模型，提升了模型的预测精度，大幅减少了学习时间，增强了学习效率与寻优能力，并提高了对叶绿素a浓度预测的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中水质监测过程示意图；

图2为本发明实施例中SA-EGA优化流程示意图；

图3本发明实施例中MRMR-SA-EGA-ELM预测模型工作流程示意图；

图4本发明实施例中预测模型参数寻优结果示意图；

图5本发明实施例中模型预测结果分析示意图，其中，图(a)为MRMR-ELM模型，图(b)为MRMR-GA-ELM模型，图(c)为MRMR-EGA-ELM，图(d)为本发明的MRMR-SA-EGA-ELM模型；

图6本发明实施例中模型预测结果散点分布示意图，其中，图(a)为MRMR-ELM模型，图(b)为MRMR-GA-ELM模型，图(c)为MRMR-EGA-ELM，图(d)为本发明的MRMR-SA-EGA-ELM模型；

图7为发明实施例中水体中叶绿素a浓度预测方法流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明提供一种水体中叶绿素a浓度预测方法，本实施例中使用的数据为南太湖区域-新塘港2020年5月至11月监测的水质数据，如图1-7所示，该预测方法包括以下步骤：

S1、通过物联网技术获取高频率的水质监测数据。

利用具备无线通信功能的数据采集单元DTU(USR-G781)与水质分析仪关联，然后将水质分析仪传感器与监测站点关联，最终通过服务器串接完成水质数据的监测，如图1所示。

本实施例中，新塘港中设置了8个信息站点如表1所示，采集水质监测数据，通过使用传感器自动监测采样方法，实现对该区域水体质量状况的监测，其中，水质监测数据包括多种元素：温度(℃)、压强(mB)、PH值、氧化还原电位(mV)、溶解氧(mg/L)、电导率(μs/cm)、盐度(PSU)、浊度(NTU)、硝酸盐(mg/L)、高锰酸盐指数(mg/L)、氨氮(mg/L)、总磷(mg/L)、总氮(mg/L)、叶绿素a(ug/L)14个指标。本实施例中，测试数据共有408组。

表1

监测站点	X(经度)/°	Y(纬度)/°
			1	120.100575	30.895653
2	120.100486	30.888023
			3	120.100463	30.884078
4	120.094973	30.878601
			5	120.090335	30.874224
6	120.089312	30.870278
			7	120.081724	30.869411
8	120.075175	30.868011

S2、基于互信息的最大相关最小冗余方法(Max Relevance and Min Redundancy,MRMR),提取预测效果更佳的特征子集。

由于水质监测包括多种影响元素，因此监测数据包含多项因子，在预测叶绿素a浓度的过程中，如果将全部数据作为样本，输入预测模型中，由于未考虑到各项特征与目标特征的相关性，以及各项特征之间的冗余性，会影响预测结果的精度，故需要计算各影响元素与叶绿素a浓度之间的相关性，提取出预测效果更佳的特征子集。本实施例中，采用互信息的最大相关最小冗余方法，从原始水质监测数据选取预测效果更佳的特征子集。具体过程为：

基于原始水质监测数据，按照式(1)所示的方法获取除叶绿素a以外的其他水质特征与所述叶绿素a的互信息值：

其中，I()表示变量a和b之间的互信息值，其中p(a)和p(b)分别为变量a和变量b的概率密度，而p(a,b)则为其联合概率密度；

按照式(2)所示的方法计算最大相关：

其中，maxD()表示最大相关，S为特征子集，r为目标特征；|S|表示为特征数目，x_i表示特征集，I(x_i,r)表示特征集和目标特征之间的互信息；

按照式(3)所示的方法计算最小冗余：

其中，minR()表示最小冗余，其中S是特征子集；|S|表示为特征数目；x_i表示特征集；I(x_i,x_j)表示各特征值之间的互信息；

基于最大相关和最小冗余，按照式(4)所示的方法计算数据集之间的最大相关和最小冗余度：

maxφ(D，R)＝D-R (4)

其中，maxφ为最大相关度-最小冗余度的集合，是优化特征的计算准则，D为最大相关，R为最小冗余。

根据公式(1)至(4)，计算出除叶绿素a以外的其他水质特征与叶绿素a的互信息值，计算结果见表2。由表2可知，氨氮、盐度、总磷三个特征值与叶绿素a的相关性较弱，故而本发明将这三个特征值从原始样本数据中删除，提取出的其余特征值与对应的叶绿素a浓度组成一个子样本数据，用于叶绿素a浓度预测模型的训练集和测试集，其中训练集中包含370组数据，测试集中包含38组数据。

表2

特征值	互信息值
		硝酸盐	2.941
电导率	1.008
		氧化还原电位	1.011
总氮	1.020
		浊度	1.100
温度	1.026
		溶解氧	1.023
压强	1.039
		PH值	1.034
高锰酸盐指数	1.014
		氨氮	0.953
盐度	0.922
		总磷	0.701

S3、基于极限学习机网络构建预测叶绿素a浓度模型，优化预测叶绿素a浓度模型的参数，利用训练集训练预测叶绿素a浓度模型，获得训练好的预测叶绿素a浓度模型。

本实施例构建的预测叶绿素a浓度模型分为参数优化和ELM网络两部分，因此模型涉及的参数也由这两部分构成。

极限学习机的输入层与隐藏层之间的权重和偏置是随机产生，导致预测结果不稳定。针对该问题，本实施例在精英遗传算法(Elitist Genetic Algorithm,EGA)的基础上，为加强算法的局部搜索能力，融合模拟退火算法(Simulated Annealing,SA)，实现对极限学习机参数的优化。最终，本实施例中将交叉概率设为0.95，变异概率设为0.001，初始温度与算法的迭代次数设为4000，退火速率设置为0.99。然后依据公式(5)所示的经验公式将ELM网络中的隐藏层神经元个数设置为10。

其中，中y表示隐藏层的神经元个数；x₁和x₂分别表示输入层和输出层的神经元个数；n值一般为[1,10]之间的整数。

利用SA-EGA对参数进行优化的过程具体包括：

S3.1、初始化种群X＝{x₁,x₂,…,x_n},其中，n为种群的个体数量。

S3.2、按照式(6)所示的方法计算种群中每个个体的适应度fitness:

将适应度最优的个体记为x_i，判断是否达到最大进化次数，若达到最大进化次数，则输出最优个体及其解，并结束运算，否则，进行S3.3。

S3.3、使用选择、交叉、变异算子对所述种群中的个体进化，产生一个新种群X₁＝{x₁，x₂，…，x_m}。

S3.4、计算新种群X₁的适应度，获得最优个体为x_j,最劣个体为x_k。

S3.5、将S3.2中的最优个体x_i取代步骤S3.4中的最劣个体x_k。

其中，P为接受当前最优个体的概率；f(x_i)为上一代种群最优个体的适应度；f(x_j)为当前种群的最优个体的适应度；T为当前的温度。

若接受，则保留该个体为种群的最优个体，若不接受，则不保留。

S3.7、采用T＝0.99·T的线性函数退火，即对当前的温度T，每次迭代以0.99的速率降温，迭代后返回步骤S3.2。

比较遗传算法(GA)、精英遗传算法(EGA)、SA-EGA方法(模拟退火算法融入精英遗传算法)三种算法的寻优结果，如图4所示。由图4可知，在优化过程中，GA的寻优效果最差，在大约2000次之后，算法会长时间陷入局部最优，而EGA算法在引入精英保留策略防止种群中优势个体被破坏后，陷入局部最优的情况有了明显的改善，寻优效果得到有效的提升。SA-EGA算法在EGA算法的基础上融入模拟退火算法加强局部搜索能力后，在进化的过程中，误差在不断的减小。由此可见，SA-EGA算法的寻优效果最佳。

S4、将测试集输入训练好的预测叶绿素a浓度模型，获得叶绿素a浓度的预测结果，对预测结果进行评估。

图5是MRMR-ELM、MRMR-GA-ELM、MRMR-EGA-ELM、MRMR-SA-EGA-ELM四种模型对子样本中38组测试数据的预测结果，图6是上述四种模型预测结果的散点分布情况，表3是使用MAE、MSE、R2对四种模型预测效果的评估。

表3

模型	MAE	MSE	R<sup>2</sup>
				MRMR-ELM	2.078	8.249	0.562
MRMR-GA-ELM	1.477	3.384	0.807
				MRMR-EGA-ELM	1.100	1.914	0.879
MRMR-SA-EGA-ELM	1.009	1.607	0.903

由图5(a)和图6(a)所示的预测结果可知，MRMR-ELM模型的预测结果在较大程度上偏离实测值，拟合效果较差，说明虽然使用MRMR算法提取样本的特征值，减小了数据之间的冗余性，但ELM模型使用随机初始化参数，依旧会对预测结果造成较为严重的影响，不宜用于预测叶绿素a浓度。

通过对图5(a)、图6(a)与图5(b)、图6(b)两组预测结果分析可知，MRMR-GA-ELM模型的预测结果精度得到了提升，拟合效果更佳，证明了GA算法在一定程度上实现了对MRMR-ELM模型的参数优化，降低了预测误差。由图5(b)、图6(b)与图5(c)、图6(c)两组模型预测结果可知，MRMR-EGA-ELM模型的预测结果相比于MRMR-GA-ELM模型更逼近实测值，拟合程度更高，表明GA算法虽然可以减小随机初始化参数对模型产生的影响，但其自身存在的“早熟”问题，同样会导致参数寻优结果过早陷入局部最优解，对预测模型的精度造成一定程度的影响。而EGA算法可以有效减小GA算法中的不足之处对预测结果产生的影响。由图5(c)、图6(c)和图5(d)、图6(d)两组预测结果对比分析可知，MRMR-SA-EGA-ELM模型预测结果偏离实测值的程度更小，预测精度在MRMR-EGA-ELM模型的基础上有所提升，说明EGA算法在融合SA算法后，局部寻优能力得到了相应的改善，使算法可以寻找到预测效果更佳的参数解，更适合用于ELM模型的优化。

由表3可知，MRMR-ELM模型预测叶绿素a浓度结果的MAE、MSE、R²分别为2.078、8.249、0.562，MRMR-GA-ELM模型预测叶绿素a浓度结果的MAE、MSE、R²分别为1.477、3.384、0.807，MRMR-EGA-ELM模型预测叶绿素a浓度结果的MAE、MSE、R²分别为1.100、1.914、0.879，MRMR-SA-EGA-ELM模型预测叶绿素a浓度结果的MAE、MSE、R²分别为1.009、1.607、0.903，表明MRMR-SA-EGA-ELM模型是四种模型中最优的一种模型，可以更准确的预测叶绿素a的浓度变化情况。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。