CN116884523B

CN116884523B - 一种海洋牧场水质多参数预测方法

Info

Publication number: CN116884523B
Application number: CN202311145953.2A
Authority: CN
Inventors: 李正宝; 亓惠琳; 杜立彬; 高鼎; 马云鸽
Original assignee: Shandong University of Science and Technology
Current assignee: Shandong University of Science and Technology
Priority date: 2023-09-07
Filing date: 2023-09-07
Publication date: 2023-11-21
Anticipated expiration: 2043-09-07
Also published as: CN116884523A

Abstract

本发明公开了一种海洋牧场水质多参数预测方法，属于水质预测技术领域，其步骤为：获取海洋牧场监测传感器采集的多个水质参数的数据作为原始数据集，通过对水质参数重要性进行分析，确定预测水质参数，采用皮尔逊相关系数对所有水质参数进行筛选，得到输入水质参数；对输入水质参数和预测水质参数的数据进行预处理，划分为训练集和测试集，通过滑动时间窗对训练集进行处理；基于特征注意力机制、时间注意力机制与深层LSTM网络构建水质多参数预测模型，采用训练集和测试集对该模型进行训练和测试。本发明实现海洋牧场水质多参数的高精度预测，提高了突发灾害的应对能力，保障海洋牧场的养殖安全，降低海洋牧场的养殖风险和经济损失。

Description

一种海洋牧场水质多参数预测方法

技术领域

本发明属于水质预测技术领域，具体涉及一种海洋牧场水质多参数预测方法。

背景技术

在海洋牧场养殖过程中，水质参数对养殖生物的生长发育至关重要，是决定海洋牧场产量和质量的关键因素。目前海洋牧场水质监测功能比较完善，可以实时监测海洋牧场水质状况，为海洋牧场养殖提供一定的信息支持。但海洋牧场养殖过程中会受到台风、浒苔、赤潮、缺氧等突发生态灾害的影响，仅仅依靠水质监测无法做到早预测、早发现，导致企业应对突发海洋灾害的能力较弱，往往遭受重大财产损失。

海洋牧场水质预测利用海洋牧场采集的历史水质数据，运用数学模型进行计算，推断出水质数据在未来的变化趋势，为海洋灾害预报预警提供支撑，保障海洋牧场的养殖安全，降低海洋牧场的养殖风险和经济损失。

近年来，研究人员开展了海洋领域和陆地水域的水质参数预测研究，取得了一定的研究成果，包括灰色系统理论、多元线性回归、机器学习、神经网络等。传统的水质预测方法原理简单、计算速度快，但非线性拟合的能力较低。神经网络方法能够提取水质数据中的特征信息，具有较强的自适应能力和学习能力，能够充分拟合复杂非线性关系，但仍存在易受无关变量干扰、对输入数据中隐藏重要信息的挖掘不足、无法有效提取序列的长期依赖关系等欠缺，无法完全满足海洋牧场企业的生产经营需要。

由于水质参数间存在复杂的耦合关系，若均作为神经网络的输入变量，可能会降低模型的预测精度，难以取得理想效果。因此通过皮尔逊相关系数对水质参数进行筛选，去掉与预测参数相关性较低的参数，忽略对预测参数影响较小的水质特征，提高模型预测效果。

在水质预测过程中，不同水质参数与不同时间节点对预测的影响程度不同，直接作为输入可能会导致神经网络对重要信息的关注不够充分，利用注意力机制找出对预测更重要的关键水质参数与时间节点，通过训练实现权重的动态调节，增强输入数据中的关键信息。

LSTM模型的神经元结构可以对水质信息进行选择性的记忆，利用水质数据间的长期依赖关系对未来结果进行预测，在水质预测上具有较强的优势。但单层LSTM神经网络在处理带有多水质参数的复杂信息时，无法准确捕捉特征信息的变化，使得模型的预测精度不高。深层LSTM神经网络能够从输入数据中提取水质参数的多层次特征，从而提高预测精度。

本发明分析海洋牧场水质参数特点，综合考虑算法预测精度和计算耗时，通过皮尔逊相关系数筛选输入参数，利用注意力机制增强输入数据中的关键信息，构建深层LSTM网络充分提取水质特征，实现海洋牧场水质多参数的高精度预测，提高了突发灾害的应对能力，保障海洋牧场的养殖安全，降低海洋牧场的养殖风险和经济损失。

发明内容

针对现有技术中存在的上述问题，本发明提出了一种海洋牧场水质多参数预测方法，设计合理，解决了现有技术的不足，具有良好的效果。

为了实现上述发明目的，本发明采取以下技术方案：

一种海洋牧场水质多参数预测方法，包括以下步骤：

S1、获取海洋牧场监测传感器采集的多个水质参数的数据作为原始数据集，通过对水质参数重要性进行分析，确定预测水质参数，采用皮尔逊相关系数对所有水质参数进行筛选，得到输入水质参数；

S2、对输入水质参数和预测水质参数的数据进行预处理，采用8:2的比例划分训练集和测试集，通过滑动时间窗对训练集进行处理；

S3、基于特征注意力机制、时间注意力机制与深层LSTM网络构建水质多参数预测模型，采用训练集对该模型进行训练；

S4、采用测试集对训练好的模型进行测试。

进一步地，所述S1包括以下子步骤：

S11、通过线性插值法对原始数据集中缺失或异常数据进行填充和替换；

S12、从海洋牧场养殖的角度进行分析，选择水温、溶解氧和PH值作为预测水质参数；

S13、采用皮尔逊相关系数对水质数据进行处理，确定预测水质参数与所有水质参数间的相关性，若水质参数与预测水质参数之间的皮尔逊相关系数的绝对值小于0.4，则将该水质参数筛选去除，剩余的水质参数为输入水质参数。

进一步地，所述S13具体为：首先对水质数据进行归一化处理，其公式为：

；

其中，为水质参数数据的原始值，为该水质参数的最小值，为该水质参数的最大值；

其次计算相关系数矩阵：

；

其中，为水质参数的总个数，为第个水质参数和第个水质参数的皮尔逊相关系数，；o为每个水质参数的数据总个数，为第个水质参数中第个数据值，，为第个水质参数数据的均值，为第个水质参数中第个数据值，为第个水质参数数据的均值；

若水质参数与预测水质参数之间的皮尔逊相关系数的绝对值小于0.4，则将该水质参数筛选去除，剩余的水质参数为输入水质参数。

进一步地，所述S2包括以下子步骤：

S21、对输入水质参数和预测水质参数的数据根据监测时间进行排序，进行均值处理：

对每个水质参数的数据进行分组处理，将o个数据分成r组，每组包括h个数据，对每组数据求均值，其表达式为：

；

其中，为第组水质数据的平均值，；为每组中第个数据值，；

S22、将处理后的数据按照8:2的比例划分训练集和测试集，并进行归一化处理；

S23、通过滑动时间窗对训练集进行处理，将输入模型的数据处理为3维，分别为 batch_size、time_steps、input_size，其中batch_size为一次训练输入的数据组的数量； time_steps为时间步长，，其中为预测目标的时间长度，为时间间隔； input_size为输入水质参数的个数；将模型输出的数据也处理为3维，分别为batch_size、 time_steps、output_size，其中output_size为预测水质参数的个数。

进一步地，所述S3包括以下子步骤：

S31、构建注意力机制，包括特征注意力机制和时间注意力机制，设输入数据的时间步长为，特征数量为，，其中为时刻的个特征，，为第个特征下的长度为的时间序列，；

S32、特征注意力机制的表达式为：

；

其中，为各输入特征对应的注意力权重系数，为 Sigmoid激活函数，与为特征注意力的权重矩阵与偏置向量；

通过softmax函数对权重系数做归一化处理，其表达式为：

；

得到；

最后得到特征注意力矩阵；

时间注意力机制的表达式为：

；

其中，为各输入时间对应的注意力权重系数，为 Sigmoid激活函数，与为时间注意力的权重矩阵与偏置向量；

通过softmax函数对权重系数做归一化处理，其表达式为：

；

得到；

最后得到时间注意力矩阵；

将特征注意力矩阵和时间注意力矩阵输入到神经网络中，其表达式为：

；

其中为激活函数，与为权重矩阵与偏置向量；

最后得到融合特征与时间注意力的矩阵；

将矩阵与原始变量点乘，得到特征与时间加权后的输入变量；

S33、将通过注意力机制处理后的数据输入到深层LSTM模型中，深层LSTM模型包括输入层、隐藏层和输出层，其中隐藏层由多个LSTM单元构成；

首先通过输入层将输入变量的维度转换为batch_size、time_steps、cell_size，其中，cell_size代表隐藏层神经元的个数；

其次通过隐藏层，其中LSTM神经元包括输入门、遗忘门和输出门，其表达式为：

；

其中代表当前时刻的输入，代表上一时刻的隐藏状态，为激活函数，代表当前时刻的遗忘门状态，决定上一时刻的单元状态中的哪些信息被遗忘，代表遗忘门对应输入的权重，代表遗忘门对应隐藏状态的权重，代表遗忘门对应的偏置；代表当前时刻的输入门状态，决定候选记忆单元中的哪些信息被保存到中，代表输入门对应输入的权重，代表输入门对应隐藏状态的权重，代表输入门对应的偏置；代表候选记忆单元，通过tanh函数生成全新的候选向量，代表候选记忆单元对应输入的权重，代表候选记忆单元对应隐藏状态的权重，代表候选记忆单元对应的偏置；代表通过计算得到的当前时刻的记忆单元状态；代表当前时刻的输出门状态，决定记忆单元状态中的哪些信息输出到中，代表输出门对应输入的权重，代表输出门对应隐藏状态的权重，代表输出门对应的偏置；代表当前时刻LSTM单元的输出；

通过Dropout方法随机使其中某些神经元节点以概率u停止激活，降低神经元之间的相互依赖性，其中u=0.7；

通过隐藏层不改变维度，隐藏层的输出维度为batch_size、time_steps、cell_size；

最后通过输出层将隐藏层的输出维度转换为batch_size、time_steps、output_size，其中，output_size为输出的预测水质参数的个数。

有益技术效果：

本发明分析海洋牧场水质参数特点，通过皮尔逊相关系数筛选输入参数，利用注意力机制增强输入数据中的关键信息，构建深层LSTM网络充分提取水质特征，实现海洋牧场水质多参数的高精度预测，提高了突发灾害的应对能力，保障海洋牧场的养殖安全，降低海洋牧场的养殖风险和经济损失。

附图说明

图1是本发明中一种海洋牧场水质参数预测方法流程图。

图2是本发明中相关系数矩阵热力图。

图3是本发明中水质多参数预测模型结构图。

具体实施方式

下面结合附图和具体实施例对本发明的具体实施方式做进一步说明：

一种海洋牧场水质多参数预测方法，如图1所示，包括以下步骤：

S1、获取海洋牧场监测传感器采集的多个水质参数的数据作为原始数据集，在本实施例中，采集的水质参数包括溶解氧、水温、PH值、电导率、浊度、叶绿素、盐度等多种水质参数，通过对水质参数重要性进行分析，确定预测水质参数，采用皮尔逊相关系数对所有水质参数进行筛选，确定相关水质参数。

S1包括以下子步骤：

S11、针对原始数据集中出现数据缺失、异常波动等问题，通过线性插值法对原始数据集中缺失或异常数据进行填充和替换，以保证数据的准确性和完整性。

海洋牧场水域的温度变化会影响养殖物的食欲和新陈代谢，也会影响水中的溶解氧和各种物质的化学反应等。水温升高会引起水中的溶解氧减少，养殖物呼吸加速，耗氧量增大，溶解氧进一步减少，导致养殖物缺氧；水温过低，可能会造成鱼类陷入休眠，停止生长。溶解氧是养殖物呼吸、废物分解和藻类呼吸所必需的，溶解氧过低不仅影响养殖物的生存，还会导致水质变差；如果溶解氧过高，会对养殖物的发育造成影响。PH值用于评估水的酸碱度，可以反映水环境中的化学和生物反应。PH值过低时，养殖物维持盐平衡的能力受到影响，容易导致缺氧；PH值过高会对养殖物产生一定的危害，甚至会造成死亡。叶绿素与藻类光合作用及浮游生物有关，是养殖物重要的食物来源。盐度是水体中含盐的总量，盐度的变化会导致鱼类生长存活与摄食等相关生理指标发生变化。浊度是水中悬浮物对光线通过时所产生的阻碍程度，浊度过高时，水体透明度下降，影响藻类的光合作用和浮游生物的生长。电导率是指水体中传到电流的能力，当水中无机酸、碱或盐等化学物质以及重金属、杂质增加时，电导率增大，能够在一定程度上反应水质质量；

在海洋牧场的养殖活动中不同水质参数通过水质参数间的相互影响，直接或间接地影响养殖物，而水温、溶解氧和PH作为重要水质参数，往往会对养殖物造成直接影响。因此，水温、溶解氧和PH的精准预测对海洋牧场养殖至关重要，能够降低养殖风险，保证养殖安全。在此基础上，确定将水温、溶解氧和PH作为预测参数。

S13、采用皮尔逊相关系数对水质数据进行处理，确定预测水质参数与所有水质参数间的相关性，若水质参数与预测水质参数之间的皮尔逊相关系数的绝对值小于0.4，则将该水质参数筛选去除，剩余的水质参数为输入水质参数；

首先对水质数据进行归一化处理，其公式为：

；

其次计算相关系数矩阵：

；

若水质参数与预测水质参数之间的皮尔逊相关系数的绝对值小于0.4，则将该水质参数筛选去除，剩余的水质参数为输入水质参数；

其中，相关性也包括预测水质参数与其本身的相关性，该相关性为1，因此所有的预测水质参数也均为输入水质参数；

在本实施例中，如图2所示，可以看出压力、深度与水温、溶解氧和PH值的相关性较低，因此将水温、溶解氧、PH值、电导率、叶绿素、浊度、盐度作为输入水质参数。

S2、对输入水质参数和预测水质参数的数据进行预处理，采用8:2的比例划分训练集和测试集，通过滑动时间窗对训练集进行处理。

S2包括以下子步骤：

S21、对输入水质参数和预测水质参数的数据根据监测时间进行排序，通过均值处理提高原始数据的时间间隔，降低输入数据长度，对每个水质参数的数据进行分组处理，将o个数据分成r组，每组包括h个数据，对每组数据求均值，其表达式为：

；

本实施例选择水温、溶解氧、PH、电导率、叶绿素、浊度、盐度作为输入水质参数，水温、溶解氧和PH作为输出水质参数，预测目标是通过24h的水质参数数据预测后24h的水质参数数据。由于输入时间序列越长，数据间包含的信息量就越大，LSTM网络越容易出现出现梯度消失问题。原始数据集的时间间隔为2min，若将24h的720条水质数据全部作为输入会对水质预测模型产生较大影响，因此通过对原始数据集进行均值处理来减少梯度消失问题，将数据的时间间隔处理为60分钟，相应的，h=30。

S22、将处理后的数据按照8:2的比例划分训练集和测试集，并进行归一化处理，提高网络的收敛速度，消除不同特征量纲的影响。

S23、通过滑动时间窗对训练集进行处理，将输入到模型的数据处理为3维，分别为 batch_size、time_steps、input_size，其中batch_size为一次训练输入的数据组的数量； time_steps为时间步长，，其中为预测目标的时间长度，为时间间隔，在本实施例中=24；input_size为输入水质参数的个数，在本实施例中input_size =7；将模型输出的数据也处理为3维，分别为batch_size、time_steps、output_size，其中， output_size为预测水质参数的个数，在本实施例中output_size=3；

滑动时间窗的大小即为time_steps，向下滑动直至最后一条数据，将处理后的水质数据划分为batch_size个时间窗一组。

S3、基于特征注意力机制、时间注意力机制与深层LSTM网络构建水质多参数预测模型，如图3所示，采用训练集对该模型进行训练；

通过注意力机制提取对预测更重要的关键信息，利用特征注意力机制和时间注意力机制挖掘不同特征、不同时间节点的输入对于当前预测输出的重要程度，增强输入数据中关键特征与关键时间的信息表达，使得网络模型更加关注重要特征与时间，增加预测精度。

S3包括以下子步骤：

S31、构建注意力机制，包括特征注意力机制和时间注意力机制，设输入数据的时间步长为，特征数量为，，其中为时刻的个特征，，为第个特征下的长度为的时间序列，。

S32、通过特征注意力机制找出对预测更重要的关键水质参数，其表达式为：

；

通过softmax函数对权重系数做归一化处理，其表达式为：

；

得到；

最后得到特征注意力矩阵；

通过时间注意力机制找出对预测更重要的关键时间序列，其表达式为：

；

通过softmax函数对权重系数做归一化处理，其表达式为：

；

得到；

最后得到时间注意力矩阵；

将特征注意力权重矩阵和时间注意力权重矩阵输入到神经网络中，其表达式为：

；

其中为激活函数，与为权重矩阵与偏置向量；

最后得到融合特征与时间注意力的矩阵；

将矩阵与原始变量点乘，得到特征与时间加权后的输入变量。

其次通过隐藏层，深层LSTM网络中每层相当于一个单层的LSTM网络，在单层的LSTM网络中神经元横向传递不同时刻的信息；随后将一层LSTM网络的输出作为另一层LSTM网络的输入，纵向传递提取的水质特征。深层LSTM网络中输入数据在每一层都会被学习，具有更好的学习能力与特征提取能力，提高网络模型的泛化能力和预测性能；

每个LSTM网络层中，LSTM神经元包括输入门、遗忘门和输出门，其表达式为：

；

当采用深层LSTM网络作为隐藏层时，训练参数较多，容易出现过拟合的情况，通过Dropout方法随机使其中某些神经元节点以概率u停止激活，从而使得神经网络变得更加稀疏和随机，其中u=0.7。在深层LSTM网络中进行Dropout操作时，同一层神经元不会受到影响，而是在不同层之间传递信息时进行Dropout，引入Dropout后的深层LSTM网络降低了神经元之间的相互依赖性，提高模型的泛化能力；

S4、采用测试集对训练好的模型进行测试；

对测试集进行归一化处理，输入到训练好的水质多参数预测模型中，将输出数据反归一化得到预测水质参数数据。

当然，上述说明并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换，也应属于本发明的保护范围。

Claims

1.一种海洋牧场水质多参数预测方法，其特征在于，包括以下步骤：

所述S3包括以下子步骤：

S31、构建注意力机制，包括特征注意力机制和时间注意力机制，设输入数据D的时间步长为n，特征数量为m，其中/>为t刻的m个特征，1≤t≤n，/>为第k个特征下的长度为n的时间序列，1≤k≤m；

S32、特征注意力机制的表达式为：

e_t＝σ(w_ed_t+b_e)；

其中，为各输入特征对应的注意力权重系数，σ为Sigmoid激活函数，w_e与b_e为特征注意力的权重矩阵与偏置向量；

通过softmax函数对权重系数做归一化处理，其表达式为：

得到

最后得到特征注意力矩阵

时间注意力机制的表达式为：

r_k＝σ(w_rd_k+b_r)；

其中，为各输入时间对应的注意力权重系数，σ为Sigmoid激活函数，w_r与b_r为时间注意力的权重矩阵与偏置向量；

通过softmax函数对权重系数做归一化处理，其表达式为：

得到

最后得到时间注意力矩阵

c＝ReLU(w_c[A，B]+b_c)；

其中ReLU为激活函数，w_c与b_c为权重矩阵与偏置向量；

最后得到融合特征与时间注意力的矩阵

将矩阵C与原始变量D点乘，得到特征与时间加权后的输入变量

f_t＝σ(w_xfx_t+w_hfh_t-1+b_f)；

i_t＝σ(w_xix_t+w_hih_t-1+b_i)；

o_t＝σ(w_xox_t+w_hoh_t-1+b_o)；

h_t＝o_t*tanh(c_t)；

其中x_t代表当前时刻的输入，h_t-1代表上一时刻的隐藏状态，σ为激活函数，f_t代表当前时刻的遗忘门状态，决定上一时刻的单元状态c_t-1中的哪些信息被遗忘，W_xf代表遗忘门对应输入的权重，w_hf代表遗忘门对应隐藏状态的权重，b_f代表遗忘门对应的偏置；i_t代表当前时刻的输入门状态，决定候选记忆单元中的哪些信息被保存到c_t中，W_xi代表输入门对应输入的权重，W_hi代表输入门对应隐藏状态的权重，b_i代表输入门对应的偏置；代表候选记忆单元，通过tanh函数生成全新的候选向量，W_xc代表候选记忆单元对应输入的权重，W_hc代表候选记忆单元对应隐藏状态的权重，b_c代表候选记忆单元对应的偏置；c_t代表通过计算得到的当前时刻的记忆单元状态；o_t代表当前时刻的输出门状态，决定记忆单元状态中的哪些信息输出到h_t中，W_xo代表输出门对应输入的权重，W_ho代表输出门对应隐藏状态的权重，b_o代表输出门对应的偏置；h_t代表当前时刻LSTM单元的输出；

通过Dropout方法随机使其中某些神经元节点以概率u停止激活，降低神经元之间的相互依赖性，其中u＝0.7；

最后通过输出层将隐藏层的输出维度转换为batch_size、time_steps、output_size，其中，output_size为输出的预测水质参数的个数；

S4、采用测试集对训练好的模型进行测试。

2.根据权利要求1所述的一种海洋牧场水质多参数预测方法，其特征在于，所述S1包括以下子步骤：

3.根据权利要求2所述的一种海洋牧场水质多参数预测方法，其特征在于，所述S13具体为：首先对水质数据进行归一化处理，其公式为：

其中，x为水质参数数据的原始值，x_min为该水质参数的最小值，x_max为该水质参数的最大值；

其次计算相关系数矩阵：

其中，p为水质参数的总个数，q_ij为第i个水质参数和第j个水质参数的皮尔逊相关系数，1≤i≤p，1≤j≤p；o为每个水质参数的数据总个数，x_ki为第i个水质参数中第k个数据值，1≤k≤o，为第i个水质参数数据的均值，x_kj为第j个水质参数中第k个数据值，/>为第j个水质参数数据的均值；

4.根据权利要求3所述的一种海洋牧场水质多参数预测方法，其特征在于，所述S2包括以下子步骤：

其中，t_s为第s组水质数据的平均值，1≤s≤r；x′_l为每组中第l个数据值，1≤l≤h；

S22、将处理后的数据按照8：2的比例划分训练集和测试集，并进行归一化处理；

S23、通过滑动时间窗对训练集进行处理，将输入模型的数据处理为3维，分别为batch_size、time_steps、input_size，其中batch_size为一次训练输入的数据组的数量；time_steps为时间步长，其中H为预测目标的时间长度，t为时间间隔；input_size为输入水质参数的个数；将模型输出的数据也处理为3维，分别为batch_size、time_steps、output_size，其中output_size为预测水质参数的个数。