CN116956120A

CN116956120A - 一种基于改进的tft模型对水质非平稳时间序列的预测方法

Info

Publication number: CN116956120A
Application number: CN202310768371.3A
Authority: CN
Inventors: 张雪洁; 杨岳; 王龙宝; 徐淑芳; 朱云; 仓昊; 陈一涵
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2023-06-27
Filing date: 2023-06-27
Publication date: 2023-10-27

Abstract

本发明涉及数据挖掘技术领域，提出一种基于改进的TFT模型对水质非平稳时间序列的预测方法，该方法包括：建立水质监测数据库，获取预设时间段内多个监测站点有关的监测数据，通过对收集的监测数据进行预处理，存入数据库。添加额外来源的变量数据，建立多变量水质预测数据集。构建改进的时间融合Transformer(Temporal Fusion Transformer)模型，通过对水质数据集进行训练，利用验证集通过最小化分位数损失对超参数进行调优。利用测试集来评估该模型的预测能力。通过训练好的模型对未来水质数据进行预测，从而可以发现水质恶化或污染的预兆，方便决策者提前采取措施。

Description

一种基于改进的TFT模型对水质非平稳时间序列的预测方法

技术领域

本发明属于数据挖掘技术领域，具体涉及一种基于改进的TFT模型对水质非平稳时间序列的预测方法。

背景技术

要进一步科学有效地改善生态环境，需要充分利用新一代信息技术对河段水质进行预测，分析和解决具有挑战性的生态环境问题。这样，生态环境的决策和治理才能更加智能化。水质预测是水资源管理和水污染防治的一项基础性工作，为水质动态调控和突发性事件的发生提供了重要参考。近年来，随着物联网技术和人工智能的快速发展，逐渐出现了性能优良、稳定性好、延迟小的水质检测传感器。通过收集各种水质传感器的水质信息，可以实时获取各种水质检测指标。

水质预测实际上是时间序列预测的问题。一般来说根据历史水质数据，建立水质预测模型，预测未来一段时间内水质数据的变化趋势。目前时间序列预测的方法主要分为传统的统计方法和深度学习方法。传统方法中最常用的是ARIMA(差分整合移动平均自回归模型)，它能够捕捉特征之间的线性关系，但只适用于平稳的时间序列的预测，只考虑了时间序列内部的变化规律，忽略了可能会对水质造成影响的外部因素，不适用于复杂的水质数据。深度学习中最常用的方法RNN(循环神经网络)可以捕获时间序列的长期相关性，LSTM(长短期记忆网络)有效解决了RNN的梯度爆炸或消失问题，但这些方法中超参数的选择以及优化主要依靠主观经验和不断尝试，并且这些方法中都是将非平稳时间序列进行平稳化操作来进行预测，而忽略了数据本身的非平稳性。

发明内容

发明目的：针对以上技术存在的不足点，本发明提出了一种基于改进的TFT模型对水质非平稳时间序列的预测方法。综合考虑河流段位置、气象数据等额外可能对水体元素造成影响的变量来克服传统预测模型单一变量的问题，利用模型自动分析对造成水体污染元素产生重要影响的特征，从而避免了人为主观经验的特征选择过程，主要讨论溶解氧、氨氮、总磷、重金属、PH值、浊度这六种可能对水体造成污染的变量预测结果。采用平稳化处理非平稳的水质时间序列，通过去平稳注意力机制获得各变量之间的时间相关性，最后通过去平稳化恢复到原始的非平稳性，保持水质时间序列的非平稳性。

技术方案：为实现上述目的，本发明提出了一种基于改进的TFT模型对水质非平稳时间序列的预测方法，包括如下步骤：

S1：获取预设时间段内多个监测站点的水质数据，建立水质监测数据库。

S2：建立多变量水质预测数据集。

S3：划分多变量水质预测数据集。

S4：构建改进的时间融合Transformer模型，对水质数据集进行训练，利用最小化分位数损失对超参数进行调优。

S5：利用验证集来评估该模型的预测能力。

S6：利用训练好的模型对测试集进行预测，输出水质指标的未来多个步长时间的多个预测值，评估指标是否达到污染阈值。

进一步地，所述S1中建立水质监测数据库的方法：

通过在预设监测站点放置水质监测传感器，监测频率为每4小时监测一次，监测数据包括溶解氧、氨氮、总磷、重金属、PH值、浊度等。对收集的监测数据进行预处理，通过对监测到的数据进行数据清洗操作。

对于收集数据中的错误值、缺失值、离群值进行处理。删除错误值，利用线性插值法填补缺失值，基于箱型图，用第三四分位数代替数据中的高离群值，用第一四位分位数代替数据中的低离群值。处理后存入水质监测数据库中。

进一步地，所述步骤S2中建立多变量水质预测数据集的方法为：

S11：建立数据存储文件，为水质预测数据集文件。

S12：获取监测站点传感器的地理位置，通过气象局获取历史以及未来预设时间段内每个时间步长的气象数据，包含气温、监测站点气压、湿度、能见度、降雨量等，可能会对水质指标造成影响的特征变量。

S13：对传感器监测到的数据变量进行扩充，增加监测站点的传感器位置、历史气象局的气象数据、年、月、日、季节、未来气象数据项。

S14：将这些变量按时间顺序存储到数据文件中，形成水质预测数据集文件。

进一步地，所述步骤S3中具体划分变量的方法为：

将输入的多变量数据划分为三类不同的输入，分别是静态变量、历史观测值变量以及未来已知变量。将获取的监测站点的传感器位置作为静态变量输入，将历史监测到的水质数据、历史气象、年、月、日、季节作为历史观测值变量，将未来的年、月、日、季节、气象情况作为未来的已知输入。

进一步地，所述步骤S4中构建改进的时间融合Transformer模型的方法为：

S21：改进TFT模型中对非平稳时间序列的处理方法，在进行变量选择中，将选择后的时间序列变量进行平稳化处理：

其中S是时间序列的长度，μ_x是单个变量的均值，是单个变量的方差，x′_i是经过平稳化操作后的变量，平稳化处理后，减小了各个输入的时间序列之间的分布差异，使得输入的分布更加稳定。

S22：在TFT模型中的静态增强层之后增加一个具有线性特性的Embedding layer。此线性特性指：f(ax+by)＝af(x)+b(y)。

S23：改进TFT模型中的注意力机制算法，将其换成去平稳注意力机制(De-stationary Attention)，改进后的注意力求解方法：

来近似于得到未进行平稳化处理的注意力，可以从原始的未平稳化的数据中发现特定的时间相关性。其中τ和Δ是缩放和移动的消平稳因子，用来逼近和Kμ_Q。使用多层感知机作为映射器，从统计量μ_x，σ_x和非平稳序列x中来学习平稳因子τ和Δ。

S24：改进TFT模型中的输出方法，在输出前进行去平稳化操作。

其中y′_i是预测的结果，μ_x是均值，σ_x是标准差。这样设计使得模型对时间序列的平移和缩放扰动等变化，从而有利于水质这种非平稳时间序列的预测。

将水质预测数据集按7∶2∶1分为三个部分的数据集，分别为训练集、验证集以及测试集。对模型进行训练，训练结束后，将预测值与已知结果进行比较，联合最小化分位数损失对超参数进行调优。

所述步骤S4中分位数损失计算方法为：

对所有样本的损失求和计算方法为：

最小化损失，求出最优超参数，建立水质预测模型。

进一步地，所述步骤S6中具体的评估指标的方法为：利用训练好的模型，对未来一周的水质指标进行预测，根据预测结果与指定水体污染阈值对比，若某个指标超过阈值，则表示该水质达到污染程度，提前发出预警。

有益效果：本发明与现有技术相比，具备如下优点：

1、能够对水质这种复杂的时间序列实现多元预测，解决了单变量预测模型存在的预测时间长、不能并行等问题，有效的提高了预测的效率。

2、能够考虑对水质造成影响的其他来源因素，结合多变量数据特征，使得预测更加准确。

能够对水质这种非平稳性的数据进行处理，使得注意力关注的是水质本身的非平稳性数据特征之间的相关性。

附图说明

图1为本发明方法的流程示意图。

图2为改进TFT模型的结构图。

具体实施方式

下面结合本发明中的附图和具体实施例，进一步阐明本发明，所描述的具体实施例仅用于说明本发明而不用于限定本发明的范围。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其他实施方式，都属于本发明所保护的范围。

下面对本发明的技术方案进行详细说明。

本发明提出了一种基于改进的TFT模型对水质非平稳时间序列的预测方法，如图1所示，其包括如下步骤：

S2：建立多变量水质预测数据集。

S3：划分多变量水质预测数据集。

S5：利用验证集来评估该模型的预测能力。

本实施例步骤S1中建立水质监测数据库的方法：选择一段河流进行水质预测，在河流段预设监测站点放置水质监测传感器，监测的频率为每4小时监测一次，监测数据包括但不限于溶解氧、氨氮、总磷、重金属、PH值、浊度等。对收集的监测数据进行预处理，通过对监测到的数据进行数据清洗操作。

利用线性插值法填补缺失值的方法为：确定缺失值的位置，利用接近缺失值的前后两个相邻值，根据已知值之间的间隔，求得缺失值。

本实施例步骤S2中建立多变量水质预测数据集的方法为：

S11：建立数据存储文件，为水质预测数据集文件。

S12：获取监测站点传感器的地理位置，通过气象局获取历史以及未来预设时间段内每个时间步长的气象数据，包含但不限于气温、监测站点气压、湿度、能见度、降雨量等，可能会对水质指标造成影响的特征变量。

S14：将这些变量按时间、监测站点位置顺序存储到数据文件中，形成水质预测数据集文件。

本实施例步骤S3中具体划分变量的方法为：将输入的多变量数据划分为三类不同的输入，分别是静态变量、历史观测值变量以及未来已知变量。将获取的监测站点的传感器位置作为静态变量输入，将历史监测到的水质数据、历史气象、年、月、日、季节作为历史观测值变量，将未来的年、月、日、季节、气象情况作为未来的已知输入。

本实施例步骤S4中构建改进的时间融合Transformer模型的方法为：图2为本发明实施例使用改进TFT模型的内部结构设计图。静态变量通过特征选择模块后在静态增强层被增强。历史已知变量、未来已知变量分别通过特征选择之后进入编码器和解码器中，分别通过Gate和GRN后，再进行一次线性处理后进入De-stationary Attention机制中。最后将注意力机制中的结果通过一个简单的前馈层后，将结果去平稳化输出，恢复原始时间序列的非平稳性。具体内部改进实现细节为：

S23：改进TFT模型中的注意力机制算法，将其换成去平稳注意力机制(De-stationary

Attention)，改进后的注意力求解方法：

其中y′_i是预测的结果，μ_x是平稳化的均值，σ_x是平稳化的标准差。这样设计使得模型对时间序列的平移和缩放扰动等变化，从而有利于水质这种非平稳时间序列的预测。

本实施例步骤S4中分位数损失计算方法为：

对所有样本的损失求和计算方法为：

最小化损失，求出最优超参数，建立水质预测模型。

本实施例步骤S6中利用训练好的模型进行预测，对未来一周的水质指标进行预测，根据预测结果与指定水体污染阈值对比，若某个指标超过阈值，则表示该水质达到污染程度，提前发出预警。

根据以上实施例可知，针对水质预测，影响水质指标的因素多，数据的不平稳性强、复杂性高等问题，本发明的方法通过对影响水质指标的因素进行分类，同时结合多种变量数据，通过改进TFT模型，引入对非平稳时间序列的处理操作，来实现水质预测。

Claims

1.一种基于改进的TFT模型对水质非平稳时间序列的预测方法，其特征在于，其包括如下步骤：

S1：建立水质监测数据库，通过在预设监测站点放置水质监测传感器，获取预设时间段内多个监测站点的监测数据，如溶解氧、氨氮、总磷、重金属、PH值等，对收集的监测数据进行预处理，通过对监测到的数据进行数据清洗操作，对于采集故障、数据传输异常等原因导致数据缺失、异常值或者噪声等现象问题，进行处理，存入水质监测数据库中；

S2：建立多变量水质预测数据集，对水质预测数据集变量进行手动扩充，添加额外来源的变量数据；

S3：划分多变量水质预测数据集；

S4：构建改进的时间融合Transformer模型，对水质数据集进行训练，利用最小化分位数损失对超参数进行调优；

S5：利用验证集评估该模型的预测能力；

S6：通过训练好的水质预测模型对未来水质数据进行预测，为水质管理决策者提供未来水质预测信息。

2.根据权利要求1所述的一种基于改进的TFT模型对水质非平稳时间序列的预测方法，其特征在于，所述步骤S1中对于采集故障、数据传输异常等原因导致数据缺失、异常值或者噪声等现象问题处理的方法为：

S11：对水质历史观测数据中的错误值，缺失值、离群值进行处理；

S12：删除错误值；

S13：利用线性插值法填补缺失值；

S14：基于箱型图，用第三四分位数代替数据中的高离群值，用第一四位分位数代替数据中的低离群值。

3.根据权利要求1所述的一种基于改进的TFT模型对水质非平稳时间序列的预测方法，其特征在于，所述步骤S2中手动扩充水质预测数据集变量的方法为：

S21：建立存储数据文件，为水质预测数据集文件。

S22：获取监测站点传感器的地理位置，通过气象局获取预设时间段内每一个时间步长的天气状况以及未来预测的几个时间步长的天气情况。

S23：对传感器监测到的数据变量进行扩充，增加监测站点的传感器位置、历史观测到的天气状况、年、月、日、季节、未来天气预测情况项。

S24：将这些变量按时间顺序存储到数据文件中，形成水质预测数据集文件。

4.根据权利要求1所述的一种基于改进的TFT模型对水质非平稳时间序列的预测方法，其特征在于，所述步骤S3中将多变量水质预测数据集划分不同类型的输入步骤为：

将输入的多变量数据划分为三类不同的输入，分别是静态变量、历史观测值变量以及未来已知变量。将获取的监测站点的传感器位置作为静态变量输入，将历史监测到的水质数据、历史天气状况、年、月、日、季节作为历史观测值变量，将未来的年、月、日、季节、天气预测情况作为未来的已知输入。

5.根据权利要求1所述的一种基于改进的TFT模型对水质非平稳时间序列的预测方法，其特征在于，所述步骤S4中对改进的时间融合Transformer模型进行构建以及训练模型的步骤为：

S31：改进TFT模型中对于非平稳时间序列的处理方法，在进行变量选择中，变量选择后的时间序列变量进行平稳化处理。

其中S是时间序列的长度，μ_x是单个变量的均值，是单个变量的方差，x_i′是经过平稳化操作后的变量，平稳化处理后，减小了各个输入的时间序列之间的分布差异，使得输入的分布更加稳定。

S32：改进TFT模型中的注意力机制算法，将其换成去平稳注意力机制(De-stationaryAttention)，来近似于得到未进行平稳化处理的注意力，可以从原始的未平稳化的数据中发现特定的时间相关性。

S33：改进TFT模型中的输出方法，在输出前进行去平稳化操作。

其中是y_i′预测的结果，μ_x是均值，σ_x是标准差。这样设计使得模型对时间序列的平移和缩放扰动等变化，从而有利于水质这种非平稳时间序列的预测。

S34：将水质预测数据集按7∶2∶1分为三个部分的数据集，分别为训练集、验证集以及测试集。

S35：对模型进行训练，训练结束后，将预测值与已知结果进行比较，联合最小化分位数损失对超参数进行调优。具体关于分位数回归损失函数的计算步骤为如下：

S351：对水体中的每个元素变量进行预测的结果计算其损失。

S352：分位数损失公式为：

S353：对所有样本的损失求和公式：

6.根据权利要求1所述的一种基于改进的TFT模型对水质非平稳时间序列的预测方法，其特征在于，所述步骤S5中利用验证集进行预测，将其与验证集中的结果对比，评估该模型的预测能力。利用训练好的模型，对未来一周的水质指标进行预测，根据预测结果与指定水体污染阈值对比，若某个指标超过阈值，则表示该水质达到污染程度，提前发出预警。