CN116128049A

CN116128049A - 一种基于XGBoost模型的水质预测模型迁移条件选择方法

Info

Publication number: CN116128049A
Application number: CN202310353400.XA
Authority: CN
Inventors: 陈能汪; 余镒琦; 杨艾琳
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2023-04-04
Filing date: 2023-04-04
Publication date: 2023-05-16
Anticipated expiration: 2043-04-04
Also published as: CN116128049B

Abstract

本发明公开了一种基于XGBoost模型的水质预测模型迁移条件选择方法，包括以下步骤：S1、对河流水质自动监测站的水质数据进行预处理；S2、每个站点分别构建LSTM深度学习模型，建立模型库；S3、利用不同的迁移学习算法，将模型库中的模型迁移至其他站点，记录迁移条件信息以及迁移误差；S4、以步骤S3中迁移条件信息为输入变量，迁移误差为预测目标，构建XGBoost模型；S5、对于目标站点，利用训练完毕的XGBoost模型从模型库中找出最佳迁移条件，并用迁移后的模型进行水质预测；该方法灵活易用，在处理有限样本数据时有明显的优势，能有效提升地表水水质预测精度。

Description

一种基于XGBoost模型的水质预测模型迁移条件选择方法

技术领域

本发明涉及地表水在线监测数据处理与应用技术领域，具体涉及一种基于XGBoost模型的水质预测模型迁移条件选择方法。

背景技术

地表水是人类赖以生存的宝贵资源。然而，随着社会工业化和城市化水平的日益提高，地表水环境遭到污染，导致水质恶化和水华灾害，对人类健康构成了严重威胁。因此，对地表水水质进行准确预测和预警，对水环境管理与污染防治有重要的意义。

常用的水质预测模型，如基于数据驱动的深度学习模型，往往需要用大量数据训练后才能有较高的预测精度，而很多实际应用场景中数据量不足，难以满足模型训练需求。迁移学习方法的应用有效解决了模型训练过程中样本数量不足问题，提高了水质预测的准确性。然而，迁移学习并非在所有条件下都能提升模型对目标域的预测效果，迁移学习的策略会对其效果产生巨大的影响。选择不恰当的迁移条件可能会引入噪声，降低迁移学习能力，甚至出现负迁移。因此，如何根据目标域特点确定水质预测模型的迁移条件，选择合适的源域以及迁移算法，对于提高迁移模型预测精度至关重要。

发明内容

本发明的目的在于提供一种基于XGBoost模型的水质预测模型迁移条件选择方法，该方法灵活易用，在处理有限样本数据时有明显的优势，能有效提升地表水水质预测精度。

为实现上述目的，本发明采用以下技术方案：

一种基于XGBoost模型的水质预测模型迁移条件选择方法，包括以下步骤：

S1、对河流水质自动监测站的水质数据进行预处理；

S2、每个站点分别构建LSTM深度学习模型，建立模型库；

S3、利用不同的迁移学习算法，将模型库中的模型迁移至其他站点，记录迁移条件信息以及迁移误差；

S4、以步骤S3中迁移条件信息为输入变量，迁移误差为预测目标，构建XGBoost模型；

S5、对于目标站点，利用训练完毕的XGBoost模型从模型库中找出最佳迁移条件，并用迁移后的模型进行水质预测。

优选地，步骤S1中所述水质数据包括水温数据、pH数据、溶解氧数据和总氮数据。

优选地，步骤S1中所述水质数据的预处理方法包括剔除类型异常数据、剔除重复数据、数据重采样、阈值检验、分位数检验、突变点检验和线性插值；所述剔除类型异常数据是将非数值型数据剔除，其中，非数值型数据包括字符和空值；所述剔除重复数据是将时间戳重复的数据剔除；所述数据重采样是通过取均值的方法将数据频率统一为天频；所述阈值检验是将超过设定阈值的数据剔除；所述分位数检验是将小于 QL－1.5 IQR或大于 QU＋1.5 IQR的数据剔除，其中， QL为下四分位数， QU为上四分位数， IQR为 QU与 QL之差；所述突变点检验是将与之前若干个数据平均值之差大于设定阈值的数据剔除；所述线性插值是通过数据缺失前后两个点的直线方程式对缺失数据进行补充。

优选地，步骤S2中所述模型库构建的具体步骤为：

S21、对水质数据进行标准化处理，计算公式为：其中，是标准化后的数据，是实测数据，是数据集的平均值，是数据集的标准差；

S22、将标准化后的数据按80%:20%的比例分为训练集和测试集；

S23、在多组给定的超参数组合下，用训练集数据训练LSTM模型，用测试集数据计算预测RMSE，将预测RMSE最低的LSTM模型加入模型库；

S24、所有其他站点重复以上步骤，每个站点均建立一个LSTM模型加入到模型库中。

优选地，步骤S3中所述迁移学习算法包含域 D和任务 T；所述域 D由输入数据的所有参数组成的参数空间 X和每一维参数的概率分布 P(x)构成，其中 x={ x ₁, x ₂, …, x _n}∈ X， x表示数据样本， x ₁, x ₂, …, x _n分别表示第1, 2, …, n维参数的数据样本，所述任务 T由标签空间 Y和目标函数构成；对于给定的源域 D _S和对应的源任务 T _S、目标域 D _T和对应的目标任务 T _T，迁移学习的目标是通过 D _S和 T _S中的知识提高目标域 D _T中目标函数的学习效果；对于LSTM深度神经网络模型，采用预训练-模型参数调节的方式进行迁移，具体过程为用源域数据进行模型预训练，将模型部分或全部层的网络结构和权重参数冻结使其保持不变，最后用目标域数据对模型未冻结层的权重参数进行训练。

优选地，步骤S3中不同的迁移学习算法包括：冻结全部网络层，直接迁移原有结构，记为迁移方式1；冻结全连接层，对LSTM网络层的参数进行调节，记为迁移方式2；冻结LSTM网络层，对全连接层的参数进行调节，记为迁移方式3。

优选地，步骤S3的具体步骤为：

S31、对目标站点的水质数据进行标准化处理，计算公式为：其中，是标准化后的数据，是实测数据，是数据集的平均值，是数据集的标准差；

S32、将标准化后的数据按80%:20%的比例分为训练集和测试集；

S33、用目标站点训练集的数据对模型库中的模型进行参数调节，用测试集数据计算迁移后模型的预测RMSE；

S34、记录每次迁移的迁移条件信息以及迁移误差。

优选地，步骤S34中所述迁移条件信息包括源域与目标域的地理距离、源域与目标域数据的相似程度、源域数据量、目标域数据量、源域和目标域是否在同一流域、源域和目标域是否在同一河流、采用的迁移学习方式对应的编码，其中，源域和目标域在同一流域为1，否则为0；源域和目标域在同一河流为1，否则为0；采用迁移方式1时编码为[1,0,0]，采用迁移方式2时编码为[0,1,0]，采用迁移方式3时编码为[0,0,1]；所述迁移误差为迁移模型的预测RMSE。

优选地，步骤S4中所述构建XGBoost模型的具体步骤为：

S41、将步骤S34中的迁移条件信息和迁移误差数据按80%:20%的比例分为训练集和测试集；

S42、在多组给定的超参数组合下，用训练集数据训练XGBoost模型，用测试集数据计算预测 R ²，取 R ²最高的XGBoost模型用于后续迁移条件以及迁移算法选取，其中， R ²为决定系数。

优选地，步骤S5中利用XGBoost模型从模型库中找出最佳源域模型以及迁移算法的具体步骤为：

S51、计算模型 M _n对应的源域 S _Sn与目标域 S _T的地理距离 D _n、数据相似程度 DTW _n、 S _T的数据量 N _T、 S _Sn的数据量 N _Sn、目标域 S _T与源域 S _Sn是否在同一流域 SA、目标域 S _T与源域 S _Sn是否在同一河流 SR；

S52、分别将3种迁移方式对应的编码和S51中的计算得到的 D _n、 DTW _n、 N _T、 N _Sn、 SA、 SR共同输入XGBoost模型，输出结果记为RMSE_n1、RMSE_n2和RMSE_n3；

S53、模型库中的所有其他模型重复以上步骤，XGBoost模型输出RMSE最低时对应的模型 M _n即为最佳源域模型，对应的迁移算法即为最佳迁移算法，选用最佳迁移算法对最佳源域模型进行迁移即为最佳迁移条件。

采用上述技术方案后，本发明具有如下有益效果：本发明提供的水质预测模型迁移条件选择方法灵活易用，可明显提高水质预测精度，在处理地表水有限样本数据时有明显的优势，有效解决了缺乏历史监测数据区域的水质预测问题，显著提高了水质模型的预测精度和建模效率，可为水环境区域化管理提供技术支撑。

附图说明

图1为本发明的流程图；

图2为本发明的框架图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例

如图1至图2所示，一种基于XGBoost模型的水质预测模型迁移条件选择方法，包括以下步骤：

S1、对河流水质自动监测站的水质数据进行预处理；

步骤S1中所述水质数据包括水温数据、pH数据、溶解氧数据和总氮数据；

步骤S1中所述水质数据的预处理方法包括剔除类型异常数据、剔除重复数据、数据重采样、阈值检验、分位数检验、突变点检验和线性插值；所述剔除类型异常数据是将非数值型数据剔除，其中，非数值型数据包括字符和空值；所述剔除重复数据是将时间戳重复的数据剔除；所述数据重采样是通过取均值的方法将数据频率统一为天频；所述阈值检验是将超过设定阈值的数据剔除；所述分位数检验是将小于 QL－1.5 IQR或大于 QU＋1.5 IQR的数据剔除，其中， QL为下四分位数， QU为上四分位数， IQR为 QU与 QL之差；所述突变点检验是将与之前若干个数据平均值之差大于设定阈值的数据剔除；所述线性插值是通过数据缺失前后两个点的直线方程式对缺失数据进行补充；

S2、每个站点分别构建LSTM深度学习模型，建立模型库；

步骤S2中所述模型库构建的具体步骤为：

S22、将标准化后的数据按80%:20%的比例分为训练集和测试集；

S24、所有其他站点重复以上步骤，每个站点均建立一个LSTM模型加入到模型库中；

步骤S3中所述迁移学习算法包含域 D和任务 T；所述域 D由输入数据的所有参数组成的参数空间 X和每一维参数的概率分布 P(x)构成，其中 x={ x ₁, x ₂, …, x _n}∈ X， x表示数据样本， x ₁, x ₂, …, x _n分别表示第1, 2, …, n维参数的数据样本，所述任务 T由标签空间 Y和目标函数构成；对于给定的源域 D _S和对应的源任务 T _S、目标域 D _T和对应的目标任务 T _T，迁移学习的目标是通过 D _S和 T _S中的知识提高目标域 D _T中目标函数的学习效果；对于LSTM深度神经网络模型，采用预训练-模型参数调节的方式进行迁移，具体过程为用源域数据进行模型预训练，将模型部分或全部层的网络结构和权重参数冻结使其保持不变，最后用目标域数据对模型未冻结层的权重参数进行训练；

步骤S3中不同的迁移学习算法包括：冻结全部网络层，直接迁移原有结构，记为迁移方式1；冻结全连接层，对LSTM网络层的参数进行调节，记为迁移方式2；冻结LSTM网络层，对全连接层的参数进行调节，记为迁移方式3；

步骤S3的具体步骤为：

S32、将标准化后的数据按80%:20%的比例分为训练集和测试集；

S34、记录每次迁移的迁移条件信息以及迁移误差；

步骤S34中所述迁移条件信息包括源域与目标域的地理距离、源域与目标域数据的相似程度、源域数据量、目标域数据量、源域和目标域是否在同一流域、源域和目标域是否在同一河流、采用的迁移学习方式对应的编码，其中，源域和目标域在同一流域为1，否则为0；源域和目标域在同一河流为1，否则为0；采用迁移方式1时编码为[1,0,0]，采用迁移方式2时编码为[0,1,0]，采用迁移方式3时编码为[0,0,1]；所述迁移误差为迁移模型的预测RMSE；

步骤S4中所述构建XGBoost模型的具体步骤为：

S42、在多组给定的超参数组合下，用训练集数据训练XGBoost模型，用测试集数据计算预测 R ²，取 R ²最高的XGBoost模型用于后续迁移条件以及迁移算法选取，其中， R ²为决定系数；

步骤S5中利用XGBoost模型从模型库中找出最佳源域模型以及迁移算法的具体步骤为：

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于XGBoost模型的水质预测模型迁移条件选择方法，其特征在于，包括以下步骤：

S1、对河流水质自动监测站的水质数据进行预处理；

S2、每个站点分别构建LSTM深度学习模型，建立模型库；

2.如权利要求1所述的一种基于XGBoost模型的水质预测模型迁移条件选择方法，其特征在于：步骤S1中所述水质数据包括水温数据、pH数据、溶解氧数据和总氮数据。

3.如权利要求1所述的一种基于XGBoost模型的水质预测模型迁移条件选择方法，其特征在于：步骤S1中所述水质数据的预处理方法包括剔除类型异常数据、剔除重复数据、数据重采样、阈值检验、分位数检验、突变点检验和线性插值；所述剔除类型异常数据是将非数值型数据剔除，其中，非数值型数据包括字符和空值；所述剔除重复数据是将时间戳重复的数据剔除；所述数据重采样是通过取均值的方法将数据频率统一为天频；所述阈值检验是将超过设定阈值的数据剔除；所述分位数检验是将小于QL－1.5IQR或大于QU＋1.5IQR的数据剔除，其中，QL为下四分位数，QU为上四分位数，IQR为QU与QL之差；所述突变点检验是将与之前若干个数据平均值之差大于设定阈值的数据剔除；所述线性插值是通过数据缺失前后两个点的直线方程式对缺失数据进行补充。

4.如权利要求1所述的一种基于XGBoost模型的水质预测模型迁移条件选择方法，其特征在于，步骤S2中所述模型库构建的具体步骤为：

S22、将标准化后的数据按80%:20%的比例分为训练集和测试集；

5.如权利要求1所述的一种基于XGBoost模型的水质预测模型迁移条件选择方法，其特征在于：步骤S3中所述迁移学习算法包含域D和任务T；所述域D由输入数据的所有参数组成的参数空间X和每一维参数的概率分布P(x)构成，其中x={x ₁ , x ₂ , …, x _n}∈X，x表示数据样本，x ₁, x ₂, …, x _n分别表示第1, 2, …, n维参数的数据样本，所述任务T由标签空间Y和目标函数构成；对于给定的源域D _S和对应的源任务T _S、目标域D _T和对应的目标任务T _T，迁移学习的目标是通过D _S和T _S中的知识提高目标域D _T中目标函数的学习效果；对于LSTM深度神经网络模型，采用预训练-模型参数调节的方式进行迁移，具体过程为用源域数据进行模型预训练，将模型部分或全部层的网络结构和权重参数冻结使其保持不变，最后用目标域数据对模型未冻结层的权重参数进行训练。

6.如权利要求5所述的一种基于XGBoost模型的水质预测模型迁移条件选择方法，其特征在于：步骤S3中不同的迁移学习算法包括：冻结全部网络层，直接迁移原有结构，记为迁移方式1；冻结全连接层，对LSTM网络层的参数进行调节，记为迁移方式2；冻结LSTM网络层，对全连接层的参数进行调节，记为迁移方式3。

7.如权利要求6所述的一种基于XGBoost模型的水质预测模型迁移条件选择方法，其特征在于：步骤S3的具体步骤为：

S32、将标准化后的数据按80%:20%的比例分为训练集和测试集；

S34、记录每次迁移的迁移条件信息以及迁移误差。

8.如权利要求7所述的一种基于XGBoost模型的水质预测模型迁移条件选择方法，其特征在于：步骤S34中所述迁移条件信息包括源域与目标域的地理距离、源域与目标域数据的相似程度、源域数据量、目标域数据量、源域和目标域是否在同一流域、源域和目标域是否在同一河流、采用的迁移学习方式对应的编码，其中，源域和目标域在同一流域为1，否则为0；源域和目标域在同一河流为1，否则为0；采用迁移方式1时编码为[1,0,0]，采用迁移方式2时编码为[0,1,0]，采用迁移方式3时编码为[0,0,1]；所述迁移误差为迁移模型的预测RMSE。

9.如权利要求8所述的一种基于XGBoost模型的水质预测模型迁移条件选择方法，其特征在于，步骤S4中所述构建XGBoost模型的具体步骤为：

S42、在多组给定的超参数组合下，用训练集数据训练XGBoost模型，用测试集数据计算预测R ²，取R ²最高的XGBoost模型用于后续迁移条件以及迁移算法选取，其中，R ²为决定系数。

10.如权利要求9所述的一种基于XGBoost模型的水质预测模型迁移条件选择方法，其特征在于，步骤S5中利用XGBoost模型从模型库中找出最佳源域模型以及迁移算法的具体步骤为：

S51、计算模型M _n对应的源域S _Sn与目标域S _T的地理距离D _n、数据相似程度DTW _n、S _T的数据量N _T、S _Sn的数据量N _Sn、目标域S _T与源域S _Sn是否在同一流域SA、目标域S _T与源域S _Sn是否在同一河流SR；

S52、分别将3种迁移方式对应的编码和S51中的计算得到的D _n、DTW _n、N _T、N _Sn、SA、SR共同输入XGBoost模型，输出结果记为RMSE_n1、RMSE_n2和RMSE_n3；

S53、模型库中的所有其他模型重复以上步骤，XGBoost模型输出RMSE最低时对应的模型M _n即为最佳源域模型，对应的迁移算法即为最佳迁移算法，选用最佳迁移算法对最佳源域模型进行迁移即为最佳迁移条件。