CN116128049A - 一种基于XGBoost模型的水质预测模型迁移条件选择方法 - Google Patents
一种基于XGBoost模型的水质预测模型迁移条件选择方法 Download PDFInfo
- Publication number
- CN116128049A CN116128049A CN202310353400.XA CN202310353400A CN116128049A CN 116128049 A CN116128049 A CN 116128049A CN 202310353400 A CN202310353400 A CN 202310353400A CN 116128049 A CN116128049 A CN 116128049A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- migration
- water quality
- xgboost
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013508 migration Methods 0.000 title claims abstract description 125
- 230000005012 migration Effects 0.000 title claims abstract description 125
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 title claims abstract description 54
- 238000010187 selection method Methods 0.000 title claims abstract description 9
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000012544 monitoring process Methods 0.000 claims abstract description 6
- 238000012545 processing Methods 0.000 claims abstract description 6
- 238000013136 deep learning model Methods 0.000 claims abstract description 5
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 30
- 238000012360 testing method Methods 0.000 claims description 27
- 230000008014 freezing Effects 0.000 claims description 10
- 238000007710 freezing Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- IJGRMHOSHXDMSA-UHFFFAOYSA-N Atomic nitrogen Chemical compound N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 claims description 6
- 230000002159 abnormal effect Effects 0.000 claims description 6
- 238000005259 measurement Methods 0.000 claims description 6
- 230000035772 mutation Effects 0.000 claims description 6
- 238000013526 transfer learning Methods 0.000 claims description 6
- 238000012952 Resampling Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 5
- 102220579739 Cohesin subunit SA-1_S51D_mutation Human genes 0.000 claims description 3
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 claims description 3
- 230000008030 elimination Effects 0.000 claims description 3
- 238000003379 elimination reaction Methods 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 3
- 229910052757 nitrogen Inorganic materials 0.000 claims description 3
- 239000001301 oxygen Substances 0.000 claims description 3
- 229910052760 oxygen Inorganic materials 0.000 claims description 3
- 238000002203 pretreatment Methods 0.000 claims description 3
- 239000013589 supplement Substances 0.000 claims description 3
- 239000002352 surface water Substances 0.000 abstract description 7
- 241000192710 Microcystis aeruginosa Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A20/00—Water conservation; Efficient water supply; Efficient water use
- Y02A20/152—Water filtration
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种基于XGBoost模型的水质预测模型迁移条件选择方法,包括以下步骤:S1、对河流水质自动监测站的水质数据进行预处理;S2、每个站点分别构建LSTM深度学习模型,建立模型库;S3、利用不同的迁移学习算法,将模型库中的模型迁移至其他站点,记录迁移条件信息以及迁移误差;S4、以步骤S3中迁移条件信息为输入变量,迁移误差为预测目标,构建XGBoost模型;S5、对于目标站点,利用训练完毕的XGBoost模型从模型库中找出最佳迁移条件,并用迁移后的模型进行水质预测;该方法灵活易用,在处理有限样本数据时有明显的优势,能有效提升地表水水质预测精度。
Description
技术领域
本发明涉及地表水在线监测数据处理与应用技术领域,具体涉及一种基于XGBoost模型的水质预测模型迁移条件选择方法。
背景技术
地表水是人类赖以生存的宝贵资源。然而,随着社会工业化和城市化水平的日益提高,地表水环境遭到污染,导致水质恶化和水华灾害,对人类健康构成了严重威胁。因此,对地表水水质进行准确预测和预警,对水环境管理与污染防治有重要的意义。
常用的水质预测模型,如基于数据驱动的深度学习模型,往往需要用大量数据训练后才能有较高的预测精度,而很多实际应用场景中数据量不足,难以满足模型训练需求。迁移学习方法的应用有效解决了模型训练过程中样本数量不足问题,提高了水质预测的准确性。然而,迁移学习并非在所有条件下都能提升模型对目标域的预测效果,迁移学习的策略会对其效果产生巨大的影响。选择不恰当的迁移条件可能会引入噪声,降低迁移学习能力,甚至出现负迁移。因此,如何根据目标域特点确定水质预测模型的迁移条件,选择合适的源域以及迁移算法,对于提高迁移模型预测精度至关重要。
发明内容
本发明的目的在于提供一种基于XGBoost模型的水质预测模型迁移条件选择方法,该方法灵活易用,在处理有限样本数据时有明显的优势,能有效提升地表水水质预测精度。
为实现上述目的,本发明采用以下技术方案:
一种基于XGBoost模型的水质预测模型迁移条件选择方法,包括以下步骤:
S1、对河流水质自动监测站的水质数据进行预处理;
S2、每个站点分别构建LSTM深度学习模型,建立模型库;
S3、利用不同的迁移学习算法,将模型库中的模型迁移至其他站点,记录迁移条件信息以及迁移误差;
S4、以步骤S3中迁移条件信息为输入变量,迁移误差为预测目标,构建XGBoost模型;
S5、对于目标站点,利用训练完毕的XGBoost模型从模型库中找出最佳迁移条件,并用迁移后的模型进行水质预测。
优选地,步骤S1中所述水质数据包括水温数据、pH数据、溶解氧数据和总氮数据。
优选地,步骤S1中所述水质数据的预处理方法包括剔除类型异常数据、剔除重复数据、数据重采样、阈值检验、分位数检验、突变点检验和线性插值;所述剔除类型异常数据是将非数值型数据剔除,其中,非数值型数据包括字符和空值;所述剔除重复数据是将时间戳重复的数据剔除;所述数据重采样是通过取均值的方法将数据频率统一为天频;所述阈值检验是将超过设定阈值的数据剔除;所述分位数检验是将小于
QL-1.5
IQR或大于
QU+1.5
IQR的数据剔除,其中,
QL为下四分位数,
QU为上四分位数,
IQR为
QU与
QL之差;所述突变点检验是将与之前若干个数据平均值之差大于设定阈值的数据剔除;所述线性插值是通过数据缺失前后两个点的直线方程式对缺失数据进行补充。
优选地,步骤S2中所述模型库构建的具体步骤为:
S21、对水质数据进行标准化处理,计算公式为:其中,是标准化后的数据,是实测数据,是数据集的平均值,是数据集的标准差;
S22、将标准化后的数据按80%:20%的比例分为训练集和测试集;
S23、在多组给定的超参数组合下,用训练集数据训练LSTM模型,用测试集数据计算预测RMSE,将预测RMSE最低的LSTM模型加入模型库;
S24、所有其他站点重复以上步骤,每个站点均建立一个LSTM模型加入到模型库中。
优选地,步骤S3中所述迁移学习算法包含域
D和任务
T;所述域
D由输入数据的所有参数组成的参数空间
X和每一维参数的概率分布
P(x)构成,其中
x={
x 1 ,
x 2 , …,
x n }∈
X,
x表示数据样本,
x 1 ,
x 2 , …,
x n 分别表示第1, 2, …,
n维参数的数据样本,所述任务
T由标签空间
Y和目标函数构成;对于给定的源域
D S 和对应的源任务
T S 、目标域
D T 和对应的目标任务
T T ,迁移学习的目标是通过
D S 和
T S 中的知识提高目标域
D T 中目标函数的学习效果;对于LSTM深度神经网络模型,采用预训练-模型参数调节的方式进行迁移,具体过程为用源域数据进行模型预训练,将模型部分或全部层的网络结构和权重参数冻结使其保持不变,最后用目标域数据对模型未冻结层的权重参数进行训练。
优选地,步骤S3中不同的迁移学习算法包括:冻结全部网络层,直接迁移原有结构,记为迁移方式1;冻结全连接层,对LSTM网络层的参数进行调节,记为迁移方式2;冻结LSTM网络层,对全连接层的参数进行调节,记为迁移方式3。
优选地,步骤S3的具体步骤为:
S31、对目标站点的水质数据进行标准化处理,计算公式为:其中,是标准化后的数据,是实测数据,是数据集的平均值,是数据集的标准差;
S32、将标准化后的数据按80%:20%的比例分为训练集和测试集;
S33、用目标站点训练集的数据对模型库中的模型进行参数调节,用测试集数据计算迁移后模型的预测RMSE;
S34、记录每次迁移的迁移条件信息以及迁移误差。
优选地,步骤S34中所述迁移条件信息包括源域与目标域的地理距离、源域与目标域数据的相似程度、源域数据量、目标域数据量、源域和目标域是否在同一流域、源域和目标域是否在同一河流、采用的迁移学习方式对应的编码,其中,源域和目标域在同一流域为1,否则为0;源域和目标域在同一河流为1,否则为0;采用迁移方式1时编码为[1,0,0],采用迁移方式2时编码为[0,1,0],采用迁移方式3时编码为[0,0,1];所述迁移误差为迁移模型的预测RMSE。
优选地,步骤S4中所述构建XGBoost模型的具体步骤为:
S41、将步骤S34中的迁移条件信息和迁移误差数据按80%:20%的比例分为训练集和测试集;
S42、在多组给定的超参数组合下,用训练集数据训练XGBoost模型,用测试集数据计算预测
R 2 ,取
R 2 最高的XGBoost模型用于后续迁移条件以及迁移算法选取,其中,
R 2 为决定系数。
优选地,步骤S5中利用XGBoost模型从模型库中找出最佳源域模型以及迁移算法的具体步骤为:
S51、计算模型
M n 对应的源域
S Sn 与目标域
S T 的地理距离
D n 、数据相似程度
DTW n 、
S T 的数据量
N T 、
S Sn 的数据量
N Sn 、目标域
S T 与源域
S Sn 是否在同一流域
SA、目标域
S T 与源域
S Sn 是否在同一河流
SR;
S52、分别将3种迁移方式对应的编码和S51中的计算得到的
D n 、
DTW n 、
N T 、
N Sn 、
SA、
SR共同输入XGBoost模型,输出结果记为RMSE n1 、RMSE n2 和RMSE n3 ;
S53、模型库中的所有其他模型重复以上步骤,XGBoost模型输出RMSE最低时对应的模型
M n 即为最佳源域模型,对应的迁移算法即为最佳迁移算法,选用最佳迁移算法对最佳源域模型进行迁移即为最佳迁移条件。
采用上述技术方案后,本发明具有如下有益效果:本发明提供的水质预测模型迁移条件选择方法灵活易用,可明显提高水质预测精度,在处理地表水有限样本数据时有明显的优势,有效解决了缺乏历史监测数据区域的水质预测问题,显著提高了水质模型的预测精度和建模效率,可为水环境区域化管理提供技术支撑。
附图说明
图1为本发明的流程图;
图2为本发明的框架图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例
如图1至图2所示,一种基于XGBoost模型的水质预测模型迁移条件选择方法,包括以下步骤:
S1、对河流水质自动监测站的水质数据进行预处理;
步骤S1中所述水质数据包括水温数据、pH数据、溶解氧数据和总氮数据;
步骤S1中所述水质数据的预处理方法包括剔除类型异常数据、剔除重复数据、数据重采样、阈值检验、分位数检验、突变点检验和线性插值;所述剔除类型异常数据是将非数值型数据剔除,其中,非数值型数据包括字符和空值;所述剔除重复数据是将时间戳重复的数据剔除;所述数据重采样是通过取均值的方法将数据频率统一为天频;所述阈值检验是将超过设定阈值的数据剔除;所述分位数检验是将小于
QL-1.5
IQR或大于
QU+1.5
IQR的数据剔除,其中,
QL为下四分位数,
QU为上四分位数,
IQR为
QU与
QL之差;所述突变点检验是将与之前若干个数据平均值之差大于设定阈值的数据剔除;所述线性插值是通过数据缺失前后两个点的直线方程式对缺失数据进行补充;
S2、每个站点分别构建LSTM深度学习模型,建立模型库;
步骤S2中所述模型库构建的具体步骤为:
S21、对水质数据进行标准化处理,计算公式为:其中,是标准化后的数据,是实测数据,是数据集的平均值,是数据集的标准差;
S22、将标准化后的数据按80%:20%的比例分为训练集和测试集;
S23、在多组给定的超参数组合下,用训练集数据训练LSTM模型,用测试集数据计算预测RMSE,将预测RMSE最低的LSTM模型加入模型库;
S24、所有其他站点重复以上步骤,每个站点均建立一个LSTM模型加入到模型库中;
S3、利用不同的迁移学习算法,将模型库中的模型迁移至其他站点,记录迁移条件信息以及迁移误差;
步骤S3中所述迁移学习算法包含域
D和任务
T;所述域
D由输入数据的所有参数组成的参数空间
X和每一维参数的概率分布
P(x)构成,其中
x={
x 1 ,
x 2 , …,
x n }∈
X,
x表示数据样本,
x 1 ,
x 2 , …,
x n 分别表示第1, 2, …,
n维参数的数据样本,所述任务
T由标签空间
Y和目标函数构成;对于给定的源域
D S 和对应的源任务
T S 、目标域
D T 和对应的目标任务
T T ,迁移学习的目标是通过
D S 和
T S 中的知识提高目标域
D T 中目标函数的学习效果;对于LSTM深度神经网络模型,采用预训练-模型参数调节的方式进行迁移,具体过程为用源域数据进行模型预训练,将模型部分或全部层的网络结构和权重参数冻结使其保持不变,最后用目标域数据对模型未冻结层的权重参数进行训练;
步骤S3中不同的迁移学习算法包括:冻结全部网络层,直接迁移原有结构,记为迁移方式1;冻结全连接层,对LSTM网络层的参数进行调节,记为迁移方式2;冻结LSTM网络层,对全连接层的参数进行调节,记为迁移方式3;
步骤S3的具体步骤为:
S31、对目标站点的水质数据进行标准化处理,计算公式为:其中,是标准化后的数据,是实测数据,是数据集的平均值,是数据集的标准差;
S32、将标准化后的数据按80%:20%的比例分为训练集和测试集;
S33、用目标站点训练集的数据对模型库中的模型进行参数调节,用测试集数据计算迁移后模型的预测RMSE;
S34、记录每次迁移的迁移条件信息以及迁移误差;
步骤S34中所述迁移条件信息包括源域与目标域的地理距离、源域与目标域数据的相似程度、源域数据量、目标域数据量、源域和目标域是否在同一流域、源域和目标域是否在同一河流、采用的迁移学习方式对应的编码,其中,源域和目标域在同一流域为1,否则为0;源域和目标域在同一河流为1,否则为0;采用迁移方式1时编码为[1,0,0],采用迁移方式2时编码为[0,1,0],采用迁移方式3时编码为[0,0,1];所述迁移误差为迁移模型的预测RMSE;
S4、以步骤S3中迁移条件信息为输入变量,迁移误差为预测目标,构建XGBoost模型;
步骤S4中所述构建XGBoost模型的具体步骤为:
S41、将步骤S34中的迁移条件信息和迁移误差数据按80%:20%的比例分为训练集和测试集;
S42、在多组给定的超参数组合下,用训练集数据训练XGBoost模型,用测试集数据计算预测
R 2 ,取
R 2 最高的XGBoost模型用于后续迁移条件以及迁移算法选取,其中,
R 2 为决定系数;
S5、对于目标站点,利用训练完毕的XGBoost模型从模型库中找出最佳迁移条件,并用迁移后的模型进行水质预测。
步骤S5中利用XGBoost模型从模型库中找出最佳源域模型以及迁移算法的具体步骤为:
S51、计算模型
M n 对应的源域
S Sn 与目标域
S T 的地理距离
D n 、数据相似程度
DTW n 、
S T 的数据量
N T 、
S Sn 的数据量
N Sn 、目标域
S T 与源域
S Sn 是否在同一流域
SA、目标域
S T 与源域
S Sn 是否在同一河流
SR;
S52、分别将3种迁移方式对应的编码和S51中的计算得到的
D n 、
DTW n 、
N T 、
N Sn 、
SA、
SR共同输入XGBoost模型,输出结果记为RMSE n1 、RMSE n2 和RMSE n3 ;
S53、模型库中的所有其他模型重复以上步骤,XGBoost模型输出RMSE最低时对应的模型
M n 即为最佳源域模型,对应的迁移算法即为最佳迁移算法,选用最佳迁移算法对最佳源域模型进行迁移即为最佳迁移条件。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (10)
1.一种基于XGBoost模型的水质预测模型迁移条件选择方法,其特征在于,包括以下步骤:
S1、对河流水质自动监测站的水质数据进行预处理;
S2、每个站点分别构建LSTM深度学习模型,建立模型库;
S3、利用不同的迁移学习算法,将模型库中的模型迁移至其他站点,记录迁移条件信息以及迁移误差;
S4、以步骤S3中迁移条件信息为输入变量,迁移误差为预测目标,构建XGBoost模型;
S5、对于目标站点,利用训练完毕的XGBoost模型从模型库中找出最佳迁移条件,并用迁移后的模型进行水质预测。
2.如权利要求1所述的一种基于XGBoost模型的水质预测模型迁移条件选择方法,其特征在于:步骤S1中所述水质数据包括水温数据、pH数据、溶解氧数据和总氮数据。
3.如权利要求1所述的一种基于XGBoost模型的水质预测模型迁移条件选择方法,其特征在于:步骤S1中所述水质数据的预处理方法包括剔除类型异常数据、剔除重复数据、数据重采样、阈值检验、分位数检验、突变点检验和线性插值;所述剔除类型异常数据是将非数值型数据剔除,其中,非数值型数据包括字符和空值;所述剔除重复数据是将时间戳重复的数据剔除;所述数据重采样是通过取均值的方法将数据频率统一为天频;所述阈值检验是将超过设定阈值的数据剔除;所述分位数检验是将小于QL-1.5IQR或大于QU+1.5IQR的数据剔除,其中,QL为下四分位数,QU为上四分位数,IQR为QU与QL之差;所述突变点检验是将与之前若干个数据平均值之差大于设定阈值的数据剔除;所述线性插值是通过数据缺失前后两个点的直线方程式对缺失数据进行补充。
4.如权利要求1所述的一种基于XGBoost模型的水质预测模型迁移条件选择方法,其特征在于,步骤S2中所述模型库构建的具体步骤为:
S21、对水质数据进行标准化处理,计算公式为:其中,是标准化后的数据,是实测数据,是数据集的平均值,是数据集的标准差;
S22、将标准化后的数据按80%:20%的比例分为训练集和测试集;
S23、在多组给定的超参数组合下,用训练集数据训练LSTM模型,用测试集数据计算预测RMSE,将预测RMSE最低的LSTM模型加入模型库;
S24、所有其他站点重复以上步骤,每个站点均建立一个LSTM模型加入到模型库中。
5.如权利要求1所述的一种基于XGBoost模型的水质预测模型迁移条件选择方法,其特征在于:步骤S3中所述迁移学习算法包含域D和任务T;所述域D由输入数据的所有参数组成的参数空间X和每一维参数的概率分布P(x)构成,其中x={x 1 , x 2 , …, x n }∈X,x表示数据样本,x 1 , x 2 , …, x n 分别表示第1, 2, …, n维参数的数据样本,所述任务T由标签空间Y和目标函数构成;对于给定的源域D S 和对应的源任务T S 、目标域D T 和对应的目标任务T T ,迁移学习的目标是通过D S 和T S 中的知识提高目标域D T 中目标函数的学习效果;对于LSTM深度神经网络模型,采用预训练-模型参数调节的方式进行迁移,具体过程为用源域数据进行模型预训练,将模型部分或全部层的网络结构和权重参数冻结使其保持不变,最后用目标域数据对模型未冻结层的权重参数进行训练。
6.如权利要求5所述的一种基于XGBoost模型的水质预测模型迁移条件选择方法,其特征在于:步骤S3中不同的迁移学习算法包括:冻结全部网络层,直接迁移原有结构,记为迁移方式1;冻结全连接层,对LSTM网络层的参数进行调节,记为迁移方式2;冻结LSTM网络层,对全连接层的参数进行调节,记为迁移方式3。
7.如权利要求6所述的一种基于XGBoost模型的水质预测模型迁移条件选择方法,其特征在于:步骤S3的具体步骤为:
S31、对目标站点的水质数据进行标准化处理,计算公式为:其中,是标准化后的数据,是实测数据,是数据集的平均值,是数据集的标准差;
S32、将标准化后的数据按80%:20%的比例分为训练集和测试集;
S33、用目标站点训练集的数据对模型库中的模型进行参数调节,用测试集数据计算迁移后模型的预测RMSE;
S34、记录每次迁移的迁移条件信息以及迁移误差。
8.如权利要求7所述的一种基于XGBoost模型的水质预测模型迁移条件选择方法,其特征在于:步骤S34中所述迁移条件信息包括源域与目标域的地理距离、源域与目标域数据的相似程度、源域数据量、目标域数据量、源域和目标域是否在同一流域、源域和目标域是否在同一河流、采用的迁移学习方式对应的编码,其中,源域和目标域在同一流域为1,否则为0;源域和目标域在同一河流为1,否则为0;采用迁移方式1时编码为[1,0,0],采用迁移方式2时编码为[0,1,0],采用迁移方式3时编码为[0,0,1];所述迁移误差为迁移模型的预测RMSE。
9.如权利要求8所述的一种基于XGBoost模型的水质预测模型迁移条件选择方法,其特征在于,步骤S4中所述构建XGBoost模型的具体步骤为:
S41、将步骤S34中的迁移条件信息和迁移误差数据按80%:20%的比例分为训练集和测试集;
S42、在多组给定的超参数组合下,用训练集数据训练XGBoost模型,用测试集数据计算预测R 2 ,取R 2 最高的XGBoost模型用于后续迁移条件以及迁移算法选取,其中,R 2 为决定系数。
10.如权利要求9所述的一种基于XGBoost模型的水质预测模型迁移条件选择方法,其特征在于,步骤S5中利用XGBoost模型从模型库中找出最佳源域模型以及迁移算法的具体步骤为:
S51、计算模型M n 对应的源域S Sn 与目标域S T 的地理距离D n 、数据相似程度DTW n 、S T 的数据量N T 、S Sn 的数据量N Sn 、目标域S T 与源域S Sn 是否在同一流域SA、目标域S T 与源域S Sn 是否在同一河流SR;
S52、分别将3种迁移方式对应的编码和S51中的计算得到的D n 、DTW n 、N T 、N Sn 、SA、SR共同输入XGBoost模型,输出结果记为RMSE n1 、RMSE n2 和RMSE n3 ;
S53、模型库中的所有其他模型重复以上步骤,XGBoost模型输出RMSE最低时对应的模型M n 即为最佳源域模型,对应的迁移算法即为最佳迁移算法,选用最佳迁移算法对最佳源域模型进行迁移即为最佳迁移条件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310353400.XA CN116128049B (zh) | 2023-04-04 | 2023-04-04 | 一种基于XGBoost模型的水质预测模型迁移条件选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310353400.XA CN116128049B (zh) | 2023-04-04 | 2023-04-04 | 一种基于XGBoost模型的水质预测模型迁移条件选择方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116128049A true CN116128049A (zh) | 2023-05-16 |
CN116128049B CN116128049B (zh) | 2023-06-30 |
Family
ID=86310305
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310353400.XA Active CN116128049B (zh) | 2023-04-04 | 2023-04-04 | 一种基于XGBoost模型的水质预测模型迁移条件选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116128049B (zh) |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110796232A (zh) * | 2019-10-12 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 属性预测模型训练方法、属性预测方法及电子设备 |
CN111597760A (zh) * | 2020-05-18 | 2020-08-28 | 哈尔滨工业大学(威海) | 一种实现小样本条件下获取气路参数偏差值的方法 |
CN112380773A (zh) * | 2020-11-19 | 2021-02-19 | 华中科技大学鄂州工业技术研究院 | 一种基于迁移学习的燃料电池退化预测方法、装置、设备 |
CN112862084A (zh) * | 2021-04-26 | 2021-05-28 | 苏州博宇鑫交通科技有限公司 | 基于深度迁移融合学习的交通流量预测方法 |
CN113128113A (zh) * | 2021-04-14 | 2021-07-16 | 国网上海市电力公司 | 一种基于深度学习和迁移学习的贫乏信息建筑负荷预测方法 |
CN113486827A (zh) * | 2021-07-13 | 2021-10-08 | 上海中科辰新卫星技术有限公司 | 基于域对抗与自监督的多源遥感影像迁移学习方法 |
CN113627541A (zh) * | 2021-08-13 | 2021-11-09 | 北京邮电大学 | 一种基于样本迁移筛选的光路传输质量预测方法 |
CN113657651A (zh) * | 2021-07-27 | 2021-11-16 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 基于深度迁移学习的柴油车排放预测方法、介质及设备 |
CN113762501A (zh) * | 2021-04-20 | 2021-12-07 | 京东城市(北京)数字科技有限公司 | 预测模型的训练方法、装置、设备和存储介质 |
US20220092407A1 (en) * | 2020-09-23 | 2022-03-24 | International Business Machines Corporation | Transfer learning with machine learning systems |
CN114239733A (zh) * | 2021-12-21 | 2022-03-25 | 华中科技大学 | 基于迁移学习的机床响应建模方法、系统及响应预测方法 |
CN114577671A (zh) * | 2022-03-17 | 2022-06-03 | 东北林业大学 | 一种基于参数校正和迁移学习的近红外木材密度检测方法 |
CN114861349A (zh) * | 2022-04-22 | 2022-08-05 | 哈尔滨理工大学 | 一种基于模型迁移和维纳过程的滚动轴承rul预测方法 |
CN114862035A (zh) * | 2022-05-20 | 2022-08-05 | 厦门大学 | 一种基于迁移学习的组合式海湾水温预测方法 |
CN114999662A (zh) * | 2022-04-27 | 2022-09-02 | 四川大学 | 一种基于域自适应迁移学习的放疗计划剂量分布预测方法 |
CN115730717A (zh) * | 2022-11-16 | 2023-03-03 | 中国计量大学 | 基于迁移学习策略结合多通道的电力负荷预测方法及系统 |
CN115796040A (zh) * | 2022-12-05 | 2023-03-14 | 西北农林科技大学 | 一种基于小样本的设施温室温度预测方法 |
-
2023
- 2023-04-04 CN CN202310353400.XA patent/CN116128049B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110796232A (zh) * | 2019-10-12 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 属性预测模型训练方法、属性预测方法及电子设备 |
CN111597760A (zh) * | 2020-05-18 | 2020-08-28 | 哈尔滨工业大学(威海) | 一种实现小样本条件下获取气路参数偏差值的方法 |
US20220092407A1 (en) * | 2020-09-23 | 2022-03-24 | International Business Machines Corporation | Transfer learning with machine learning systems |
CN112380773A (zh) * | 2020-11-19 | 2021-02-19 | 华中科技大学鄂州工业技术研究院 | 一种基于迁移学习的燃料电池退化预测方法、装置、设备 |
CN113128113A (zh) * | 2021-04-14 | 2021-07-16 | 国网上海市电力公司 | 一种基于深度学习和迁移学习的贫乏信息建筑负荷预测方法 |
CN113762501A (zh) * | 2021-04-20 | 2021-12-07 | 京东城市(北京)数字科技有限公司 | 预测模型的训练方法、装置、设备和存储介质 |
CN112862084A (zh) * | 2021-04-26 | 2021-05-28 | 苏州博宇鑫交通科技有限公司 | 基于深度迁移融合学习的交通流量预测方法 |
CN113486827A (zh) * | 2021-07-13 | 2021-10-08 | 上海中科辰新卫星技术有限公司 | 基于域对抗与自监督的多源遥感影像迁移学习方法 |
CN113657651A (zh) * | 2021-07-27 | 2021-11-16 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 基于深度迁移学习的柴油车排放预测方法、介质及设备 |
CN113627541A (zh) * | 2021-08-13 | 2021-11-09 | 北京邮电大学 | 一种基于样本迁移筛选的光路传输质量预测方法 |
CN114239733A (zh) * | 2021-12-21 | 2022-03-25 | 华中科技大学 | 基于迁移学习的机床响应建模方法、系统及响应预测方法 |
CN114577671A (zh) * | 2022-03-17 | 2022-06-03 | 东北林业大学 | 一种基于参数校正和迁移学习的近红外木材密度检测方法 |
CN114861349A (zh) * | 2022-04-22 | 2022-08-05 | 哈尔滨理工大学 | 一种基于模型迁移和维纳过程的滚动轴承rul预测方法 |
CN114999662A (zh) * | 2022-04-27 | 2022-09-02 | 四川大学 | 一种基于域自适应迁移学习的放疗计划剂量分布预测方法 |
CN114862035A (zh) * | 2022-05-20 | 2022-08-05 | 厦门大学 | 一种基于迁移学习的组合式海湾水温预测方法 |
CN115730717A (zh) * | 2022-11-16 | 2023-03-03 | 中国计量大学 | 基于迁移学习策略结合多通道的电力负荷预测方法及系统 |
CN115796040A (zh) * | 2022-12-05 | 2023-03-14 | 西北农林科技大学 | 一种基于小样本的设施温室温度预测方法 |
Non-Patent Citations (5)
Title |
---|
QINGLIANG LI ET AL.: "Improved daily SMAP satellite soil moisture prediction over China using deep learning model with transfer learning", 《JOURNAL OF HYDROLOGY》, vol. 600 * |
张若愚 等: "基于迁移学习的电力系统暂态稳定自适应预测", 《电网技术》, vol. 44, no. 06 * |
张金萍: "基于迁移学习的建筑用能预测方法及应用", 《中国优秀硕士学位论文全文数据库 工程科II辑(月刊)》, no. 10 * |
杨毅 等: "基于深度-迁移学习的输电线路故障选相模型及其可迁移性研究", 《电力自动化设备》, vol. 40, no. 10 * |
程洪超: "数据驱动的污水处理过程监测与故障诊断研究", 《中国博士学位论文全文数据库 工程科技I辑(月刊)》, no. 01 * |
Also Published As
Publication number | Publication date |
---|---|
CN116128049B (zh) | 2023-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108491970B (zh) | 一种基于rbf神经网络的大气污染物浓度预测方法 | |
CN111967688B (zh) | 一种基于卡尔曼滤波器与卷积神经网络的电力负荷预测方法 | |
CN111126704B (zh) | 基于多图卷积和记忆网络的多区域降水量预测模型构建方法 | |
CN116630122B (zh) | 基于水文-生态响应关系的湖泊生态水力调控方法及系统 | |
CN111767517B (zh) | 一种应用于洪水预测的BiGRU多步预测方法、系统及存储介质 | |
CN110648014A (zh) | 一种基于时空分位数回归的区域风电预测方法及系统 | |
CN109146847B (zh) | 一种基于半监督学习的晶圆图批量分析方法 | |
CN110533239B (zh) | 一种智慧城市空气品质高精度测量方法 | |
CN114881323A (zh) | 基于深度神经网络的基坑降水区地下水位预测与更新方法 | |
CN112966891A (zh) | 一种河流水环境质量预测方法 | |
CN113807562A (zh) | 海洋表面温度的预测方法 | |
CN116933621A (zh) | 一种基于地形特征深度学习的城市内涝模拟方法 | |
CN118332521B (zh) | 一种基于粒子群优化随机森林的地壳形变时序模拟方法 | |
CN116680643A (zh) | 一种深度对比学习与密度聚类结合的异常检测方法 | |
CN114417740B (zh) | 一种深海养殖态势感知方法 | |
CN113435124A (zh) | 一种基于长短时记忆和径向基函数神经网络的水质时空关联预测方法 | |
CN115456245A (zh) | 一种感潮河网区溶解氧预测方法 | |
CN116933949A (zh) | 一种融合水动力模型和数理模型的水质预测方法及系统 | |
CN114862035A (zh) | 一种基于迁移学习的组合式海湾水温预测方法 | |
CN110196456A (zh) | 一种基于相似年灰色关联分析的中长期降雨径流预报方法 | |
CN116128049B (zh) | 一种基于XGBoost模型的水质预测模型迁移条件选择方法 | |
CN116960962A (zh) | 一种跨区域数据融合的中长期区域负荷预测方法 | |
CN116842358A (zh) | 一种基于多尺度卷积和自适应特征融合的软测量建模方法 | |
CN116702926A (zh) | 一种空气质量模式预报机器学习集成订正方法 | |
CN115759438A (zh) | 一种基于机器学习的大气污染分析预测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CB03 | Change of inventor or designer information |
Inventor after: Chen Nengwang Inventor after: Yu Yiqi Inventor after: Li Shaobin Inventor after: Yang Ailin Inventor before: Chen Nengwang Inventor before: Yu Yiqi Inventor before: Yang Ailin |
|
CB03 | Change of inventor or designer information |