CN116451034A

CN116451034A - 基于xgboost算法的压力源与水质关系的分析方法及系统

Info

Publication number: CN116451034A
Application number: CN202310334977.6A
Authority: CN
Inventors: 余游; 王化斌; 封雷; 刘晓; 米雪晶
Original assignee: Chongqing University; Chongqing Institute of Green and Intelligent Technology of CAS
Current assignee: Chongqing University; Chongqing Institute of Green and Intelligent Technology of CAS
Priority date: 2023-03-30
Filing date: 2023-03-30
Publication date: 2023-07-18

Abstract

本发明涉及数据处理技术领域，具体为一种基于xgboost算法的压力源与水质关系的分析方法及系统，该方法包括以下内容：获取样本数据，对样本数据进行知识特征提取和时序关联融合处理；建立压力源与水质的响应关系模型，根据处理后的样本数据对响应关系模型进行训练；获取水质数据，训练后的响应关系模型根据水质数据输出压力源贡献占比。采用本方案，能够解决现有技术中因数据来源多样导致采集数据无法统一处理的技术问题。

Description

基于xgboost算法的压力源与水质关系的分析方法及系统

技术领域

本发明涉及数据处理技术领域，具体为一种基于xgboost算法的压力源与水质关系的分析方法及系统。

背景技术

水污染的防治是环境保护的重大关键问题之一。随着全球云计算、物联网、移动互联网等新一轮信息技术迅速发展和深入应用，城市信息化发展正酝酿着重大变革和新的突破，由对象、过程数字化为主要特征的数字化城市向智慧化发展已成为必然趋势。而水环境管理是城市管理的重要组成部分，信息化必然成为水污染防治发展的有力工具，水污染防治信息化建设势在必行。

水污染防治大数据主要通过数据采集仪、无线网络、水质水压表等在线监测设备实时感知各系统的运行状态，将海量水环境信息进行及时分析与处理，并做出相应的处理结果辅助决策建议，以更加精细和动态的方式管理水污染防治。

由于相关数据是通过数据采集仪、无线网络、水质水压表等在线监测设备，实时感知各系统的运行状态从而采集到的，这就导致所采集到的数据无论在类型、性质、形式和内容上均存在极大的差异，同时由于传感器采样和量化方式的不同，各种不同的感知数据的采样频率和测量精度也存在很大的差异，因此难以对采集的数据进行统一处理，使得现有水污染防治系统所使用的数据量有限，无法实现真正的大数据管理。

发明内容

本发明的目的之一在于提供一种基于xgboost算法的压力源与水质关系的分析方法，以解决现有技术中因数据来源多样导致采集数据无法统一处理的技术问题。

本发明提供的基础方案一：基于xgboost算法的压力源与水质关系的分析方法，包括以下内容：

获取样本数据，对样本数据进行知识特征提取和时序关联融合处理；

建立压力源与水质的响应关系模型，根据处理后的样本数据对响应关系模型进行训练；

获取水质数据，训练后的响应关系模型根据水质数据输出压力源贡献占比。

进一步，采用基于最大间隔超平面的增强特征提取算法对样本数据进行知识特征提取，并利用时序关联融合IFPT算法进行时序关联融合。

进一步，响应关系模型采用xgboost算法。

进一步，建立压力源与水质的响应关系模型，包括以下内容：

构建样本预测值公式，获取目标函数；

确定树模型的结构，获取树的深度；

在目标函数中增加惩罚项限制树的叶子节点个数；

使目标函数最小化，得到最优权重和最小化所对应的目标函数；

将目标函数作为评价函数，把树分为左右子树，将样本点分别划分为左右节点，筛选出树节点的切割点；

根据切割点确定树结构，获取每个叶子节点的分数，将每棵树的叶子节点分数相加获得样本预测值。

进一步，将样本点分别划分为左右节点，包括以下内容：

使用贪心算法，从叶子迭代产生树的枝，在每个节点枚举每一个特征的每一个特征值作为分隔点，将样本点根据枚举特征和枚举特征值分别划分到左右节点；

当样本点无法根据特征划分时，将样本点分别划分到左右节点，计算增益，将样本点划分到增益大的节点。

进一步，还包括以下内容：

根据压力源贡献占比匹配生成水污染防治措施。

基础方案一的有益效果：

1、样本数据为多种来源所采集的数据，用于对压力源与水质的响应关系模型进行训练，从而获得更为准确的响应关系模型。本方案中，对采集的样本数据进行处理，通过知识特征提取对不同类型的数据进行特征提取，并通过时序关联融合根据潜在关联关系进行知识聚类，解决因数据来源多样导致采集数据无法统一处理的情况，从而为响应关系模型的训练提供数据基础。

2、方案中，采用基于xgboost算法的响应关系模型，通过响应关系模型分析出压力源和水质关系，以及每一类污染物对当前河流污染状态的贡献占比，从而对水质主要压力源进行溯源分析。通过响应关系模型构建示范流域的压力源与水质关系，以此为基础进行抽象，从而获取描述其他河流的各压力源与水质关系的准确参考模型，并泛化模型为全市河流所用，为主要不达标水体主要污染因子溯源分析提供大数据理论依据，为水质监测和水污染防治提供有效可靠的基础理论保障。

3、本方案中，针对不同压力源占比进行水污染防治措施推荐，有效解决当前河流的水污染问题，通过针对性的推荐水污染防治措施实现不同场景下的水污染治理措施推荐，保障水环境高质量发展。

本发明的目的之二在于提供一种基于xgboost算法的压力源与水质关系的分析系统。

本发明提供基础方案二：基于xgboost算法的压力源与水质关系的分析系统，使用上述的基于xgboost算法的压力源与水质关系的分析方法。

进一步，包括：

数据获取模块，用于获取样本数据和水质数据；

数据处理模块，用于对样本数据进行知识特征提取和时序关联融合处理；

模型生成及训练模块，用于建立压力源与水质的响应关系模型，根据数据处理模块处理后的样本数据训练响应关系模型；

模型分析模块，用于调用响应关系模型，获取响应关系模型根据水质数据输出压力源贡献占比。

进一步，响应关系模型采用xgboost算法。

进一步，还包括：

措施匹配模块，用于根据压力源贡献占比匹配生成水污染防治措施。

基础方案二的有益效果：

1、数据处理模块的设置，用于对采集的样本数据进行处理，通过知识特征提取对不同类型的数据进行特征提取，并通过时序关联融合根据潜在关联关系进行知识聚类，解决因数据来源多样导致采集数据无法统一处理的情况，从而为模型生成及训练模块对响应关系模型的训练提供数据基础。

2、模型分析模块采用基于xgboost算法的响应关系模型，通过响应关系模型分析出压力源和水质关系，以及每一类污染物对当前河流污染状态的贡献占比，从而对水质主要压力源进行溯源分析。通过响应关系模型构建示范流域的压力源与水质关系，以此为基础进行抽象，从而获取描述其他河流的各压力源与水质关系的准确参考模型，并泛化模型为全市河流所用，为主要不达标水体主要污染因子溯源分析提供大数据理论依据，为水质监测和水污染防治提供有效可靠的基础理论保障。

3、措施匹配模块的设置，针对不同压力源占比进行水污染防治措施推荐，有效解决当前河流的水污染问题，通过针对性的推荐水污染防治措施实现不同场景下的水污染治理措施推荐，保障水环境高质量发展。

附图说明

图1为本发明基于xgboost算法的压力源与水质关系的分析方法实施例一的流程示意图；

图2为本发明基于xgboost算法的压力源与水质关系的分析方法及系统实施例一的压力源贡献占比示意图；

图3为本发明基于xgboost算法的压力源与水质关系的分析方法及系统实施例二的集成架构图。

具体实施方式

下面通过具体实施方式进一步详细说明：

实施例一

基于xgboost算法的压力源与水质关系的分析方法，如附图1所示，包括以下内容：

S1：获取样本数据，对样本数据进行知识特征提取和时序关联融合处理。

S2：建立压力源与水质的响应关系模型，根据处理后的样本数据对响应关系模型进行训练。

S3：获取水质数据，训练后的响应关系模型根据水质数据输出压力源贡献占比。

S1具体包括以下内容：

S101：获取样本数据，样本数据为提前采集的水质数据或经第三方系统预测的水质趋势数据，以及反应压力源的多项指标参数。包括工业企业用水量、污染物当量值(氨氮、TP、COD等)，流域内下游污水厂进水量及进水指标(氨氮、TP、COD等)；降雨历时、降雨强度、气温；地表径流部分：用地面积、径流系数；水土流失部分：地表覆盖度、流失系数；农业面源部分：用地面积、产污系数；流域内源源贡献值(氨氮、TP、COD等)中的一种或多种。

S102：采用基于最大间隔超平面的增强特征提取算法对样本数据进行知识特征提取，具体根据以下内容进行特征提取：

采用最大分割超平面，将样本映射到由一组间隔最大化且两两正交的超平面的法线所张成的子空间中，实现输入样本的特征提取，再用提取出的特征训练出具有差异性的基分类器。

设定X，y是训练数据，X＝{x₁,x₂,...,x_n}是输入样本,(x_j∈R^d,j＝1,2,...,n),y∈{-1,+1}ⁿ是相应的类标签。假设(x_i,y_i)i＝1,2,,...,n是相互独立，同分布随机变量。通过求解下列优化问题(1)得到最大间隔超平面：

y_i(W^TΦ(x_i)+b)≥1-ε_i,i＝1,2,...,m,q＝1,2,...,s,u_q＝w_q/||w_q||

其中，y_i(W^TΦ(x_i)+b)是要求解的超平面，Φ是映射函数，c是正则化参数，用来权衡误分类代价。

通过引入拉格朗日乘子与r＝[r₁,r₁,...,r_s]^T∈R^s，并应用拉格朗乘子方法，可得到问题(1)的对偶式。

对应于K的特征提取为：

其中，e_i∈R_m的第i个元素是1，其余的元素为0。基于KKT条件，原始问题的最优解可由最优值α与γ表示，即

第s次迭代获得最优解α_s＝[α_s1,α_s2,...,α_sm]。

其中，Φ＝[Φ(X₁),Φ(X₂),...,Φ(X_m)]，核函数K＝Φ^TΦ,因此式(3)是Φ(X₁),Φ(X₂),...,Φ(X_m)的线性组合。基于式(2)与式(3)，则可得到：

则w₂仍是Φ(X_i)的线性组合，通过归纳可得出，算法的每次迭代所求的的权值w_i都是Φ(X₁),Φ(X₂),...,Φ(X_m)的线性组合。

给定问题(1)的参数(X,y,C)，得到最优解α、γ与w₁，则第一个提取的特征f₁(x)＝W₁ ^TX。转换样本数据，即将样本数据投影到同w₁的正交空间中。为简单起见，假设w₁已被规范化，即||w₁||₂＝1，则映射后的数据为

用X′表示矩阵(x′₁,x′₂,...,x′_n)，式(7)求解出的参数为(X,y,C)的解为{w₂,b₂}，则第二个提取出的特征为f₂(x)＝W₁ ^TX′,其中X′＝X-(W^TX)W。

根据所需要提取的特征维数，重复上述特征提取的过程，直到提取出指定数量的特征为止。

S103：利用时序关联融合IFPT(改进的频繁模式树)算法进行时序关联融合,也可采用FPG(频繁模式树)相关算法进行时序关联融合。在本实施例中，采用FPG相关算法，在其他实施例中，采用IFPT算法。与FPG相关算法相比，IFPT算法采用了运算和保存时序频繁度向量及时序频繁度信息资源集合的方法。

例如，以水质等知识的内容属性和土地使用分类知识的结构属性为依据，根据资源属性特征把具有依赖或时序关系的知识对象关联在一起，进行知识聚类，将数据级融合生成的知识网络以及概念级融合生成的分类知识组织体系结构中具有潜在关联关系的知识资源以关联聚类知识形式呈现出来，为水污染防治决策提供所需的知识。

S2具体包括以下内容：

S201：建立压力源与水质的响应关系模型，响应关系模型采用xgboost算法。主要通过不断地添加树，不断地进行特征分裂来生长一棵树，每次添加一个树，其实是学习一个新函数，去拟合上次预测的残差。当我们训练完成得到k棵树，我们要预测一个样本的分数，其实就是根据这个样本的特征，在每棵树中会落到对应的一个叶子节点，每个叶子节点就对应一个分数，最后只需要将每棵树对应的分数加起来就是该样本的预测值。具体的：

S2011：构建样本预测值公式如下：

其中，f(x)表示一颗回归树，t表示回归树的数目。y_i表示真实值，表示预测值。

获取目标函数为：

S2012：确定树模型的结构，获取树的深度。

在XGboost模型中，每棵树是一个一个往里面加的，每加一个都是希望效果能够得到提升，生成每棵树后，预测分数的表示如下：

其中，表示第t轮的模型预测分数，/>表示保留前面t-1轮的模型预测分数结果，f_t(x_i)表示第t颗树，t表示所加树的颗树，即树的深度。

S2013：在目标函数中增加惩罚项限制树的叶子节点个数。

不断加入树，相当于又多了一个函数，而新加入的函数能够提升整体对表达效果，即加上新的树之后，目标函数的值会下降。但是加入树的数目越多，叶子结点的个数也就越多，这样过拟合的风险会越大，所以为了限制叶子节点的个数，需要在原来的目标函数中加上一个惩罚项，即：

其中，γ表示惩罚力度，T表示叶子的个数，w_j表示叶子节点的权重。

因此，XGboost算法完整的目标函数由自身的损失函数和正则化的惩罚项相加而成，如下所示：

S2014：使目标函数最小化，得到最优权重和最小化所对应的目标函数。

得到目标函数以后，找到一个f_t(x_i)使得目标函数能够最小化，即通过泰勒二阶展开简化后的目标函数如下：

其中，g_i为一阶导数，h_i为二阶导数，γ表示惩罚力度，T表示叶子的个数。

因此，即可得到最优的权重和目标公式为：

S2015：将目标函数作为评价函数，把树分为左右子树，将样本点分别划分为左右节点，筛选出树节点的切割点。具体的：使用贪心算法，从叶子迭代产生树的枝，在每个节点枚举每一个特征的每一个特征值作为分隔点，将样本点根据枚举特征和枚举特征值分别划分到左右节点。

由于遍历所有的树，计算量较大，因此采用贪心算法，从一个叶子迭代产生树的枝，在每个节点枚举每一个特征的每一个特征值作为分隔点，使用上式的目标函数作为评价函数，把树分为左右子树，把样本点按照枚举特征和枚举特征值分别划分到左右节点；枚举完成后，选出使上面中的切分指标最大的那维特征和特征值作为树节点的切割点。

收集的河流数据可能存在数据缺失的情况，即缺少某一条数据的某一项特征，无法利用该特征划分时，需要将该样本分别划到左节点和右节点，然后计算其增益，哪边的增益大就划分到哪边。即当样本点无法根据特征划分时，将样本点分别划分到左右节点，计算增益，将样本点划分到增益大的节点。

S2016：根据切割点确定树结构，获取每个叶子节点的分数，将每棵树的叶子节点分数相加获得样本预测值。

找到切割点以后，就确定了相应的树结构，从而可以得到每个叶子结点的分数，将每棵树对应的叶子结点的分数相加，就可以得到该样本的预测值，即可完成分类，即确定污染源，实现污染源溯源问题。

S202：根据经过S1步骤处理的样本数据对建立响应关系模型进行训练。

经过反复实验验证，响应关系模型的参数优化如下：

学习率为0.01；

树的深度为6，树的深度过大容易过拟合；

Objective(待优化的目标函数)设置为‘multi:softprob’，该函数支持多分类并且能输出概率值；

收缩步长设置为0.3。设置步长是为了防止过拟合，其通过缩减特征的权重使提升计算过程更加保守。

S3具体包括以下内容：

S301：获取水质数据，水质数据与训练响应关系模型的样本数据采用相同方式获得。

S302：调用经过S2步骤训练的响应关系模型。

S303：将水质数据作为输入，输入响应关系模型，获取响应关系模型根据水质数据输出压力源贡献占比。

对于点源污染来说，响应关系模型的输入数据包括：工业企业用水量、污染物(氨氮、TP、COD)当量值，流域内下游污水厂进水量及进水指标(氨氮、TP、COD)。

对于面源污染来说，响应关系模型的输入数据包括：降雨历时、降雨强度、气温；地表径流部分：用地面积、径流系数；水土流失部分：地表覆盖度、流失系数；农业面源部分：用地面积、产污系数。

对于内源污染来说，响应关系模型的输入数据包括：流域内源源贡献值(氨氮、TP、COD)。

响应关系模型的输出数据为每一类污染压力源对当前河流污染状态的贡献占比，在本实施例中，压力源包括点源、面源和内源，在其他实施例中，压力源包括上游来水、土地开发、产业化和城镇化，可进一步细化为城镇生活污水、水土流失、农村生活污水、畜禽养殖、工业污染、农田面源以及上游来水污染。

在其他实施例中，还包括：

S4：根据压力源贡献占比匹配生成水污染防治措施。具体包括以下内容：

S401获取水污染防治大数据，根据水污染防治大数据建立基于随机森林算法的水污染防治模型。具体的：采用现有随机森林算法建立水污染防治模型，根据水污染防治大数据对水污染防治模型进行训练，并存储训练后的水污染防治模型。水污染防治模型的输入为压力源贡献占比，输出为压力源贡献占比对应的水质治理措施。水质治理措施包括措施对应的污染类型、治理措施大类、治理措施小类、技术工艺、建设难易程度、建设成本、运营难易程度、运营成本、预期成效中的一种或多种。

S402：将压力源贡献占比作为输入，输入水污染防治模型，获取水污染防治模型匹配输出的水质治理措施。通过水污染防治模型，自动为压力源贡献占比匹配推荐相应的水质治理措施，根据治理措施及特征指标可手工修改和新增，最终确定该流域该时段适合的水环境治理决策措施，形成年度目标任务，并对任务的实施完成情况及效果进行跟踪考核。

水污染防治模型有针对性的推荐相应的措施，包括：

点源污染对应的推荐措施：雨污水混接整改、新建污水管道、新建雨水管道、无动力截流设备、初期雨水调蓄池、磁混凝沉淀设备。

面源污染对应的推荐措施：植草沟、透水铺装、下沉式湿地、雨水湿地。

内源污染对应的推荐措施：环保清淤、淤泥脱水干化。

基于xgboost算法的压力源与水质关系的分析系统，使用上述的基于xgboost算法的压力源与水质关系的分析方法，其包括数据获取模块、数据处理模块、模型生成及训练模块、模型分析模块。

数据获取模块用于获取样本数据和水质数据。样本数据为提前采集的水质数据或经第三方系统预测的水质趋势数据，以及反应压力源的多项指标参数。水质数据与训练响应关系模型的样本数据采用相同方式获得。

数据处理模块，用于对样本数据进行知识特征提取和时序关联融合处理。具体的，数据处理模块根据以下内容对样本数据进行处理：

设定X，y是训练数据，X＝{x₁,x₂,...,x_n}是输入样本,(x_j∈R^d,j＝1,2,...,n),y∈{-1,+1}ⁿ是相应的类标签。假设(x_i,y_i)i＝1,2,,...,n是相互独立，同分布随机变量。通过求解下列优化问题(1)得到最大间隔超平面，如公式(1)所示。

通过引入拉格朗日乘子与r＝[r₁,r₁,...,r_s]^T∈R^s，并应用拉格朗乘子方法，可得到问题(1)的对偶式，如公式(2)所示。

对应于K的特征提取如公式(3)所示。

基于KKT条件，原始问题的最优解可由最优值α与γ表示，即如公式(4)所示。

第s次迭代获得最优解α_s＝[α_s1,α_s2,...,α_sm]，如公式(5)所示。

而式(3)是Φ(X₁),Φ(X₂),...,Φ(X_m)的线性组合。基于式(2)与式(3)，则可得到公式(6)。

w₂仍是Φ(X_i)的线性组合，通过归纳可得出，算法的每次迭代所求的的权值w_i都是Φ(X₁),Φ(X₂),...,Φ(X_m)的线性组合。

给定问题(1)的参数(X,y,C)，得到最优解α、γ与w₁，则第一个提取的特征f₁(x)＝W₁ ^TX。转换样本数据，即将样本数据投影到同w₁的正交空间中。为简单起见，假设w₁已被规范化，即||w₁||₂＝1，则映射后的数据为如公式(7)所示。

利用时序关联融合IFPT(改进的频繁模式树)算法进行时序关联融合,也可采用FPG(频繁模式树)相关算法进行时序关联融合。在本实施例中，采用FPG相关算法，在其他实施例中，采用IFPT算法。与FPG相关算法相比，IFPT算法采用了运算和保存时序频繁度向量及时序频繁度信息资源集合的方法。

模型生成及训练模块用于建立压力源与水质的响应关系模型，根据数据处理模块处理后的样本数据训练响应关系模型。具体的，

模型生成及训练模块用于建立压力源与水质的响应关系模型，响应关系模型采用xgboost算法。主要通过不断地添加树，不断地进行特征分裂来生长一棵树，每次添加一个树，其实是学习一个新函数，去拟合上次预测的残差。当我们训练完成得到k棵树，我们要预测一个样本的分数，其实就是根据这个样本的特征，在每棵树中会落到对应的一个叶子节点，每个叶子节点就对应一个分数，最后只需要将每棵树对应的分数加起来就是该样本的预测值。具体的：

构建样本预测值如公式(8)所示。则获取目标函数如公式(9)所示。

确定树模型的结构，获取树的深度。在XGboost模型中，每棵树是一个一个往里面加的，每加一个都是希望效果能够得到提升，生成每棵树后，预测分数的表示如公式(10)所示。

在目标函数中增加惩罚项限制树的叶子节点个数。不断加入树，相当于又多了一个函数，而新加入的函数能够提升整体对表达效果，即加上新的树之后，目标函数的值会下降。但是加入树的数目越多，叶子结点的个数也就越多，这样过拟合的风险会越大，所以为了限制叶子节点的个数，需要在原来的目标函数中加上一个惩罚项，即如公式(11)所示。

因此，XGboost算法完整的目标函数由自身的损失函数和正则化的惩罚项相加而成，如公式(12)所示。

使目标函数最小化，得到最优权重和最小化所对应的目标函数。得到目标函数以后，找到一个f_t(x_i)使得目标函数能够最小化，即通过泰勒二阶展开简化后的目标函数如公式(13)所示。因此，即可得到最优的权重和目标公式如公式(14)所示。：

将目标函数作为评价函数，把树分为左右子树，将样本点分别划分为左右节点，筛选出树节点的切割点。具体的：使用贪心算法，从叶子迭代产生树的枝，在每个节点枚举每一个特征的每一个特征值作为分隔点，将样本点根据枚举特征和枚举特征值分别划分到左右节点。

根据切割点确定树结构，获取每个叶子节点的分数，将每棵树的叶子节点分数相加获得样本预测值。找到切割点以后，就确定了相应的树结构，从而可以得到每个叶子结点的分数，将每棵树对应的叶子结点的分数相加，就可以得到该样本的预测值，即可完成分类，即确定污染源，实现污染源溯源问题。

模型生成及处理模块还用于根据数据处理模块处理后的样本数据对建立的响应关系模型进行训练。

经过反复实验验证，响应关系模型的参数优化如下：

学习率为0.01；

树的深度为6，树的深度过大容易过拟合；

模型分析模块用于调用响应关系模型，获取响应关系模型根据水质数据输出压力源贡献占比。

在其他实施例中，还包括措施匹配模块。

数据获取模块还用于获取水污染防治大数据，水污染防治大数据包括水质数据与对应的水质治理措施。水质治理措施包括措施对应的污染类型、治理措施大类、治理措施小类、技术工艺、建设难易程度、建设成本、运营难易程度、运营成本、预期成效中的一种或多种。

模型生成及训练模块还用于基于随机森林算法建立水污染防治模型，具体采用现有的随机森林算法。模型生成及训练模块还用于将水污染防治大数据作为样本，根据样本训练水污染防治模型，并将训练后的水污染防治模型存储在措施匹配模块中。

措施匹配模块预设有水污染防治模型，措施匹配模块用于根据压力源贡献占比匹配生成水污染防治措施。

水污染防治模型有针对性的推荐相应的措施，包括：

内源污染对应的推荐措施：环保清淤、淤泥脱水干化。

根据水质数据对压力源进行分析及溯源，经过实验证明，本方案对压力源贡献占比的进度达到82％，实验结果如表1和图2所示，表1为流域污染类别及指标的贡献值，图2为污染物对三大压力源的贡献占比。

表1流域污染类别及指标的贡献值

污染类别/指标	COD	氨氮	TP
				点源	1425.48	152.32	1425.48
面源	800.10	20.81	800.10
				内源	113.80	0.41	113.80
合计	2339.38	173.54	2339.38

采用本方案，基于xgboost算法的响应关系模型，通过响应关系模型分析出压力源和水质关系，以及每一类污染物对当前河流污染状态的贡献占比，从而对水质主要压力源进行溯源分析。通过响应关系模型构建示范流域的压力源与水质关系，以此为基础进行抽象，从而获取描述其他河流的各压力源与水质关系的准确参考模型，并泛化模型为全市河流所用，为主要不达标水体主要污染因子溯源分析提供大数据理论依据，为水质监测和水污染防治提供有效可靠的基础理论保障。

实施例二

本实施例与实施例一的不同之处在于：

如附图3所示，基于xgboost算法的压力源与水质关系的分析系统，包括水污染防治大数据智能分析及决策平台，以及智能算法平台。水污染防治大数据智能分析包括配置模块、若干应用模块、可视化组件以及应用接口层。智能算法平台包括算法封装和统一算法接口服务层。

在本申请中，所使用的算法包括不同压力源与水质相关关系大数据算法、多源异构数据知识特征提取与融合算法、小流域水污染决策自学习算法，在本实施例中，使用python实现算法构建，具体的算法封装策略是：使用python进程运行深度学习中训练的模型，在Java应用程序中调用python进程提供的服务，python应用和Java应用可以运行在不同的服务器上，通过进程的远程访问调用。该算法封装完成后，系统平台以事先规定好的数据格式，例如Word、PDF等，通过HTTP协议进行传输。

在本申请中，通过应用接口层和统和统一算法接口服务层实现算法与应用的对接。

统一算法接口服务层包括算法参数配置接口、情况配置接口、算法驱动接口和算法结果消息接口等。其中，算法驱动接口是核心接口，其包括算法封装中各算法的驱动接口。

算法参数配置接口：1.实现基础算法、三个应用算法的基本技术参数配置功能。2.通过基于http/https协议的web服务发布接口；3.为水污染防治大数据智能分析及决策平台的配置模块所调用。

情况配置接口：1.实现基于深度神经网络的小流域水污染决策自学习算法、压力源与水质关系模型算法、压力源与水质多源异构数据知识特征提取与融合算法的情况配置参数基本配置功能。2.通过基于http/https协议的web服务发布接口；3.为水污染防治大数据智能分析及决策平台的配置模块所调用。

算法驱动接口是接口层的核心接口，实现与算法之间的特性数据与参数的对接，包含：基于深度神经网络的小流域水污染自学习算法驱动接口、水质与压力源的关系模型算法驱动接口、水质与压力源的关系模型算法驱动接口，接口功能要求如下：1.实现三个应用算法的任务驱动发起调用，是应用系统调用算法执行的入口。2.通过基于http/https协议的web服务发布接口；3.为水污染防治大数据智能分析及决策平台的算法调用接口所调用。

算法结果消息接口：1.算法计算完成后，将计算结果消息返回给所调用的应用模块。2.该接口为调用口。3.该接口回调水污染防治大数据智能分析及决策平台的决策分析业务模块通过结果响应接口完成任务消息的传递。

应用接口层包括通用web调用接口、算法调用接口和结果响应接口等。

通用web调用接口：1.采用通用的http/https协议实现通过web服务的调用；2.该接口为调用接口。如调用算法参数配置接口和情景配置接口。

算法调用接口：1.该接口调用算法平台的算法驱动接口，是应用系统调用算法执行的入口；2.该接口为调用接口。

结果响应接口：1.算法运算任务完成后，接收算法平台返回的消息，并将状态标识写入数据库；2.通过基于http/https协议的web服务发布接口；3.为算法平台的算法结果消息接口所调用。

应用接口层和统和统一算法接口服务层采用统一的规范进行建设，接口协议、接口数据格式、数据编码、封装方法规范要求如下：接口模式：通过基于http的web服务进行接口发布，调用端通过http/https进行调用与响应。接口数据格式：采用JSON格式进行数据交互响应。接口编码：UTF-8编码。

算法与平台的对接采用算法与平台分离的方式。在算法服务器上建立监听进程，平台通过进程的远程访问调用算法。平台与算法服务器之间采用http超文本传输协议，利用HTTP中的GET与POST请求方法完成系统平台和算法服务器的信息交流。

本申请中，统一数据读写接口，采用统一的非关系性数据、关系性数据的读写接口，作为算法与数据资源之间、应用与数据资源读写调用的统一接口。关系性数据通过关系数据库驱动(JDBC、ODBC等驱动)为应用平台和算法平台读取或存储。非关系性数据(方案、文件等)通过文件接口为应用平台和算法平台读取或存储。

本申请中，以配置定义实现数据驱动，1.参数配置(模型基础数据整合)：系统设计时需实现对模型参数进行整体配置，达到应用与算法之间的调度融合，包括模型各种初始化条件(网格等)，模型输入数据文件等。参数配置通过接口层实现，应用系统通过“通用web调用接口”与统一算法接口服务层的“算法参数配置接口”进行对接。2.情景配置(应用场景的定制融合)：系统设计时需实现对情况参数的配置，实现系统开始进行预测。参数配置通过接口层实现，应用系统通过“通用web调用接口”与统一算法接口服务层的“情况配置接口”进行对接。

本申请中，以数据模型设计实现数据规范化融合，数据规范化是数据融合的基础，通过有效数据规划(即数据模型设计)是数据与应用/算法的融合的重要方法。目标结果数据库(即决策分析数据)以分析决策为导向，通过目标数据建模实现目标结果数据(即决策分析数据)库规划与设计；源数据建模是算法源数据的基础，实现算法数据接入、清理与整合的融合基础。

应用时，配置模块用于通过通用web调用接口进行参数配置和情景配置，应用模块用于通过算法调用接口调用所需算法进行分析，并通过结果响应接口传输分析结果，通过可视化组件对分析结果进行显示。

基于xgboost算法的压力源与水质关系的分析方法，使用上述基于xgboost算法的压力源与水质关系的分析方法及系统。

采用本方案，通过接口实现算法与应用的集成，基于应用接口层和统一算法接口服务层有效实现算法与应用的对接。通过源数据建模与目标数据建模设计完成算法与应用的数据融合，实现应用调用、算法运算、数据展现的各个环节的整合，并通过参数配置、情景配置等提高集成整合能力。

以上所述的仅是本发明的实施例，方案中公知的具体结构及特性等常识在此未作过多描述，所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识，能够获知该领域中所有的现有技术，并且具有应用该日期之前常规实验手段的能力，所属领域普通技术人员可以在本申请给出的启示下，结合自身能力完善并实施本方案，一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出，对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.基于xgboost算法的压力源与水质关系的分析方法，其特征在于，包括以下内容：

2.根据权利要求1所述的基于xgboost算法的压力源与水质关系的分析方法，其特征在于：采用基于最大间隔超平面的增强特征提取算法对样本数据进行知识特征提取，并利用时序关联融合IFPT算法进行时序关联融合。

3.根据权利要求1所述的基于xgboost算法的压力源与水质关系的分析方法，其特征在于：响应关系模型采用xgboost算法。

4.根据权利要求1所述的基于xgboost算法的压力源与水质关系的分析方法，其特征在于：建立压力源与水质的响应关系模型，包括以下内容：

构建样本预测值公式，获取目标函数；

确定树模型的结构，获取树的深度；

在目标函数中增加惩罚项限制树的叶子节点个数；

5.根据权利要求4所述的基于xgboost算法的压力源与水质关系的分析方法，其特征在于：将样本点分别划分为左右节点，包括以下内容：

6.根据权利要求1所述的基于xgboost算法的压力源与水质关系的分析方法，其特征在于，还包括以下内容：

根据压力源贡献占比匹配生成水污染防治措施。

7.基于xgboost算法的压力源与水质关系的分析系统，其特征在于：使用权利要求1-6任一项所述的基于xgboost算法的压力源与水质关系的分析方法。

8.根据权利要求7所述的基于xgboost算法的压力源与水质关系的分析系统，其特征在于，包括：

数据获取模块，用于获取样本数据和水质数据；

9.根据权利要求8所述的基于xgboost算法的压力源与水质关系的分析系统，其特征在于：响应关系模型采用xgboost算法。

10.根据权利要求8所述的基于xgboost算法的压力源与水质关系的分析系统，其特征在于，还包括：