CN113344130B

CN113344130B - 差异化巡河策略的生成方法及装置

Info

Publication number: CN113344130B
Application number: CN202110737247.1A
Authority: CN
Inventors: 杜冬阳; 周新民; 范明华; 周志刚; 魏日强; 林继贤; 邹浩
Original assignee: Guangdong Longquan Technology Co ltd; Guangzhou River Monitoring Center
Current assignee: Guangdong Longquan Technology Co ltd; Guangzhou River Monitoring Center
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2022-01-11
Anticipated expiration: 2041-06-30
Also published as: CN113344130A

Abstract

本发明涉及水务工程与环境工程技术，为差异化巡河策略的生成方法及装置，其装置包括：数据清洗模块，用于数据预处理、数据清洗、样本过滤得到清洁样本集；数据模型训练模块，利用清洁样本集训练和评估随机森林模型以对河湖水质等级预测，利用高斯混合聚类模型对目标窗口期内的所有河湖进行聚类分析，通过标签传播技术对训练样本集进行扩充；模型预测及其数据可视化模块，通过随机森林模型对河湖水质进行预测得到相应的河湖水质等级信息、用于评估河湖巡河排序得分的置换特征重要值；决策辅助生成模块，结合河湖水质等级信息和河湖巡河排序得分制定差异化巡河策略。本发明能基于不同河湖水环境状况而进行巡河资源合理分配，实现差异化巡河。

Description

差异化巡河策略的生成方法及装置

技术领域

本发明涉及水务工程与环境工程技术领域，尤其涉及差异化巡河策略的生成方法及装置。

背景技术

全面推行河长制是落实绿色发展理念、推进生态文明建设的内在要求，是解决复杂水问题、维护河湖健康生命的有效举措，是完善水治理体系、保障水安全的制度创新。开展河湖巡查工作并及时发现、推动解决河湖水污染、水环境问题是“河长”的主要工作。

当前，河长巡河采用“无差别”的巡河策略，即要求同一级别的河长采用相同的频次开展河湖巡查工作，如要求同一级别的河长对其负责的河湖实施“一天一巡”、“一周一巡”或“一月一巡”等策略。但这种“一刀切”的现有巡河策略存在的问题是没有基于水环境质量好坏针对性开展巡查：一方面，所辖河湖水质较好的河长疲于奔命，机械式地开展巡查，不利于巡查质量的提升，现有河湖巡查策略存在资源过度投入的问题；另一方面，现有河湖巡查策略无法引导河长更多地关注辖区内水质较差的河湖，相关污染问题无法得到针对性的发现和处置，最终巡河资源的错配导致了河湖巡查的效用不足。

发明内容

为解决现有技术所存在的技术问题，本发明提供差异化巡河策略的生成方法，能够基于不同河湖水环境状况而进行巡河资源合理分配，实现差异化巡河，达到以水环境质量为导向，推动河长更多地关注水质较差的河湖状态及其所存在的问题，逐步提高河湖水质优良比例。

另一方面，本发明还提供差异化巡河策略的生成装置。

根据本发明的差异化巡河策略的生成装置，包括：

数据清洗模块，用于数据预处理和数据清洗，包括对巡河问题数据进行降采样，使得巡河问题数据与水质监测数据具有相同的数据粒度，实现数据对齐；将水质等级数据作为标签数据进行编码，将巡河路径生成的缓冲带内的排水户排水类型情况数据与巡河问题数据、水质等级数据进行数据融合得到总训练集；对总训练集进行样本过滤，得到清洁样本集，用于训练和评估机器学习模型；

数据模型训练模块，用于训练机器学习模型，利用数据清洗模块得到的清洁样本集进行训练和评估随机森林模型，随机森林模型对河湖水质等级进行预测，并通过参数寻优选择最好的随机森林模型；利用高斯混合聚类模型对目标窗口期内的所有河湖进行聚类分析，通过标签传播技术对训练样本集进行扩充，得到扩充后的训练集，然后用于训练随机森林模型；

模型预测及其数据可视化模块，通过随机森林模型对河湖水质进行预测得到相应的河湖水质等级信息，通过随机森林模型得到置换特征重要值并用于评估河湖的河湖巡河排序得分；并对河湖相关数据进行可视化输出；

决策辅助生成模块，结合所有河湖水质等级信息和河湖的河湖巡河排序得分，制定相应的差异化巡河策略。

在一个优先的实施例中，数据清洗模块包括：

数据对齐模块，根据水质监测数据的采集频率，计算得到水质等级数据，并在巡河问题数据的数据粒度相对较高情况下，将巡河问题数据进行降采样，规整到与水质等级数据相同的数据粒度，使得巡河问题数据与水质等级数据对齐；

数据融合模块，通过数据对齐先对河湖的巡河问题数据进行标注，然后增加河湖对应的排水户类型数据并进行对应的标注；将有水质监测设备部署的河湖的水质等级作为标签，对样本进行标注；通过共有字段，将排水户排水类型情况数据与巡河问题数据、水质等级数据进行关联，形成总训练集。

在一个优先的实施例中，数据模型训练模块中高斯混合聚类采用概率模型来表达聚类原型，将概率密度函数记为p(x|μ,Σ)，定义高斯混合分布为：

该分布共由k个混合成分组成，每个混合成分对应一个高斯分布；其中μ_i与Σ_i是第i个混合成分的参数，而a_i>0为相应混合成分的混合系数，

1≤i≤k；

假设样本的生成过程由高斯混合分布给出：首先，根据序列α₁，α₂，...，α_k，定义的先验分布选择混合成分，其中α_i为选择第i个混合成分的混合系数；然后，根据被选择的混合成分的概率密度函数进行采样，从而生成样本。

在一个优先的实施例中，设生成样本的样本集为D＝{x₁,x₂,...,x_m}，令随机变量z_j表示生成样本x_j的高斯混合成分，j的取值范围为{1,2,...,k}，那么随机变量z_j的先验概率对应于α_i，根据贝叶斯定理z_j的后验概率分布对应于：

当高斯混合分布已知时，高斯混合聚类将把样本集D划分为k个簇C＝{C₁,C₂,...,C_k}，样本集D的每个样本x_j的簇标记λ_j通过下式确定：

高斯混合聚类是采用概率模型对数据内在原型进行刻画，簇划分由原型对应的后验概率确定。

根据本发明的差异化巡河策略的生成方法，包括以下步骤：

S1、将每个时间窗口期的水质等级数据作为标签数据，对应的特征数据为过去一个时间窗口期的巡河问题数据，通过数据对齐把河湖问题数据与水质等级数据进行联合；将河湖的实际水质等级信息编码成相应的多类标签；将巡河路径生成的缓冲带内的排水户排水类型情况数据与巡河问题数据、水质等级数据进行数据融合得到总训练集；过滤总训练集中的不合理或无效的样本，得到清洁样本集，用于训练和评估机器学习模型；

S2、训练机器学习模型，利用数据清洗模块得到的清洁样本集进行训练和评估随机森林模型，随机森林模型对河湖水质等级进行预测，并通过参数寻优选择最好的随机森林模型；利用高斯混合聚类模型对目标窗口期内的所有河湖进行聚类分析，通过标签传播技术对训练样本集进行扩充，得到扩充后的训练集，然后对随机森林模型进行训练；

S3、通过随机森林模型对河湖水质进行预测得到相应的河湖水质等级信息，通过随机森林模型得到置换特征重要值并用于评估河湖的河湖巡河排序得分；并对河湖相关数据进行可视化输出；

S4、结合所有河湖水质等级信息和河湖的河湖巡河排序得分，制定相应的差异化巡河策略。

在一个优先的实施例中，步骤S1中数据对齐过程为：根据水质监测数据的采集频率，计算得到水质等级数据，并在巡河问题数据的数据粒度相对较高情况下，将巡河问题数据进行降采样，规整到与水质等级数据相同的数据粒度，使得巡河问题数据与水质等级数据对齐；

步骤S1中数据融合过程为：通过数据对齐先对河湖的巡河问题数据进行标注，然后增加河湖对应的排水户类型数据并进行对应的标注；将有水质监测设备部署的河湖的水质等级作为标签，对样本进行标注；通过共有字段，将排水户排水类型情况数据与巡河问题数据、水质等级数据进行关联，形成总训练集。

本发明与现有技术相比，具有如下优点和有益效果：

1、关于河湖水质预测，现有技术如基于水质时序数据的自回归预测的方法受限于数据采集设备部署条件，只能对部署了监测设备的河湖进行相应预测；而基于水动力的建模预测的方法则受限于流体物理运动机理等其他难题，往往难以满足预测精度的要求；本发明采用的河湖水质预测方法，则从与河湖水质密切关联的多维数据、多个要素进行大数据建模，利用巡河问题数据、河湖周边排水户数据、河湖水质监测数据等数据，训练随机森林等机器学习模型。本发明的模型不仅能随着训练数据增加而提高模型预测精度和稳定性，而且具有较高的扩展性；不仅能够达到预测精度要求，也能够利用有水质监测设备部署河湖的数据进行模型性能评估。实用性方面，本发明的模型能够对无水质监测设备部署的河湖水质进行预测；而基于模型输出，则可以服务于诸如重点河湖跟踪、差异化巡河等场景应用。

2、基于本发明的河湖水质预测模型对具有不同水环境状况的河湖进行预测，得到的河湖水质情况的有效评估，并且根据置换特征重要值方法(permutation featureimportance)可以得到影响河湖水质的影响因子权重系数，利用权重系数对河湖数据进行加权加和得到河湖的巡河排序得分。然后根据巡河排序得分，可以制定达到以水环境质量为导向，以巡河资源合理分配为目的的差异化巡河策略，推动河长更多地关注水质状态较差的河湖，逐步提高河湖水质优良比例。

附图说明

图1是本发明实施例中差异化巡河策略的生成装置结构示意图；

图2是本发明实施例中模型对河湖在一段时间内的预测变化趋势图，其中(a)图为一条河涌的趋势图，(b)图为另一条河涌的趋势图；

图3是本发明实施例中单个月份特征数据的降维2D散点图；

图4是本发明实施例中高斯混合聚类生成的等概率密度图；

图5是本发明实施例中差异化巡河策略的生成方法流程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明中，差异化巡河的目标就是将有限的河湖巡查人力资源分配给高风险、问题多发的河湖，使得存在问题的河湖获得相应的关注，并解决河湖所存在的问题，从而持续优化河湖水质，整体向好。

本发明主要根据河湖水质情况来制定具有针对性的差异化巡河策略，其中，河湖水质情况由水质监测点采集的监测数据给出；但是，有水质监测设备部署的河湖数目约占全部河湖数目的四分之一，所以，需要通过数据建模的方法对其他河湖水质进行预测评估，并生成河湖问题对水质影响的权重排序；随后，根据模型的输出结果，制定一套相应的差异化巡河策略。

本发明需要解决两个主要问题：1、如何准确评估没有水质监测点的河湖水质情况；2、如何确定不同河湖的巡河权重。

为解决问题1，本发明采用有监督学习技术构建一个基于决策树的随机森林分类模型(Random forest)，利用巡河问题数据、河湖水质数据、排水户数据等进行模型训练、评估以及预测，通过模型预测无水质监测河湖的水质情况，从而得到所有河湖的水质情况信息；另外，由于带有水质等级标签的河湖样本(能用于训练模型)仅占所有河湖样本的一小部分(约1/7)，为了提高模型的预测准度，需要进一步利用无标签的样本数据，为此，本发明采用无监督学习技术构建一个基于高斯混合(Mixture-of-Gaussian)的聚类分析模型，对所有河湖进行聚类，将训练集内的河湖水质等级标签按一定比例在聚类簇内进行标签传播(label propagation)，从而增加训练集样本，以期提高模型的预测精度和泛化能力。

为解决问题2，本发明基于分类预测模型得到特征重要值(permutation featureimportance)，特征重要值用于反映某个特征对于模型预测精度的贡献；换句话说，在对河湖水质潜在的影响因子中，特征重要值越高的因子，也可能就是对河湖水质影响最大的因子。再结合所有河湖的水质等级的信息，包括监测得到和预测得到的河湖水质等级的信息，本发明可以得到不同河湖的河湖巡河排序得分。

实施例1

本实施例提供差异化巡河策略的生成装置，如图1所示，包括数据清洗模块、数据模型训练模块、数据可视化模型、决策辅助生成模块。

一、数据清洗模块，用于数据预处理和数据清洗，包括对巡河问题数据(也叫河湖问题数据)进行降采样，使得巡河问题数据与水质监测数据具有相同的数据粒度，实现数据对齐；将水质等级数据作为标签数据进行编码，并划分为三类标签，分别为优五类、五类及劣五类；以河湖的ID为关联字段对数据进行关联，将巡河路径生成的缓冲带内的排水户排水类型情况数据与巡河问题数据、水质等级数据进行数据融合，形成总训练集；对数据融合得到的总训练集进行样本过滤，得到清洁样本集，用于训练和评估机器学习模型。

在本实施例中，数据清洗模块具体包括：

1.1数据对齐模块

根据水质监测数据的采集频率(例如，频率为一月一次)，来确定相应巡河问题数据的统计窗口期。由水质监测数据计算得到水质等级数据，并在巡河问题数据的数据粒度相对较高情况下，将巡河问题数据进行降采样，规整到与水质等级数据相同的数据粒度，使得巡河问题数据与水质等级数据对齐。具体而言，可以将每个月的水质等级数据作为标签数据，对应的特征数据是相应时间窗口期的巡河问题数据，例如：当水质检测数据的采集日期是2月1日(月初)，将其水质等级数据作为标签数据(记为label)，对应的是从水质监测数据采集日期2月1日回溯一个时间窗口期内的巡河问题数据(作为特征数据，记为feature)；当水质检测数据的采集日期是2月28日(月末)，则对应的巡河问题数据的统计窗口期即为当月数据；当巡河问题统计时间窗口期设为一个月时，模型表现效果最好，因此将其设定为数据对齐的默认参数。

1.2标签划分模块

基于实际的巡河需求，本发明将河湖的实际水质等级数据编码成相应的三类标签，分别为优五类(记为V-，对应水质等级的I、Ⅱ、Ⅲ、Ⅳ类)、五类(记为V)和劣五类(记为V+)。

1.3数据融合模块

本模块对数据进行融合，主要是构造训练样例(样例由样本特征+样本标签组成)。通过数据对齐先对河湖的巡河问题数据进行标注，然后增加河湖对应的排水户类型数据，并进行对应的标注；其中，河湖对应的排水户类型数据是根据巡河路径生成的缓冲带(设巡河路径两侧500米宽度)内的排水户排水类型情况的统计数据；而将有水质监测设备部署的河湖的水质等级作为标签，对样本进行标注。本实施例中，通过共有字段，排水户排水类型情况数据以巡检日期为约束条件，与巡河问题数据、水质等级数据进行关联，构造成适用于有监督学习模型训练的训练样例，形成总训练集。

1.4样本过滤模块

经过数据融合得到的训练集中会含有一些不合理或无效的样本，比如水质等级数据缺失的样本(缺失值过滤或填充)，巡河问题数据统计窗口期内所有问题数量都是0的样本(实际存在，但不能用于训练模型)等。为了排除巡河问题信息与标签信息冲突的样本，结合实际巡河经验信息，本实施例采用以下规则过滤样本：当月记录到的巡河问题的数量等于0；只记录到一个“垃圾类”问题，但其对应的水质等级为五类或劣五类；记录到一个或多个“工业污染”或“农业污染”问题，但其对应的水质等级为优五类；应用前三个规则后，记录到至少一种问题但不属于“工业污染”或“农业污染”问题的样本，其对应的水质等级为五类或劣五类。经过样本过滤规则后形成清洁数据，后续基于清洁样本集进行机器学习模型的训练和评估。

二、数据模型训练模块，用于训练机器学习模型，利用数据清洗模块得到的清洁样本集进行训练和评估随机森林模型，随机森林模型对河湖水质等级进行预测，并通过参数寻优选择最好的随机森林模型；利用高斯混合聚类模型对目标窗口期内的所有河湖(包括有水质等级标签和无标签的)进行聚类分析，通过标签传播技术对训练样本集进行扩充，得到扩充后的训练集，然后用于训练随机森林模型，如果随机森林模型的性能得到提升，则使用性能提高后的模型，否则保持原模型。

2.1随机森林模型

在监督学习技术中，基于决策树(Decision Tree-based)的集成学习算法是应用比较广泛的算法，相对于单个决策树算法，集成学习算法有更好的数据适应性和更好的决策边界。作为集成学习的代表算法，随机森林模型(random-forest)通过结合不同子树(即弱学习器)对数据集的不同层次信息进行拟合，每个随机子树能学习到数据样本的不同信息，再通过相应的结合算法(如分类任务采样基于委员会的投票算法，或回归任务中采用平均算法)将不同的随机子树学习效果进行整合形成最终的预测模型(即强学习器)，以此得到泛化性能较强的随机森林模型。实际上，随机森林模型“随机”主要是通过对样本集和属性集两个对象的扰动(随机采样)来增加基学习器(子树)的多样性，从而实现泛化性能的提升。

本实施例中，采用基于可商用的BSD许可证的开源包scikit-learn的GridSearchCV框架对随机森林模型进行训练、评估和参数寻优。其中，用于模型训练和测试的数据集划分为训练集(353个样本，每个样本12个特征)和测试集(118个样本，每个样本12个特征)，设置参数空间包括：子树数量estimators＝[50,100,150,200]，交叉验证集划分参数cv＝[5，10]，模型评价指标参数scoring＝’accuracy’，然后对模型进行训练，最后选择模型表现最好的参数，用所有样本重新训练和生成最终的模型。

为了对训练好的随机森林模型用测试集进行泛化性能的评估，独立运行100次模型预测，三分类随机森林模型的测试集预测精度(testing accuracy)得分值的分布情况如表1所示。

表1随机森林模型在测试集上重复100次预测的得分情况分布表

本实施例中，随机森林模型采用基于决策树的集成学习算法，其决策树模型可以通过模型生成过程的最优划分节点的Gini系数来评估每个特征变量对预测结果的贡献度，也就是特征重要值(feature important)。可以用所有训练集数据对单个决策树进行训练并输出特征重要值，但基于Gini系数的特征重要值对具有较多不同变量值的特征有所偏好(例如，把样本编号加入模型训练，则模型给出的“样本编号”这一特征很高的重要值，但样本编号与河湖水质毫无关系)，并且基于Gini系数的特征重要值容易受到模型过拟合的影响。而随机森林模型是对若干子决策树的集成学习从而提高泛化性能，用每个子决策树的输出特征重要值在集成层面的平均得分作为最终的特征重要值得分，这一过程并未改变基于节点纯度(purity)计算特征重要值的限制。

因此，需要用置换特征重要值(Permutation feature importance)方法来计算特征重要值。这个方法基于训练好的模型，首先在训练好的模型上计算测试集/验证集的准确率，作为模型表现的参照值(即基准得分)；然后每次对数据集中的一个变量的所有样本值进行随机打乱顺序(permutation)，但同时保持数据集中其他变量以及标签不变，这样，如果模型对某个变量的依赖性很强，则打乱这个变量的样本值，就会对模型预测的精度产生严重的损害，通过这种方法来判断特征对模型表现的贡献度。那么，通过对比基准得分和基于不同变量乱序的模型表现得分，可以得到特征重要值。

Permutation feature importance的算法(以伪代码形式给出)：

从以上伪代码可知，采用置换特征重要值方法(Permutation featureimportance)计算特征重要值的过程为：

设训练集或验证集为共有N列的数据集D，计算训练好的预测模型m在数据集D上的得分s，包括分类器的分类精度得分、回归模型的线性回归决定系数R²得分；

对数据集D中特征j(即数据集D的第j列特征，1≤j≤N)的取值进行随机乱序，随机乱序的重复次数为K，得到对应的数据集D_k,j，然后计算预测模型m在数据集D_k,j的得分s_k,j，然后计算特征j的重要值I_j：

其中，k＝1,2,...,K；

最后将数据集D每列特征的重要值组成序列，得到数据集D的所有特征重要值I作为输出：I＝{I₁,I₂,...,I_N}。

2.2高斯混合聚类

聚类(clustering)是一种经典的无监督学习方法，无监督学习的目标是通过对无标记训练样本的学习，发掘和揭示数据集本身潜在的结构与规律。聚类试图将数据集的样本划分为若干个互不相交的类簇，从而每个簇对应一个潜在的类别。聚类的中心思想就是“物以类聚”。

高斯混合聚类采用概率模型来表达聚类原型。本实施例中，为明确显示高斯分布与相应参数的依赖关系，将概率密度函数记为p(x|μ,Σ)，定义高斯混合分布为：

该分布共由k个混合成分组成，每个混合成分对应一个高斯分布。其中μ_i与Σ_i是第i个混合成分的参数，而a_i>0为相应混合成分的混合系数(mixture coefficient)，

假设样本的生成过程由高斯混合分布给出：首先，根据序列α₁，α₂，...，α_k，定义的先验分布选择高斯混合成分，其中α_i为选择第i个混合成分的概率(即混合系数)，1≤i≤k；然后，根据被选择的混合成分的概率密度函数进行采样，从而生成样本。

若样本集D＝{x₁,x₂,...,x_m}为上述过程得到的生成样本，令随机变量z_j(j的取值范围为{1,2,...,k})表示生成样本x_j的高斯混合成分，其取值未知；那么，随机变量z_j的先验概率P(z_j＝i)对应于α_i，根据贝叶斯定理z_j的后验概率分布对应于：

从原型聚类的角度来看，高斯混合聚类是采用概率模型(高斯分布)对数据内在原型进行刻画，簇划分则由原型对应的后验概率确定。假设样本的生成过程由高斯混合分布给出，该分布共由多个混合成分组成，每个混合成分对应一个高斯分布。聚类簇数的选择通常是通过训练多个基于不同聚类簇数的高斯混合模型，采用BIC/AIC指标对模型进行评估，从而挑选最佳聚类簇数(在本实施例中聚类簇数为3)。模型的训练过程就是模型参数的求解过程，模型参数用极大似然法进行估计，使用最大期望EM算法进行迭代求解。EM算法的停止条件可以为：已达到最大迭代轮数，或似然函数增长很少甚至不再增长。

高斯混合聚类算法(以伪代码形式给出)

聚类分析只针对当月需要进行预测的数据。在这个目标时间窗口内的河湖，有些样本是通过水质监测得到水质等级标签的，结合这些样本标签和高斯混合模型得到不同聚类簇，则每个簇内的河湖具有一定的相似度，选取最靠近聚类中心20％的样本进行标签传播(label propagation)，再基于新的训练集进行随机森林模型的训练和预测；通过结合聚类分析，增强对没有标签的数据的利用，从而提高预测模型的表现。

在假定样本数据均来自相同的数据生成过程的前提下，从训练集样本得到的模型给出的特征重要值也就可以用来近似和评估所有样本的特征重要值。根据特征重要值和河湖的水质等级信息，可以制定相应的差异化巡河策略。

三、模型预测及其数据可视化模块，通过随机森林模型对河湖水质进行预测得到相应的河湖水质等级信息，通过随机森林模型得到置换特征重要值并用于评估河湖的河湖巡河排序得分；并对河湖相关数据进行可视化输出。

在本实施例中，有水质监测设备部署的河湖由水质监测点采集的监测数据生成河湖监测水质数据；无水质监测设备部署的河湖需要通过随机森林模型对河湖水质进行预测得到，并通过随机森林模型得到置换特征重要值以评估河湖的河湖巡河排序得分，所有河湖的河湖巡河排序得分由置换特征重要值给出。

3.1河湖水质等级预测的趋势变化可视化

如图2所示，用训练好的随机森林模型对过去一段时间(例如：过去6个月内的每个月)的河湖水质进行预测，得到河湖水质等级信息；其中用于表示预测等级的图例wqc_hat分为：V-：低风险等级，V：中风险等级，V+：高风险等级。图中的曲线可以这样进行解读：

图2中的(a)图：模型对某一河湖的河湖水质进行预测，每个月的预测都是低风险级别(V-)，模型在11月的预测中“相当肯定”(0.98)地“认为”此河湖属于低风险等级(对应水质是好的)，12月的时候肯定程度下降到0.85左右。

图2中的(b)图：模型对另一河湖的河湖水质进行预测，模型在8月到11月之间都以较高的肯定(0.90～0.99)将其预测低风险级别(V-)。

3.2聚类分析的数据可视化

如图3单个月份特征数据的降维(2D)散点图(2020-12)、图4高斯混合聚类生成的等概率密度图所示，特征数据由多高维数据组成，不能直接生成适合直接展示的图像，因此通过降维技术(采用PCA+TNSE技术)对数据进行降维，生成二维散点图。

四、决策辅助生成模块，用于结合所有河湖水质等级信息和河湖的河湖巡河排序得分，制定相应的差异化巡河策略。其中，优先级较高的河湖通过以下方法进行决策：

1、河湖水质标签为高风险等级(V+)，包括监测得到的、预测得到的；

2、特征重要值得分高的一个或多个特征，河湖样本数据信息与之相符，用多个特征重要值的加权均值作为其河湖巡河排序得分。对目标风险等级内的河湖进行排序，排序得分由河湖数据样本与特征重要值的加权平均计算得出。则得分越高的河湖，需要更多治理资源。

实施例2

基于相同的发明构思，本实施例提供差异化巡河策略的生成方法，巡河资源分配的决策合理性需要基于数据模型的支撑，根据上一观测周期的巡河问题数据、河湖水质监测数据以及排水户数据等水务数据，通过机器学习技术来构建数据模型，完成预测结果的生成并用于差异化巡河策略的制定，指导规划期内的巡河资源分配计划和日常巡河重点工作。具体而言，有水质监测设备部署的河湖由水质监测点采集的监测数据生成河湖监测水质数据；无水质监测设备部署的河湖需要通过构建的随机森林模型根据上一观测周期的巡河问题数据、排水户数据等水务数据对河湖水质进行预测评估，并生成河湖问题对水质影响的河湖巡河排序得分；把所有河湖水质情况预测的趋势变化和河湖巡河排序得分可视化；结合所有河湖的水质情况和河湖巡河排序得分，辅助制定相应的差异化巡河策略，提高河长巡河的有效性。

如图5所示，本实施例的差异化巡河策略生成方法，在具体实现过程中包括以下步骤：

S1、将每个时间窗口期(例如每个月)的水质等级数据作为标签数据，对应的特征数据为过去一个时间窗口期的巡河问题数据(即河湖问题数据)，通过数据对齐把河湖问题数据与水质等级数据进行联合；将河湖的实际水质等级信息编码成相应的多类标签；通过共有字段将巡河路径生成的缓冲带内的排水户排水类型情况数据与巡河问题数据、水质等级数据进行数据融合，形成总训练集；过滤总训练集中的一些不合理或无效的样本，形成清洁样本集，用于训练和评估机器学习模型；

本步骤用于实现实施例1中数据清洗模块所执行的功能。其中，对巡河问题数据进行降采样，使得巡河问题数据与水质监测数据具有相同的数据粒度，实现数据对齐。步骤S1包括：

S11、巡河问题统计时间窗口期设为一个月，设定为数据对齐的默认参数；

S12、将样本集数据中河湖问题数据作为特征数据(features)，水质等级数据作为标签数据(labels)，巡河路径生成的缓冲带内的排水户排水类型情况数据也作为特征数据。

在优先的实施例中，将河湖的实际水质等级信息编码成相应的3类标签：1、优五类记为V-，对应水质等级的Ⅱ、Ⅲ、Ⅳ类；2、五类记为V；3、劣五类记为V+。

S2、训练机器学习模型，利用数据清洗模块得到的清洁样本集进行训练和评估随机森林模型，随机森林模型对河湖水质等级进行预测，并通过参数寻优选择最好的随机森林模型；利用高斯混合聚类模型对目标窗口期内的所有河湖(包括有水质等级标签和无标签的)进行聚类分析，通过标签传播技术对训练样本集进行扩充，得到扩充后的训练集，然后对随机森林模型进行训练；如果随机森林模型的性能得到提升，则使用性能提高后的模型，否则保持原模型。

本步骤用于实现实施例1中数据模型训练模块所执行的功能。在本步骤中，聚类分析只针对当月需要进行预测的数据。在这个目标时间窗口内的河湖，有些样本是通过水质监测得到水质等级标签的，结合这些样本标签和高斯混合模型得到不同聚类簇，则每个簇内的河湖具有一定的相似度，选取最靠近聚类中心20％的样本进行标签传播(labelpropagation)，再基于新的训练集进行随机森林模型的训练和预测；通过结合聚类分析，增强对没有标签的数据的利用，从而提高预测模型的表现。在假定样本数据均来自相同的数据生成过程的前提下，从训练集样本得到的模型给出的特征重要值也就可以用来近似和评估所有样本的特征重要值。根据特征重要值和河湖的水质等级信息，可以制定相应的差异化巡河策略。。

在优先的实施例中，步骤S2中所述的分类预测模型是随机森林模型，所述聚类分析模型是高斯混合聚类；步骤S2还包括步骤：

S21、采用基于‘可商用的BSD许可证’的开源包scikit-learn的GridSearchCV框架对随机森林模型进行训练、评估和参数寻优；设置参数空间包括：子树数量estimators＝[50,100,150,200]；交叉验证集划分参数cv＝[5，10]，模型评价指标参数scoring＝’accuracy’，然后对模型进行训练；

S22、在当月这个目标时间窗口内的河湖，有些样本是通过水质监测得到水质等级标签的，结合这些样本标签和高斯混合模型得到不同聚类簇，则每个簇内的河湖具有一定的相似度，选取‘最靠近’聚类中心的20％的样本进行标签传播(label propagation)。再基于新的训练集进行随机森林模型的训练和预测。

本步骤用于实现实施例1中模型预测及其数据可视化模型所执行的功能。

本步骤S4用于实现实施例1中决策辅助生成模块所执行的功能。步骤S4包括：S41、生成对满足以下这些条件的河湖巡河中投入更多资源的巡河策略，生成对不满足以下这些条件的河湖巡河中投入较少资源的巡河策略：

2、对目标风险等级内的河湖进行排序，排序得分由河湖数据样本与特征重要值的加权平均计算得出。则得分越高的河湖，需要更多治理资源。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.差异化巡河策略的生成装置，其特征在于，包括：

决策辅助生成模块，结合所有河湖水质等级信息和河湖的河湖巡河排序得分，制定相应的差异化巡河策略；其中，优先级较高的河湖通过以下方法进行决策：

河湖水质标签为高风险等级，包括监测得到的、预测得到的；

特征重要值得分高的一个或多个特征，河湖样本数据信息与之相符，用多个特征重要值的加权均值作为其河湖巡河排序得分；对目标风险等级内的河湖进行排序，排序得分由河湖数据样本与特征重要值的加权平均计算得出；得分越高的河湖，需要更多治理资源。

2.根据权利要求1所述的差异化巡河策略的生成装置，其特征在于，数据清洗模块包括：

3.根据权利要求1所述的差异化巡河策略的生成装置，其特征在于，数据清洗模块包括：

标签划分模块，基于实际的巡河需求，将河湖的实际水质等级数据编码成相应的三类标签，分别为优五类、五类和劣五类。

4.根据权利要求1所述的差异化巡河策略的生成装置，其特征在于，数据模型训练模块中高斯混合聚类采用概率模型来表达聚类原型，将概率密度函数记为p(x|μ,Σ)，定义高斯混合分布为：

该分布共由k个混合成分组成，每个混合成分对应一个高斯分布；其中μ_i与Σ_i是第i个混合成分的参数，而α_i>0为相应混合成分的混合系数，

5.根据权利要求4所述的差异化巡河策略的生成装置，其特征在于，设生成样本的样本集为D＝{x₁,x₂,...,x_m}，令随机变量z_j表示生成样本x_j的高斯混合成分，j的取值范围为{1,2,...,k}，那么随机变量z_j的先验概率对应于α_i，根据贝叶斯定理z_j的后验概率分布对应于：

6.根据权利要求1所述的差异化巡河策略的生成装置，其特征在于，数据模型训练模块中随机森林模型采用基于决策树的集成学习算法，其决策树模型通过模型生成过程的最优划分节点的Gini系数来评估每个特征变量对预测结果的贡献度，即特征重要值。

7.根据权利要求6所述的差异化巡河策略的生成装置，其特征在于，采用置换特征重要值方法来判断、识别得到特征重要值：

对数据集D中第j列特征的取值进行随机乱序，1≤j≤N，随机乱序的重复次数为K，得到对应的数据集D_k,j，然后计算预测模型m在数据集D_k,j的得分s_k,j，然后计算第j列特征的重要值I_j：

其中，k＝1,2,...,K；

8.差异化巡河策略的生成方法，其特征在于，包括以下步骤：

S4、结合所有河湖水质等级信息和河湖的河湖巡河排序得分，制定相应的差异化巡河策略；其中，优先级较高的河湖通过以下方法进行决策：

9.根据权利要求8所述的差异化巡河策略的生成方法，其特征在于，步骤S1中数据对齐过程为：根据水质监测数据的采集频率，计算得到水质等级数据，并在巡河问题数据的数据粒度相对较高情况下，将巡河问题数据进行降采样，规整到与水质等级数据相同的数据粒度，使得巡河问题数据与水质等级数据对齐；

10.根据权利要求8所述的差异化巡河策略的生成方法，其特征在于，步骤S2中高斯混合聚类采用概率模型来表达聚类原型，将概率密度函数记为p(x|μ,Σ)，定义高斯混合分布为：