CN115829120A

CN115829120A - 基于机器学习方法的水质预测预警系统

Info

Publication number: CN115829120A
Application number: CN202211513549.1A
Authority: CN
Inventors: 王维; 刘柏音; 王莹; 刘孝富; 罗镭
Original assignee: Chinese Research Academy of Environmental Sciences
Current assignee: Chinese Research Academy of Environmental Sciences
Priority date: 2022-11-29
Filing date: 2022-11-29
Publication date: 2023-03-21
Anticipated expiration: 2042-11-29
Also published as: CN115829120B

Abstract

本发明提供一种基于机器学习方法的水质预测预警系统，包括水质浓度预测模型、水质评价模型和水质预警模型；所述水质浓度预测模型，用于采用集成学习策略，对时间序列模型、回归机器学习模型和关联规则方向预测模型进行深度融合，得到融合后的水质浓度预测模型；采用融合后的水质浓度预测模型，预测监测断面的水质指标未来时间的均值、最大值和最小值，得到监测断面的水质指标预测结果。本发明综合考虑水文数据、水质数据、气象数据、上下游断面位置数据等数据，基于人工智能算法对大数据高效的挖掘能力，将多元历史数据变化规律及数据间相关性规律用于预测河道断面未来水质指标的变化，提高预测准确性。人工智能大数据可以实现定期的自我模型更新，针对于断面新阶段新特征可以第一时间获知并加以利用，提升模型预测准确性，避免了历史规律不适应当前现状所造成预测不准确的窘境。

Description

基于机器学习方法的水质预测预警系统

技术领域

本发明属于水环境监测、保护和管理技术领域，具体涉及一种基于机器学习方法的水质预测预警系统。

背景技术

水体污染一直以来都是影响人类健康的热门话题，是需要迫切研究解决的主要问题。水体污染其实是一个综合影响的过程，从污染过程来看，包括污染物排放的生物过程、污染物在承载体中的物理和化学过程；从污染成因来看，主要包括工业三废、农业污染、生活垃圾等；最后，影响污染因素多，因素之间存在相互重叠和交叉作用。

传统污染分析模型往往是复杂事件的抽象和简化，导致模型表征与实际差别很大，因此往往无法明确污染的根源和过程，因此，需要利用云计算、多元数据同化、多尺度数据耦合、时空分配和化学物种分配等大数据技术对各种环境污染及其相关数据进行多因素融合分析，及时准确地发现各种污染根源，分析不同污染过程中污染物的演变规律，全面地获得污染物变化规律和传输过程，通过这些信息来区分环境污染的轻重缓急，统筹规划治理方案，分步推进污染治理，既要综合治理也要重点突破。另一方面，环境污染对人类影响具有滞后性，现阶段主要还是依赖于实时监控和定期监测，更多偏向于事后管理，往往在污染事故发生且造成不可逆影响后才会被监测系统所捕捉到，这就是环境监测系统中常见的预警功能不足问题。预警功能是环境预警监测体系的核心部分，而预警的核心是预测，其能力可以有效对未来指标变化进行精准预判，预警功能不足会导致不能及时发现即将爆发的问题，进而无法有效防范污染事故发生，不利于环保工作开展和环境管理实施。

当前环境污染预测预报模型主要以机理模型为主，例如基于S－P模型、QUAL水质模型、WASP模型等。通常这些模型主要存在三种问题：第一，模型参数缺乏自动参数优化，导致过去建立的模型无法很好的自适应到当下情况，从而导致预报准确性低，尤其是当河流环境发生变化后，无法自适应；第二，每个监测断面的水质情况不一样，每一个断面的机理模型需要专业的人员花费大量时间进行研究，导致无法大面积实施推广；第三，机理模型往往借助河流动力学、化学、生物学等进行建模，但河流的复杂性导致其忽略大量的信息，模型不准确。

发明内容

针对现有技术存在的缺陷，本发明提供一种基于机器学习方法的水质预测预警系统，可有效解决上述问题。

本发明采用的技术方案如下：

本发明提供一种基于机器学习方法的水质预测预警系统，包括水质浓度预测模型、水质评价模型和水质预警模型；

所述水质浓度预测模型，用于采用集成学习策略，对时间序列模型、回归机器学习模型和关联规则方向预测模型进行深度融合，得到融合后的水质浓度预测模型；采用融合后的水质浓度预测模型，预测监测断面的水质指标未来时间的均值、最大值和最小值，得到监测断面的水质指标预测结果；

所述水质评价模型，用于根据所述监测断面的水质指标预测结果，对监测断面的水质状态进行评价，得到监测断面的水质状态的评价结果；

所述水质预警模型，用于根据所述监测断面的水质指标预测结果，以及所述监测断面的水质状态的评价结果，对水质预警，包括：未来水质指标是否发生突变、未来水质等级是否发生变化以及未来水质主要污染物是否发生变化三种类型的预警。

优选的，所述水质浓度预测模型，具体用于：

步骤1，获取与监测断面相关的水质基础数据，包括：水文数据、天气数据、水质数据、河道上下游断面空间数据；

步骤2，基于所述水质基础数据，采用特征工程构建新特征数据集；

步骤3，所述时间序列模型采用ARMA模型；所述回归机器学习模型采用GBDT模型和随机森林模型；

采用所述新特征数据集，分别训练GBDT模型、ARMA模型和随机森林模型，得到训练完成的GBDT模型、ARMA模型和随机森林模型，得到训练完成的GBDT模型、ARMA模型和随机森林模型；

步骤4，采用所述新特征数据集，训练关联规则物质浓度方向预测模型，得到训练完成的关联规则物质浓度方向预测模型；

步骤5，分别采用训练完成的GBDT模型、ARMA模型、随机森林模型和关联规则物质浓度方向预测模型，对监测断面水质进行预测，得到四种水质预测结果；

将四种水质预测结果作为自变量，训练水质预测线性模型，得到融合后的水质浓度预测模型。

优选的，基于所述水质基础数据，采用特征工程构建新特征数据集，具体为：

所述新特征数据集中，包括滞后处理特征、统计量处理特征、水质趋势特征、上下游特征、时间处理特征和关联规则预测方向特征；

所述滞后处理特征为：针对具有时间属性的水文数据、气象数据、水质数据，进行滞后0至N期作为特征，表征对应属性历史波动状态；

所述统计量处理特征为：针对具有时间属性的水文数据、气象数据、水质数据，分析其日内变化的最大值、最小值和均值的统计量，表示指标浓度日内变化的区间幅度和集中趋势；

所述水质趋势特征为：将水质各指标当期浓度统计特征与滞后N期浓度统计特征相减的数据，作为水质趋势特征；

所述上下游特征为：将上游断面指标浓度的特征，作为下游预测模型的特征；

所述时间处理特征为：将历史数据中相同月份水质指标浓度变化，作为当期月份水质预测模型时间处理特征；

所述关联规则预测方向特征为：通过关联规则预测模型，预测得到水质变化方向，作为当前水质预测模型的关联规则预测方向特征。

优选的，所述关联规则物质浓度方向预测模型，采用以下方法，进行方向预测：

Step1：计算监测断面各水质指标之间日度中位数，表示其天内变化的集中趋势；

Step2：根据各水质指标之间日度中位数，以月度为基准求解各水质指标之间的斯皮尔曼相关系数；

Step3：针对每对指标，通过对水质指标之间的斯皮尔曼相关系数进行分析，基于四分位数阈值标注指标之间的强弱等级，进而生成挖掘数据集；

Step4：设定支持度和置信度的阈值，将生成的挖掘数据集带入关联分析算法运算求解指标之间关联规则；

Step5：对指标之间关联规则进行过滤，针对每条规则的前项和后项去除其弱相关的特征，保留强相关特征；

Step6：针对指标之间强相关特征，构建三元规则和非三元规则；

当多条规则推测的水质指标未来方向存在不同结果时，采用Voting选举策略，当某条规则判断上升则记为1，下降则记录负1，最后求和得到结果值；如果结果值大于0，则未来该指标浓度上升；如果结果值等于0，则无法判断浓度变化方向；如果结果值小于0，则未来该指标浓度下降。

优选的，所述水质评价模型，具体用于：

根据所述监测断面的水质指标预测结果，对监测断面、河流、流域、湖泊和水库进行水质评价。

优选的，在对所述监测断面进行水质评价时，采用单因子评价法，即根据评价时段内该监测参评的水质指标中类别最高的一项来确定；

在对河流或流域进行水质评价时，如果河流或流域的断面总数少于5个时，计算河流或流域所有断面各评价指标浓度算术平均值，作为断面水质评价基准；如果河流或流域的断面总数大于等于5个，采用断面水质类别比例法，即：根据评价河流或流域中各水质类别的断面数占河流或流域所有评价断面总数的百分比来评价其水质状况；

在对湖泊或水库进行水质评价时，如果其具有单个监测点位，则直接按照断面水质评价方法进行；如果其具有多个监测点位时，计算各个监测点位的评价指标浓度算术平均值，然后按照断面水质评价方法进行；当需要对湖泊或水库多次监测结果进行水质评价时，先按时间序列计算湖泊或水库各个监测点位各个评价指标浓度的算术平均值，再按空间序列计算湖泊或水库所有监测点位各个评价指标浓度的算术平均值，然后按照断面水质评价方法评价。

优选的，所述水质预警模型，采用以下方法，进行未来水质指标是否发生突变的预警：

针对水温指标，如果预测未来7天的平均最大升温大于1或者周平均最大降温大于2则进行预警；

针对pH指标，如果预测预测未来7天的pH不在6～9之外而当前在6～9之间则进行预警；

针对溶解氧指标，当预测未来7天的浓度小于当前浓度的20％时进行预警；针

对高猛酸盐指数、氨氮、总磷、总氮指标，当预测未来7天的浓度大于当前浓度的20％时进行预警。

优选的，所述水质预警模型，采用以下方法，进行未来水质等级是否发生变化的预警：

当预测未来7天的水质等级高于当前值则进行预警。

优选的，所述水质预警模型，采用以下方法，进行未来水质主要污染物是否发生变化的预警：

当预测未来7天的主要水质污染物同当前水质污染物发生变化则进行预警。

本发明提供的基于机器学习方法的水质预测预警系统具有以下优点：

本发明综合考虑水文数据、水质数据、气象数据、上下游断面位置数据等数据，基于人工智能算法对大数据高效的挖掘能力提高数据的利用率，将多元历史数据变化规律及数据间相关性规律用于预测河道断面未来水质指标的变化，提高预测准确性。人工智能大数据可以实现定期的自我模型更新，针对于断面新阶段新特征可以第一时间获知并加以利用，提升模型预测准确性，避免了历史规律不适应当前现状所造成预测不准确的窘境。

附图说明

图1为本发明提供的基于机器学习方法的水质预测预警系统的流程示意图；

图2为本发明提供的特征工程的原理图；

图3为本发明提供的Stacking框架的原理图。

具体实施方式

为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

为解决传统水质预测机理模型的不足，本发明提供一种基于大数据构建的水质指标预测预警模型，该模型综合利用水文数据、气象数据、水质数据、时间统计数据、上下游数据、气象预测数据，采用集成学习策略Stacking将时间序列模型(ARMA)、回归机器学习模型(GBDT、随机森林)、关联规则进行深度融合，从而预测水质指标未来1-7、15、30、60、90天日浓度的均值、最大值和最小值。进一步，基于溶解氧、高锰酸盐指数、pH值、氨氮、总磷五项指标对监测断面、河流、流域、湖、库的水质状态进行综合评价，并基于预测和评价结果对下述三类情况进行水质预警：未来水质指标是否发生突变、未来水质等级是否发生变化以及未来水质主要污染物是否发生变化。

本发明提供的基于机器学习方法的水质预测预警系统，整体分为三个子模块，分别为：水质浓度预测模型、水质评价模型和水质预警模型。

整体技术思路为：

(1)水质浓度预测模型：

通过单维度信息通常难以把握数据变化的准确状态，因为从信息论角度来看，单维度信息量往往有限，使得把握数据变化往往具有挑战性。水质浓度预测模型不仅提出了基于关联规则方向预测模型，从指标间两两相关性关系挖掘多指标的协同变化规律，以期通过历史指标变化规律来推断未来水质浓度的变化趋势。进一步在数据前期探索发现气象信息、水文信息、地理环境信息、上下游断面浓度等信息均对当前断面的物质浓度变化有较强的解释力。经过对主流机器学习算法GBDT、XGBOOST、随机森林、神经网络等模型进行训练验证，发现GBDT、ARIMA、随机森林(RF)的预测效果较优，同时不同模型在面对不同情景时预测能力具有差异性。为融合多模型的优势，采用Stacking集成策略将关联规则模型、GBDT、ARIMA、随机森林(RF)进行融合，这种融合策略不仅可以提高机器学习特征工程的信息表达力，也可以增强模型快速拟合的能力以及对未知数据的泛化能力

(2)水质评价模型

水质评价模型基于《地表水环境质量评价办法》和《地表水环境质量标准》对未来水质进行评价，主要评价内容包括水质等级评价和水质主要污染物评价。

(3)水质预警模型

水质预警模型基于既定事件判别进行模型搭建，主要定义了断面指标浓度突变、断面水质等级变化、断面水质主要污染物变化三类预警事件。

所述水质浓度预测模型，具体用于：

其中：基于所述水质基础数据，采用特征工程构建新特征数据集，具体为：

所述关联规则物质浓度方向预测模型，采用以下方法，进行方向预测：

所述水质评价模型，具体用于：根据所述监测断面的水质指标预测结果，对监测断面、河流、流域、湖泊和水库进行水质评价。

作为一种具体实现方式，在对所述监测断面进行水质评价时，采用单因子评价法，即根据评价时段内该监测参评的水质指标中类别最高的一项来确定；

所述水质预警模型，采用以下方法，进行未来水质指标是否发生突变的预警：

下面对本发明提供的水质浓度预测模型、水质评价模型和水质预警模型详细介绍：

(一)水质浓度预测模型

(1.1)基于关联规则方向预测：

基于关联规则方向预测主要是通过对监测断面强相关指标事项的挖掘来构建三元和非三元规则，然后通过规则和当前数据的匹配来预测未来浓度变化的方向。关联规则模型主要利用断面的相关性等级数据挖掘断面多个指标之间的变化规律。其中关联规则使用数据的频率是以天为单位的均值，原因主要有两点：第一，水质数据中大部分断面指标统计频率并非小时为单位；第二，关联规则挖掘到的方向变化规律将作为特征用于水环境预测预警模型，而预测预警是以天为单位进行预测建模。同时在数据前期探索发现各断面的规则存在差异性，为此关联规则挖掘的过程是以各断面为对象进行建模。

关联规则具体的计算逻辑如下，以监测断面A为例：

Step1：计算监测断面9大指标之间日度中位数，表示其天内变化的集中趋势。

Step2：以月度为基准求解指标之间的斯皮尔曼相关系数。

Step3：针对每对指标基于四分位数阈值标注强弱等级，进而生成如下的挖掘数据集，样例为总磷_总氮_positive、氨氮_溶解氧_negtive，分别表示总磷和总氮呈正相关，氨氮和溶解氧呈负相关。

表1：关联规则数据样例

Step4：设定支持度和置信度的阈值，将生成的挖掘数据集带入FP-Growth关联分析算法运算求解关联规则。

Step5：对规则进行过滤，针对每条规则的前项和后项去除其弱相关的特征。

Step6：针对具体规则构建三元规则和非三元规则，具体构建方法如下：

假设某条规则的前项和后项为：

前项：总磷_总氮_positive，总磷_溶解氧_positive；

后项：总磷_pH_negtive，氨氮_水温_positive。

其中总磷_总氮_positive表示总磷和总氮呈正相关。总磷_pH_negtive表示总磷和pH呈负相关

观察到前项总磷_总氮_positive与总磷_pH_negtive具有相同的项：总磷，为此可以生成总氮-positive-总磷-negtive-pH的三元规则，可以解释为总氮上升(下降)会造成总磷上升(下降)，进而pH下降(上升)，同理可以得到溶解氧-positive-总磷-negtive-pH另一条三元规则。

对于总磷_总氮_positive和氨氮_水温_positive构成了非三元规则项，即当总磷和总氮为正相关时，氨氮和水温往往呈正相关关系。

假设有三元规则：总氮-positive-总磷-negtive-pH，便可以观察过去历史一段时间总氮指标浓度变化情况，从而推断总磷和pH的变化情况，例如过去一段时间内总氮浓度升高，则可以预测未来总磷浓度升高、pH值下降。

假设有非三元规则：总磷_总氮_positive和氨氮_水温_positive，便可以观察过去一段时间总磷和总氮是否呈正相关，若成立则进一步观察氨氮和水温是否符合正相关，若符合则有更大概率在前项条件成立的情况下未来氨氮和水温将继续保持过去变化趋势。

当多条规则推测的水质指标未来方向存在不同结果时采用Voting选举策略，当某条规则判断上升则记为1，下降则负1，最后求和，如果大于0则未来该指标浓度上升，等于0则无法判断浓度变化方向，小于0则下降。

(1.2)基于机器学习浓度预测

(1.2.1)特征工程：

反映水质指标变化规律，提高水质指标浓度预测的精准性离不开对特征和规律的充分挖掘，通常来说需要在源数据的基础上基于业务和统计手段对特征进行构造，以期给模型加入更多有用信息，这不仅有利于降低模型的复杂度，还可以提高泛化能力，降低水质指标浓度预测误差，特征工程预测原理如图2所示，主要从以下几个角度处理：

(1)滞后处理

水质浓度预测是一种包含时间属性的特殊回归问题，这类型问题的未来数值往往与最近历史数值的关联性最强，例如时间序列中常见的趋势惯性、周期重复等特征。趋势惯性特征指的是过去下降或者上升的趋势在临近的未来也会大概率延续这种趋势，周期性特征是指每隔相同时间浓度变化规律就会重现过去的状态。因此，利用滞后项作为特征是提高模型性能的有效手段，滞后处理环节将针对具有时间属性的水文数据、气象数据、水质数据进行滞后0至N期作为特征以表征对应属性历史波动的状态。其中水文和气象数据统计频率为天，可直接滞后作为特征，而水质数据统计频率为小时，需要在统计量处理后再进行滞后处理。N为预设定的期数值。

(2)统计量处理

统计量处理的目的在于了解数据变化的统计特征，这些信息往往在模型构建中会有很大的作用，例如特征最大值和最小值可以反映该特征变化的范围，标准差可以反映该特征变化的波动。因此，将针对水质、气象数据在滞后期特征的基础上挖掘其日内变化的最大值、最小值、均值，来分别表示指标浓度日内变化的区间幅度和集中趋势。

(3)水质趋势特征

趋势特征指的是，某一个观测值相对于前N天的变化量。通过前期数据探索，趋势特征有助于模型效果的改善。为此，将水质各指标当期浓度统计特征与滞后N期浓度统计特征相减的数据，作为水质趋势特征来供模型学习。

(4)上下游特征

从现实情况来看，下游水质指标浓度往往和上游监测断面的指标浓度强相关，为此将把上游断面指标浓度的特征作为下游预测模型特征来进行学习。

(5)时间处理

时间处理指的是对日期进行特征化处理，比如2012-12-3，可以提取其月份特征：12月，季度特征：第四季度，当月第几天：第三天，等处理方式。前期探索发现，日期的月份字段是一项非常有用的特征，表征了同月水质指标浓度变化在某种程度上是具有相似性的。

(6)关联规则预测

关联规则模型所得到结果可以这样理解：基于历史规律和当前水质指标浓度变化情况，判断出未来水质指标浓度增加或减小，但是这种判断并未给出具体时间和浓度信息，因此模型适用性比较受限。但关联规则预测的变化方向可以作为特征进行学习，等价于将历史变化规律的信息传递给了回归模型，方便模型更好的训练和预测。

(1.2.2)模型搭建流程:

在特征工程环节之后，即可以进入模型搭建部分。其首要工作是快速找出具有潜力的模型，便于后期进行快速模型迭代。前期探索发现每个监测断面水质指标浓度变化规律和指标间浓度变化规律均具有差异性，因此水质指标浓度预测必然是以单个监测断面为研究对象。但现实问题是单个监测断面数据量往往有限，大约共计700余条，因此模型初期选择阶段将排除复杂度较高的模型，例如神经网络。因为研究表明神经网络模型一般在小数量集的表现往往较差，若增加神经元和隐藏层数又会非常容易引发过拟合现象，即容易将噪声作为有用特征进行学习，使得预测性能下降。

进一步，将选择平均相对误差百分比，即预测值与真实值结果差的绝对值占真实值百分比的平均值，将作为评估不同模型性能差异的评估指标，以便快速选择出具有潜力的模型。模型选择初期阶段，经过众多模型的训练和比较，最终选择了性能相对较优的随机森林、GBDT、ARIMA作为后续迭代的重点模型。在模型训练阶段发现相同断面指标预测在随机森林、GBDT、ARIMA的性能表现具有差异性，这意味着不同断面相同指标或者相同断面不同指标采用的模型是具有差异性的，多模型融合思路是解决该问题的有效手段，因此采用Stacking集成策略将上述三个模型和关联规则模型进行融合，以期可以结合不同模型的优势进行浓度预测。

在模型框架确定好之后，便进入模型迭代环节，涉及特征选择和参数优化工作。随机森林、GBDT属于树类型的模型，因此无需进行特征选择这一环节，因为树模型天然的在节点分裂时会选择最有价值的特征进行生长，这一过程即特征选择，而ARIMA属于单变量的时间预测模型，也无需进行特征选择工程。参数优化环节将采用网格搜索的方法对上述三个模型进行训练，网格搜索的过程就是确定每个模型的超参数取值列表，并对每种参数组合进行暴力搜索，从而选择出性能较优的参数组合。

各模型介绍：

(1)GBDT

GBDT是梯度提升树的缩写，其利用加法模型与前向分布算法实现了学习的优化过程。一般而言，当损失函数是平方损失和指数损失时，每一步优化是简单的。但对于一般损失函数而言，往往存在求解困难的问题，本发明提出了梯度提升算法，利用损失函数的负梯度在当前模型的值作为回归问题提升树算法中残差的近似值，来拟合回归树，具体的模型思路如下：

输入：训练数据集T＝{(x₁,y₁),(x₂,y₂),...,(x_N,y_N)}

其中

损失函数为L(y,f(x))

输出：回归树

具体过程为：

1)初始化

2)对m＝1,2,...,M

2.1)计算负梯度

2.2)对r_mi拟合一个回归树，得到第m颗树的叶节点区域R_mj,j＝1,2,...,J

2.3)对j＝1,2,...,J，计算

2.4)更新

3)回归问题的提升树

(2)随机森林

随机森林是Bagging的一个扩展变体，随机森林在以决策树为基学习器构建Bagging集成的基础上，进一步在决策树的训练过程中引入了随机属性选择。具体来说，传统决策树在选择划分属性时是在当前节点的属性集合中选择一个最优属性，而在RF中，对基决策树的每个节点，先从该节点的属性集合(假设有d个属性)中随机选择一个包含K个属性的子集，然后再从这个子集中选择一个最优属性用于划分。这里的参数K控制了随机性的引入程度：若令K＝d，则基决策树的构建与传统决策树相同；若令k＝1，则是随机选择一个属性用于划分；一般情况下，推荐值k＝log₂d。可以看出随机森林对Bagging只做了小改动，但是与Bagging中基学习器的“多样性”仅通过样本扰动不同，随机森林中基学习器的多样性还来自属性扰动，这就使得最终集成泛化性能可通过个体学习器之间差异度的增加而进一步提升。

(2.1)决策树模型

一般一棵决策树包含一个根节点、若干个内部节点和若干个叶节点；叶节点对应于决策结果，其他每个节点则对应于一个属性测试；每个节点包含的样本集合根据属性测试的结果被划分到子节点中；根节点包含样本全集，从根节点到每个叶节点的路径对应了一个判定测试序列。决策树学习的目的是为了产生一颗泛化能力强，即处理未见示例能力强的决策树，其基本流程遵循简单且直观的“分而治之”策略：

输入：训练集D＝{(x₁,y₁),(x₂,y₂)，...,(x_m,y_m)}(基于源数据自主采样生成)

属性集A＝{a₁,a₂,...,a_d}

过程：函数TreeGenerate(D,A)

Step1：生成节点node

Step2：if D中样本全属于同一类别C then

将node标记为C类叶节点；return

end_if

Step3：if

OR D中样本在A上取值相同then将node标记为叶节点，其类别标记为叶节点，其类别标记为D中样本数最多的类；return

end_if

Step4：从A中的随机属性中选择最优划分属性a_*；

for a_*的每个值

do

为node生成一个分支；令D_v表示D中在a_*取值为a_*v的样本集；

if D_v为空then

将分支节点标记为叶节点，其类别标记为D中样本最多的类；return

else

以TreeGenerate(D,A\{a_*})为分支节点

end_if

end_for

(2.2)Bagging

Bagging是并行式集成学习方法的代表，即给定包含m个样本的数据集，基于自助采样法生成T个含m个训练样本的采样集，然后基于每个采样集训练出一个基学习器，再将这些基学习器进行结合，这就是Bagging的基本流程。在对预测输出进行结合时，Bagging通常对分类任务使用简单投票法，对回归任务使用简单平均法，具体算法描述如下：

输入：训练集D＝{(x₁,y₁),(x₂,y₂)，...,(x_m,y_m)}

基学习算法

训练轮数T

过程：

for t＝1,2,...,T do

end_for

输出：

(3)ARIMA模型

ARIMA，即自回归移动平均模型，属于统计模型中最常见的一种，用于进行时间序列的预测。其原理在于：在将非平稳时间序列转化为平稳时间序列的过程中，将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归所建立的模型，即ARIMA模型实际上是AR模型和MA模型的组合：

(3.1)AR模型：

描述当前值与历史值之间的关系，用变量自身的历史时间数据对自身进行预测，自回归模型必须满足平稳性的要求。一般p阶AR过程定义如下：

y_t是当前值，u是常数项，p是阶数，γ_i是系数，e_t表示误差

(3.2)MA模型：

MA移动平均模型关注的是自回归模型中的误差项的累加，其假设序列当前时刻的时序值是过去q阶白噪声的线性组合，一般p阶MA过程定义如下：

(3.3)将AR(p)与MA(q)结合，假设AR模型所得到的误差e_t在不同时期具有依存关系，可将误差用MA进行建模即

即得到ARMA(p,q)模型：

y_t＝α₁y_t-1+α₂y_t-2+...+α_py_t-p+ε_t+β₁ε_t-1+...+β_qε_t-q

(4)Stacking策略

Stacking的基本原理是用训练好的所有基模型的结果作为训练集进行训练，其优势在于可将集成的知识迁移到简单的分类器上。自动化的大型集成策略可以通过添加正则项有效的对抗过拟合，而且并不需要太多的调参和特征选择。所以从原则上讲，stacking是目前提升机器学习效果最好的方法。既然要结合多个基学习器的优点，那么基学习器的选择最好是“准而不同”，元学习器一般选择比较简单的模型(如逻辑回归)，防止过拟合。

(二)水质评价模型

基于对各断面未来1-7天的9大指标天内的均值预测，根据地表水环境质量评价要求，地表水水质评价指标中的五项预测指标(溶解氧、高锰酸盐指数、pH值、氨氮、总磷)对监测断面、河流、流域、湖库进行水质评价。

基于地表水环境质量标准，选定预测9大指标中溶解氧、高锰酸盐指数、pH、氨氮、总磷作为未来水质评价的参考指标，具体每项指标的标准如下：

表1：水环境质量标准参考指标

(2.1)断面水质评价办法

河流断面水质类别评价采用单因子评价法，即根据评价时段内该断面参评的指标中类别最高的一项来确定。描述断面的水质类别时，使用“符合”或“劣于”等词语。断面水质类别与水质定性评价分级的对应关系见表2。

表2：断面水质定性评价

(2.2)河流、流域(水系)水质评价

河流、流域(水系)水质评价：

当河流、流域(水系)的断面总数少于5个时，计算河流、流域(水系)所有断面各评价指标浓度算术平均值，然后按照“断面水质评价”方法评价，并按表2指出每个断面的水质类别和水质状况。当河流、流域(水系)的断面总数在5个(含5个)以上时，采用断面水质类别比例法，即根据评价河流、流域(水系)中各水质类别的断面数占河流、流域(水系)所有评价断面总数的百分比来评价其水质状况。河流、流域(水系)的断面总数在5个(含5个)以上时不作平均水质类别的评价。河流、流域(水系)水质类别比例与水质定性评价分级的对应关系见表3。

表3：河流、流域水质定性评价等级

(2.3)湖泊、水库水质评价方法

1)湖泊、水库单个点位的水质评价，按照“断面水质评价”方法进行。

2)当一个湖泊、水库有多个监测点位时，计算湖泊、水库多个点位各评价指标浓度算术平均值，然后按照“断面水质评价”方法评价。

3)湖泊、水库多次监测结果的水质评价，先按时间序列计算湖泊、水库各个点位各个评价指标浓度的算术平均值，再按空间序列计算湖泊、水库所有点位各个评价指标浓度的算术平均值，然后按照“断面水质评价”方法评价。

4)湖泊、水库多次监测结果的水质评价，先按时间序列计算湖泊、水库各个点位各个评价指标浓度的算术平均值，再按空间序列计算湖泊、水库所有点位各个评价指标浓度的算术平均值，然后按照“断面水质评价”方法评价。

5)对于大型湖泊、水库，亦可分不同的湖(库)区进行水质评价。

6)河流型水库按照河流水质评价方法进行。

(2.4)断面主要污染物确定

评价时段内，断面水质为“优”或“良好”时，不评价主要污染指标。断面水质超过Ⅲ类标准时，先按照不同指标对应水质类别的优劣，选择水质类别最差的前三项指标作为主要污染指标。当不同指标对应的水质类别相同时计算超标倍数，将超标指标按其超标倍数大小排列，取超标倍数最大的前三项为主要污染指标。当氰化物或铅、铬等重金属超标时，优先作为主要污染指标。确定了主要污染指标的同时，应在指标后标注该指标浓度超过Ⅲ类水质标准的倍数，即超标倍数，如高锰酸盐指数(1.2)。对于水温、pH值和溶解氧等项目不计算超标倍数。

(2.5)河流、流域(水系)主要污染指标的确定方法

将水质超过Ⅲ类标准的指标按其断面超标率大小排列，一般取断面超标率最大的前三项为主要污染指标。对于断面数少于5个的河流、流域(水系)，按“(1)断面主要污染指标的确定方法”确定每个断面的主要污染指标。

(三)水质预警模型

水质预警模型从断面指标浓度突变、水质等级变动、水质污染物变动三个方面对未来水中的异常变化进行警告预警。

(3.1)断面水质指标浓度突变预警

针对水温指标，如果预测未来7天的平均最大升温大于1或者周平均最大降温大于2则进行预警；针对pH指标，如果预测预测未来7天的pH不在6～9之外而当前在6～9之间则进行预警；针对溶解氧指标，当预测未来7天的浓度小于当前浓度的20％时进行预警；针对高猛酸盐指数、氨氮、总磷、总氮指标，当预测未来7天的浓度大于当前浓度的20％时进行预警。

(3.2)断面水质等级变化预警

当预测未来7天的水质等级高于当前值则进行预警。

(3.3)断面水质主要污染物变化预警

下面介绍一个实施例：

本发明在全国流域1794个监测断面进行示范使用。

步骤一：搭建预测模型训练自动化流程

以训练预测A断面总磷未来第7天浓度最大值为例介绍模型训练的框架思路，并将其流程自动化实现预测不同监测断面不同水质指标不同天数最大值、最小值、平均值的预测。

1.1)基础数据准备：准备监测断面与之相对应的水文数据、天气数据、水质数据、上下游断面等数据，并按照上述特征工程构建新特征数据集，并匹配目标变量，即总磷未来第7天浓度最大值。

1.2)训练GBDT、ARMA、随机森林模型

将新特征数据集拆分为训练集和测试集，分别用来训练和测试GBDT、ARMA、随机森林模型。

1.3)训练关联规则物质浓度方向预测模型

搭建基于关联规则物质浓度方向预测模型。

1.4)模型融合：

基于Stacking思路将GBDT、ARMA、随机森林、基于关联规则物质浓度方向预测模型进行融合，即将四种模型预测结果作为自变量训练线性模型。

步骤二：搭建自动化预测流程

基于训练好的模型搭建预测流程自动化，实现每天预测不同监测断面不同水质指标未来1-7、15、30、60、90天浓度最大值、最小值、平均值的预测。

步骤三：搭建水质评价自动化流程

基于对各断面未来溶解氧、高锰酸盐指数、pH值、氨氮、总磷的预测结果，根据相关评价准则对监测断面、各级流域、省市的水质进行评价。

步骤四：搭建水质预警自动化流程

将三种预警类型：断面水质指标浓度突变预警、断面水质等级变化预警、断面水质主要污染物变化预警实现自动化预警。

步骤五：搭建BI可视化，将预测结果进行展示。

本系统以监测断面为研究对象，实现监测断面未来1-7、15、30、60、90天物质浓度最大值、最小值、均值的预测预警，综合考虑水文数据、水质数据、气象数据、上下游断面位置数据等数据，基于人工智能算法对大数据高效的挖掘能力，将多元历史数据变化规律及数据间相关性规律用于预测河道断面未来水质指标的变化，提高预测准确性。综合来看，基于实时、全面的环境大数据，深度结合人工智能等方法，能实时、准确地感知环境未来的变化。进一步来看，将环境风险的人工识别转向机器智能识别，就是将固定时间的调查统计转为实时的主动发现，为风险的防范提供了更高级别的保障。同时，人工智能大数据可以实现定期的自我模型更新，针对于断面新阶段新特征可以第一时间获知并加以利用，提升模型预测准确性，避免了历史规律不适应当前现状所造成预测不准确的窘境。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种基于机器学习方法的水质预测预警系统，其特征在于，包括水质浓度预测模型、水质评价模型和水质预警模型；

2.根据权利要求1所述的基于机器学习方法的水质预测预警系统，其特征在于，所述水质浓度预测模型，具体用于：

3.根据权利要求2所述的基于机器学习方法的水质预测预警系统，其特征在于，基于所述水质基础数据，采用特征工程构建新特征数据集，具体为：

4.根据权利要求2所述的基于机器学习方法的水质预测预警系统，其特征在于，所述关联规则物质浓度方向预测模型，采用以下方法，进行方向预测：

5.根据权利要求1所述的基于机器学习方法的水质预测预警系统，其特征在于，所述水质评价模型，具体用于：

6.根据权利要求5所述的基于机器学习方法的水质预测预警系统，其特征在于，在对所述监测断面进行水质评价时，采用单因子评价法，即根据评价时段内该监测参评的水质指标中类别最高的一项来确定；

7.根据权利要求1所述的基于机器学习方法的水质预测预警系统，其特征在于，所述水质预警模型，采用以下方法，进行未来水质指标是否发生突变的预警：

针对溶解氧指标，当预测未来7天的浓度小于当前浓度的20％时进行预警；针对高猛酸盐指数、氨氮、总磷、总氮指标，当预测未来7天的浓度大于当前浓度的20％时进行预警。

8.根据权利要求1所述的基于机器学习方法的水质预测预警系统，其特征在于，所述水质预警模型，采用以下方法，进行未来水质等级是否发生变化的预警：

当预测未来7天的水质等级高于当前值则进行预警。

9.根据权利要求1所述的基于机器学习方法的水质预测预警系统，其特征在于，所述水质预警模型，采用以下方法，进行未来水质主要污染物是否发生变化的预警：