CN113239957A

CN113239957A - 一种突发水污染事件在线识别方法

Info

Publication number: CN113239957A
Application number: CN202110377372.6A
Authority: CN
Inventors: 陈运; 廖振良; 田文翀
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2021-04-08
Filing date: 2021-04-08
Publication date: 2021-08-10

Abstract

一种突发水污染事件在线识别方法，利用历史数据来训练水质预测模型，以期获得水质的基线波动，在此基础上，结合层次聚类的方法对滤除基线波动的数据进行分析，来区分出异常，最后通过水质指标融合来判断事件发生。通过对历史数据的离线调试，将优化后的参数和模型传给在线识别过程，以完成对水质数据的事件判断：监测故障、污染警报、基线变化，若是判断为正常，则将数据存入历史数据继续用于离线调试反复进行训练，不断优化并调整模型和参数。本发明借助时间序列增量、层次聚类等方法实现突发水污染事件的在线识别，相比于传统的阈值法来说，对污染事件检测的误报率、检出率有了明显的提升，并且降低事件检出延时性。

Description

一种突发水污染事件在线识别方法

技术领域

本发明属于水质监测领域，涉及地表水突发水污染事件识别技术，尤其是基于历史数据离线调试的突发水污染事件在线识别方法。

背景技术

突发水污染事件在线识别方法，即运用于水质在线监测系统，通过分析实时监测的水质数据，快速准确识别突发性水污染事件的技术方法。

突发水污染事件带来的水质安全问题,直接关系到广大人民群众的生产、生活和健康。因此，突发水污染事件的实时检测识别引起了广大关注。水质在线监测设备因能快速检测出水质参数，实时反映水体中水质变化，从20世纪60年代起在国外出现，随后在国内外迅速发展，为突发水污染事件的实时检测提供了基础条件。而如何从大量的水质实时监测数据中及时发现异常，检测出污染事件，是当前研究的关注点。目前，常用的突发水污染事件在线识别方法有阈值法和水质预测等。

现在普遍使用的阈值法，即为每一个水质参数设定阈值，当监测数据超过这个阈值时，判定为发生污染。阈值法操作简单，但是其误判率高、检出率低，且难以检测出低于阈值的污染事件。而水质预测，即利用在线监测的历史数据训练预测模型，然后用训练好的预测模型实时预测，并与在线监测数据进行比较，当差值大于设定的阈值，判定为发生污染。该方法的核心在于预测模型充当水质基线，相比于简单的阈值法，其误判率、检出率等性能有一定的提升，但仍不理想，且之后阈值的设定也带来了不确定的因素。

发明内容

本发明的目的就是为了克服现有技术存在的上述缺陷而提供一种基于历史数据离线调试的突发水污染事件在线识别方法。

本发明的目的可以通过以下技术方案来实现：

一种突发水污染事件在线识别方法，利用历史数据来训练水质预测模型，以期获得水质的基线波动，在此基础上，结合层次聚类的方法对滤除基线波动的数据进行分析，来区分出异常，最后通过水质指标融合来判断事件发生。

进一步，通过对历史数据的离线调试，将优化后的参数和模型传给在线识别过程，以完成对水质数据的事件判断：监测故障、污染警报、基线变化，若是判断为正常，则将数据存入历史数据继续用于离线调试反复进行训练，不断优化和调整模型和参数，以达到提升突发水污染事件在线识别效果的目标。

所述在线识别方法的离线调试(part1)部分，其步骤包括：步骤S1：利用站点的历史水质数据，数据量的选取用滑动窗口尺寸W来表示，不同的W代表选取不同时间步长的历史水质数据；

步骤S2：处理水质数据的零点、极值点、无信号、负值情况，如属该类情况则用前一时刻的水质数据进行替换；

步骤S3：利用时间序列增量(TSI)方法对历史水质数据进行分析，建立水质预测模型，作为水质基线，并与历史数据做差，得预测差值数据(difference data)；

步骤S4:将模拟的污染事件叠加到差值，得污染数据(superimposed data)，再用层次聚类(Hiera Cluster)方法对superimposed data进行分析，选取聚类簇数n，得到聚类结果(cluster result)，将水质数据分为“正常”、“异常”两类，用真阳率(TPR)和假阳率(FPR)进行评估，获得最佳节点参数n_best；

步骤S5:对cluster result进行污染事件判断，设置一个事件判断的异常个数N，若某个时间点的水质异常指标个数大于等于N时，判断为污染事件。步骤S6:通过评估不同事件判断的异常个数N下污染事件的检出率(PD)、误报率(FAR)和平均检出时间(MTTD)，获得最佳事件判断异常个数N_best；通过评估不同滑动窗口尺寸W下污染事件的检出率(PD)、误报率(FAR)和平均检出时间(MTTD)，获得最佳滑动窗口尺寸W_best。

所述离线调试(part1)部分的步骤S1：历史水质数据包含不同的水质指标数据，因此不同地表水水质监测站点监测水质指标不同，历史水质数据的内容会有所不同，但不影响本技术方法的使用，同时历史水质数据数据集尽量保证一个季度的采集数据。

滑动窗口尺寸W选取50到总数据量的2/3，单位为一个数据采集时间步长，每间隔10个时间步长取一个值。

步骤S2中：水质在线监测设备正常运行时，其监测数据不会出现零点(水质数值为0)、负值(水质数值为负数)，极大值(远超出监测水体的水质浓度的数值，本方法以100倍滑动窗口尺寸W下的水质数据的平均值为准)，无信号(没有水质数值)。

步骤S3中：时间序列增量(TSI)方法是指用前一时刻的实测水质数据作为当前时刻的水质数据的预测值。

步骤S4包括模拟污染事件和聚类分析两个过程，包括：

步骤S41：本方法模拟的污染事件由事件类型、事件强度、事件步长三个参数决定，事件类型分为三类“高斯型”、“U型”、“方型”，以步骤S3得到的差值difference data的标准差为1倍的事件强度，事件步长可取7到45个时间步长，污染事件生成公式如下：

x_E(t)＝x_B(t)+δE_indσ_xE_max (1.1)

其中，x_E(t)——污染事件的水质信号，叠加污染事件后的水质数据，

x_B(t)——水质背景信号，即原始数据，

δ——-1或1，表示异常偏离背景水质的方向，

E_ind——污染事件发生的位置，由不同的污染事件类型和事件步长决定，

σ_x——水质背景数据的标准方差，

E_max——污染事件的的峰值，即事件强度。

步骤S42：往difference data叠加一组模拟污染事件，叠加的位置可以随机选定；

步骤S43：本方法采用Python第三方库sklearn里的cluster.AgglomerativeClustering算法，对superimposed data进行聚类分析，选取不同的聚类簇数n，会得到不同聚类结果。

步骤S44：将聚类结果中数据量占比最高的聚类簇归为“正常”类，其它聚类簇归为“异常”类，得到水质数据异常识别序列。

步骤S45：以叠加模拟污染事件的水质数据作为污染事件实际发生的位置，其它水质数据为实际“正常”值，将聚类结果的“正常”、“异常”类作为判断情况，建立混淆矩阵，算出TPR、FPR。

步骤S46：选取不同的聚类簇数n，产生不同的聚类结果，会得到不同的TPR、FPR，而最高的TPR、最低的FPR对应的n值即为最佳聚类簇数n_best。

步骤S5中：污染事件判断的依据是对每个时间点各水质指标异常个数与设置的事件判断异常个数N进行比较，当大于等于N时判断该时刻发生污染事件，否则为正常情况；N的最小值为1，最大值不超过水质指标总数。

步骤S6中：三个评估指标检出率(PD)指在一定时间里污染事件判断算法检测出的污染次数占实际发生总次数的百分比；误报率(FAR)指在一定时间内，染事件判断算法检测出的虚假污染次数占实际发生次数的百分比；平均检出时间(Mean Time to Detection，MTTD)：指污染事件判断算法给出报警信息的时间与实际发生水质污染时间的差值的算术平均。

在n_best、W不变的情况下，改变N的取值，比较PD、FAR、MTTD，在PD最高、FAR最低、MTTD最小的情况下取得N_best；在n_best、N_best不变的情况下，改变W的取值，比较PD、FAR、MTTD，在PD最高、FAR最低、MTTD最小的情况下取得W_best。

所述在线识别方法的在线识别(part2)部分，其步骤包括：

步骤S7，以part1获得的W_best作为part2的滑动窗口尺寸，随着在线数据采集周期向前滚动，即接收了X_t后，相应剔除(t-W_best)时刻的水质数据；

步骤S8：对X_t进行零点、极值点、无信号、负值处理，若为该类异常情况，将该时刻的水质数据判定为“监测故障”；

步骤S9：利用TSI预测模型对t时刻的水质进行预测，得Y_t，并与X_t做差，得差值

步骤S10，对t时刻之前的W_best的预测残差数据叠加污染事件数据后，进行Hiera Cluster，聚类簇数选取n_best，获得各水质指标的“正常”、“异常”类，计算出“正常”、“异常”类的数值范围R_n、R_a；若差值

属于R_n、则判断为正常，若差值

属于R_a，则判断为异常；

步骤S11，判断t时刻个水质指标为异常的个数，当大于等于N_best时判断为发生污染事件；并将t-1时刻的水质数据代替X_t，否则视为水质正常；

步骤S12，事件识别结果警报，分为“监测故障”、“污染警报”、“基线变化”、“水质正常”四种情况，“监测故障”由S8判断出；“污染警报”由S11判断；“基线变化”表示“污染警报”发生持续时间超过W_best的一半时的情况；“水质正常”表示水质数据正常。

步骤S7中，t时刻的水质数据为在线监测设备实时监测到各指标的水质数据，W_best是由part1的S6得出的。

步骤S8中，水质在线监测设备正常运行时，其监测数据不会出现零点(水质数值为0)、负值(水质数值为负数)，极大值(本方法以100倍滑动窗口尺寸W下的水质数据的平均值为准)，无信号(没有水质数值)，若出现该类情况，则用t-1时刻的水质数据代替X_t。

步骤S10中，叠加的污染事件依据事件类型、事件强度、事件步长三个参数来确定，这里建议选择事件强度为3、事件步长为15、事件类型为倒U型的污染事件。

步骤S10中，这里的n_best是由part1的S4得出的，且每个水质指标的n_best可能不同。

步骤S11中N_best是由part1的S6得出的。

步骤S12中，当判断为“基线变化”时，需要重新对本方法进行离线调试，重新训练模型，筛选出最佳滑动窗口尺寸W_best、最佳聚类簇数n_best、最佳事件判断异常个数N_best。

与现有技术相比，本发明具有以下有益效果：

1)对突发水污染事件的误判率低、检出率高；

2)并且对污染事件的平均检出时间短；

3)克服了水质预测模型对于精确预测的依赖；

4)可以检测出“监测故障”、“基线变化”非突发水污染事件。

附图说明

图1为本发明的流程示意图。

图2为本发明的结构示意图。

图3为具体实施案例的数据示意图。

图4为具体实施例的结果示意图。

具体实施方式

突发水污染事件在线识别技术是从水质时间序列数据中区分出正常和异常，并对异常的发生进行事件识别判断。传统阈值法是根据经验设置阈值，来区分异常和正常，并判断事件的发生；水质预测的方法是基于对历史数据的分析，来预测未来某个时间点的水质数据，从而判断在线监测数据的异常，来判断事件的发生。而本发明的思想是利用历史数据来训练水质预测模型，以期获得水质的基线波动，在此基础上，结合层次聚类的方法对滤除基线波动的数据进行分析，来区分出异常，最后通过水质指标融合来判断事件发生。

按照本发明的模型结构和运行方式，突发水污染事件在线识别构建思路如下：通过对历史数据的离线调试，将优化后的参数和模型传给在线识别过程，以完成对水质数据的事件判断：监测故障、污染警报、基线变化，若是判断为正常，则将数据存入历史数据继续用于离线调试反复进行训练，不断优化和调整模型和参数，以达到提升突发水污染事件在线识别效果的目标。

基于历史数据离线调试的突发水污染事件在线识别方法的优点有：(1)由于本发明中训练的水质预测模型主要是为了后续进行基线滤除，对其预测精度不会过于依赖；(2)同样的原因，也使本发明对不同的水质情况有较好的适应性；(3)本发明通过离线调试阶段可以优化模型和参数，减少了很多人为因素干扰，便于决策者管理；(4)同时，由于本发明在线识别阶段通过数据预处理和污染事件持续时间的长度，可以区别“监测故障”、“基线变化”两类非突发水污染事件；(5)本发明使用多水质指标融合来对异常结果进行污染事件判断，不同于以往检测出异常即判定为事件发生，这样使得该方法对突发水污染事件的误判率低、检出率高，并且可以保证检出延时短。

一种基于历史数据离线调试的突发水污染事件在线识别方法的离线调试(part1)部分，包括：

步骤S1：利用站点的历史水质数据，数据量的选取用滑动窗口尺寸W来表示，不同的W代表选取不同时间步长的历史水质数据。

步骤S2：处理水质数据的零点、极值点、无信号、负值情况，如属该类情况则用前一时刻的水质数据进行替换。

步骤S3：利用时间序列增量(TSI)方法对历史水质数据进行分析，建立水质预测模型，作为水质基线，并与历史数据做差，得预测差值数据(difference data)。

步骤S4：将模拟的污染事件叠加到差值，得污染数据(superimposed data)，再用层次聚类(Hiera Cluster)方法对superimposed data进行分析，选取聚类簇数n，得聚类结果(cluster result)，将水质数据分为“正常”、“异常”两类，用真阳率(TPR)和假阳率(FPR)进行评估，获得最佳节点参数n_best。

步骤S5：对cluster result进行污染事件判断，设置一个事件判断的异常个数N，若某个时间点的水质异常指标个数大于等于N时，判断为污染事件。

步骤S6：通过评估不同事件判断的异常个数N下污染事件的检出率(PD)、误报率(FAR)和平均检出时间(MTTD)，获得最佳事件判断异常个数N_best；通过评估不同滑动窗口尺寸W下污染事件的检出率(PD)、误报率(FAR)和平均检出时间(MTTD)，获得最佳滑动窗口尺寸W_best。

其中part2的步骤如下(以t时刻的实时水质数据X_t为例)：

本发明借助时间序列增量、层次聚类等方法实现突发水污染事件的在线识别，相比于传统的阈值法来说，对污染事件检测的误报率、检出率有了明显的提升，并且其事件检出延时性短。因此该发明是一种高效准确的突发污染事件在线识别方法。

一种基于历史数据离线调试的突发水污染事件在线识别方法的在线识别(part2)部分，其步骤包括：

步骤S7：以part1获得的W_best作为part2的滑动窗口尺寸，随着在线数据采集周期向前滚动，即接收了X_t后，相应剔除(t-W_best)时刻的水质数据。

步骤S8：对X_t进行零点、极值点、无信号、负值处理，若为该类异常情况，将该时刻的水质数据判定为“监测故障”。

步骤S10：对t时刻之前的W_best的预测残差数据叠加污染事件数据后，进行HieraCluster，聚类簇数选取n_best，获得各水质指标的“正常”、“异常”类，计算出“正常”、“异常”类的数值范围R_n、R_a；若差值

属于R_n、则判断为正常，若差值

属于R_a，则判断为异常。

步骤S11：判断t时刻个水质指标为异常的个数，当大于等于N_best时判断为发生污染事件；并将t-1时刻的水质数据代替X_t，否则视为水质正常。

步骤S12：事件识别结果警报，分为“监测故障”、“污染警报”、“基线变化”、“水质正常”四种情况，“监测故障”由S8判断出；“污染警报”由S11判断；“基线变化”表示“污染警报”发生持续时间超过W_best的一半时的情况；“水质正常”表示水质数据正常。

以下结合附图及实施例对本发明作进一步的说明。

一种基于历史数据离线调试的突发水污染事件在线识别方法，如图1和图2所示，包括：

一种基于历史数据离线调试的突发水污染事件在线识别方法的离线调试(part1)部分，主要是训练模型，并且筛选出最佳滑动窗口尺寸W_best、最佳聚类簇数n_best、最佳事件判断异常个数N_best：

步骤S1：在线监测站点的历史水质数据，常用的水质参数有很多，现以七种水质指标为例：pH、温度、溶解氧、浊度、电导率、COD_Mn、氨氮，共2276组数据，以前1000组数据历史水质数据，当作离线调试阶段的训练数据，后1276组数据当作在线识别阶段的测试数据，如图3。滑动窗口尺寸W取值为{50，100，150，200，250，300，400，500，600}，初始选200个时间步长；

步骤S2：本案例采用的数据不存在零点、极值点、无信号、负值之类的“监测故障”；

步骤S3：水质基线预测模型采用时间序列增量(TSI)算法，即用前一时刻的实测值Z_t-1当作当前时刻的预测值Z^* _t，即：

Z^* _t＝Z_t-1

然后当前时刻的实测值Z_t减去预测值，得到预测残差数据，公式如下：

Different data＝Z_t-Z^* _t

步骤S4：包括模拟污染事件和聚类分析两个过程，具体如下：

x_E(t)＝x_B(t)+δE_indσ_xE_max (1.1)

x_B(t)——水质背景信号，即原始数据，

δ——-1或1，表示异常偏离背景水质的方向，根据方向不同，事件类型又可以分为“正高斯”、“倒高斯”、“正U型”、“倒U型”、“正方型”、“倒方型”。

σ_x——水质背景数据的标准方差，

E_max——污染事件的的峰值，即事件强度。

步骤S42：本案例模拟的污染事件参数选择为δ＝-1，“U型”，事件强度E_max＝3，时间步长＝15，将模拟的污染事件数据叠加到difference data，叠加的初始位置选则在W/2处，这样形成了superimposed data；

步骤S43：本方法采用Python第三方库sklearn里的cluster.AgglomerativeClustering算法，对superimposed data进行聚类分析，聚类簇数n一般取值{2，3，4，5，6，7，8，9，10}，各水质指标的n初始取值均为2。在Python软件中的代码如下：

from sklearn.cluster import AgglomerativeClustering

ac＝AgglomerativeClustering(n_clusters＝2，affinity＝′euclidean′，linkage＝′average′，distance_thre shold＝None)

model＝ac.fit(pH_{superimposed data})#pH_{superimposed data}表示水质指标pH叠加污染事件后的预测残差数据

labels＝ac.fit_predict(pH_{superimposed data})

步骤S44：其中labels即为聚类结果，将聚类结果中数据量占比最高的聚类簇归为“正常”类，其它聚类簇归为“异常”类，得到水质数据异常识别序列。

步骤S45：以叠加模拟污染事件的水质数据作为污染事件实际发生的位置，其它水质数据为实际“正常”值，将聚类结果的“正常”、“异常”类作为判断情况，建立如下混淆矩阵：

算出TPR、FPR，公式如下：

步骤S46：选取不同的聚类簇数n，产生不同的聚类结果，会得到不同的TPR、FPR，而最高的TPR、最低的FPR对应的n值即为最佳聚类簇数n_best为，各水质指标的n_best为2，3，3，2，2，2，2，2。

步骤S5：对cluster result进行污染事件判断，设置一个事件判断的异常个数N，本案例中因监测的水质指标为7个，故N的可能取值为{1,2,3,4,5,6,7}，若某个时间点的水质异常指标个数大于等于N时，判断为污染事件。

步骤S6：用检出率(PD)、误报率(FAR)和平均检出时间(MTTD)通过评估不同事件判断的异常个数N的性能，公式如下:

其中，n表示算法判断出的确实发生污染事件次数，N表示实际发生的污染事件次数，f表示算法判断出的未发生的污染事件次数，|t_id-t_ir|表示污染事件判断算法给出报警信息的时间与实际发生水质污染时间的差值。其中检出率最高、误报率最低、平均检出时间最短对应的N为最佳事件判断异常个数N_bes为3_t；同样，通过评估不同滑动窗口尺寸W下污染事件的检出率(PD)、误报率(FAR)和平均检出时间(MTTD)，获得最佳滑动窗口尺寸W_best为200。

步骤S7：以part1获得的作为part2的滑动窗口尺寸，本案例W_best＝200，随着在线数据采集周期向前滚动，即接收了X_t后，相应剔除(t-W_best)时刻的水质数据。

步骤S8：对X_t进行零点、极值点、无信号、负值处理，若为该类异常情况，将该时刻的水质数据判定为“监测故障”，并用前一时刻的水质数据Z_t-1替换该时刻数据Z_t。

步骤S10：对t时刻之前的W_best的预测残差数据叠加污染事件数据后，进行HieraCluster，聚类簇数选取n_best，本案例各水质指标的n_best分别为2,3,3,2,2,2,2,2，获得各水质指标的“正常”、“异常”类，计算出“正常”、“异常”类的数值范围R_n、R_a；若差值

属于R_n、则判断为正常，若差值

属于R_a，则判断为异常，并用前一时刻的水质数据Z_t-1替换该时刻数据Z_t。

步骤S11：本案例中N_best为3，当大于等于时判断为发生污染事件；并将t-1时刻的水质数据代替X_t，否则视为水质正常，污染事件判断结果如图4所示，其中叠加污染事件位置，也即实际发生污染事件的部分，而最终结果融合了七个水质指标的异常序列，污染事件判断结果与叠加污染事件的位置完美重叠，说明该方法实现了100％的检出率，且MTTD约为1。

步骤S12：事件识别结果警报，分为“监测故障”、“污染警报”、“基线变化”、“水质正常”四种情况，“监测故障”由S8判断出；“污染警报”由S11判断；“基线变化”表示“污染警报”发生持续时间超过W_best的一半时的情况；“水质正常”表示水质数据正常。在本例中，在叠加污染事件位置将发出“污染警报”，其它时间点为“水质正常”。事件识别结束后，将该时刻的水质数据Z_t当作滑动窗口数据的一部分，相应剔除(t-W_best)时刻的水质数据。

上述相关说明以及对实施例的描述是为便于该技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对这些内容做出各种修改，并把在此说明的一般原理应用到其它实施例中而不必经过创造性的劳动。因此，本发明不限于上述相关说明以及对实施例的描述，本领域的技术人员根据本发明的揭示，不脱离本发明范畴所做出的改进和修改都应该在本发明的保护范围之内。

Claims

1.一种突发水污染事件在线识别方法，其特征在于：利用历史数据来训练水质预测模型，以期获得水质的基线波动，在此基础上，结合层次聚类的方法对滤除基线波动的数据进行分析，来区分出异常，最后通过水质指标融合来判断事件发生。

2.根据权利要求1所述的突发水污染事件在线识别方法，其特征在于：通过对历史数据的离线调试，将优化后的参数和模型传给在线识别过程，以完成对水质数据的事件判断：监测故障、污染警报、基线变化，若是判断为正常，则将数据存入历史数据继续用于离线调试反复进行训练，不断优化和调整模型和参数，以达到提升突发水污染事件在线识别效果的目标。

3.根据权利要求2所述的突发水污染事件在线识别方法，其特征在于：所述离线调试，其步骤包括：

步骤S1，利用站点的历史水质数据，数据量的选取用滑动窗口尺寸W来表示，不同的W代表选取不同时间步长的历史水质数据；

步骤S2，处理水质数据的零点、极值点、无信号、负值情况，如属该类情况则用前一时刻的水质数据进行替换；

步骤S3，利用时间序列增量方法对历史水质数据进行分析，建立水质预测模型，作为水质基线，并与历史数据做差，得预测差值数据；

步骤S4，将模拟的污染事件叠加到差值，得污染数据，再用层次聚类方法对污染数据进行分析，选取聚类簇数n，得到聚类结果，将水质数据分为“正常”、“异常”两类，用真阳率和假阳率进行评估，获得最佳节点参数n_best；

步骤S5，对聚类结果进行污染事件判断，设置一个事件判断的异常个数N，若某个时间点的水质异常指标个数大于等于N时，判断为污染事件；

步骤S6，通过评估不同事件判断的异常个数N下污染事件的检出率、误报率和平均检出时间，获得最佳事件判断异常个数N_best；通过评估不同滑动窗口尺寸W下污染事件的检出率、误报率和平均检出时间，获得最佳滑动窗口尺寸W_best。

4.根据权利要求3所述的突发水污染事件在线识别方法，其特征在于：步骤S1中所述历史水质数据包含不同的水质指标数据；和/或，所述历史水质数据至少包含一个季度的采集数据。

5.根据权利要求3所述的突发水污染事件在线识别方法，其特征在于：步骤S1中滑动窗口尺寸W选取50到总数据量的2/3，单位为一个数据采集时间步长，每间隔10个时间步长取一个值。

6.根据权利要求3所述的突发水污染事件在线识别方法，其特征在于：步骤S2中，监测数据出现零点、负值、极大值、无信号或没有水质数值，则表明水质在线监测设备运行出现异常；所述零点表示水质数据显示为零，负值表示水质数值出现负值的，无信号表示某时刻的水质数据缺失，极大值是指远超出监测水体的水质浓度的数值，以100倍滑动窗口尺寸W下的水质数据的平均值为准。

7.根据权利要求3所述的突发水污染事件在线识别方法，其特征在于：步骤S3中，时间序列增量方法是指用前一时刻的实测水质数据作为当前时刻的水质数据的预测值。

8.根据权利要求3所述的突发水污染事件在线识别方法，其特征在于，步骤S4包括模拟污染事件和聚类分析两个过程，步骤如下：

步骤S41，模拟的污染事件由事件类型、事件强度、事件步长三个参数决定，事件类型分为三类“高斯型”、“U型”、“方型”，以步骤S3得到的差值difference data的标准差为1倍的事件强度，事件步长可取7到45个时间步长，污染事件生成公式如下：

x_E(t)＝x_B(t)+δE_indσ_xE_max (1.1)

x_B(t)——水质背景信号，即原始数据，

δ——-1或1，表示异常偏离背景水质的方向，

σ_x——水质背景数据的标准方差，

E_max——污染事件的的峰值，即事件强度；

步骤S42：往差值difference data叠加一组模拟污染事件，叠加的位置可以随机选定；

步骤S43：本方法采用Python第三方库sklearn里的cluster.AgglomerativeClustering算法，对污染数据superimposed data进行聚类分析，选取不同的聚类簇数n，会得到不同聚类结果；

步骤S44：将聚类结果中数据量占比最高的聚类簇归为“正常”类，其它聚类簇归为“异常”类，得到水质数据异常识别序列；

步骤S45：以叠加模拟污染事件的水质数据作为污染事件实际发生的位置，其它水质数据为实际“正常”值，将聚类结果的“正常”、“异常”类作为判断情况，建立混淆矩阵，算出TPR、FPR；

9.根据权利要求3所述的突发水污染事件在线识别方法，其特征在于：步骤S5中污染事件判断的依据是对每个时间点各水质指标异常个数与设置的事件判断异常个数N进行比较，当大于等于N时判断该时刻发生污染事件，否则为正常情况；N的最小值为1，最大值不超过水质指标总数。

10.根据权利要求3所述的突发水污染事件在线识别方法，其特征在于：步骤S6中三个评估指标检出率PD指在一定时间里污染事件判断算法检测出的污染次数占实际发生总次数的百分比；误报率FAR指在一定时间内，染事件判断算法检测出的虚假污染次数占实际发生次数的百分比；平均检出时间MTTD指污染事件判断算法给出报警信息的时间与实际发生水质污染时间的差值的算术平均。

11.根据权利要求3所述的突发水污染事件在线识别方法，其特征在于：步骤S6中在n_best、W不变的情况下，改变N的取值，比较PD、FAR、MTTD，在PD最高、FAR最低、MTTD最小的情况下取得N_best；在n_best、N_best不变的情况下，改变W的取值，比较PD、FAR、MTTD，在PD最高、FAR最低、MTTD最小的情况下取得W_best。

12.根据权利要求2所述的突发水污染事件在线识别方法，其特征在于，所述在线识别包括：步骤S7，以离线调试获得的W_best作为滑动窗口尺寸，随着在线数据采集周期向前滚动，即接收了X_t后，相应剔除(t-W_best)时刻的水质数据；

步骤S8，对X_t进行零点、极值点、无信号、负值处理，若为该类异常情况，将该时刻的水质数据判定为“监测故障”；

步骤S9，利用TSI预测模型对t时刻的水质进行预测，得Y_t，并与X_t做差，得差值

步骤S10，对t时刻之前的W_best的预测残差数据叠加污染事件数据后，进行HieraCluster，聚类簇数选取n_best，获得各水质指标的“正常”、“异常”类，计算出“正常”、“异常”类的数值范围R_n、R_a；若差值

属于R_n、则判断为正常，若差值

属于R_a，则判断为异常；

步骤S12:事件识别结果警报，分为“监测故障”、“污染警报”、“基线变化”、“水质正常”四种情况，“监测故障”由S8判断出；“污染警报”由S11判断；“基线变化”表示“污染警报”发生持续时间超过W_best的一半时的情况；“水质正常”表示水质数据正常。

13.根据权利要求12所述的突发水污染事件在线识别方法，其特征在于：步骤S7中：t时刻的水质数据为在线监测设备实时监测到各指标的水质数据，W_best是由离线调试的S6得出的。

14.根据权利要求12所述的突发水污染事件在线识别方法，其特征在于：步骤S8中：监测数据出现零点、负值、极大值、无信号或没有水质数值，所述零点表示水质数据显示为零，负值表示水质数值出现负值的，无信号表示某时刻的水质数据缺失，则表明水质在线监测设备运行出现异常，若出现该类情况，则用t-1时刻的水质数据代替X_t。

15.根据权利要求12所述的突发水污染事件在线识别方法，其特征在于：步骤S10中：叠加的污染事件依据事件类型、事件强度、事件步长三个参数来确定，选择事件强度为3、事件步长为15、事件类型为倒U型的污染事件。

16.根据权利要求12所述的突发水污染事件在线识别方法，其特征在于：步骤S10中n_best是由离线调试的S4得出的。

17.根据权利要求12所述的突发水污染事件在线识别方法，其特征在于：步骤S11中N_best是由离线调试的S6得出的。

18.根据权利要求12所述的突发水污染事件在线识别方法，其特征在于：步骤S12中，当判断为“基线变化”时，需要重新对本方法进行离线调试，重新训练模型，筛选出最佳滑动窗口尺寸W_best、最佳聚类簇数n_best、最佳事件判断异常个数N_best。