CN112506990A

CN112506990A - 一种基于时空信息的水文数据异常检测方法

Info

Publication number: CN112506990A
Application number: CN202011397130.5A
Authority: CN
Inventors: 许国艳; 朱进; 陆宇翔; 李星; 黄静
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2021-03-16
Anticipated expiration: 2040-12-03
Also published as: CN112506990B

Abstract

本发明公开了一种基于时空信息的水文数据异常检测方法，包括：关联站点划分；水位时间序列划分；利用训练好的卷积神经网络(CNN)模型得到模型输出结果，并使用马尔科夫链(MC)对模型输出结果进行残差值预测，根据模型输出结果和预测的残差值判断异常站点；获取到待检测站点和其所有关联站点的异常状况；采用动态分配D‑S证据理论(DA‑DS)算法进行结果融合，得到水文数据异常预测结果。本发明充分考虑暴雨季对于水文数据的影响，提高了检测精度，并且引入混合蛙跳算法(SFLA)来改进卷积网络参数，加入MC算法来进行残差预测，增加了预测数据的准确性；最后通过动态分配D‑S证据理论，充分考量了空间因素，将多关联站点预测结果融合，有效减少了误报次数。

Description

一种基于时空信息的水文数据异常检测方法

技术领域

本发明属于数据挖掘领域，涉及一种数据异常检测方法，具体涉及一种基于时空信息的水文数据异常检测方法。

背景技术

近年来，由于乱砍滥伐、掠夺性使用森林资源，我国长江、黄河流域植被遭到损坏，土地沙漠化严重，洪涝灾害时有发生。据不完全统计，建国以来，我国洪涝受灾面积年均1.34亿亩，成灾面积0.76亿亩，直接经济损失达上百亿元。鉴于上述情况，如何利用有效的方法精准、快速地预报洪水，对于防洪减灾、调节生态平衡以及区域水资源的调度具有重要的意义。

异常检测作为数据挖掘领域的重要分支，在众多领域中都得到了广泛的应用^[1-3]。随着水利信息化水平的不断提高，水利行业的发展也迎来了新的生机，如何利用有效的方法从海量的水文数据中挖掘出有价值的信息已成为水利信息化过程中研究的关键问题。近年来，学者们对水文数据异常检测进行了大量的研究，也取得了颇丰的研究成果。早先，研究人员们使用传统的数据模型或者简单的机器学习模型达到了较好的实验效果，其中比较具有代表性的模型有滑动窗口、ARIMA等。但是，随着大数据时代的到来，传统的模型已经难以适应庞大数据量的计算以及水文数据复杂特性的处理。针对此问题，学者们开始通过组合模型的方式来弥补传统单一模型存在的缺陷，从而有效提高了实验结果的准确性。后来，随着神经网络以及深度学习的不断发展，像BP神经网络^[4]、长短期记忆网络(Long Short-Term Memory,LSTM)^[5]等诸多算法在异常检测领域也得到了广泛的应用，这些算法利用神经网络强大的特征学习能力以及计算能力在异常检测的精度上有了很大的提升。

综上所述，利用有效的方法对水文数据进行分析处理，既是相关部门防洪报汛的要求，也是国民经济建设的重要保障。若能够综合分析出一套完整的水文数据异常检测体系，不仅能够有效提高水文数据异常检测的精度，而且还能够将此理论体系应用于其它领域的异常检测中。目前，应用于水文数据异常检测的算法在异常检测的精度上已经能够达到较高的水平。但是，现有的异常检测算法对于水文数据表现出的季节性、随机性以及时空相关性等复杂特性处理尚不够充分，所以在异常检测的精度上还存在较大的提升空间，值得投入大量的时间和精力去开展研究。

发明内容

发明目的：针对现有技术中对于水文数据复杂特性的处理尚不够充分，导致检测的误报率较高、检出率低的现状，本发明结合了基于加权累积降雨量的水文时间序列划分方法和基于SFLA-CNN和MC的水文数据异常检测算法，并引入动态分配D-S证据理论来进行多站关联异常检测，提出一种准确率较高且误报率显著降低的基于时空信息的水文数据异常检测方法。

技术方案：为实现上述目的，本发明提供一种基于时空信息的水文数据异常检测方法，包括如下步骤：

S1：划分出与待检测站点相关联的站点；

S2：根据划分出的站点，将水文数据的水位时间序列进行划分；

S3：根据划分好的水位时间序列，利用训练好的卷积神经网络模型得到模型输出结果，并使用马尔科夫链对模型输出结果进行残差值预测，根据模型输出结果和预测的残差值判断站点是否发生异常；

S4：通过步骤S3的方法获取到待检测站点和其所有关联站点的异常状况；

S5：采用DA-DS算法对步骤S4获取的结果进行融合，得到最终水文数据异常预测结果。

进一步地，所述步骤S1中待检测站点相关联的站点的划分方法包括如下步骤：

A1：获取待检测站点的降雨量时间序列R₀以及该流域内其它任一站点的降雨量时间序列R_i，并且有R_i＝＜(r₁,t₁),(r₂,t₂),…(r_n,t_n)＞，序列中的每个点＜r_i,t_i＞表示在t_i时刻该站点的降雨量为r_i，并定义R₀为参考序列，R_m为测试序列；

A2：构造一个距离矩阵，矩阵中的元素i，j表示R₀和R_m中r_i之间的距离(相似性)，该距离的计算方式如公式

式中W(k)＝{w₁,w₂,...,w_k}表示的是一条使得总弯曲代价最小的最佳匹配路径；

A3：重复步骤A1-A2，计算出R₀与其它所有降雨量时间序列之间的相似性，根据公式

计算出待检测站点与其它所有站点的相似度，并根据不同站点之间相似度的排序确定待检测站点的关联站点，式中，D(R₀,R_m) 表示两个降雨量时间序列DTW距离的历史最大距离。

进一步地，所述步骤S2中水位时间序列的划分包括暴雨区间和非暴雨区间，该方法包括如下步骤：

B1：根据公式

计算待检测站点t₁,t₂,...,t_n时刻的加权累积降雨量a₁,a₂,...,a_n，并得到加权累积降雨量时间序列Q₁＝＜(a₁,t₁),(a₂,t₂),...,(a_n,t_n)＞；

B2：对序列Q₁加入一个过滤规则，即对于序列中的任一时刻t_i的加权累积降雨量a_i，如果满足a_i＞ε，则将点a_i加入新的序列Q；

B3：由于在非暴雨时期也会出现短暂的强降水，在序列Q中也会包含少数的“非暴雨时期点”，所以需要使用算法将这些数据剔除出去。具体的做法如下：将序列Q中的点按照P＝<(t₁,t₂,…,t_n),(a₁,a₂,…,a_n)>的格式输入DBSCAN聚类算法；然后使用 DBSCAN聚类算法对集合P中的n个样本点进行聚类，用count(Center)表示当前核心点个数，在集合P中任意选择一个没有类别的核心对象作为种子；接着根据公式

找到这个核心对象能够密度可达的所有点，形成一个聚类簇；最后在(n- count(center))个样本点中继续选择没有类别的对象去寻找密度可达的所有点，这样就可以得到另一个聚类簇，重复执行上述步骤直到所有对象都有类别为止，输出暴雨区间结果result＝((c₁,c₂…c_n),C)。

进一步地，所述步骤S3中建立的卷积神经网络模型网络结构依次包括输入层、卷积层、BN层、激活层、Flatten层、Dropout层、全连接层、输出层。

进一步地，所述步骤S3具体包括如下步骤：

C1：将卷积神经网络的核心参数弃权率Dropout、批次数epoch以及批次大小batch_size用一维向量表示为Q＝[Dropout,epoch,batch_size]，将n个向量Q₁,Q₂,...,Q_n作为SFLA算法中的个体，以均方误差的最小值为目标建立最优化网络，其中均方误差的计算公式为：

其中y_k,p表示的是训练样本p在k输出端的网络实际输出，d_k,p为相应的给定输出，将n个向量中使得均方误差最小的向量记为Q_min，Q_min中的值即为SFLA算法为CNN搜索到的一组最优参数；

C2：将SFLA为卷积神经网络搜索到的最优的一组参数输入卷积神经网络并进行训练，得到初始水位预测值L_t，并根据公式e_t＝x_t-l_t得到残差序列e_t，其中，l_t表示的是预测的水位时间序列，x_t表示的是原始的水位时间序列；

C3：根据马尔可夫链(MC)输入数据的格式输入残差序列e_t，模型经过训练后得到状态转移概率矩阵，根据马尔可夫链的“无后效性”(随机过程在n+1时刻的状态只与其在n时刻的状态有关):P{X_n+1＝i_n+1}|X₀＝i₀,X₁＝i₁,…,X_n＝i_n}＝P{X_n+1＝ i_n+1}|X_n＝i_n}，得到残差序列的预测值N_t；

C4：输入给定样本数据集

其中y为水位时间序列的实际值，x₁为 SFLA-CNN模型的水位预测序列，x₂为MC的残差预测序列，然后由获取的样本数据集根据公式得到线性回归方程，表示为：

C5：对SFLA-CNN模型的预测值和MC的预测值组成的样本数据集根据公式

进行最小二乘拟合，并得到拟合值X_t；

C6：根据OLS模型的拟合值X_t计算出置信度为1-α的置信区间，然后将实际值不在置信区间范围的判定为异常值；反之，为正常值。

进一步地，所述步骤S4具体为：

输入待检测站点及其关联站点的降雨量时间序列集合R＝{R₁,R₂,...,R_n}和水位时间序列集合X＝{X₁,X₂,...,X_n}，使用步骤S3的SFLAMC-CNN异常检测算法对待检测站点及其关联站点分别进行异常检测，并得到这些站点的异常检测结果以及AUC时间序列集合C＝{C₁,C₂,...,C_n}。

进一步地，所述步骤S5具体为：

D1：使用梯度优化指数平滑法对集合C中的时间序列分别进行训练，并得到待检测站点及其关联站点预测的AUC值集合c＝{c₁,c₂,...,c_n}，根据待检测站点及其关联站点实时预测的AUC值，根据公式m(A)＝ES(auc)，m(N)＝1-m(A)为D-S证据理论中的基本概率动态赋值，其中m(A)表示异常状态的mass函数值，m(N)表示正常状态的 mass函数值，ES(auc)表示梯度优化指数平滑法实时预测的AUC值；

D2：根据

计算出反映不同状态冲突程度的k值，根据公式

表示的合成规则对不同状态的mass函数进行合成；

D3：根据公式m(A)-m(N)＞ε判断最终是否发生异常，即如果异常状态和正常状态的mass函数差值大于ε，则将该水位值判定为异常值；否则，判定为正常值。

有益效果：本发明与现有技术相比，使用基于WCR和DBSCAN的算法进行暴雨区间划分，确保充分考虑暴雨季对于水文数据的影响，提高了检测精度，并且在引入 SFLA来改进卷积神经网络参数，并加入MC算法来进行残差预测，进一步增加了预测数据的准确性；最后通过动态分配D-S证据理论，充分考量了空间因素，将多关联站点预测结果融合，有效减少了误报次数。

附图说明

图1是本发明的水文序列划分流程图；

图2是本发明水文数据预测流程图；

图3是本发明D-S证据推断流程图；

图4是SFLA算法流程图；

图5是各调参方式下CNN模型性能对比图；

图6是SFLAMC-CNN与其他异常检测算法性能对比图；

图7是DA-DS算法与其他异常检测算法结果对比图；

图8是DA-DS算法与其他异常检测算法误报率对比图。

图9是DA-DS算法与其他异常检测算法F值对比图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明提供一种基于时空信息的水文数据异常检测方法，包括如下步骤：

S1：划分出与待检测站点相关联的站点。具体包括如下步骤A1～A3：

S2：根据划分出的站点，将水文数据的水位时间序列进行划分，水位时间序列的划分包括暴雨区间和非暴雨区间，该方法包括如下步骤B1～B3：

B1：根据公式

S3：根据划分好的水位时间序列，利用训练好的卷积神经网络(CNN)模型得到模型输出结果，并使用马尔科夫链对模型输出结果进行残差值预测，根据模型输出结果和预测的残差值判断站点是否发生异常；

这里CNN模型网络结构依次包括输入层、卷积层、BN层、激活层、Flatten层、Dropout层、全连接层、输出层；具体包括如下步骤C1～C6：

C3：根据MC输入数据的格式输入残差序列e_t，模型经过训练后得到状态转移概率矩阵，再根据MC的“无后效性”得到残差序列的预测值N_t；

C4：输入给定样本数据集

进行最小二乘拟合，并得到拟合值X_t；

S4：通过步骤S3的方法获取到待检测站点和其所有关联站点的异常状况：

S5：采用DA-DS算法对步骤S4获取的结果进行融合，得到最终水文数据异常预测结果。该步骤具体包括如下步骤D1～D3：

D2：根据

计算出反映不同状态冲突程度的k值，根据公式

表示的合成规则对不同状态的mass函数进行合成；

基于上述水文数据异常检测方法，本实施例采用Python3.6.5编程语言和Keras2.2.4 开发框架，使用JetBrains PyCharm 2018.1.4x64进行开发，其中，配置为2.6GHzCPU、 8G内存的笔记本电脑，操作系统为Windows10家庭版。

本实施例选用的是里下河流域多个关联站点的水位和降雨量实测数据。该数据集记录的是这些关联站点2013年05月1日到2018年05月31日每小时的实际观测值，共 219744条数据。这些关联站点是里下河流域的重要水文站点，对于该流域的防洪调度、生态环境调节等起到至关重要的作用。本实施例为了进一步提高实验结果的准确性，采用交叉验证法(cross validation)对数据集进行预处理。该方法将获取的数据集随机划分为10个互斥子集，其中训练数据集占90％，测试数据集占10％，模型最终取互斥子集实验结果的平均值作为输出结果。

具体的检测过程中依次分为水文序列划分和水文数据异常检测两大部分，其中水文序列划分依次包括关联站点划分和暴雨区间划分两部分，水文数据异常检测依次包括单站点水文数据异常检测和多站点检测结果融合两部分

1、参照图1，水文序列划分步骤如下：

降雨量时间序列R₀,R₁,...R_n，其中R₀为待检测站点的降雨量时间序列，其余为该流域其它站点的降雨量时间序列，并且有R_i＝＜(r₁,t₁),(r₂,t₂),…(r_n,t_n)＞，序列中的每个点＜r_i,t_i＞表示在t_i时刻该站点的降雨量为r_i；

(1)关联站点划分

步骤1：获取待检测的降雨量时间序列R₀以及该流域内其它任一站点的降雨量时间序列R_i，并定义R₀为参考序列，R_m为测试序列；

步骤2：构造一个距离矩阵，矩阵中的元素i，j表示R₀和R_m中r_i之间的距离(相似性)，该距离的计算方式如公式

式中W(k)＝{w₁,w₂,...,w_k} 表示的是一条使得总弯曲代价最小的最佳匹配路径；

步骤3：重复步骤1-2，计算出R₀与其它所有降雨量时间序列之间的相似性，根据公式

计算出待检测站点与其它所有站点的相似度，并根据不同站点之间相似度的排序确定待检测站点的关联站点，式中，D(R₀,R_m) 表示两个降雨量时间序列DTW距离的历史最大距离；

(2)暴雨区间划分

步骤1：根据公式

步骤2：对序列Q₁加入一个过滤规则，即对于序列中的任一时刻t_i的加权累积降雨量a_i，如果满足a_i＞ε，则将点a_i加入新的序列Q；

本实施例中根据天气预报对降雨等级的划分来确定阈值ε的大小，划分规则如下表所示：

步骤3：由于在非暴雨时期也会出现短暂的强降水，在序列Q中也会包含少数的“非暴雨时期点”，所以需要使用算法将这些数据剔除出去。具体的做法如下：将序列Q中的点按照P＝<(t₁,t₂,…,t_n),(a₁,a₂,…,a_n)>的格式输入DBSCAN聚类算法；然后使用 DBSCAN聚类算法对集合P中的n个样本点进行聚类，用count(Center)表示当前核心点个数，在集合P中任意选择一个没有类别的核心对象作为种子；接着根据公式

找到这个核心对象能够密度可达的所有点，形成一个聚类簇；最后在(n- count(center))个样本点中继续选择没有类别的对象去寻找密度可达的所有点，这样就可以得到另一个聚类簇，重复执行上述步骤直到所有对象都有类别为止，输出结果 result＝((c₁,c₂…c_n),C)；

2、水文数据异常检测步骤如下：

获取数据待检测站点及其关联站点的降雨量时间序列集合R＝{R₁,R₂,...,R_n}和水位时间序列集合X＝{X₁,X₂,...,X_n}；

(1)单站点水文数据异常检测

参照图2，其具体包括如下步骤：

步骤1：搭建CNN模型，CNN网络结构依次为：输入层、卷积层、BN层、激活层、Flatten层、Dropout层、全连接层、输出层；

步骤2：将CNN的核心参数弃权率Dropout、批次数epoch以及批次大小batch_size用一维向量表示为Q＝[Dropout,epoch,batch_size]，将n个向量Q₁,Q₂,...,Q_n作为SFLA 算法中的个体，以均方误差的最小值为目标建立最优化网络，其中均方误差的计算公式为：

其中y_k,p表示的是训练样本p在k输出端的网络实际输出，d_k,p为相应的给定输出。将n个向量中使得均方误差最小的向量记为Q_min，Q_min中的值即为SFLA算法为CNN搜索到的一组最优参数；

步骤3：将SFLA为CNN搜索到的最优的一组参数输入CNN并进行训练，得到初始水位预测值L_t，并根据公式e_t＝x_t-l_t得到残差序列e_t，其中，l_t表示的是预测的水位时间序列，x_t表示的是原始的水位时间序列；

步骤4：根据MC输入数据的格式输入残差序列e_t，模型经过训练后得到状态转移概率矩阵，再根据MC的“无后效性”得到残差序列的预测值N_t，实验数据如下表所示：

由表中数据可知，如果在d_t-1时刻得到的预测残差为0.01，则在d_t时刻预测的残差有0.7％的概率落在-0.06～-0.03之间，有81.7％的概率落在-0.03～0之间，有17.5％的概率落在0-0.03之间。如上所述，根据残差坐落区间概率的大小，最终确定残差的预测值在区间-0.03～0内，并取区间的中位数-0.015作为残差预测值；

步骤5：输入给定样本数据集

其中y为水位时间序列的实际值，x₁为SFLA-CNN模型的水位预测序列，x₂为MC的残差预测序列。然后由获取的样本数据集根据公式得到线性回归方程，表示为：

然后对SFLA-CNN模型的预测值和MC的预测值组成的样本数据集根据公式

进行最小二乘拟合，并得到拟合值X_t；

步骤6：根据OLS模型的拟合值X_t计算出置信度为1-α的置信区间，然后将实际值不在置信区间范围的判定为异常值；反之，为正常值；

(2)多站点检测结果融合

参照图3，其包括如下步骤：

步骤1：输入待检测站点及其关联站点的降雨量时间序列集合R＝{R₁,R₂,...,R_n}和水位时间序列集合X＝{X₁,X₂,...,X_n}，使用上述SFLAMC-CNN异常检测算法对待检测站点及其关联站点分别进行异常检测，并得到这些站点的异常检测结果以及AUC时间序列集合C＝{C₁,C₂,...,C_n}；

步骤2：使用梯度优化指数平滑法对集合C中的时间序列分别进行训练，并得到待检测站点及其关联站点预测的AUC值集合c＝{c₁,c₂,...,c_n}，根据待检测站点及其关联站点实时预测的AUC值，根据公式m(A)＝ES(auc)，m(N)＝1-m(A)为D-S证据理论中的基本概率动态赋值，其中m(A)表示的是异常状态的mass函数值，m(N)表示的是正常状态的mass函数值，ES(auc)表示的是梯度优化指数平滑法实时预测的AUC值；

步骤3：根据

计算出反映不同状态冲突程度的k值，根据公式

表示的合成规则对不同状态的mass函数进行合成；

步骤4：本实施例中将D-S证据理论判断规则中的阈值ε设为0.5，根据公式 m(A)-m(N)＞ε判断最终是否发生异常，即如果异常状态和正常状态的mass函数差值大于0.5，则将该水位值判定为异常值；否则，判定为正常值。

本实施例中对模型性能的评价标准进行如下说明：

RMSE(Root Mean Square Error)指的是均方根误差，其值越小说明算法对于序列的非线性拟合得越好。RMSE对于残差较大的值较为敏感，所以根据均方根误差能够看出预测的准确性。RMSE的计算方式如公式1所示，其中y'_i表示预测值，y_i表示实际值， n表示用于预测的样本大小

MAE(Mean Absolute Error)指的是平均绝对误差，它是衡量预测结果的另一个重要指标。MAE的值越小说明误差越低，能够很好地反映出预测值误差的实际情况。MAE 计算公式如下：

FA(ForecastAccuracy)指的是预报准确率，使用数值衡量预测值与实际值接近的程度，其值越大说明预测结果越精确。FA的计算公式如下：

FA＝1-|y'_i-y_i|/y_i (3)

对于异常检测的结果，用TP(True Positive)表示异常样本被判定为异常的个数，FN(False Negative)表示异常样本被判定为正常的个数，FP(False Positive)表示正常样本被判定为异常的个数，TN(TrueNegative)表示正常样本被判定为正常的个数。在实际的检测过程中，TP和TN是期望的情况，而FP和FN都是需要尽量避免的情况。根据上述定义，选用在异常检测方法中常用的精确率(precision)和特异度(specificity)两个指标来评价异常检测的结果。它们具体的计算公式如下，其中用P表示的是精确率、S表示的是特异度：

D-S证据推断效果评价标准

FPR指的是误报率，也被称为假阳率，它表示的是错误判断的正常样本比例。FPR的计算方式如公式5所示，其中FP表示的是正常样本被判定为异常的个数，TN表示的是正常样本被判定为正常的个数。

F值是对精确率和召回率综合评判的结果，其计算方式如公式6所示。其中P表示的是精确率，R表示的是召回率，P的计算方式如下：

其中

为了验证本发明涉及的算法的性能，本实施例中进行仿真对比实验，具体分析如下：

本实施例中SFLA算法流程如图4所示，根据图5分析表中的数据发现，当CNN 的参数设置为弃权率等于0.05，训练批次等于80，批次大小等于200的时候，算法在各项指标上均能达到较优的水平。在这三个核心参数中，弃权率的取值对实验结果的影响最大，批次大小其次，而训练批次的取值对于实验结果的影响相对较小。另外，对比表中PSO算法和SFLA算法搜索的结果发现，这两种算法在RMSE、MAE以及FA三个指标上均表现较优。但是，在实验过程中PSO算法的性能相比于SFLA来说是极其不稳定的，这正是本发明选择SFLA算法来优化CNN参数的主要原因。

不同异常检测算法的性能对比如图6所示，由图表数据可以看出，所有的算法特异度都达到了99％以上的水平。这是因为在所有的样本中异常样本相对于正常样本来说所占的比例是较小的，在实际应用中，这是一种很正常的现象。与此同时，通过对比所有实验数据发现，本发明方法提出的异常检测算法在精确率和特异度这两个指标上均表现较优，验证了该算法的有效性。

为了验证动态分配的D-S证据理论算法在水文数据异常检测上的优势，将其实验结果与SFLAMC-CNN算法、改进的K-means聚类算法和DARIMA异常检测算法进行对比；并选用误报率FPR以及F值这两个常用的异常检测评价指标对结果进行评价。详细的实验结果如图7、图8和图9所示，其中图7展示的是不同算法在异常检测结果中 TN和FP的值；图8和图9分别展示的是不同算法的误报率和F值。

通过分析上述内容发现，改进的K-means聚类算法以及DARIMA算法正确判断出的正常点个数较少、检测出的假阳性异常点个数较多，所以异常检测的误报率较高；而本发明提出的DA-DS异常检测算法相较于其它几种算法，不仅在误报率上有所降低，在F值上也表现较优。值得注意的是，DA-DS算法相较于本发明中提出的SFLAMC-CNN 算法的误报点减少了6个，误报率从原来的0.6％下降为0.3％，由此验证了动态分配的 D-S证据理论算法的有效性。

由上述性能分析可知，本发明方法较现有的算法检测精度较高，误报率更低，具有较好的应用前景。

Claims

1.一种基于时空信息的水文数据异常检测方法，其特征在于：包括如下步骤：

S1：划分出与待检测站点相关联的站点；

2.根据权利要求1所述的一种基于时空信息的水文数据异常检测方法，其特征在于：所述步骤S1中待检测站点相关联的站点的划分方法包括如下步骤：

A1：获取待检测站点的降雨量时间序列R₀以及该流域内其它任一站点的降雨量时间序列R_i，并且有R_i＝<(r₁，t₁)，(r₂，t₂)，…(r_n，t_n)>，序列中的每个点<r_i，t_i>表示在t_i时刻该站点的降雨量为r_i，并定义R₀为参考序列，R_m为测试序列；

A2：构造一个距离矩阵，矩阵中的元素i，j表示R₀和R_m中r_i之间的距离，该距离的计算方式如公式

式中W(k)＝{w₁，w₂，...，w_k}表示的是一条使得总弯曲代价最小的最佳匹配路径；

计算出待检测站点与其它所有站点的相似度，并根据不同站点之间相似度的排序确定待检测站点的关联站点，式中，D(R₀，R_m)表示两个降雨量时间序列DTW距离的历史最大距离。

3.根据权利要求1所述的一种基于时空信息的水文数据异常检测方法，其特征在于：所述步骤S2中水位时间序列的划分包括暴雨区间和非暴雨区间，该方法包括如下步骤：

B1：根据公式

计算待检测站点t₁，t₂，...，t_n时刻的加权累积降雨量a₁，a₂，...，a_n，并得到加权累积降雨量时间序列Q₁＝<(a₁，t₁)，(a₂，t₂)，...，(a_n，t_n)>；

B2：对序列Q₁加入一个过滤规则，即对于序列中的任一时刻t_i的加权累积降雨量a_i，设定阈值ε，如果满足a_i＞ε，则将点a_i加入新的序列Q；

B3：将序列Q中的点按照P＝<(t₁，t₂，...，t_n)，(a₁，a₂，...，a_n)>的格式输入DBSCAN聚类算法；然后使用DBSCAN聚类算法对集合P中的n个样本点进行聚类，用count(Center)表示当前核心点个数，在集合P中任意选择一个没有类别的核心对象作为种子；接着根据公式

找到这个核心对象能够密度可达的所有点，形成一个聚类簇；最后在(n-count(center))个样本点中继续选择没有类别的对象去寻找密度可达的所有点，得到另一个聚类簇，重复执行上述步骤直到所有对象都有类别为止，输出暴雨区间结果result＝((c₁，c₂...c_n)，C)。

4.根据权利要求1所述的一种基于时空信息的水文数据异常检测方法，其特征在于：所述步骤S3中建立的卷积神经网络模型网络结构依次包括输入层、卷积层、BN层、激活层、Flatten层、Dropout层、全连接层、输出层。

5.根据权利要求1所述的一种基于时空信息的水文数据异常检测方法，其特征在于：所述步骤S3具体包括如下步骤：

C1：将卷积神经网络的核心参数弃权率Dropout、批次数epoch以及批次大小batch_size用一维向量表示为Q＝[Dropout，epoch，batch_size]，将n个向量Q₁，Q₂，...，Q_n作为SFLA算法中的个体，以均方误差的最小值为目标建立最优化网络，其中均方误差的计算公式为：

其中y_k，p表示的是训练样本p在k输出端的网络实际输出，d_k，p为相应的给定输出，将n个向量中使得均方误差最小的向量记为Q_min，Q_min中的值即为SFLA算法为CNN搜索到的一组最优参数；

C3：根据马尔可夫链输入数据的格式输入残差序列e_t，模型经过训练后得到状态转移概率矩阵，得到残差序列的预测值N_t；

C4：输入给定样本数据集

其中y为水位时间序列的实际值，x₁为SFLA-CNN模型的水位预测序列，x₂为MC的残差预测序列，然后由获取的样本数据集根据公式得到线性回归方程，表示为：

进行最小二乘拟合，并得到拟合值X_t；

6.根据权利要求1所述的一种基于时空信息的水文数据异常检测方法，其特征在于：所述步骤S4具体为：

输入待检测站点及其关联站点的降雨量时间序列集合R＝{R₁，R₂，...，R_n}和水位时间序列集合X＝{X₁，X₂，...，X_n}，使用步骤S3的SFLAMC-CNN异常检测算法对待检测站点及其关联站点分别进行异常检测，并得到这些站点的异常检测结果以及AUC时间序列集合C＝{C₁，C₂，...，C_n}。

7.根据权利要求6所述的一种基于时空信息的水文数据异常检测方法，其特征在于：所述步骤S5具体为：

D1：使用梯度优化指数平滑法对集合C中的时间序列分别进行训练，并得到待检测站点及其关联站点预测的AUC值集合c＝{c₁，c₂，...，c_n}，根据待检测站点及其关联站点实时预测的AUC值，根据公式m(A)＝ES(auc)，m(N)＝1-m(A)为D-S证据理论中的基本概率动态赋值，其中m(A)表示异常状态的mass函数值，m(N)表示正常状态的mass函数值，ES(auc)表示梯度优化指数平滑法实时预测的AUC值；

D2：根掘

计算出反映不同状态冲突程度的k值，根据公式

表示的合成规则对不同状态的mass函数进行合成；