CN112506990A - 一种基于时空信息的水文数据异常检测方法 - Google Patents
一种基于时空信息的水文数据异常检测方法 Download PDFInfo
- Publication number
- CN112506990A CN112506990A CN202011397130.5A CN202011397130A CN112506990A CN 112506990 A CN112506990 A CN 112506990A CN 202011397130 A CN202011397130 A CN 202011397130A CN 112506990 A CN112506990 A CN 112506990A
- Authority
- CN
- China
- Prior art keywords
- value
- sequence
- station
- detected
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A10/00—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE at coastal zones; at river basins
- Y02A10/40—Controlling or monitoring, e.g. of flood or hurricane; Forecasting, e.g. risk assessment or mapping
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Fuzzy Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Testing Or Calibration Of Command Recording Devices (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
本发明公开了一种基于时空信息的水文数据异常检测方法,包括:关联站点划分;水位时间序列划分;利用训练好的卷积神经网络(CNN)模型得到模型输出结果,并使用马尔科夫链(MC)对模型输出结果进行残差值预测,根据模型输出结果和预测的残差值判断异常站点;获取到待检测站点和其所有关联站点的异常状况;采用动态分配D‑S证据理论(DA‑DS)算法进行结果融合,得到水文数据异常预测结果。本发明充分考虑暴雨季对于水文数据的影响,提高了检测精度,并且引入混合蛙跳算法(SFLA)来改进卷积网络参数,加入MC算法来进行残差预测,增加了预测数据的准确性;最后通过动态分配D‑S证据理论,充分考量了空间因素,将多关联站点预测结果融合,有效减少了误报次数。
Description
技术领域
本发明属于数据挖掘领域,涉及一种数据异常检测方法,具体涉及一种基于时空信息的水文数据异常检测方法。
背景技术
近年来,由于乱砍滥伐、掠夺性使用森林资源,我国长江、黄河流域植被遭到损坏,土地沙漠化严重,洪涝灾害时有发生。据不完全统计,建国以来,我国洪涝受灾面积年均1.34亿亩,成灾面积0.76亿亩,直接经济损失达上百亿元。鉴于上述情况,如何利用有效的方法精准、快速地预报洪水,对于防洪减灾、调节生态平衡以及区域水资源的调度具有重要的意义。
异常检测作为数据挖掘领域的重要分支,在众多领域中都得到了广泛的应用[1-3]。随着水利信息化水平的不断提高,水利行业的发展也迎来了新的生机,如何利用有效的方法从海量的水文数据中挖掘出有价值的信息已成为水利信息化过程中研究的关键问题。近年来,学者们对水文数据异常检测进行了大量的研究,也取得了颇丰的研究成果。早先,研究人员们使用传统的数据模型或者简单的机器学习模型达到了较好的实验效果,其中比较具有代表性的模型有滑动窗口、ARIMA等。但是,随着大数据时代的到来,传统的模型已经难以适应庞大数据量的计算以及水文数据复杂特性的处理。针对此问题,学者们开始通过组合模型的方式来弥补传统单一模型存在的缺陷,从而有效提高了实验结果的准确性。后来,随着神经网络以及深度学习的不断发展,像BP神经网络[4]、长短期记忆网络(Long Short-Term Memory,LSTM)[5]等诸多算法在异常检测领域也得到了广泛的应用,这些算法利用神经网络强大的特征学习能力以及计算能力在异常检测的精度上有了很大的提升。
综上所述,利用有效的方法对水文数据进行分析处理,既是相关部门防洪报汛的要求,也是国民经济建设的重要保障。若能够综合分析出一套完整的水文数据异常检测体系,不仅能够有效提高水文数据异常检测的精度,而且还能够将此理论体系应用于其它领域的异常检测中。目前,应用于水文数据异常检测的算法在异常检测的精度上已经能够达到较高的水平。但是,现有的异常检测算法对于水文数据表现出的季节性、随机性以及时空相关性等复杂特性处理尚不够充分,所以在异常检测的精度上还存在较大的提升空间,值得投入大量的时间和精力去开展研究。
发明内容
发明目的:针对现有技术中对于水文数据复杂特性的处理尚不够充分,导致检测的误报率较高、检出率低的现状,本发明结合了基于加权累积降雨量的水文时间序列划分方法和基于SFLA-CNN和MC的水文数据异常检测算法,并引入动态分配D-S证据理论来进行多站关联异常检测,提出一种准确率较高且误报率显著降低的基于时空信息的水文数据异常检测方法。
技术方案:为实现上述目的,本发明提供一种基于时空信息的水文数据异常检测方法,包括如下步骤:
S1:划分出与待检测站点相关联的站点;
S2:根据划分出的站点,将水文数据的水位时间序列进行划分;
S3:根据划分好的水位时间序列,利用训练好的卷积神经网络模型得到模型输出结果,并使用马尔科夫链对模型输出结果进行残差值预测,根据模型输出结果和预测的残差值判断站点是否发生异常;
S4:通过步骤S3的方法获取到待检测站点和其所有关联站点的异常状况;
S5:采用DA-DS算法对步骤S4获取的结果进行融合,得到最终水文数据异常预测结果。
进一步地,所述步骤S1中待检测站点相关联的站点的划分方法包括如下步骤:
A1:获取待检测站点的降雨量时间序列R0以及该流域内其它任一站点的降雨量时间序列Ri,并且有Ri=<(r1,t1),(r2,t2),…(rn,tn)>,序列中的每个点<ri,ti>表示在ti时刻该站点的降雨量为ri,并定义R0为参考序列,Rm为测试序列;
A3:重复步骤A1-A2,计算出R0与其它所有降雨量时间序列之间的相似性,根据公式计算出待检测站点与其它所有站点的相似度,并根据不同站点之间相似度的排序确定待检测站点的关联站点,式中,D(R0,Rm) 表示两个降雨量时间序列DTW距离的历史最大距离。
进一步地,所述步骤S2中水位时间序列的划分包括暴雨区间和非暴雨区间,该方法包括如下步骤:
B2:对序列Q1加入一个过滤规则,即对于序列中的任一时刻ti的加权累积降雨量ai,如果满足ai>ε,则将点ai加入新的序列Q;
B3:由于在非暴雨时期也会出现短暂的强降水,在序列Q中也会包含少数的“非暴雨时期点”,所以需要使用算法将这些数据剔除出去。具体的做法如下:将序列Q中的点按照P=<(t1,t2,…,tn),(a1,a2,…,an)>的格式输入DBSCAN聚类算法;然后使用 DBSCAN聚类算法对集合P中的n个样本点进行聚类,用count(Center)表示当前核心点个数,在集合P中任意选择一个没有类别的核心对象作为种子;接着根据公式 找到这个核心对象能够密度可达的所有点,形成一个聚类簇;最后在(n- count(center))个样本点中继续选择没有类别的对象去寻找密度可达的所有点,这样就可以得到另一个聚类簇,重复执行上述步骤直到所有对象都有类别为止,输出暴雨区间结果result=((c1,c2…cn),C)。
进一步地,所述步骤S3中建立的卷积神经网络模型网络结构依次包括输入层、卷积层、BN层、激活层、Flatten层、Dropout层、全连接层、输出层。
进一步地,所述步骤S3具体包括如下步骤:
C1:将卷积神经网络的核心参数弃权率Dropout、批次数epoch以及批次大小batch_size用一维向量表示为Q=[Dropout,epoch,batch_size],将n个向量Q1,Q2,...,Qn作为SFLA算法中的个体,以均方误差的最小值为目标建立最优化网络,其中均方误差的计算公式为:其中yk,p表示的是训练样本p在k输出端的网络实际输出,dk,p为相应的给定输出,将n个向量中使得均方误差最小的向量记为Qmin,Qmin中的值即为SFLA算法为CNN搜索到的一组最优参数;
C2:将SFLA为卷积神经网络搜索到的最优的一组参数输入卷积神经网络并进行训练,得到初始水位预测值Lt,并根据公式et=xt-lt得到残差序列et,其中,lt表示的是预测的水位时间序列,xt表示的是原始的水位时间序列;
C3:根据马尔可夫链(MC)输入数据的格式输入残差序列et,模型经过训练后得到状态转移概率矩阵,根据马尔可夫链的“无后效性”(随机过程在n+1时刻的状态只与其在n时刻的状态有关):P{Xn+1=in+1}|X0=i0,X1=i1,…,Xn=in}=P{Xn+1= in+1}|Xn=in},得到残差序列的预测值Nt;
C6:根据OLS模型的拟合值Xt计算出置信度为1-α的置信区间,然后将实际值不在置信区间范围的判定为异常值;反之,为正常值。
进一步地,所述步骤S4具体为:
输入待检测站点及其关联站点的降雨量时间序列集合R={R1,R2,...,Rn}和水位时间序列集合X={X1,X2,...,Xn},使用步骤S3的SFLAMC-CNN异常检测算法对待检测站点及其关联站点分别进行异常检测,并得到这些站点的异常检测结果以及AUC时间序列集合C={C1,C2,...,Cn}。
进一步地,所述步骤S5具体为:
D1:使用梯度优化指数平滑法对集合C中的时间序列分别进行训练,并得到待检测站点及其关联站点预测的AUC值集合c={c1,c2,...,cn},根据待检测站点及其关联站点实时预测的AUC值,根据公式m(A)=ES(auc),m(N)=1-m(A)为D-S证据理论中的基本概率动态赋值,其中m(A)表示异常状态的mass函数值,m(N)表示正常状态的 mass函数值,ES(auc)表示梯度优化指数平滑法实时预测的AUC值;
D3:根据公式m(A)-m(N)>ε判断最终是否发生异常,即如果异常状态和正常状态的mass函数差值大于ε,则将该水位值判定为异常值;否则,判定为正常值。
有益效果:本发明与现有技术相比,使用基于WCR和DBSCAN的算法进行暴雨区间划分,确保充分考虑暴雨季对于水文数据的影响,提高了检测精度,并且在引入 SFLA来改进卷积神经网络参数,并加入MC算法来进行残差预测,进一步增加了预测数据的准确性;最后通过动态分配D-S证据理论,充分考量了空间因素,将多关联站点预测结果融合,有效减少了误报次数。
附图说明
图1是本发明的水文序列划分流程图;
图2是本发明水文数据预测流程图;
图3是本发明D-S证据推断流程图;
图4是SFLA算法流程图;
图5是各调参方式下CNN模型性能对比图;
图6是SFLAMC-CNN与其他异常检测算法性能对比图;
图7是DA-DS算法与其他异常检测算法结果对比图;
图8是DA-DS算法与其他异常检测算法误报率对比图。
图9是DA-DS算法与其他异常检测算法F值对比图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本发明提供一种基于时空信息的水文数据异常检测方法,包括如下步骤:
S1:划分出与待检测站点相关联的站点。具体包括如下步骤A1~A3:
A1:获取待检测站点的降雨量时间序列R0以及该流域内其它任一站点的降雨量时间序列Ri,并且有Ri=<(r1,t1),(r2,t2),…(rn,tn)>,序列中的每个点<ri,ti>表示在ti时刻该站点的降雨量为ri,并定义R0为参考序列,Rm为测试序列;
A3:重复步骤A1-A2,计算出R0与其它所有降雨量时间序列之间的相似性,根据公式计算出待检测站点与其它所有站点的相似度,并根据不同站点之间相似度的排序确定待检测站点的关联站点,式中,D(R0,Rm) 表示两个降雨量时间序列DTW距离的历史最大距离。
S2:根据划分出的站点,将水文数据的水位时间序列进行划分,水位时间序列的划分包括暴雨区间和非暴雨区间,该方法包括如下步骤B1~B3:
B2:对序列Q1加入一个过滤规则,即对于序列中的任一时刻ti的加权累积降雨量ai,如果满足ai>ε,则将点ai加入新的序列Q;
B3:由于在非暴雨时期也会出现短暂的强降水,在序列Q中也会包含少数的“非暴雨时期点”,所以需要使用算法将这些数据剔除出去。具体的做法如下:将序列Q中的点按照P=<(t1,t2,…,tn),(a1,a2,…,an)>的格式输入DBSCAN聚类算法;然后使用 DBSCAN聚类算法对集合P中的n个样本点进行聚类,用count(Center)表示当前核心点个数,在集合P中任意选择一个没有类别的核心对象作为种子;接着根据公式 找到这个核心对象能够密度可达的所有点,形成一个聚类簇;最后在(n- count(center))个样本点中继续选择没有类别的对象去寻找密度可达的所有点,这样就可以得到另一个聚类簇,重复执行上述步骤直到所有对象都有类别为止,输出暴雨区间结果result=((c1,c2…cn),C)。
S3:根据划分好的水位时间序列,利用训练好的卷积神经网络(CNN)模型得到模型输出结果,并使用马尔科夫链对模型输出结果进行残差值预测,根据模型输出结果和预测的残差值判断站点是否发生异常;
这里CNN模型网络结构依次包括输入层、卷积层、BN层、激活层、Flatten层、Dropout层、全连接层、输出层;具体包括如下步骤C1~C6:
C1:将卷积神经网络的核心参数弃权率Dropout、批次数epoch以及批次大小batch_size用一维向量表示为Q=[Dropout,epoch,batch_size],将n个向量Q1,Q2,...,Qn作为SFLA算法中的个体,以均方误差的最小值为目标建立最优化网络,其中均方误差的计算公式为:其中yk,p表示的是训练样本p在k输出端的网络实际输出,dk,p为相应的给定输出,将n个向量中使得均方误差最小的向量记为Qmin,Qmin中的值即为SFLA算法为CNN搜索到的一组最优参数;
C2:将SFLA为卷积神经网络搜索到的最优的一组参数输入卷积神经网络并进行训练,得到初始水位预测值Lt,并根据公式et=xt-lt得到残差序列et,其中,lt表示的是预测的水位时间序列,xt表示的是原始的水位时间序列;
C3:根据MC输入数据的格式输入残差序列et,模型经过训练后得到状态转移概率矩阵,再根据MC的“无后效性”得到残差序列的预测值Nt;
C6:根据OLS模型的拟合值Xt计算出置信度为1-α的置信区间,然后将实际值不在置信区间范围的判定为异常值;反之,为正常值。
S4:通过步骤S3的方法获取到待检测站点和其所有关联站点的异常状况:
输入待检测站点及其关联站点的降雨量时间序列集合R={R1,R2,...,Rn}和水位时间序列集合X={X1,X2,...,Xn},使用步骤S3的SFLAMC-CNN异常检测算法对待检测站点及其关联站点分别进行异常检测,并得到这些站点的异常检测结果以及AUC时间序列集合C={C1,C2,...,Cn}。
S5:采用DA-DS算法对步骤S4获取的结果进行融合,得到最终水文数据异常预测结果。该步骤具体包括如下步骤D1~D3:
D1:使用梯度优化指数平滑法对集合C中的时间序列分别进行训练,并得到待检测站点及其关联站点预测的AUC值集合c={c1,c2,...,cn},根据待检测站点及其关联站点实时预测的AUC值,根据公式m(A)=ES(auc),m(N)=1-m(A)为D-S证据理论中的基本概率动态赋值,其中m(A)表示异常状态的mass函数值,m(N)表示正常状态的 mass函数值,ES(auc)表示梯度优化指数平滑法实时预测的AUC值;
D3:根据公式m(A)-m(N)>ε判断最终是否发生异常,即如果异常状态和正常状态的mass函数差值大于ε,则将该水位值判定为异常值;否则,判定为正常值。
基于上述水文数据异常检测方法,本实施例采用Python3.6.5编程语言和Keras2.2.4 开发框架,使用JetBrains PyCharm 2018.1.4x64进行开发,其中,配置为2.6GHzCPU、 8G内存的笔记本电脑,操作系统为Windows10家庭版。
本实施例选用的是里下河流域多个关联站点的水位和降雨量实测数据。该数据集记录的是这些关联站点2013年05月1日到2018年05月31日每小时的实际观测值,共 219744条数据。这些关联站点是里下河流域的重要水文站点,对于该流域的防洪调度、生态环境调节等起到至关重要的作用。本实施例为了进一步提高实验结果的准确性,采用交叉验证法(cross validation)对数据集进行预处理。该方法将获取的数据集随机划分为10个互斥子集,其中训练数据集占90%,测试数据集占10%,模型最终取互斥子集实验结果的平均值作为输出结果。
具体的检测过程中依次分为水文序列划分和水文数据异常检测两大部分,其中水文序列划分依次包括关联站点划分和暴雨区间划分两部分,水文数据异常检测依次包括单站点水文数据异常检测和多站点检测结果融合两部分
1、参照图1,水文序列划分步骤如下:
降雨量时间序列R0,R1,...Rn,其中R0为待检测站点的降雨量时间序列,其余为该流域其它站点的降雨量时间序列,并且有Ri=<(r1,t1),(r2,t2),…(rn,tn)>,序列中的每个点<ri,ti>表示在ti时刻该站点的降雨量为ri;
(1)关联站点划分
步骤1:获取待检测的降雨量时间序列R0以及该流域内其它任一站点的降雨量时间序列Ri,并定义R0为参考序列,Rm为测试序列;
步骤3:重复步骤1-2,计算出R0与其它所有降雨量时间序列之间的相似性,根据公式计算出待检测站点与其它所有站点的相似度,并根据不同站点之间相似度的排序确定待检测站点的关联站点,式中,D(R0,Rm) 表示两个降雨量时间序列DTW距离的历史最大距离;
(2)暴雨区间划分
步骤2:对序列Q1加入一个过滤规则,即对于序列中的任一时刻ti的加权累积降雨量ai,如果满足ai>ε,则将点ai加入新的序列Q;
本实施例中根据天气预报对降雨等级的划分来确定阈值ε的大小,划分规则如下表所示:
步骤3:由于在非暴雨时期也会出现短暂的强降水,在序列Q中也会包含少数的“非暴雨时期点”,所以需要使用算法将这些数据剔除出去。具体的做法如下:将序列Q中的点按照P=<(t1,t2,…,tn),(a1,a2,…,an)>的格式输入DBSCAN聚类算法;然后使用 DBSCAN聚类算法对集合P中的n个样本点进行聚类,用count(Center)表示当前核心点个数,在集合P中任意选择一个没有类别的核心对象作为种子;接着根据公式 找到这个核心对象能够密度可达的所有点,形成一个聚类簇;最后在(n- count(center))个样本点中继续选择没有类别的对象去寻找密度可达的所有点,这样就可以得到另一个聚类簇,重复执行上述步骤直到所有对象都有类别为止,输出结果 result=((c1,c2…cn),C);
2、水文数据异常检测步骤如下:
获取数据待检测站点及其关联站点的降雨量时间序列集合R={R1,R2,...,Rn}和水位时间序列集合X={X1,X2,...,Xn};
(1)单站点水文数据异常检测
参照图2,其具体包括如下步骤:
步骤1:搭建CNN模型,CNN网络结构依次为:输入层、卷积层、BN层、激活层、Flatten层、Dropout层、全连接层、输出层;
步骤2:将CNN的核心参数弃权率Dropout、批次数epoch以及批次大小batch_size用一维向量表示为Q=[Dropout,epoch,batch_size],将n个向量Q1,Q2,...,Qn作为SFLA 算法中的个体,以均方误差的最小值为目标建立最优化网络,其中均方误差的计算公式为:其中yk,p表示的是训练样本p在k输出端的网络实际输出,dk,p为相应的给定输出。将n个向量中使得均方误差最小的向量记为Qmin,Qmin中的值即为SFLA算法为CNN搜索到的一组最优参数;
步骤3:将SFLA为CNN搜索到的最优的一组参数输入CNN并进行训练,得到初始水位预测值Lt,并根据公式et=xt-lt得到残差序列et,其中,lt表示的是预测的水位时间序列,xt表示的是原始的水位时间序列;
步骤4:根据MC输入数据的格式输入残差序列et,模型经过训练后得到状态转移概率矩阵,再根据MC的“无后效性”得到残差序列的预测值Nt,实验数据如下表所示:
由表中数据可知,如果在dt-1时刻得到的预测残差为0.01,则在dt时刻预测的残差有0.7%的概率落在-0.06~-0.03之间,有81.7%的概率落在-0.03~0之间,有17.5%的概率落在0-0.03之间。如上所述,根据残差坐落区间概率的大小,最终确定残差的预测值在区间-0.03~0内,并取区间的中位数-0.015作为残差预测值;
步骤6:根据OLS模型的拟合值Xt计算出置信度为1-α的置信区间,然后将实际值不在置信区间范围的判定为异常值;反之,为正常值;
(2)多站点检测结果融合
参照图3,其包括如下步骤:
步骤1:输入待检测站点及其关联站点的降雨量时间序列集合R={R1,R2,...,Rn}和水位时间序列集合X={X1,X2,...,Xn},使用上述SFLAMC-CNN异常检测算法对待检测站点及其关联站点分别进行异常检测,并得到这些站点的异常检测结果以及AUC时间序列集合C={C1,C2,...,Cn};
步骤2:使用梯度优化指数平滑法对集合C中的时间序列分别进行训练,并得到待检测站点及其关联站点预测的AUC值集合c={c1,c2,...,cn},根据待检测站点及其关联站点实时预测的AUC值,根据公式m(A)=ES(auc),m(N)=1-m(A)为D-S证据理论中的基本概率动态赋值,其中m(A)表示的是异常状态的mass函数值,m(N)表示的是正常状态的mass函数值,ES(auc)表示的是梯度优化指数平滑法实时预测的AUC值;
步骤4:本实施例中将D-S证据理论判断规则中的阈值ε设为0.5,根据公式 m(A)-m(N)>ε判断最终是否发生异常,即如果异常状态和正常状态的mass函数差值大于0.5,则将该水位值判定为异常值;否则,判定为正常值。
本实施例中对模型性能的评价标准进行如下说明:
RMSE(Root Mean Square Error)指的是均方根误差,其值越小说明算法对于序列的非线性拟合得越好。RMSE对于残差较大的值较为敏感,所以根据均方根误差能够看出预测的准确性。RMSE的计算方式如公式1所示,其中y'i表示预测值,yi表示实际值, n表示用于预测的样本大小
MAE(Mean Absolute Error)指的是平均绝对误差,它是衡量预测结果的另一个重要指标。MAE的值越小说明误差越低,能够很好地反映出预测值误差的实际情况。MAE 计算公式如下:
FA(ForecastAccuracy)指的是预报准确率,使用数值衡量预测值与实际值接近的程度,其值越大说明预测结果越精确。FA的计算公式如下:
FA=1-|y'i-yi|/yi (3)
对于异常检测的结果,用TP(True Positive)表示异常样本被判定为异常的个数,FN(False Negative)表示异常样本被判定为正常的个数,FP(False Positive)表示正常样本被判定为异常的个数,TN(TrueNegative)表示正常样本被判定为正常的个数。在实际的检测过程中,TP和TN是期望的情况,而FP和FN都是需要尽量避免的情况。根据上述定义,选用在异常检测方法中常用的精确率(precision)和特异度(specificity)两个指标来评价异常检测的结果。它们具体的计算公式如下,其中用P表示的是精确率、S表示的是特异度:
D-S证据推断效果评价标准
FPR指的是误报率,也被称为假阳率,它表示的是错误判断的正常样本比例。FPR的计算方式如公式5所示,其中FP表示的是正常样本被判定为异常的个数,TN表示的是正常样本被判定为正常的个数。
F值是对精确率和召回率综合评判的结果,其计算方式如公式6所示。其中P表示的是精确率,R表示的是召回率,P的计算方式如下:
为了验证本发明涉及的算法的性能,本实施例中进行仿真对比实验,具体分析如下:
本实施例中SFLA算法流程如图4所示,根据图5分析表中的数据发现,当CNN 的参数设置为弃权率等于0.05,训练批次等于80,批次大小等于200的时候,算法在各项指标上均能达到较优的水平。在这三个核心参数中,弃权率的取值对实验结果的影响最大,批次大小其次,而训练批次的取值对于实验结果的影响相对较小。另外,对比表中PSO算法和SFLA算法搜索的结果发现,这两种算法在RMSE、MAE以及FA三个指标上均表现较优。但是,在实验过程中PSO算法的性能相比于SFLA来说是极其不稳定的,这正是本发明选择SFLA算法来优化CNN参数的主要原因。
不同异常检测算法的性能对比如图6所示,由图表数据可以看出,所有的算法特异度都达到了99%以上的水平。这是因为在所有的样本中异常样本相对于正常样本来说所占的比例是较小的,在实际应用中,这是一种很正常的现象。与此同时,通过对比所有实验数据发现,本发明方法提出的异常检测算法在精确率和特异度这两个指标上均表现较优,验证了该算法的有效性。
为了验证动态分配的D-S证据理论算法在水文数据异常检测上的优势,将其实验结果与SFLAMC-CNN算法、改进的K-means聚类算法和DARIMA异常检测算法进行对比;并选用误报率FPR以及F值这两个常用的异常检测评价指标对结果进行评价。详细的实验结果如图7、图8和图9所示,其中图7展示的是不同算法在异常检测结果中 TN和FP的值;图8和图9分别展示的是不同算法的误报率和F值。
通过分析上述内容发现,改进的K-means聚类算法以及DARIMA算法正确判断出的正常点个数较少、检测出的假阳性异常点个数较多,所以异常检测的误报率较高;而本发明提出的DA-DS异常检测算法相较于其它几种算法,不仅在误报率上有所降低,在F值上也表现较优。值得注意的是,DA-DS算法相较于本发明中提出的SFLAMC-CNN 算法的误报点减少了6个,误报率从原来的0.6%下降为0.3%,由此验证了动态分配的 D-S证据理论算法的有效性。
由上述性能分析可知,本发明方法较现有的算法检测精度较高,误报率更低,具有较好的应用前景。
Claims (7)
1.一种基于时空信息的水文数据异常检测方法,其特征在于:包括如下步骤:
S1:划分出与待检测站点相关联的站点;
S2:根据划分出的站点,将水文数据的水位时间序列进行划分;
S3:根据划分好的水位时间序列,利用训练好的卷积神经网络模型得到模型输出结果,并使用马尔科夫链对模型输出结果进行残差值预测,根据模型输出结果和预测的残差值判断站点是否发生异常;
S4:通过步骤S3的方法获取到待检测站点和其所有关联站点的异常状况;
S5:采用DA-DS算法对步骤S4获取的结果进行融合,得到最终水文数据异常预测结果。
2.根据权利要求1所述的一种基于时空信息的水文数据异常检测方法,其特征在于:所述步骤S1中待检测站点相关联的站点的划分方法包括如下步骤:
A1:获取待检测站点的降雨量时间序列R0以及该流域内其它任一站点的降雨量时间序列Ri,并且有Ri=<(r1,t1),(r2,t2),…(rn,tn)>,序列中的每个点<ri,ti>表示在ti时刻该站点的降雨量为ri,并定义R0为参考序列,Rm为测试序列;
3.根据权利要求1所述的一种基于时空信息的水文数据异常检测方法,其特征在于:所述步骤S2中水位时间序列的划分包括暴雨区间和非暴雨区间,该方法包括如下步骤:
B2:对序列Q1加入一个过滤规则,即对于序列中的任一时刻ti的加权累积降雨量ai,设定阈值ε,如果满足ai>ε,则将点ai加入新的序列Q;
4.根据权利要求1所述的一种基于时空信息的水文数据异常检测方法,其特征在于:所述步骤S3中建立的卷积神经网络模型网络结构依次包括输入层、卷积层、BN层、激活层、Flatten层、Dropout层、全连接层、输出层。
5.根据权利要求1所述的一种基于时空信息的水文数据异常检测方法,其特征在于:所述步骤S3具体包括如下步骤:
C1:将卷积神经网络的核心参数弃权率Dropout、批次数epoch以及批次大小batch_size用一维向量表示为Q=[Dropout,epoch,batch_size],将n个向量Q1,Q2,...,Qn作为SFLA算法中的个体,以均方误差的最小值为目标建立最优化网络,其中均方误差的计算公式为:其中yk,p表示的是训练样本p在k输出端的网络实际输出,dk,p为相应的给定输出,将n个向量中使得均方误差最小的向量记为Qmin,Qmin中的值即为SFLA算法为CNN搜索到的一组最优参数;
C2:将SFLA为卷积神经网络搜索到的最优的一组参数输入卷积神经网络并进行训练,得到初始水位预测值Lt,并根据公式et=xt-lt得到残差序列et,其中,lt表示的是预测的水位时间序列,xt表示的是原始的水位时间序列;
C3:根据马尔可夫链输入数据的格式输入残差序列et,模型经过训练后得到状态转移概率矩阵,得到残差序列的预测值Nt;
C6:根据OLS模型的拟合值Xt计算出置信度为1-α的置信区间,然后将实际值不在置信区间范围的判定为异常值;反之,为正常值。
6.根据权利要求1所述的一种基于时空信息的水文数据异常检测方法,其特征在于:所述步骤S4具体为:
输入待检测站点及其关联站点的降雨量时间序列集合R={R1,R2,...,Rn}和水位时间序列集合X={X1,X2,...,Xn},使用步骤S3的SFLAMC-CNN异常检测算法对待检测站点及其关联站点分别进行异常检测,并得到这些站点的异常检测结果以及AUC时间序列集合C={C1,C2,...,Cn}。
7.根据权利要求6所述的一种基于时空信息的水文数据异常检测方法,其特征在于:所述步骤S5具体为:
D1:使用梯度优化指数平滑法对集合C中的时间序列分别进行训练,并得到待检测站点及其关联站点预测的AUC值集合c={c1,c2,...,cn},根据待检测站点及其关联站点实时预测的AUC值,根据公式m(A)=ES(auc),m(N)=1-m(A)为D-S证据理论中的基本概率动态赋值,其中m(A)表示异常状态的mass函数值,m(N)表示正常状态的mass函数值,ES(auc)表示梯度优化指数平滑法实时预测的AUC值;
D3:根据公式m(A)-m(N)>ε判断最终是否发生异常,即如果异常状态和正常状态的mass函数差值大于ε,则将该水位值判定为异常值;否则,判定为正常值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011397130.5A CN112506990B (zh) | 2020-12-03 | 2020-12-03 | 一种基于时空信息的水文数据异常检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011397130.5A CN112506990B (zh) | 2020-12-03 | 2020-12-03 | 一种基于时空信息的水文数据异常检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112506990A true CN112506990A (zh) | 2021-03-16 |
CN112506990B CN112506990B (zh) | 2022-10-04 |
Family
ID=74969491
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011397130.5A Active CN112506990B (zh) | 2020-12-03 | 2020-12-03 | 一种基于时空信息的水文数据异常检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112506990B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113204551A (zh) * | 2021-04-30 | 2021-08-03 | 上海川河水利规划设计有限公司 | 一种河堤护岸设计方法、系统、智能终端及存储介质 |
CN113239957A (zh) * | 2021-04-08 | 2021-08-10 | 同济大学 | 一种突发水污染事件在线识别方法 |
CN113344288A (zh) * | 2021-06-28 | 2021-09-03 | 南京大学 | 梯级水电站群水位预测方法、装置及计算机可读存储介质 |
CN113837475A (zh) * | 2021-09-27 | 2021-12-24 | 中水珠江规划勘测设计有限公司 | 有向图深度神经网络径流概率预报方法、系统、设备及终端 |
CN113850418A (zh) * | 2021-09-02 | 2021-12-28 | 支付宝(杭州)信息技术有限公司 | 时间序列中异常数据的检测方法和装置 |
CN114236645A (zh) * | 2021-11-26 | 2022-03-25 | 中国水利水电科学研究院 | 一种大规模降雨监测异常站点筛查方法 |
CN114386334A (zh) * | 2022-01-19 | 2022-04-22 | 浙江大学 | 一种基于分布式水文径流模拟替代模型的径流滚动预报方法 |
CN115980890A (zh) * | 2023-03-17 | 2023-04-18 | 湖北省地质环境总站 | 一种基于时空要素的雨量站异常数据检测方法 |
CN116182949A (zh) * | 2023-02-23 | 2023-05-30 | 中国人民解放军91977部队 | 一种海洋环境水质监测系统及方法 |
CN116630122A (zh) * | 2023-07-24 | 2023-08-22 | 水利部交通运输部国家能源局南京水利科学研究院 | 基于水文-生态响应关系的湖泊生态水力调控方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106650767A (zh) * | 2016-09-20 | 2017-05-10 | 河海大学 | 基于聚类分析和实时校正的洪水预报方法 |
CN107908891A (zh) * | 2017-11-28 | 2018-04-13 | 河海大学 | 一种基于arima‑svr的水文时间序列异常值检测方法 |
WO2018076571A1 (zh) * | 2016-10-28 | 2018-05-03 | 南京华苏科技有限公司 | Lte网络中的异常值检测方法及系统 |
WO2018126984A2 (zh) * | 2017-01-06 | 2018-07-12 | 江南大学 | 一种基于mea-bp神经网络wsn异常检测方法 |
-
2020
- 2020-12-03 CN CN202011397130.5A patent/CN112506990B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106650767A (zh) * | 2016-09-20 | 2017-05-10 | 河海大学 | 基于聚类分析和实时校正的洪水预报方法 |
WO2018076571A1 (zh) * | 2016-10-28 | 2018-05-03 | 南京华苏科技有限公司 | Lte网络中的异常值检测方法及系统 |
WO2018126984A2 (zh) * | 2017-01-06 | 2018-07-12 | 江南大学 | 一种基于mea-bp神经网络wsn异常检测方法 |
CN107908891A (zh) * | 2017-11-28 | 2018-04-13 | 河海大学 | 一种基于arima‑svr的水文时间序列异常值检测方法 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113239957A (zh) * | 2021-04-08 | 2021-08-10 | 同济大学 | 一种突发水污染事件在线识别方法 |
CN113204551A (zh) * | 2021-04-30 | 2021-08-03 | 上海川河水利规划设计有限公司 | 一种河堤护岸设计方法、系统、智能终端及存储介质 |
CN113204551B (zh) * | 2021-04-30 | 2024-02-06 | 上海川河水利规划设计有限公司 | 一种河堤护岸设计方法、系统、智能终端及存储介质 |
CN113344288B (zh) * | 2021-06-28 | 2023-12-01 | 南京大学 | 梯级水电站群水位预测方法、装置及计算机可读存储介质 |
CN113344288A (zh) * | 2021-06-28 | 2021-09-03 | 南京大学 | 梯级水电站群水位预测方法、装置及计算机可读存储介质 |
CN113850418A (zh) * | 2021-09-02 | 2021-12-28 | 支付宝(杭州)信息技术有限公司 | 时间序列中异常数据的检测方法和装置 |
CN113837475A (zh) * | 2021-09-27 | 2021-12-24 | 中水珠江规划勘测设计有限公司 | 有向图深度神经网络径流概率预报方法、系统、设备及终端 |
CN113837475B (zh) * | 2021-09-27 | 2024-04-05 | 中水珠江规划勘测设计有限公司 | 有向图深度神经网络径流概率预报方法、系统、设备及终端 |
CN114236645A (zh) * | 2021-11-26 | 2022-03-25 | 中国水利水电科学研究院 | 一种大规模降雨监测异常站点筛查方法 |
CN114386334A (zh) * | 2022-01-19 | 2022-04-22 | 浙江大学 | 一种基于分布式水文径流模拟替代模型的径流滚动预报方法 |
CN116182949A (zh) * | 2023-02-23 | 2023-05-30 | 中国人民解放军91977部队 | 一种海洋环境水质监测系统及方法 |
CN116182949B (zh) * | 2023-02-23 | 2024-03-19 | 中国人民解放军91977部队 | 一种海洋环境水质监测系统及方法 |
CN115980890A (zh) * | 2023-03-17 | 2023-04-18 | 湖北省地质环境总站 | 一种基于时空要素的雨量站异常数据检测方法 |
CN116630122B (zh) * | 2023-07-24 | 2023-09-19 | 水利部交通运输部国家能源局南京水利科学研究院 | 基于水文-生态响应关系的湖泊生态水力调控方法及系统 |
CN116630122A (zh) * | 2023-07-24 | 2023-08-22 | 水利部交通运输部国家能源局南京水利科学研究院 | 基于水文-生态响应关系的湖泊生态水力调控方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112506990B (zh) | 2022-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112506990B (zh) | 一种基于时空信息的水文数据异常检测方法 | |
AU2018101946A4 (en) | Geographical multivariate flow data spatio-temporal autocorrelation analysis method based on cellular automaton | |
WO2022135265A1 (zh) | 气候变化影响下水库调度规则的失效预警分析方法 | |
Feng et al. | Using exploratory regression to identify optimal driving factors for cellular automaton modeling of land use change | |
CN102185735B (zh) | 一种网络安全态势预测方法 | |
CN112735097A (zh) | 一种区域滑坡预警方法及系统 | |
CN107886160B (zh) | 一种bp神经网络区间需水预测方法 | |
Chen et al. | Probabilistic forecasting of drought: a hidden Markov model aggregated with the RCP 8.5 precipitation projection | |
CN110738355A (zh) | 一种基于神经网络的城市内涝预测方法 | |
CN110276477B (zh) | 一种基于分层贝叶斯网络和增量学习的洪水预报方法 | |
CN110414715B (zh) | 一种基于社团检测的客流量预警方法 | |
CN115654381A (zh) | 一种基于图神经网络的供水管道漏损检测方法 | |
KR101703972B1 (ko) | 공간정보를 이용한 지하수 부존 지역 예측시스템 및 지하수 부존 지역 예측방법 | |
CN117332909B (zh) | 基于智能体的多尺度城市内涝道路交通暴露性预测方法 | |
Wu et al. | Parametrized division of exposure zone for marine reinforced concrete structures with a multi-class Boosting method | |
CN117272202A (zh) | 大坝变形异常值识别方法及系统 | |
Ahani et al. | A feature weighting and selection method for improving the homogeneity of regions in regionalization of watersheds | |
Zahraie et al. | SST clustering for winter precipitation prediction in southeast of Iran: Comparison between modified K-means and genetic algorithm-based clustering methods | |
Lu et al. | Uncertainty quantification of machine learning models to improve streamflow prediction under changing climate and environmental conditions | |
CN109190783B (zh) | 城市水网渗漏空间聚集性检测及关键影响因素识别方法 | |
CN114880954A (zh) | 一种基于机器学习的滑坡敏感性的评估方法 | |
CN115423146A (zh) | 一种基于多因子最近邻抽样回归和支持向量机的自适应径流预报方法 | |
Liu et al. | Uncertainty quantification of machine learning models to improve streamflow prediction under changing climate and environmental conditions | |
Jiang et al. | Discharge estimation based on machine learning | |
Liu et al. | Estimation of extreme value vehicle load based on the extended Burr XII distribution |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |