CN116720753A - 水文数据的处理方法、系统及可读存储介质 - Google Patents
水文数据的处理方法、系统及可读存储介质 Download PDFInfo
- Publication number
- CN116720753A CN116720753A CN202310982632.1A CN202310982632A CN116720753A CN 116720753 A CN116720753 A CN 116720753A CN 202310982632 A CN202310982632 A CN 202310982632A CN 116720753 A CN116720753 A CN 116720753A
- Authority
- CN
- China
- Prior art keywords
- data
- data points
- abnormal
- hydrologic
- index value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 39
- 238000003672 processing method Methods 0.000 title claims abstract description 11
- 230000002159 abnormal effect Effects 0.000 claims abstract description 120
- 238000000034 method Methods 0.000 claims abstract description 37
- 238000001514 detection method Methods 0.000 claims abstract description 35
- 238000013524 data verification Methods 0.000 claims abstract description 11
- 238000002955 isolation Methods 0.000 claims abstract description 9
- 230000008521 reorganization Effects 0.000 claims description 21
- 238000012360 testing method Methods 0.000 claims description 9
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 8
- 238000012937 correction Methods 0.000 claims description 6
- YHXISWVBGDMDLQ-UHFFFAOYSA-N moclobemide Chemical compound C1=CC(Cl)=CC=C1C(=O)NCCN1CCOCC1 YHXISWVBGDMDLQ-UHFFFAOYSA-N 0.000 claims description 5
- 238000001704 evaporation Methods 0.000 claims description 4
- 230000008020 evaporation Effects 0.000 claims description 4
- 238000009499 grossing Methods 0.000 claims description 4
- 230000035772 mutation Effects 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 238000007689 inspection Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 8
- 238000012544 monitoring process Methods 0.000 description 4
- 230000000737 periodic effect Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000009954 braiding Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000001932 seasonal effect Effects 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0637—Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A10/00—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE at coastal zones; at river basins
- Y02A10/40—Controlling or monitoring, e.g. of flood or hurricane; Forecasting, e.g. risk assessment or mapping
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Educational Administration (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Economics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Development Economics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Quality & Reliability (AREA)
- Primary Health Care (AREA)
- Game Theory and Decision Science (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
本发明涉及一种水文数据的处理方法、系统及可读存储介质,其处理方法包括:采集水文数据并进行数据校验,判断数据校验是否通过;若否,则对校验不通过的异常数据序列进行后续处理;利用One‑Class SVM模型对数据点进行异常检测,得到第一指标值;分别利用EWMA算法、COF算法、Isolation Forest算法对数据点进行异常检测,并结合各算法的权重加权求和得到第二指标值;将数据点对应的历年数据输入LSTM模型得到拟合值,基于拟合值与异常数据序列的方差确定异常数据点,得到第三指标值;将第一指标值、第二指标值和第三指标值作为观测值输入隐马尔可夫模型得到目标异常数据点。本发明提升异常数据的识别精度。
Description
技术领域
本发明属于水文水利数据治理技术领域,具体涉及一种水文数据的处理方法、系统及可读存储介质。
背景技术
水文水利数据统一平台系统实现了江河湖库的雨量、水位、水温、流速、流量、蒸发等水文要素数据的自动化监测,为安全管理与运行调度提供及时有效的信息,及时预警,提高管理的效率和质量。
在实时监测过程中,由于信号、环境、天气等情况,监测的水文数据难免会出现数值错误、数据缺失等异常情况。随着水利信息化水平的不断提高,现有的异常检测算法对于水文数据表现出的季节性、随机性以及时空相关性等复杂特性处理不够充分,所以在异常检测的精度上还存在较大的提升空间。另外,对于异常情况下数据的修复也是当前亟需解决的难题。
发明内容
基于现有技术中存在的上述缺点和不足,本发明的目的之一是至少解决现有技术中存在的上述问题之一或多个,换言之,本发明的目的之一是提供满足前述需求之一或多个的一种水文数据的处理方法、系统及可读存储介质。
为了达到上述发明目的,本发明采用以下技术方案:
一种水文数据的处理方法,包括以下步骤:
S1、采集水文数据并进行数据校验,判断数据校验是否通过;若否,则对校验不通过的异常数据序列进行步骤S2的处理;
S2、利用One-Class SVM模型对异常数据序列的数据点进行异常检测,得到第一指标值;
分别利用EWMA算法、COF算法、Isolation Forest算法对异常数据序列的数据点进行异常检测,并结合各算法的权重对异常检测结果求和得到第二指标值;
将数据点对应的历年数据输入LSTM模型得到拟合值,基于拟合值与异常数据序列的方差确定异常数据点,得到第三指标值;
S3、将第一指标值、第二指标值和第三指标值作为观测值输入隐马尔可夫模型进行识别,得到目标异常数据点。
作为优选方案,所述步骤S1中,采集水文数据之后进行数据分类,划分为要素数据和工况数据;
要素数据包括水位、雨量、流量、蒸发量中的至少一种;
工况数据包括电源电压、信号强度、温度中的至少一种。
作为优选方案,所述步骤S2中,基于拟合值与异常数据序列的方差确定异常数据点,包括:
基于拟合值与异常数据序列的方差构建数据值的上限Max和下限Min:
;
其中,Value LSTM 为拟合值,Variance为异常数据序列的方差,k为常量;
若数据点的数据值超出上限Max或下限Min,则数据点为异常数据点并输出相应的标签作为第三指标值。
作为优选方案,所述数据点的异常类型包括数据值突变和数据值缺失。
作为优选方案,水文数据的处理方法,还包括以下步骤:
S4、判断目标异常数据点在异常数据序列中的占比是否超出预设阈值;若否,则对目标异常数据点进行自适应时序整编;若是,则对目标异常数据点进行异常整编。
作为优选方案,所述对目标异常数据点进行自适应时序整编,包括以下步骤:
S41、对异常数据序列进行ADF检验;若检验通过,则转至步骤S42;若检验不通过,则对异常数据序列进行一次差分之后再进行ADF检验;
S42、判断异常数据序列是否有周期性;如是,则对目标异常数据点进行周期性整编;若否,则对目标异常数据点进行趋势性整编。
作为优选方案,所述周期性整编包括:
将目标异常数据点分别进行三次指数平滑预测和GM(2,1)预测,并对预测结果取加权平均,得到整编后的数据点;
所述趋势性整编包括:
将目标异常数据点分别进行Arima预测和GM(1,1)预测,并对预测结果取加权平均,得到整编后的数据点。
作为优选方案,所述对目标异常数据点进行异常整编包括以下步骤:
判断目标异常数据点的类型为数据值突变或数据值缺失;
若为数据值缺失,则利用目标异常数据点输入LSTM模型得到的拟合值作为整编后的数据点;
若为数据值突变,则利用KNN算法对异常数据序列的所有数据点进行聚类,选取目标异常数据点前后N个数据点作为目标数据点,确定包含目标数据点数量最多的簇作为目标簇,计算各目标数据点至目标簇中心的距离并取均值,利用均值对目标异常数据点进行整编;其中,N为大于1的整数。
本发明还提供一种水文数据的处理系统,应用如上方案所述的水文数据的处理方法,所述水文数据的处理系统包括:
数据采集及校验模块,用于采集水文数据并进行数据校验;
数据算法处理模块,用于利用One-Class SVM模型对异常数据序列的数据点进行异常检测,得到第一指标值;还用于分别利用EWMA算法、COF算法、Isolation Forest算法对异常数据序列的数据点进行异常检测,并结合各算法的权重对异常检测结果求和得到第二指标值;还用于将数据点对应的历年数据输入LSTM模型得到拟合值,基于拟合值与异常数据序列的方差确定异常数据点,得到第三指标值;
异常数据检测模块,用于将第一指标值、第二指标值和第三指标值作为观测值输入隐马尔可夫模型进行识别,得到目标异常数据点。
本发明还提供一种可读存储介质,所述可读存储介质中存储有指令,当指令在计算机上运行时,使得计算机执行如上任一项方案所述的水文数据的处理方法。
本发明与现有技术相比,有益效果是:
(1)本发明对水文数据进行多维度异常检测,有效提升异常数据识别的精度;
(2)本发明在识别异常数据之后进行补充处理或者数据修正,从而实现数据的整编,保证数据的准确性。
附图说明
图1是本发明实施例1的水文数据的处理方法的流程图;
图2是本发明实施例1的水文数据的处理方法的主要流程图;
图3是本发明实施例1的数据识别的流程图;
图4是本发明实施例1的数据整编的流程图;
图5是本发明实施例1的水文数据的处理方法的构架图。
具体实施方式
为了更清楚地说明本发明实施例,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
实施例1:
如图1和图2所示,本实施例的水文数据的处理方法,包括以下步骤:
一、数据采集。
本实施例的采集水文数据并进行数据校验,判断数据校验是否通过;若否,则对校验不通过的异常数据序列进行后续步骤的处理;若是,则作为正常数据入库,以便后续进行水文数据业务呈现。
其中,本实施例采集水文数据之后还进行数据归类,划分为要素数据和工况数据;要素数据包括水位、雨量、流量、蒸发量中的至少一种;工况数据包括电源电压、信号强度、温度中的至少一种。便于后续异常数据的分类整编。
二、数据识别。
本实施例的对异常数据序列分别进行不同的多维度处理,实现多维度异常检测。
具体地,如图3所示,利用One-Class SVM模型对异常数据序列的数据点进行异常检测,得到第一指标值,即异常检测输出的标签,例如0和1。其中,One-Class SVM是一种Novelty Detection(新动向检测)算法,需要进行预训练,其训练数据集中需要是正常数据,不包含异常数据点,当新的异常点出现时可以通过超平面进行异常点检测,具体可参考现有技术,在此不赘述。
再者,还分别利用EWMA算法、COF算法、Isolation Forest算法对异常数据序列的数据点进行异常检测,并结合各算法的权重对异常检测结果(即三种算法输出的标签)求和得到第二指标值。
其中,对于EWMA算法,首先计算EWMA算法的输出值,在实际场景中取异常数据序列的方差,配合EWMA算法的输出值确定正常数据的上界Max 1和下界Min 1:
;
其中,Variance为异常数据序列的方差,Value EWMA 为EWMA算法的输出值,k 1为常量。
最后,根据正常数据的上界Max 1和下界Min 1进行异常数据检测,输出相应的标签作为异常检测结果。
另外,COF(Connectivity-based Outlier Factor)算法是一种基于密度的异常检测方法,主要用于发现数据集中的异常点。在COF算法中,异常点被定义为无法通过近邻之间的连通性与其他数据点连接的点,具体过程可参考现有技术,在此不赘述。
孤立森林(Isolation Forest)算法是一种基于集成学习的异常检测算法,适用于高维数据、大规模数据集和非线性数据,它通过构建随机生成的树来寻找异常点。
本实施例的EWMA算法、COF算法、Isolation Forest算法的权重分别为0.2、0.3、0.5,具体可根据实际业务场景进行调整。
本实施例还将数据点对应的历年数据输入LSTM模型得到今年的拟合值,基于拟合值与异常数据序列的方差确定异常数据点,得到第三指标值;
具体地,基于拟合值与异常数据序列的方差确定异常数据点,包括:
基于拟合值与异常数据序列的方差构建数据值的上限Max 2 和下限Min 2 :
;
其中,Value LSTM 为拟合值,Variance为异常数据序列的方差,k 2为常量;
若数据点的数据值超出上限Max 2 或下限Min 2 ,则数据点为异常数据点并输出相应的标签作为第三指标值。
最后,将第一指标值、第二指标值和第三指标值作为观测值输入隐马尔可夫模型进行识别,得到目标异常数据点。
其中,隐马尔可夫模型主要解决三个问题:概率计算问题、学习问题和预测问题,本实施例通过em迭代解决学习问题,获得模型参数,预测问题通过viterbi算法解决;在训练时的隐藏状态设为两种,具体的训练过程可参考现有技术,在此不赘述。
本实施例的数据点的异常类型包括数据值突变和数据值缺失。
对于识别的目标异常数据点的后续数据整编处理同样具有重要的实际应用价值。因此,本实施例的水文数据的处理方法,还包括以下步骤:
三、数据整编。
具体地,如图4所示,判断目标异常数据点在异常数据序列中的占比(简称异常占比)是否超出预设阈值;若否,则认为监测设备正常,对目标异常数据点进行自适应时序整编;若是,则认为监测设备存在故障,对目标异常数据点进行异常整编。
具体地,本实施例对目标异常数据点进行自适应时序整编,包括以下步骤:
(I)对异常数据序列进行ADF检验;若检验通过,则转至步骤(II);若检验不通过,则对异常数据序列进行一次差分之后再进行ADF检验;
(II)判断异常数据序列是否有周期性;如是,则对目标异常数据点进行周期性整编;若否,则对目标异常数据点进行趋势性整编。
其中,本实施例判断异常数据序列是否有周期性的过程为:
对异常数据序列的数据点进行快速傅里叶变换,得到频率的评分,进而输出数据点的对应的各个周期的评分,取评分最高对应的目标周期;如果目标周期超出预设的周期阈值,则认为异常数据序列有周期性,进行周期性整编;否则,则认为异常数据序列无周期性,进行趋势性整编,实现数据修正。
本实施例的周期性整编的具体过程包括:
将目标异常数据点分别进行三次指数平滑预测和GM(2,1)预测,并对预测结果取加权平均,得到整编后的数据点,实现数据修正。
本实施例的趋势性整编的具体过程包括:
将目标异常数据点分别进行Arima预测和GM(1,1)预测,并对预测结果取加权平均,得到整编后的数据点。其中,Arima预测的参数d设置为0,参数p和q分别遍历1、3、5、10、15,通过BIC挑选最优参数进行预测。
上述三次指数平滑预测、GM(2,1)预测、Arima预测和GM(1,1)预测的具体过程可参考现有技术,在此不赘述。
另外,本实施例对目标异常数据点进行异常整编包括以下步骤:
判断目标异常数据点的类型为数据值突变或数据值缺失,即判断是否为突变值(反之为数据值缺失);
若为数据值缺失,则利用目标异常数据点输入上述LSTM模型得到的拟合值作为整编后的数据点,实现数据补充;
若为数据值突变,则进行近邻聚类整编,具体利用KNN算法对异常数据序列的所有数据点进行聚类,选取目标异常数据点前后N个数据点(例如N=5,具体可根据实际需求确定)作为目标数据点,确定包含目标数据点数量最多的簇作为目标簇,计算各目标数据点至目标簇中心的距离并取均值,利用均值对目标异常数据点进行整编,实现数据修正。
最后,将整编之后的数据入库,一般后续的业务呈现。
基于上述水文数据的处理方法,如图5所示,本实施例还提供水文数据的处理系统,包括如下功能模块:数据采集及校验模块、数据算法处理模块、异常数据检测模块和异常数据整编模块。
本实施例的数据采集及校验模块用于采集水文数据并进行数据校验。
本实施例的数据算法处理模块用于利用One-Class SVM模型对异常数据序列的数据点进行异常检测,得到第一指标值;还用于分别利用EWMA算法、COF算法、IsolationForest算法对异常数据序列的数据点进行异常检测,并结合各算法的权重对异常检测结果求和得到第二指标值;还用于将数据点对应的历年数据输入LSTM模型得到拟合值,基于拟合值与异常数据序列的方差确定异常数据点,得到第三指标值;
本实施例的异常数据检测模块用于将第一指标值、第二指标值和第三指标值作为观测值输入隐马尔可夫模型进行识别,得到目标异常数据点。
本实施例的异常数据整编模块用于对目标异常数据点进行数据整编。
上述功能模块的具体实现过程可参考上述处理方法的详细描述,在此不赘述。
本实施例还提供可读存储介质,可读存储介质中存储有指令,当指令在计算机上运行时,使得计算机执行上述水文数据的处理方法,实现水文数据的智能化处理。
实施例2:
本实施例的水文数据的处理方法与实施例1的不同之处在于:
省略后续对目标异常数据点进行数据整编的过程,简化数据处理的流程,满足不同应用的需求;
其他步骤可参考实施例1。
相应地,本实施例的水文数据的处理系统作适应性精简,省略异常数据整编模块,满足不同应用的需求;
其他功能模块可参考实施例1。
本实施例的还提供可读存储介质,可读存储介质中存储有指令,当指令在计算机上运行时,使得计算机执行上述水文数据的处理方法,实现水文数据的智能化处理。
以上所述仅是对本发明的优选实施例及原理进行了详细说明,对本领域的普通技术人员而言,依据本发明提供的思想,在具体实施方式上会有改变之处,而这些改变也应视为本发明的保护范围。
Claims (10)
1.一种水文数据的处理方法,其特征在于,包括以下步骤:
S1、采集水文数据并进行数据校验,判断数据校验是否通过;若否,则对校验不通过的异常数据序列进行步骤S2的处理;
S2、利用One-Class SVM模型对异常数据序列的数据点进行异常检测,得到第一指标值;
分别利用EWMA算法、COF算法、Isolation Forest算法对异常数据序列的数据点进行异常检测,并结合各算法的权重对异常检测结果求和得到第二指标值;
将数据点对应的历年数据输入LSTM模型得到拟合值,基于拟合值与异常数据序列的方差确定异常数据点,得到第三指标值;
S3、将第一指标值、第二指标值和第三指标值作为观测值输入隐马尔可夫模型进行识别,得到目标异常数据点。
2.根据权利要求1所述的水文数据的处理方法,其特征在于,所述步骤S1中,采集水文数据之后进行数据分类,划分为要素数据和工况数据;
要素数据包括水位、雨量、流量、蒸发量中的至少一种;
工况数据包括电源电压、信号强度、温度中的至少一种。
3.根据权利要求2所述的水文数据的处理方法,其特征在于,所述步骤S2中,基于拟合值与异常数据序列的方差确定异常数据点,包括:
基于拟合值与异常数据序列的方差构建数据值的上限Max和下限Min:
;
其中,Value LSTM 为拟合值,Variance为异常数据序列的方差,k为常量;
若数据点的数据值超出上限Max或下限Min,则数据点为异常数据点并输出相应的标签作为第三指标值。
4.根据权利要求3所述的水文数据的处理方法,其特征在于,所述数据点的异常类型包括数据值突变和数据值缺失。
5.根据权利要求4所述的水文数据的处理方法,其特征在于,还包括以下步骤:
S4、判断目标异常数据点在异常数据序列中的占比是否超出预设阈值;若否,则对目标异常数据点进行自适应时序整编;若是,则对目标异常数据点进行异常整编。
6.根据权利要求5所述的水文数据的处理方法,其特征在于,所述对目标异常数据点进行自适应时序整编,包括以下步骤:
S41、对异常数据序列进行ADF检验;若检验通过,则转至步骤S42;若检验不通过,则对异常数据序列进行一次差分之后再进行ADF检验;
S42、判断异常数据序列是否有周期性;如是,则对目标异常数据点进行周期性整编;若否,则对目标异常数据点进行趋势性整编。
7.根据权利要求6所述的水文数据的处理方法,其特征在于,所述周期性整编包括:
将目标异常数据点分别进行三次指数平滑预测和GM(2,1)预测,并对预测结果取加权平均,得到整编后的数据点;
所述趋势性整编包括:
将目标异常数据点分别进行Arima预测和GM(1,1)预测,并对预测结果取加权平均,得到整编后的数据点。
8.根据权利要求5所述的水文数据的处理方法,其特征在于,所述对目标异常数据点进行异常整编包括以下步骤:
判断目标异常数据点的类型为数据值突变或数据值缺失;
若为数据值缺失,则利用目标异常数据点输入LSTM模型得到的拟合值作为整编后的数据点;
若为数据值突变,则利用KNN算法对异常数据序列的所有数据点进行聚类,选取目标异常数据点前后N个数据点作为目标数据点,确定包含目标数据点数量最多的簇作为目标簇,计算各目标数据点至目标簇中心的距离并取均值,利用均值对目标异常数据点进行整编;其中,N为大于1的整数。
9.一种水文数据的处理系统,应用如权利要求1所述的水文数据的处理方法,其特征在于,所述水文数据的处理系统包括:
数据采集及校验模块,用于采集水文数据并进行数据校验;
数据算法处理模块,用于利用One-Class SVM模型对异常数据序列的数据点进行异常检测,得到第一指标值;还用于分别利用EWMA算法、COF算法、Isolation Forest算法对异常数据序列的数据点进行异常检测,并结合各算法的权重对异常检测结果求和得到第二指标值;还用于将数据点对应的历年数据输入LSTM模型得到拟合值,基于拟合值与异常数据序列的方差确定异常数据点,得到第三指标值;
异常数据检测模块,用于将第一指标值、第二指标值和第三指标值作为观测值输入隐马尔可夫模型进行识别,得到目标异常数据点。
10.一种可读存储介质,所述可读存储介质中存储有指令,其特征在于,当指令在计算机上运行时,使得计算机执行如权利要求1-8任一项所述的水文数据的处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310982632.1A CN116720753B (zh) | 2023-08-07 | 2023-08-07 | 水文数据的处理方法、系统及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310982632.1A CN116720753B (zh) | 2023-08-07 | 2023-08-07 | 水文数据的处理方法、系统及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116720753A true CN116720753A (zh) | 2023-09-08 |
CN116720753B CN116720753B (zh) | 2023-10-31 |
Family
ID=87870041
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310982632.1A Active CN116720753B (zh) | 2023-08-07 | 2023-08-07 | 水文数据的处理方法、系统及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116720753B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344999A (zh) * | 2018-09-07 | 2019-02-15 | 华中科技大学 | 一种径流概率预报方法 |
AU2021100687A4 (en) * | 2021-02-03 | 2021-04-22 | Balakrishnan, S. DR | An intelligent cost-effective mitigation or alert system for flash flood catastrophe control |
CN114254716A (zh) * | 2022-03-02 | 2022-03-29 | 浙江鹏信信息科技股份有限公司 | 一种基于用户行为分析的高危操作识别方法及系统 |
CN114282169A (zh) * | 2021-10-12 | 2022-04-05 | 腾讯科技(深圳)有限公司 | 一种异常数据的检测方法以及相关装置 |
CN114612887A (zh) * | 2021-09-01 | 2022-06-10 | 腾讯科技(深圳)有限公司 | 单据异常检测方法、装置、设备及计算机可读存储介质 |
CN115328723A (zh) * | 2022-04-29 | 2022-11-11 | 上海鼎茂信息技术有限公司 | 一种自适应基带优化的时序异常检测方法及系统 |
-
2023
- 2023-08-07 CN CN202310982632.1A patent/CN116720753B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344999A (zh) * | 2018-09-07 | 2019-02-15 | 华中科技大学 | 一种径流概率预报方法 |
AU2021100687A4 (en) * | 2021-02-03 | 2021-04-22 | Balakrishnan, S. DR | An intelligent cost-effective mitigation or alert system for flash flood catastrophe control |
CN114612887A (zh) * | 2021-09-01 | 2022-06-10 | 腾讯科技(深圳)有限公司 | 单据异常检测方法、装置、设备及计算机可读存储介质 |
CN114282169A (zh) * | 2021-10-12 | 2022-04-05 | 腾讯科技(深圳)有限公司 | 一种异常数据的检测方法以及相关装置 |
CN114254716A (zh) * | 2022-03-02 | 2022-03-29 | 浙江鹏信信息科技股份有限公司 | 一种基于用户行为分析的高危操作识别方法及系统 |
CN115328723A (zh) * | 2022-04-29 | 2022-11-11 | 上海鼎茂信息技术有限公司 | 一种自适应基带优化的时序异常检测方法及系统 |
Non-Patent Citations (1)
Title |
---|
孙建树;娄渊胜;陈裕俊;: "基于ARIMA-SVR的水文时间序列异常值检测", 计算机与数字工程, no. 02 * |
Also Published As
Publication number | Publication date |
---|---|
CN116720753B (zh) | 2023-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Corizzo et al. | Anomaly detection and repair for accurate predictions in geo-distributed big data | |
WO2013062738A1 (en) | Anomaly detection in images and videos | |
Zhao et al. | A novel multivariate time-series anomaly detection approach using an unsupervised deep neural network | |
CN111367777B (zh) | 告警处理的方法、装置、设备及计算机可读存储介质 | |
US20220012538A1 (en) | Compact representation and time series segment retrieval through deep learning | |
KR20190082715A (ko) | 상관도를 고려한 데이터 분류 방법 및 이 방법을 수행하기 위한 프로그램이 저장된 컴퓨터 판독가능한 저장매체 | |
CN112330158B (zh) | 基于自回归差分移动平均-卷积神经网络的识别交通指数时间序列的方法 | |
Zhao et al. | Research on time series anomaly detection algorithm and application | |
Du et al. | Convolutional neural network-based data anomaly detection considering class imbalance with limited data | |
Jin et al. | Changepoint-based anomaly detection for prognostic diagnosis in a core router system | |
CN116720753B (zh) | 水文数据的处理方法、系统及可读存储介质 | |
CN117033923A (zh) | 一种基于可解释性机器学习的犯罪数量预测方法及系统 | |
Fahim et al. | An integration of genetic feature selector, histogram-based outlier score, and deep learning for wind turbine power prediction | |
CN116701846A (zh) | 一种基于无监督学习的水电站调度运行数据清洗方法 | |
CN111934903A (zh) | 一种基于时序演化基因的Docker容器故障智能预测方法 | |
Phan et al. | An overview of data preprocessing for short-term wind power forecasting | |
Huo et al. | Traffic anomaly detection method based on improved GRU and EFMS-Kmeans clustering | |
Yang et al. | Prediction of criminal tendency of high-risk personnel based on combination of principal component analysis and support vector machine | |
CN117633456B (zh) | 基于自适应焦点损失的海上风电天气事件辨识方法和装置 | |
CN116757338B (zh) | 农作物产量预测方法、装置、电子设备及存储介质 | |
Wang et al. | Fault diagnosis of ship ballast water system based on support vector machine optimized by improved sparrow search algorithm | |
Zhang et al. | Predictive temporal patterns detection in multivariate dynamic data system | |
Guo et al. | H-Gdn: Hierarchical Graph Deviation Network for Multivariate Time Series Anomaly Detection in Iot | |
Wang et al. | Novel ensemble modeling method for enhancing subset diversity using clustering indicator vector based on stacked autoencoder | |
Khampuengson | Machine learning methods for detecting and correcting data errors in water level telemetry systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |