CN116720753A

CN116720753A - 水文数据的处理方法、系统及可读存储介质

Info

Publication number: CN116720753A
Application number: CN202310982632.1A
Authority: CN
Inventors: 陈晓莉; 陈潇; 李抗旱; 蓝康波; 徐路平; 邹嫣; 李修乾; 赵碧君
Original assignee: Zhejiang Ponshine Information Technology Co ltd
Current assignee: Zhejiang Ponshine Information Technology Co ltd
Priority date: 2023-08-07
Filing date: 2023-08-07
Publication date: 2023-09-08
Anticipated expiration: 2043-08-07
Also published as: CN116720753B

Abstract

本发明涉及一种水文数据的处理方法、系统及可读存储介质，其处理方法包括：采集水文数据并进行数据校验，判断数据校验是否通过；若否，则对校验不通过的异常数据序列进行后续处理；利用One‑Class SVM模型对数据点进行异常检测，得到第一指标值；分别利用EWMA算法、COF算法、Isolation Forest算法对数据点进行异常检测，并结合各算法的权重加权求和得到第二指标值；将数据点对应的历年数据输入LSTM模型得到拟合值，基于拟合值与异常数据序列的方差确定异常数据点，得到第三指标值；将第一指标值、第二指标值和第三指标值作为观测值输入隐马尔可夫模型得到目标异常数据点。本发明提升异常数据的识别精度。

Description

水文数据的处理方法、系统及可读存储介质

技术领域

本发明属于水文水利数据治理技术领域，具体涉及一种水文数据的处理方法、系统及可读存储介质。

背景技术

水文水利数据统一平台系统实现了江河湖库的雨量、水位、水温、流速、流量、蒸发等水文要素数据的自动化监测，为安全管理与运行调度提供及时有效的信息，及时预警，提高管理的效率和质量。

在实时监测过程中，由于信号、环境、天气等情况，监测的水文数据难免会出现数值错误、数据缺失等异常情况。随着水利信息化水平的不断提高，现有的异常检测算法对于水文数据表现出的季节性、随机性以及时空相关性等复杂特性处理不够充分，所以在异常检测的精度上还存在较大的提升空间。另外，对于异常情况下数据的修复也是当前亟需解决的难题。

发明内容

基于现有技术中存在的上述缺点和不足，本发明的目的之一是至少解决现有技术中存在的上述问题之一或多个，换言之，本发明的目的之一是提供满足前述需求之一或多个的一种水文数据的处理方法、系统及可读存储介质。

为了达到上述发明目的，本发明采用以下技术方案：

一种水文数据的处理方法，包括以下步骤：

S1、采集水文数据并进行数据校验，判断数据校验是否通过；若否，则对校验不通过的异常数据序列进行步骤S2的处理；

S2、利用One-Class SVM模型对异常数据序列的数据点进行异常检测，得到第一指标值；

分别利用EWMA算法、COF算法、Isolation Forest算法对异常数据序列的数据点进行异常检测，并结合各算法的权重对异常检测结果求和得到第二指标值；

将数据点对应的历年数据输入LSTM模型得到拟合值，基于拟合值与异常数据序列的方差确定异常数据点，得到第三指标值；

S3、将第一指标值、第二指标值和第三指标值作为观测值输入隐马尔可夫模型进行识别，得到目标异常数据点。

作为优选方案，所述步骤S1中，采集水文数据之后进行数据分类，划分为要素数据和工况数据；

要素数据包括水位、雨量、流量、蒸发量中的至少一种；

工况数据包括电源电压、信号强度、温度中的至少一种。

作为优选方案，所述步骤S2中，基于拟合值与异常数据序列的方差确定异常数据点，包括：

基于拟合值与异常数据序列的方差构建数据值的上限Max和下限Min：

；

其中，Value _LSTM为拟合值，Variance为异常数据序列的方差，k为常量；

若数据点的数据值超出上限Max或下限Min，则数据点为异常数据点并输出相应的标签作为第三指标值。

作为优选方案，所述数据点的异常类型包括数据值突变和数据值缺失。

作为优选方案，水文数据的处理方法，还包括以下步骤：

S4、判断目标异常数据点在异常数据序列中的占比是否超出预设阈值；若否，则对目标异常数据点进行自适应时序整编；若是，则对目标异常数据点进行异常整编。

作为优选方案，所述对目标异常数据点进行自适应时序整编，包括以下步骤：

S41、对异常数据序列进行ADF检验；若检验通过，则转至步骤S42；若检验不通过，则对异常数据序列进行一次差分之后再进行ADF检验；

S42、判断异常数据序列是否有周期性；如是，则对目标异常数据点进行周期性整编；若否，则对目标异常数据点进行趋势性整编。

作为优选方案，所述周期性整编包括：

将目标异常数据点分别进行三次指数平滑预测和GM(2,1)预测，并对预测结果取加权平均，得到整编后的数据点；

所述趋势性整编包括：

将目标异常数据点分别进行Arima预测和GM(1,1)预测，并对预测结果取加权平均，得到整编后的数据点。

作为优选方案，所述对目标异常数据点进行异常整编包括以下步骤：

判断目标异常数据点的类型为数据值突变或数据值缺失；

若为数据值缺失，则利用目标异常数据点输入LSTM模型得到的拟合值作为整编后的数据点；

若为数据值突变，则利用KNN算法对异常数据序列的所有数据点进行聚类，选取目标异常数据点前后N个数据点作为目标数据点，确定包含目标数据点数量最多的簇作为目标簇，计算各目标数据点至目标簇中心的距离并取均值，利用均值对目标异常数据点进行整编；其中，N为大于1的整数。

本发明还提供一种水文数据的处理系统，应用如上方案所述的水文数据的处理方法，所述水文数据的处理系统包括：

数据采集及校验模块，用于采集水文数据并进行数据校验；

数据算法处理模块，用于利用One-Class SVM模型对异常数据序列的数据点进行异常检测，得到第一指标值；还用于分别利用EWMA算法、COF算法、Isolation Forest算法对异常数据序列的数据点进行异常检测，并结合各算法的权重对异常检测结果求和得到第二指标值；还用于将数据点对应的历年数据输入LSTM模型得到拟合值，基于拟合值与异常数据序列的方差确定异常数据点，得到第三指标值；

异常数据检测模块，用于将第一指标值、第二指标值和第三指标值作为观测值输入隐马尔可夫模型进行识别，得到目标异常数据点。

本发明还提供一种可读存储介质，所述可读存储介质中存储有指令，当指令在计算机上运行时，使得计算机执行如上任一项方案所述的水文数据的处理方法。

本发明与现有技术相比，有益效果是：

（1）本发明对水文数据进行多维度异常检测，有效提升异常数据识别的精度；

（2）本发明在识别异常数据之后进行补充处理或者数据修正，从而实现数据的整编，保证数据的准确性。

附图说明

图1是本发明实施例1的水文数据的处理方法的流程图；

图2是本发明实施例1的水文数据的处理方法的主要流程图；

图3是本发明实施例1的数据识别的流程图；

图4是本发明实施例1的数据整编的流程图；

图5是本发明实施例1的水文数据的处理方法的构架图。

具体实施方式

为了更清楚地说明本发明实施例，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

实施例1：

如图1和图2所示，本实施例的水文数据的处理方法，包括以下步骤：

一、数据采集。

本实施例的采集水文数据并进行数据校验，判断数据校验是否通过；若否，则对校验不通过的异常数据序列进行后续步骤的处理；若是，则作为正常数据入库，以便后续进行水文数据业务呈现。

其中，本实施例采集水文数据之后还进行数据归类，划分为要素数据和工况数据；要素数据包括水位、雨量、流量、蒸发量中的至少一种；工况数据包括电源电压、信号强度、温度中的至少一种。便于后续异常数据的分类整编。

二、数据识别。

本实施例的对异常数据序列分别进行不同的多维度处理，实现多维度异常检测。

具体地，如图3所示，利用One-Class SVM模型对异常数据序列的数据点进行异常检测，得到第一指标值，即异常检测输出的标签，例如0和1。其中，One-Class SVM是一种Novelty Detection（新动向检测）算法，需要进行预训练，其训练数据集中需要是正常数据，不包含异常数据点，当新的异常点出现时可以通过超平面进行异常点检测，具体可参考现有技术，在此不赘述。

再者，还分别利用EWMA算法、COF算法、Isolation Forest算法对异常数据序列的数据点进行异常检测，并结合各算法的权重对异常检测结果（即三种算法输出的标签）求和得到第二指标值。

其中，对于EWMA算法，首先计算EWMA算法的输出值，在实际场景中取异常数据序列的方差，配合EWMA算法的输出值确定正常数据的上界Max ₁和下界Min ₁：

；

其中，Variance为异常数据序列的方差，Value _EWMA为EWMA算法的输出值，k ₁为常量。

最后，根据正常数据的上界Max ₁和下界Min ₁进行异常数据检测，输出相应的标签作为异常检测结果。

另外，COF（Connectivity-based Outlier Factor）算法是一种基于密度的异常检测方法，主要用于发现数据集中的异常点。在COF算法中，异常点被定义为无法通过近邻之间的连通性与其他数据点连接的点，具体过程可参考现有技术，在此不赘述。

孤立森林（Isolation Forest）算法是一种基于集成学习的异常检测算法，适用于高维数据、大规模数据集和非线性数据，它通过构建随机生成的树来寻找异常点。

本实施例的EWMA算法、COF算法、Isolation Forest算法的权重分别为0.2、0.3、0.5，具体可根据实际业务场景进行调整。

本实施例还将数据点对应的历年数据输入LSTM模型得到今年的拟合值，基于拟合值与异常数据序列的方差确定异常数据点，得到第三指标值；

具体地，基于拟合值与异常数据序列的方差确定异常数据点，包括：

基于拟合值与异常数据序列的方差构建数据值的上限Max ₂和下限Min ₂：

；

其中，Value _LSTM为拟合值，Variance为异常数据序列的方差，k ₂为常量；

若数据点的数据值超出上限Max ₂或下限Min ₂，则数据点为异常数据点并输出相应的标签作为第三指标值。

最后，将第一指标值、第二指标值和第三指标值作为观测值输入隐马尔可夫模型进行识别，得到目标异常数据点。

其中，隐马尔可夫模型主要解决三个问题：概率计算问题、学习问题和预测问题，本实施例通过em迭代解决学习问题，获得模型参数，预测问题通过viterbi算法解决；在训练时的隐藏状态设为两种，具体的训练过程可参考现有技术，在此不赘述。

本实施例的数据点的异常类型包括数据值突变和数据值缺失。

对于识别的目标异常数据点的后续数据整编处理同样具有重要的实际应用价值。因此，本实施例的水文数据的处理方法，还包括以下步骤：

三、数据整编。

具体地，如图4所示，判断目标异常数据点在异常数据序列中的占比（简称异常占比）是否超出预设阈值；若否，则认为监测设备正常，对目标异常数据点进行自适应时序整编；若是，则认为监测设备存在故障，对目标异常数据点进行异常整编。

具体地，本实施例对目标异常数据点进行自适应时序整编，包括以下步骤：

（I）对异常数据序列进行ADF检验；若检验通过，则转至步骤（II）；若检验不通过，则对异常数据序列进行一次差分之后再进行ADF检验；

（II）判断异常数据序列是否有周期性；如是，则对目标异常数据点进行周期性整编；若否，则对目标异常数据点进行趋势性整编。

其中，本实施例判断异常数据序列是否有周期性的过程为：

对异常数据序列的数据点进行快速傅里叶变换，得到频率的评分，进而输出数据点的对应的各个周期的评分，取评分最高对应的目标周期；如果目标周期超出预设的周期阈值，则认为异常数据序列有周期性，进行周期性整编；否则，则认为异常数据序列无周期性，进行趋势性整编，实现数据修正。

本实施例的周期性整编的具体过程包括：

将目标异常数据点分别进行三次指数平滑预测和GM(2,1)预测，并对预测结果取加权平均，得到整编后的数据点，实现数据修正。

本实施例的趋势性整编的具体过程包括：

将目标异常数据点分别进行Arima预测和GM(1,1)预测，并对预测结果取加权平均，得到整编后的数据点。其中，Arima预测的参数d设置为0，参数p和q分别遍历1、3、5、10、15，通过BIC挑选最优参数进行预测。

上述三次指数平滑预测、GM(2,1)预测、Arima预测和GM(1,1)预测的具体过程可参考现有技术，在此不赘述。

另外，本实施例对目标异常数据点进行异常整编包括以下步骤：

判断目标异常数据点的类型为数据值突变或数据值缺失，即判断是否为突变值（反之为数据值缺失）；

若为数据值缺失，则利用目标异常数据点输入上述LSTM模型得到的拟合值作为整编后的数据点，实现数据补充；

若为数据值突变，则进行近邻聚类整编，具体利用KNN算法对异常数据序列的所有数据点进行聚类，选取目标异常数据点前后N个数据点（例如N=5，具体可根据实际需求确定）作为目标数据点，确定包含目标数据点数量最多的簇作为目标簇，计算各目标数据点至目标簇中心的距离并取均值，利用均值对目标异常数据点进行整编，实现数据修正。

最后，将整编之后的数据入库，一般后续的业务呈现。

基于上述水文数据的处理方法，如图5所示，本实施例还提供水文数据的处理系统，包括如下功能模块：数据采集及校验模块、数据算法处理模块、异常数据检测模块和异常数据整编模块。

本实施例的数据采集及校验模块用于采集水文数据并进行数据校验。

本实施例的数据算法处理模块用于利用One-Class SVM模型对异常数据序列的数据点进行异常检测，得到第一指标值；还用于分别利用EWMA算法、COF算法、IsolationForest算法对异常数据序列的数据点进行异常检测，并结合各算法的权重对异常检测结果求和得到第二指标值；还用于将数据点对应的历年数据输入LSTM模型得到拟合值，基于拟合值与异常数据序列的方差确定异常数据点，得到第三指标值；

本实施例的异常数据检测模块用于将第一指标值、第二指标值和第三指标值作为观测值输入隐马尔可夫模型进行识别，得到目标异常数据点。

本实施例的异常数据整编模块用于对目标异常数据点进行数据整编。

上述功能模块的具体实现过程可参考上述处理方法的详细描述，在此不赘述。

本实施例还提供可读存储介质，可读存储介质中存储有指令，当指令在计算机上运行时，使得计算机执行上述水文数据的处理方法，实现水文数据的智能化处理。

实施例2：

本实施例的水文数据的处理方法与实施例1的不同之处在于：

省略后续对目标异常数据点进行数据整编的过程，简化数据处理的流程，满足不同应用的需求；

其他步骤可参考实施例1。

相应地，本实施例的水文数据的处理系统作适应性精简，省略异常数据整编模块，满足不同应用的需求；

其他功能模块可参考实施例1。

本实施例的还提供可读存储介质，可读存储介质中存储有指令，当指令在计算机上运行时，使得计算机执行上述水文数据的处理方法，实现水文数据的智能化处理。

以上所述仅是对本发明的优选实施例及原理进行了详细说明，对本领域的普通技术人员而言，依据本发明提供的思想，在具体实施方式上会有改变之处，而这些改变也应视为本发明的保护范围。

Claims

1.一种水文数据的处理方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的水文数据的处理方法，其特征在于，所述步骤S1中，采集水文数据之后进行数据分类，划分为要素数据和工况数据；

要素数据包括水位、雨量、流量、蒸发量中的至少一种；

工况数据包括电源电压、信号强度、温度中的至少一种。

3.根据权利要求2所述的水文数据的处理方法，其特征在于，所述步骤S2中，基于拟合值与异常数据序列的方差确定异常数据点，包括：

；

4.根据权利要求3所述的水文数据的处理方法，其特征在于，所述数据点的异常类型包括数据值突变和数据值缺失。

5.根据权利要求4所述的水文数据的处理方法，其特征在于，还包括以下步骤：

6.根据权利要求5所述的水文数据的处理方法，其特征在于，所述对目标异常数据点进行自适应时序整编，包括以下步骤：

7.根据权利要求6所述的水文数据的处理方法，其特征在于，所述周期性整编包括：

所述趋势性整编包括：

8.根据权利要求5所述的水文数据的处理方法，其特征在于，所述对目标异常数据点进行异常整编包括以下步骤：

判断目标异常数据点的类型为数据值突变或数据值缺失；

9.一种水文数据的处理系统，应用如权利要求1所述的水文数据的处理方法，其特征在于，所述水文数据的处理系统包括：

数据采集及校验模块，用于采集水文数据并进行数据校验；

10.一种可读存储介质，所述可读存储介质中存储有指令，其特征在于，当指令在计算机上运行时，使得计算机执行如权利要求1-8任一项所述的水文数据的处理方法。