CN116662864B

CN116662864B - 一种面向在线水质、水动力监测数据的滚动数据清洗方法

Info

Publication number: CN116662864B
Application number: CN202310700773.XA
Authority: CN
Inventors: 张海平; 宋辰煜; 崔婧嫄; 瞿尧; 崔亚飞; 张晟
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2023-06-14
Filing date: 2023-06-14
Publication date: 2024-04-23
Anticipated expiration: 2043-06-14
Also published as: CN116662864A

Abstract

本发明涉及一种面向在线水质、水动力监测数据的滚动数据清洗方法，包括以下步骤：获取在线监测的历史及当天的水质、水动力数据，并根据数据类型将获取到的数据进行分类整理；针对每种类型的监测数据，挖掘异常数据特征，对数据进行预处理并判断能否满足第一清洗策略要求；若满足第一清洗策略要求，则使用优化后的STL时序分解清洗与密度聚类法对进行数据清洗，并用时序分解后的趋势分量与周期分量之和对异常数据进行重构，否则使用均值清洗法进行数据清洗；对清洗结果按清洗策略进行标注，上传至数据库中。与现有技术相比，本发明考虑了在线监测数据和异常数据的特性，通过两种清洗策略协同的方式，提高了数据质量并保障了监测数据的完整性。

Description

一种面向在线水质、水动力监测数据的滚动数据清洗方法

技术领域

本发明涉及数据清洗技术领域，尤其是涉及一种面向在线水质、水动力监测数据的滚动数据清洗方法。

背景技术

近年来，随着科技的不断进步，自动监测技术得到了广泛的应用，特别是在水资源监测领域。自动监测系统能够实时收集水质、水动力数据，为水资源管理提供了重要的信息支持。然而，自动监测数据存在许多不一致、缺失或异常的情况，影响到数据的准确性和可靠性，也影响到了后续相关模型建立的精度。

数据清洗方法是指通过自动或人工的方法对原始数据进行处理，去除及填补异常值、缺失值等，使得数据更加准确、完整，更有利于进一步的分析和使用。在水资源管理领域，数据清洗对于保证水质监测数据的准确性，提高水资源管理的效率，是十分必要的。但是，面对水动力、水质在线监测数据数据量大且数据驳杂的问题，现有的数据清洗方法难以实现精准的数据清洗，且对于非常规监测情况下的数据难以保持数据的连续性和完整性。

发明内容

本发明的目的是为了提供一种面向在线水质、水动力监测数据的滚动数据清洗方法，能够应对大量且驳杂的水动力、水质在线监测数据，实现规范且自动化的滚动数据清洗。

本发明的目的可以通过以下技术方案来实现：

一种面向在线水质、水动力监测数据的滚动数据清洗方法，包括以下步骤：

步骤1)获取在线监测的历史及当天的水质、水动力数据，并根据数据类型将获取到的数据进行分类整理；

步骤2)针对每种类型的监测数据，挖掘异常数据特征，对数据进行预处理并判断能否满足第一清洗策略要求；

步骤3)对满足第一清洗策略要求的数据，使用第一清洗策略进行数据清洗，其中第一清洗策略基于STL时序分解和密度聚类构建，其变量设置根据所属数据分类及异常数据特征共同决定；

步骤4)对不满足第一清洗策略要求的数据，使用第二清洗策略进行数据清洗，其中，第二清洗策略基于均值清洗构建，其变量设置根据所属数据分类及异常数据特征共同决定；

步骤5)对清洗结果按清洗策略进行标注，上传至数据库中。

所述步骤1)中，根据数据类型将获取到的数据进行分类整理包括：

将监测数据按水动力数据与水质数据进行分类；

根据监测数据所属不同监测点位进行具体分类；

根据监测数据本身是否为连贯数据进行分类；

将监测数据中会受到特定情况影响的数据按具体情况进行分类。

所述步骤2)中，对于每种类型的监测数据挖掘的异常数据特征至少包括下述特征中的一种：

i)根据异常数据持续时长与变化趋势，分析其类型属于短期跳变、长期跳变或长期渐变异常，挖掘其时长趋势特征；

ii)根据导致异常数据发生的原因，结合监测仪器特性、数据传输偏差和管理方维护频率因素进行分析，挖掘其起因特征；

iii)根据原始数据与其他水质、水动力数据的相关关系，挖掘其数据关系特征。

所述步骤2)中，对数据进行预处理具体包括以下步骤：

判断当日数据是否为空，若为空则按照起始时间给出一天的空数据组并退出数据清洗流程；

按照时间先后顺序，对数据进行升序排序；

根据时间变量，对数据进行去重；

对当日及历史数据，以线性回归法进行初步填补。

所述步骤2)中，判断能否满足第一清洗策略要求具体为：

判断1：判断当日有效数据量是否小于应得量的50％，若是则不满足第一清洗策略要求，若否则进行判断2；

判断2：判断历史有效数据量是否小于应得量的50％，若是则不满足第一清洗策略要求，若否则进行判断3；

判断3：判断当日前一周有效数据量是否小于应得量的50％，若是则不满足第一清洗策略要求，若否则满足第一清洗策略要求。

所述步骤3)中，使用第一清洗策略进行数据清洗包括以下步骤：

步骤3-1)对历史数据使用优化后的STL时序分解方法进行清洗；

步骤3-2)基于步骤3-1)清洗后的历史数据，对当日数据使用优化后的STL时序分解方法进行清洗；

步骤3-3)基于STL时序分解清洗后的历史数据与当日数据，使用优化后的密度聚类方法对当日数据进行二次清洗。

所述优化后的STL时序分解方法具体为：

构建优化后的局部加权回归法，以反向最近邻个数替代拟合点的k近邻域：

设点x的反向最近邻为D_k(x)＝D，D满足以下条件：

(1)D∈X|{x}

(2)

其中N_k(x)为点x的k近邻域，将D进行二阶局部加权线性回归以完成Loess的平滑目标；

基于优化后的局部加权回归法进行STL分解，将原始监测数据序列分解为趋势序列、周期序列及残差序列：

Y_i＝T_i+S_i+R_i

其中，Y_i(i＝1,2,…,n)为原始数据序列，S_i(i＝1,2,…,n)为周期序列，T_i(i＝1,2,…,n)为趋势序列，R_i(i＝1,2,…,n)为残差序列；

通过设定两重邻域阈值判断法对残差序列进行判断得到异常数据，其中，第一重判断为：

Th_MAX＝μ+A*σ

Th_MIN＝μ-B*σ

其中，μ为残差项的平均值，σ为残差项的标准差，Th_MAX为第一层残差判断阈值上限，Th_MIN为第一层残差判断阈值下限，A与B为第一层判断变量；

当Y_i超出阈值上限或下限时，将该值设定为初步异常值Q，并设定第二层残差判断阈值对其领域内数据进行第二步判定：

Th_max＝μ+a*σ

Th_min＝μ-b*σ

其中Th_max为第二层残差判断阈值上限，Th_min为第二层残差判断阈值下限，a与b为第二层判断变量，h为异常影响时间。

所述步骤3-3)中，优化后的密度聚类方法包括以下步骤：

步骤3-3-1)以原始监测数据、趋势序列T_i与周期序列S_i构建密度聚类相似度矩阵M_TR；

步骤3-3-2)以遗传算法及反向最近邻方法优化初始点选择：

设M_TR中每个点x的反向最近邻为D_k(x)＝D，并计算x的k个近邻的距离V_k,x以及距离之和V_x，将其放入矩阵中构建反向最近邻相似度矩阵R_k；

构建遗传算法初始种群，设定交叉概率P_c，变异概率P_n，种群大小z，停止迭代条件δ，采用二进制编码生成z个个体：

L＝C*J

其中，m为聚类中心任意一位数的十进制形式，y为8位的编码结果，r为m的定义域阈值，q为异常数据影响变量，由异常数据特征决定，L为总编码长度，C为聚类中心数，J为特征维度；

采用目标适应度函数为：

其中init为聚类中心，f(init)为聚类中心适应度，N_i(init)为init的i近邻域数值个数；

使用遗传算法进行迭代优化，当f(init)≤δ时达到停止迭代条件，输出初始点优化结果；

步骤3-3-3)通过密度聚类算法，将和初始点属于同一类的数据划为同一个簇；

步骤3-3-4)重复步骤3-3-2)-步骤3-3-3)，对剩余点进行聚类；

步骤3-3-5)将未加入任何簇类的样本点记为异常数据点，对异常数据点进行清洗，用周期分量与趋势分量相加进行重新构造。

所述步骤4)中，使用第二清洗策略进行数据清洗具体为：

对输入的每个数据点x_i，计算前后h时间内的平均值μ_i，进行如下不等式判断：

其中，为均值清洗判断阈值最小值，/>为均值清洗阈值判断最大值，h为异常影响时间；

若上述不等式不成立，则判断该点数据为异常数据点，对异常数据点用平均值数据进行重新构造。

所述步骤5)中，对清洗结果按清洗策略进行标注具体为：

将判定为正常且无需填补的数据点标注为CleanTag.No_Fill；

将判定为需要填补的数据点标注为CleanTag.Fill；

将第一清洗策略清洗的数据点标注为CleanTag.Algorithm；

将第二清洗策略清洗的数据点标注为CleanTag.Statistic。

与现有技术相比，本发明具有以下有益效果：

(1)本发明能够应用于长期监测的在线监测数据，对于数据量庞大的输入来源，也能实现自动化的滚动数据清洗。

(2)本发明对于常规监测情况下的数据，通过使用第一清洗策略能够高效准确地判断并清洗数据中存在的异常数据，保证了水质监测数据的准确性，提高了水资源管理的效率。并且基于数据分类及异常数据特征的参数选择提升了方法的性能，保证了本发明的泛用性。

(3)本发明对于非常规监测情况下的数据，通过使用第二清洗策略保障了实际运行过程中数据的连续性和完整性，使方案整体更为可靠且保证了水资源管理的安全稳定运行。

(4)本发明对数据驳杂的水质、水动力监测数据首先进行分类，根据分类结果分别进行数据清洗，为后续两种策略的判断提供了基础，提高了数据清洗的准确性。

附图说明

图1为本发明的方法流程图；

图2为本发明判断能否满足第一清洗策略要求的流程图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本实施例提供一种面向在线水质、水动力监测数据的滚动数据清洗方法，如图1所示，包括以下步骤：

步骤1)获取在线监测的历史及当天的水质、水动力数据，并根据数据类型将获取到的数据进行分类整理。

本实施例采用某水库长期在线监测数据作为待清洗数据，每日定时从该水库数据库中取出各个站点的水质、水动力在线监测数据，分别取出了当日监测数据及当日之前一个月的历史监测数据。

根据数据类型将获取到的数据进行分类整理包括：

将监测数据按水动力数据与水质数据进行分类；

根据监测数据所属不同监测点位进行具体分类；

根据监测数据本身是否为连贯数据进行分类；

本实施例中，对取出监测数据进行分类，首先需要对监测点位进行分类，如该水库共有五个固定监测站点、三个固定桩监测站点、六个浮筒、七个氯化物监测浮筒和两个泵站监测点；进一步需要对监测数据种类进行划分，如该水库日常监测浊度、溶解氧等常规水质指标和水位、流量等水动力指标；水动力数据中，泵站的流量由于为非连贯数据，需要单独与泵站开庭信号绑定进行数据清洗；水质数据中，氯化物数据由于受到特定季节的咸潮影响，也需要单独进行数据清洗。

步骤2)针对每种类型的监测数据，挖掘异常数据特征，对数据进行预处理并判断能否满足第一清洗策略要求。

首先，对各数据进行异常数据的特征挖掘，对不同站点、指标下异常数据的时长趋势、起因和多数据相关性进行分析，为后期清洗方法的建立提供基础。

本实施例中，对于每种类型的监测数据挖掘的异常数据特征至少包括下述特征中的一种：

其次，对数据进行预处理，具体包括以下步骤：

S1：判断当日数据是否为空，若为空则按照起始时间给出一天的空数据组并退出数据清洗流程，避免数据空置的情况。

S2：针对监测数据中时间重复及顺序错乱的问题，按照时间先后顺序，对数据进行升序排序，并根据时间变量，对数据进行去重，保证后续清洗方法实施的稳定性。

S3：针对监测数据中的缺失数据，对当日及历史数据，使用python以线性回归法进行初步填补，保证后续清洗方法的顺利实施。

本发明使用第一清洗策略与第二清洗策略协同完成滚动数据清洗，其中第二清洗策略是针对第一清洗策略无法完成或效果较差的情况下进行的一个保障性清洗策略。要确定选用哪种策略，首先需判断能否满足第一清洗策略要求，如图2所示，判断方法具体为：

步骤3)对满足第一清洗策略要求的数据，使用第一清洗策略进行数据清洗，其中，第一清洗策略利用优化后的STL时序分解清洗对历史数据进行初步清洗，进一步对清洗后历史数据与当日数据进行清洗。在此基础上使用优化后的密度聚类法对当日数据进行清洗，达到较好的清洗效果。

步骤3-1)对历史数据使用优化后的的基于局部加权回归的季节性趋势(Seasonal-Trend decomposition procedure based on Loess,STL)时序分解方法进行清洗。

优化后的STL时序分解方法具体为：

构建优化后的局部加权回归法(Locally Weighted Regression，Loess)，以反向最近邻个数替代拟合点的k近邻域：

设点x的反向最近邻为D_k(x)＝D，D满足以下条件：

(1)D∈X|{x}

(2)

Y_i＝T_i+S_i+R_i

Th_MAX＝μ+A*σ

Th_MIN＝μ-B*σ

Th_max＝μ+a*σ

Th_min＝μ-b*σ

步骤3-2)基于步骤3-1)清洗后的历史数据，使用python对当日数据使用优化后的STL时序分解方法进行清洗。

步骤3-3)基于STL时序分解清洗后的历史数据与当日数据，基于python使用优化后的密度聚类方法(Density-based spatial clustering of applications with noise,DBSCAN)对当日数据进行二次清洗。

步骤3-3-2)以遗传算法及反向最近邻方法优化初始点选择：

L＝C*J

采用目标适应度函数为：

步骤3-3-3)通过DBSCAN算法，将和初始点属于同一类的数据划为同一个簇；

步骤3-3-4)重复步骤3-3-2)-步骤3-3-3)，对剩余点进行聚类。

步骤3-3-5)将未加入任何簇类的样本点记为异常数据点，对异常数据点进行清洗，对异常数据点用周期分量与趋势分量相加进行重新构造。

本实施例中，上述STL时序分解方法和密度聚类方法中的变量设置根据所属数据分类及异常数据特征共同决定。具体的，STL时序分解的周期大小、残差判断阈值变量及密度聚类法中距离阈值及邻域样本数阈值变量通过数据分类和异常数据特征挖掘共同决定。

在一种实施例中，密度聚类优化过程中的异常数据影响变量q由异常数据特征决定，若监测数据中异常数据主要为短时跳变数据，则设q为0.5；若主要为长时渐变数据，则设q为2；若主要为混合型异常数据，则设q为1。

步骤4)对不满足第一清洗策略要求的数据，使用第二清洗策略进行数据清洗，其中，第二清洗策略基于均值清洗构建。

本实施例中，使用第二清洗策略进行数据清洗具体为：

一种实施例中，均值清洗判断阈值由数据分类和异常数据特征挖掘共同决定。

步骤5)对清洗结果按清洗策略进行标注，上传至数据库中。

具体的，将判定为正常且无需填补的数据点标注为CleanTag.No_Fill；将判定为需要填补的数据点标注为CleanTag.Fill；将第一清洗策略清洗的数据点标注为CleanTag.Algorithm；将第二清洗策略清洗的数据点标注为CleanTag.Statistic。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员依据本发明的构思在现有技术的基础上通过逻辑分析、推理、或者有限的实验可以得到的技术方案，皆应在权利要求书所确定的保护范围内。

Claims

1.一种面向在线水质、水动力监测数据的滚动数据清洗方法，其特征在于，包括以下步骤：

步骤5)对清洗结果按清洗策略进行标注，上传至数据库中；

所述步骤2)中，对数据进行预处理具体包括以下步骤：

按照时间先后顺序，对数据进行升序排序；

根据时间变量，对数据进行去重；

对当日及历史数据，以线性回归法进行初步填补；

所述步骤2)中，判断能否满足第一清洗策略要求具体为：

判断3：判断当日前一周有效数据量是否小于应得量的50％，若是则不满足第一清洗策略要求，若否则满足第一清洗策略要求；

步骤3-1)对历史数据使用优化后的STL时序分解方法进行清洗；

步骤3-3)基于STL时序分解清洗后的历史数据与当日数据，使用优化后的密度聚类方法对当日数据进行二次清洗；

所述优化后的STL时序分解方法具体为：

设点x的反向最近邻为D_k(x)＝D，D满足以下条件：

(1)D∈X|{x}

(2)

Y_i＝T_i+S_i+R_i

其中，Y_i(i＝1，2，...，n)为原始数据序列，S_i(i＝1，2，...，n)为周期序列，T_i(i＝1，2，...，n)为趋势序列，R_i(i＝1，2，...，n)为残差序列；

Th_MAX＝μ+A*σ

Th_MIN＝μ-B*σ

Th_max＝μ+a*σ

Th_min＝μ-b*σ

其中Th_max为第二层残差判断阈值上限，Th_min为第二层残差判断阈值下限，a与b为第二层判断变量，h为异常影响时间；

所述步骤3-3)中，优化后的密度聚类方法包括以下步骤：

步骤3-3-2)以遗传算法及反向最近邻方法优化初始点选择：

设M_TR中每个点x的反向最近邻为D_k(x)＝D，并计算x的k个近邻的距离V_k，x以及距离之和V_x，将其放入矩阵中构建反向最近邻相似度矩阵R_k；

L＝C*J

采用目标适应度函数为：

步骤3-3-4)重复步骤3-3-2)-步骤3-3-3)，对剩余点进行聚类；

步骤3-3-5)将未加入任何簇类的样本点记为异常数据点，对异常数据点进行清洗，用周期分量与趋势分量相加进行重新构造；

所述步骤4)中，使用第二清洗策略进行数据清洗具体为：

2.根据权利要求1所述的一种面向在线水质、水动力监测数据的滚动数据清洗方法，其特征在于，所述步骤1)中，根据数据类型将获取到的数据进行分类整理包括：

将监测数据按水动力数据与水质数据进行分类；

根据监测数据所属不同监测点位进行具体分类；

根据监测数据本身是否为连贯数据进行分类；

3.根据权利要求1所述的一种面向在线水质、水动力监测数据的滚动数据清洗方法，其特征在于，所述步骤2)中，对于每种类型的监测数据挖掘的异常数据特征至少包括下述特征中的一种：

4.根据权利要求1所述的一种面向在线水质、水动力监测数据的滚动数据清洗方法，其特征在于，所述步骤5)中，对清洗结果按清洗策略进行标注具体为：

将判定为正常且无需填补的数据点标注为CleanTag.No_Fill；

将判定为需要填补的数据点标注为CleanTag.Fill；

将第一清洗策略清洗的数据点标注为CleanTag.Algorithm；

将第二清洗策略清洗的数据点标注为CleanTag.Statistic。