CN116662864B - 一种面向在线水质、水动力监测数据的滚动数据清洗方法 - Google Patents

一种面向在线水质、水动力监测数据的滚动数据清洗方法 Download PDF

Info

Publication number
CN116662864B
CN116662864B CN202310700773.XA CN202310700773A CN116662864B CN 116662864 B CN116662864 B CN 116662864B CN 202310700773 A CN202310700773 A CN 202310700773A CN 116662864 B CN116662864 B CN 116662864B
Authority
CN
China
Prior art keywords
data
cleaning
abnormal
monitoring
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310700773.XA
Other languages
English (en)
Other versions
CN116662864A (zh
Inventor
张海平
宋辰煜
崔婧嫄
瞿尧
崔亚飞
张晟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202310700773.XA priority Critical patent/CN116662864B/zh
Publication of CN116662864A publication Critical patent/CN116662864A/zh
Application granted granted Critical
Publication of CN116662864B publication Critical patent/CN116662864B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/27Regression, e.g. linear or logistic regression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A20/00Water conservation; Efficient water supply; Efficient water use
    • Y02A20/152Water filtration

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Physiology (AREA)
  • Genetics & Genomics (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种面向在线水质、水动力监测数据的滚动数据清洗方法,包括以下步骤:获取在线监测的历史及当天的水质、水动力数据,并根据数据类型将获取到的数据进行分类整理;针对每种类型的监测数据,挖掘异常数据特征,对数据进行预处理并判断能否满足第一清洗策略要求;若满足第一清洗策略要求,则使用优化后的STL时序分解清洗与密度聚类法对进行数据清洗,并用时序分解后的趋势分量与周期分量之和对异常数据进行重构,否则使用均值清洗法进行数据清洗;对清洗结果按清洗策略进行标注,上传至数据库中。与现有技术相比,本发明考虑了在线监测数据和异常数据的特性,通过两种清洗策略协同的方式,提高了数据质量并保障了监测数据的完整性。

Description

一种面向在线水质、水动力监测数据的滚动数据清洗方法
技术领域
本发明涉及数据清洗技术领域,尤其是涉及一种面向在线水质、水动力监测数据的滚动数据清洗方法。
背景技术
近年来,随着科技的不断进步,自动监测技术得到了广泛的应用,特别是在水资源监测领域。自动监测系统能够实时收集水质、水动力数据,为水资源管理提供了重要的信息支持。然而,自动监测数据存在许多不一致、缺失或异常的情况,影响到数据的准确性和可靠性,也影响到了后续相关模型建立的精度。
数据清洗方法是指通过自动或人工的方法对原始数据进行处理,去除及填补异常值、缺失值等,使得数据更加准确、完整,更有利于进一步的分析和使用。在水资源管理领域,数据清洗对于保证水质监测数据的准确性,提高水资源管理的效率,是十分必要的。但是,面对水动力、水质在线监测数据数据量大且数据驳杂的问题,现有的数据清洗方法难以实现精准的数据清洗,且对于非常规监测情况下的数据难以保持数据的连续性和完整性。
发明内容
本发明的目的是为了提供一种面向在线水质、水动力监测数据的滚动数据清洗方法,能够应对大量且驳杂的水动力、水质在线监测数据,实现规范且自动化的滚动数据清洗。
本发明的目的可以通过以下技术方案来实现:
一种面向在线水质、水动力监测数据的滚动数据清洗方法,包括以下步骤:
步骤1)获取在线监测的历史及当天的水质、水动力数据,并根据数据类型将获取到的数据进行分类整理;
步骤2)针对每种类型的监测数据,挖掘异常数据特征,对数据进行预处理并判断能否满足第一清洗策略要求;
步骤3)对满足第一清洗策略要求的数据,使用第一清洗策略进行数据清洗,其中第一清洗策略基于STL时序分解和密度聚类构建,其变量设置根据所属数据分类及异常数据特征共同决定;
步骤4)对不满足第一清洗策略要求的数据,使用第二清洗策略进行数据清洗,其中,第二清洗策略基于均值清洗构建,其变量设置根据所属数据分类及异常数据特征共同决定;
步骤5)对清洗结果按清洗策略进行标注,上传至数据库中。
所述步骤1)中,根据数据类型将获取到的数据进行分类整理包括:
将监测数据按水动力数据与水质数据进行分类;
根据监测数据所属不同监测点位进行具体分类;
根据监测数据本身是否为连贯数据进行分类;
将监测数据中会受到特定情况影响的数据按具体情况进行分类。
所述步骤2)中,对于每种类型的监测数据挖掘的异常数据特征至少包括下述特征中的一种:
i)根据异常数据持续时长与变化趋势,分析其类型属于短期跳变、长期跳变或长期渐变异常,挖掘其时长趋势特征;
ii)根据导致异常数据发生的原因,结合监测仪器特性、数据传输偏差和管理方维护频率因素进行分析,挖掘其起因特征;
iii)根据原始数据与其他水质、水动力数据的相关关系,挖掘其数据关系特征。
所述步骤2)中,对数据进行预处理具体包括以下步骤:
判断当日数据是否为空,若为空则按照起始时间给出一天的空数据组并退出数据清洗流程;
按照时间先后顺序,对数据进行升序排序;
根据时间变量,对数据进行去重;
对当日及历史数据,以线性回归法进行初步填补。
所述步骤2)中,判断能否满足第一清洗策略要求具体为:
判断1:判断当日有效数据量是否小于应得量的50%,若是则不满足第一清洗策略要求,若否则进行判断2;
判断2:判断历史有效数据量是否小于应得量的50%,若是则不满足第一清洗策略要求,若否则进行判断3;
判断3:判断当日前一周有效数据量是否小于应得量的50%,若是则不满足第一清洗策略要求,若否则满足第一清洗策略要求。
所述步骤3)中,使用第一清洗策略进行数据清洗包括以下步骤:
步骤3-1)对历史数据使用优化后的STL时序分解方法进行清洗;
步骤3-2)基于步骤3-1)清洗后的历史数据,对当日数据使用优化后的STL时序分解方法进行清洗;
步骤3-3)基于STL时序分解清洗后的历史数据与当日数据,使用优化后的密度聚类方法对当日数据进行二次清洗。
所述优化后的STL时序分解方法具体为:
构建优化后的局部加权回归法,以反向最近邻个数替代拟合点的k近邻域:
设点x的反向最近邻为Dk(x)=D,D满足以下条件:
(1)D∈X|{x}
(2)
其中Nk(x)为点x的k近邻域,将D进行二阶局部加权线性回归以完成Loess的平滑目标;
基于优化后的局部加权回归法进行STL分解,将原始监测数据序列分解为趋势序列、周期序列及残差序列:
Yi=Ti+Si+Ri
其中,Yi(i=1,2,…,n)为原始数据序列,Si(i=1,2,…,n)为周期序列,Ti(i=1,2,…,n)为趋势序列,Ri(i=1,2,…,n)为残差序列;
通过设定两重邻域阈值判断法对残差序列进行判断得到异常数据,其中,第一重判断为:
ThMAX=μ+A*σ
ThMIN=μ-B*σ
其中,μ为残差项的平均值,σ为残差项的标准差,ThMAX为第一层残差判断阈值上限,ThMIN为第一层残差判断阈值下限,A与B为第一层判断变量;
当Yi超出阈值上限或下限时,将该值设定为初步异常值Q,并设定第二层残差判断阈值对其领域内数据进行第二步判定:
Thmax=μ+a*σ
Thmin=μ-b*σ
其中Thmax为第二层残差判断阈值上限,Thmin为第二层残差判断阈值下限,a与b为第二层判断变量,h为异常影响时间。
所述步骤3-3)中,优化后的密度聚类方法包括以下步骤:
步骤3-3-1)以原始监测数据、趋势序列Ti与周期序列Si构建密度聚类相似度矩阵MTR
步骤3-3-2)以遗传算法及反向最近邻方法优化初始点选择:
设MTR中每个点x的反向最近邻为Dk(x)=D,并计算x的k个近邻的距离Vk,x以及距离之和Vx,将其放入矩阵中构建反向最近邻相似度矩阵Rk
构建遗传算法初始种群,设定交叉概率Pc,变异概率Pn,种群大小z,停止迭代条件δ,采用二进制编码生成z个个体:
L=C*J
其中,m为聚类中心任意一位数的十进制形式,y为8位的编码结果,r为m的定义域阈值,q为异常数据影响变量,由异常数据特征决定,L为总编码长度,C为聚类中心数,J为特征维度;
采用目标适应度函数为:
其中init为聚类中心,f(init)为聚类中心适应度,Ni(init)为init的i近邻域数值个数;
使用遗传算法进行迭代优化,当f(init)≤δ时达到停止迭代条件,输出初始点优化结果;
步骤3-3-3)通过密度聚类算法,将和初始点属于同一类的数据划为同一个簇;
步骤3-3-4)重复步骤3-3-2)-步骤3-3-3),对剩余点进行聚类;
步骤3-3-5)将未加入任何簇类的样本点记为异常数据点,对异常数据点进行清洗,用周期分量与趋势分量相加进行重新构造。
所述步骤4)中,使用第二清洗策略进行数据清洗具体为:
对输入的每个数据点xi,计算前后h时间内的平均值μi,进行如下不等式判断:
其中,为均值清洗判断阈值最小值,/>为均值清洗阈值判断最大值,h为异常影响时间;
若上述不等式不成立,则判断该点数据为异常数据点,对异常数据点用平均值数据进行重新构造。
所述步骤5)中,对清洗结果按清洗策略进行标注具体为:
将判定为正常且无需填补的数据点标注为CleanTag.No_Fill;
将判定为需要填补的数据点标注为CleanTag.Fill;
将第一清洗策略清洗的数据点标注为CleanTag.Algorithm;
将第二清洗策略清洗的数据点标注为CleanTag.Statistic。
与现有技术相比,本发明具有以下有益效果:
(1)本发明能够应用于长期监测的在线监测数据,对于数据量庞大的输入来源,也能实现自动化的滚动数据清洗。
(2)本发明对于常规监测情况下的数据,通过使用第一清洗策略能够高效准确地判断并清洗数据中存在的异常数据,保证了水质监测数据的准确性,提高了水资源管理的效率。并且基于数据分类及异常数据特征的参数选择提升了方法的性能,保证了本发明的泛用性。
(3)本发明对于非常规监测情况下的数据,通过使用第二清洗策略保障了实际运行过程中数据的连续性和完整性,使方案整体更为可靠且保证了水资源管理的安全稳定运行。
(4)本发明对数据驳杂的水质、水动力监测数据首先进行分类,根据分类结果分别进行数据清洗,为后续两种策略的判断提供了基础,提高了数据清洗的准确性。
附图说明
图1为本发明的方法流程图;
图2为本发明判断能否满足第一清洗策略要求的流程图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本实施例提供一种面向在线水质、水动力监测数据的滚动数据清洗方法,如图1所示,包括以下步骤:
步骤1)获取在线监测的历史及当天的水质、水动力数据,并根据数据类型将获取到的数据进行分类整理。
本实施例采用某水库长期在线监测数据作为待清洗数据,每日定时从该水库数据库中取出各个站点的水质、水动力在线监测数据,分别取出了当日监测数据及当日之前一个月的历史监测数据。
根据数据类型将获取到的数据进行分类整理包括:
将监测数据按水动力数据与水质数据进行分类;
根据监测数据所属不同监测点位进行具体分类;
根据监测数据本身是否为连贯数据进行分类;
将监测数据中会受到特定情况影响的数据按具体情况进行分类。
本实施例中,对取出监测数据进行分类,首先需要对监测点位进行分类,如该水库共有五个固定监测站点、三个固定桩监测站点、六个浮筒、七个氯化物监测浮筒和两个泵站监测点;进一步需要对监测数据种类进行划分,如该水库日常监测浊度、溶解氧等常规水质指标和水位、流量等水动力指标;水动力数据中,泵站的流量由于为非连贯数据,需要单独与泵站开庭信号绑定进行数据清洗;水质数据中,氯化物数据由于受到特定季节的咸潮影响,也需要单独进行数据清洗。
步骤2)针对每种类型的监测数据,挖掘异常数据特征,对数据进行预处理并判断能否满足第一清洗策略要求。
首先,对各数据进行异常数据的特征挖掘,对不同站点、指标下异常数据的时长趋势、起因和多数据相关性进行分析,为后期清洗方法的建立提供基础。
本实施例中,对于每种类型的监测数据挖掘的异常数据特征至少包括下述特征中的一种:
i)根据异常数据持续时长与变化趋势,分析其类型属于短期跳变、长期跳变或长期渐变异常,挖掘其时长趋势特征;
ii)根据导致异常数据发生的原因,结合监测仪器特性、数据传输偏差和管理方维护频率因素进行分析,挖掘其起因特征;
iii)根据原始数据与其他水质、水动力数据的相关关系,挖掘其数据关系特征。
其次,对数据进行预处理,具体包括以下步骤:
S1:判断当日数据是否为空,若为空则按照起始时间给出一天的空数据组并退出数据清洗流程,避免数据空置的情况。
S2:针对监测数据中时间重复及顺序错乱的问题,按照时间先后顺序,对数据进行升序排序,并根据时间变量,对数据进行去重,保证后续清洗方法实施的稳定性。
S3:针对监测数据中的缺失数据,对当日及历史数据,使用python以线性回归法进行初步填补,保证后续清洗方法的顺利实施。
本发明使用第一清洗策略与第二清洗策略协同完成滚动数据清洗,其中第二清洗策略是针对第一清洗策略无法完成或效果较差的情况下进行的一个保障性清洗策略。要确定选用哪种策略,首先需判断能否满足第一清洗策略要求,如图2所示,判断方法具体为:
判断1:判断当日有效数据量是否小于应得量的50%,若是则不满足第一清洗策略要求,若否则进行判断2;
判断2:判断历史有效数据量是否小于应得量的50%,若是则不满足第一清洗策略要求,若否则进行判断3;
判断3:判断当日前一周有效数据量是否小于应得量的50%,若是则不满足第一清洗策略要求,若否则满足第一清洗策略要求。
步骤3)对满足第一清洗策略要求的数据,使用第一清洗策略进行数据清洗,其中,第一清洗策略利用优化后的STL时序分解清洗对历史数据进行初步清洗,进一步对清洗后历史数据与当日数据进行清洗。在此基础上使用优化后的密度聚类法对当日数据进行清洗,达到较好的清洗效果。
步骤3-1)对历史数据使用优化后的的基于局部加权回归的季节性趋势(Seasonal-Trend decomposition procedure based on Loess,STL)时序分解方法进行清洗。
优化后的STL时序分解方法具体为:
构建优化后的局部加权回归法(Locally Weighted Regression,Loess),以反向最近邻个数替代拟合点的k近邻域:
设点x的反向最近邻为Dk(x)=D,D满足以下条件:
(1)D∈X|{x}
(2)
其中Nk(x)为点x的k近邻域,将D进行二阶局部加权线性回归以完成Loess的平滑目标;
基于优化后的局部加权回归法进行STL分解,将原始监测数据序列分解为趋势序列、周期序列及残差序列:
Yi=Ti+Si+Ri
其中,Yi(i=1,2,…,n)为原始数据序列,Si(i=1,2,…,n)为周期序列,Ti(i=1,2,…,n)为趋势序列,Ri(i=1,2,…,n)为残差序列;
通过设定两重邻域阈值判断法对残差序列进行判断得到异常数据,其中,第一重判断为:
ThMAX=μ+A*σ
ThMIN=μ-B*σ
其中,μ为残差项的平均值,σ为残差项的标准差,ThMAX为第一层残差判断阈值上限,ThMIN为第一层残差判断阈值下限,A与B为第一层判断变量;
当Yi超出阈值上限或下限时,将该值设定为初步异常值Q,并设定第二层残差判断阈值对其领域内数据进行第二步判定:
Thmax=μ+a*σ
Thmin=μ-b*σ
其中Thmax为第二层残差判断阈值上限,Thmin为第二层残差判断阈值下限,a与b为第二层判断变量,h为异常影响时间。
步骤3-2)基于步骤3-1)清洗后的历史数据,使用python对当日数据使用优化后的STL时序分解方法进行清洗。
步骤3-3)基于STL时序分解清洗后的历史数据与当日数据,基于python使用优化后的密度聚类方法(Density-based spatial clustering of applications with noise,DBSCAN)对当日数据进行二次清洗。
步骤3-3-1)以原始监测数据、趋势序列Ti与周期序列Si构建密度聚类相似度矩阵MTR
步骤3-3-2)以遗传算法及反向最近邻方法优化初始点选择:
设MTR中每个点x的反向最近邻为Dk(x)=D,并计算x的k个近邻的距离Vk,x以及距离之和Vx,将其放入矩阵中构建反向最近邻相似度矩阵Rk
构建遗传算法初始种群,设定交叉概率Pc,变异概率Pn,种群大小z,停止迭代条件δ,采用二进制编码生成z个个体:
L=C*J
其中,m为聚类中心任意一位数的十进制形式,y为8位的编码结果,r为m的定义域阈值,q为异常数据影响变量,由异常数据特征决定,L为总编码长度,C为聚类中心数,J为特征维度;
采用目标适应度函数为:
其中init为聚类中心,f(init)为聚类中心适应度,Ni(init)为init的i近邻域数值个数;
使用遗传算法进行迭代优化,当f(init)≤δ时达到停止迭代条件,输出初始点优化结果;
步骤3-3-3)通过DBSCAN算法,将和初始点属于同一类的数据划为同一个簇;
步骤3-3-4)重复步骤3-3-2)-步骤3-3-3),对剩余点进行聚类。
步骤3-3-5)将未加入任何簇类的样本点记为异常数据点,对异常数据点进行清洗,对异常数据点用周期分量与趋势分量相加进行重新构造。
本实施例中,上述STL时序分解方法和密度聚类方法中的变量设置根据所属数据分类及异常数据特征共同决定。具体的,STL时序分解的周期大小、残差判断阈值变量及密度聚类法中距离阈值及邻域样本数阈值变量通过数据分类和异常数据特征挖掘共同决定。
在一种实施例中,密度聚类优化过程中的异常数据影响变量q由异常数据特征决定,若监测数据中异常数据主要为短时跳变数据,则设q为0.5;若主要为长时渐变数据,则设q为2;若主要为混合型异常数据,则设q为1。
步骤4)对不满足第一清洗策略要求的数据,使用第二清洗策略进行数据清洗,其中,第二清洗策略基于均值清洗构建。
本实施例中,使用第二清洗策略进行数据清洗具体为:
对输入的每个数据点xi,计算前后h时间内的平均值μi,进行如下不等式判断:
其中,为均值清洗判断阈值最小值,/>为均值清洗阈值判断最大值,h为异常影响时间;
若上述不等式不成立,则判断该点数据为异常数据点,对异常数据点用平均值数据进行重新构造。
一种实施例中,均值清洗判断阈值由数据分类和异常数据特征挖掘共同决定。
步骤5)对清洗结果按清洗策略进行标注,上传至数据库中。
具体的,将判定为正常且无需填补的数据点标注为CleanTag.No_Fill;将判定为需要填补的数据点标注为CleanTag.Fill;将第一清洗策略清洗的数据点标注为CleanTag.Algorithm;将第二清洗策略清洗的数据点标注为CleanTag.Statistic。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依据本发明的构思在现有技术的基础上通过逻辑分析、推理、或者有限的实验可以得到的技术方案,皆应在权利要求书所确定的保护范围内。

Claims (4)

1.一种面向在线水质、水动力监测数据的滚动数据清洗方法,其特征在于,包括以下步骤:
步骤1)获取在线监测的历史及当天的水质、水动力数据,并根据数据类型将获取到的数据进行分类整理;
步骤2)针对每种类型的监测数据,挖掘异常数据特征,对数据进行预处理并判断能否满足第一清洗策略要求;
步骤3)对满足第一清洗策略要求的数据,使用第一清洗策略进行数据清洗,其中第一清洗策略基于STL时序分解和密度聚类构建,其变量设置根据所属数据分类及异常数据特征共同决定;
步骤4)对不满足第一清洗策略要求的数据,使用第二清洗策略进行数据清洗,其中,第二清洗策略基于均值清洗构建,其变量设置根据所属数据分类及异常数据特征共同决定;
步骤5)对清洗结果按清洗策略进行标注,上传至数据库中;
所述步骤2)中,对数据进行预处理具体包括以下步骤:
判断当日数据是否为空,若为空则按照起始时间给出一天的空数据组并退出数据清洗流程;
按照时间先后顺序,对数据进行升序排序;
根据时间变量,对数据进行去重;
对当日及历史数据,以线性回归法进行初步填补;
所述步骤2)中,判断能否满足第一清洗策略要求具体为:
判断1:判断当日有效数据量是否小于应得量的50%,若是则不满足第一清洗策略要求,若否则进行判断2;
判断2:判断历史有效数据量是否小于应得量的50%,若是则不满足第一清洗策略要求,若否则进行判断3;
判断3:判断当日前一周有效数据量是否小于应得量的50%,若是则不满足第一清洗策略要求,若否则满足第一清洗策略要求;
所述步骤3)中,使用第一清洗策略进行数据清洗包括以下步骤:
步骤3-1)对历史数据使用优化后的STL时序分解方法进行清洗;
步骤3-2)基于步骤3-1)清洗后的历史数据,对当日数据使用优化后的STL时序分解方法进行清洗;
步骤3-3)基于STL时序分解清洗后的历史数据与当日数据,使用优化后的密度聚类方法对当日数据进行二次清洗;
所述优化后的STL时序分解方法具体为:
构建优化后的局部加权回归法,以反向最近邻个数替代拟合点的k近邻域:
设点x的反向最近邻为Dk(x)=D,D满足以下条件:
(1)D∈X|{x}
(2)
其中Nk(x)为点x的k近邻域,将D进行二阶局部加权线性回归以完成Loess的平滑目标;
基于优化后的局部加权回归法进行STL分解,将原始监测数据序列分解为趋势序列、周期序列及残差序列:
Yi=Ti+Si+Ri
其中,Yi(i=1,2,...,n)为原始数据序列,Si(i=1,2,...,n)为周期序列,Ti(i=1,2,...,n)为趋势序列,Ri(i=1,2,...,n)为残差序列;
通过设定两重邻域阈值判断法对残差序列进行判断得到异常数据,其中,第一重判断为:
ThMAX=μ+A*σ
ThMIN=μ-B*σ
其中,μ为残差项的平均值,σ为残差项的标准差,ThMAX为第一层残差判断阈值上限,ThMIN为第一层残差判断阈值下限,A与B为第一层判断变量;
当Yi超出阈值上限或下限时,将该值设定为初步异常值Q,并设定第二层残差判断阈值对其领域内数据进行第二步判定:
Thmax=μ+a*σ
Thmin=μ-b*σ
其中Thmax为第二层残差判断阈值上限,Thmin为第二层残差判断阈值下限,a与b为第二层判断变量,h为异常影响时间;
所述步骤3-3)中,优化后的密度聚类方法包括以下步骤:
步骤3-3-1)以原始监测数据、趋势序列Ti与周期序列Si构建密度聚类相似度矩阵MTR
步骤3-3-2)以遗传算法及反向最近邻方法优化初始点选择:
设MTR中每个点x的反向最近邻为Dk(x)=D,并计算x的k个近邻的距离Vk,x以及距离之和Vx,将其放入矩阵中构建反向最近邻相似度矩阵Rk
构建遗传算法初始种群,设定交叉概率Pc,变异概率Pn,种群大小z,停止迭代条件δ,采用二进制编码生成z个个体:
L=C*J
其中,m为聚类中心任意一位数的十进制形式,y为8位的编码结果,r为m的定义域阈值,q为异常数据影响变量,由异常数据特征决定,L为总编码长度,C为聚类中心数,J为特征维度;
采用目标适应度函数为:
其中init为聚类中心,f(init)为聚类中心适应度,Ni(init)为init的i近邻域数值个数;
使用遗传算法进行迭代优化,当f(init)≤δ时达到停止迭代条件,输出初始点优化结果;
步骤3-3-3)通过密度聚类算法,将和初始点属于同一类的数据划为同一个簇;
步骤3-3-4)重复步骤3-3-2)-步骤3-3-3),对剩余点进行聚类;
步骤3-3-5)将未加入任何簇类的样本点记为异常数据点,对异常数据点进行清洗,用周期分量与趋势分量相加进行重新构造;
所述步骤4)中,使用第二清洗策略进行数据清洗具体为:
对输入的每个数据点xi,计算前后h时间内的平均值μi,进行如下不等式判断:
其中,为均值清洗判断阈值最小值,/>为均值清洗阈值判断最大值,h为异常影响时间;
若上述不等式不成立,则判断该点数据为异常数据点,对异常数据点用平均值数据进行重新构造。
2.根据权利要求1所述的一种面向在线水质、水动力监测数据的滚动数据清洗方法,其特征在于,所述步骤1)中,根据数据类型将获取到的数据进行分类整理包括:
将监测数据按水动力数据与水质数据进行分类;
根据监测数据所属不同监测点位进行具体分类;
根据监测数据本身是否为连贯数据进行分类;
将监测数据中会受到特定情况影响的数据按具体情况进行分类。
3.根据权利要求1所述的一种面向在线水质、水动力监测数据的滚动数据清洗方法,其特征在于,所述步骤2)中,对于每种类型的监测数据挖掘的异常数据特征至少包括下述特征中的一种:
i)根据异常数据持续时长与变化趋势,分析其类型属于短期跳变、长期跳变或长期渐变异常,挖掘其时长趋势特征;
ii)根据导致异常数据发生的原因,结合监测仪器特性、数据传输偏差和管理方维护频率因素进行分析,挖掘其起因特征;
iii)根据原始数据与其他水质、水动力数据的相关关系,挖掘其数据关系特征。
4.根据权利要求1所述的一种面向在线水质、水动力监测数据的滚动数据清洗方法,其特征在于,所述步骤5)中,对清洗结果按清洗策略进行标注具体为:
将判定为正常且无需填补的数据点标注为CleanTag.No_Fill;
将判定为需要填补的数据点标注为CleanTag.Fill;
将第一清洗策略清洗的数据点标注为CleanTag.Algorithm;
将第二清洗策略清洗的数据点标注为CleanTag.Statistic。
CN202310700773.XA 2023-06-14 2023-06-14 一种面向在线水质、水动力监测数据的滚动数据清洗方法 Active CN116662864B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310700773.XA CN116662864B (zh) 2023-06-14 2023-06-14 一种面向在线水质、水动力监测数据的滚动数据清洗方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310700773.XA CN116662864B (zh) 2023-06-14 2023-06-14 一种面向在线水质、水动力监测数据的滚动数据清洗方法

Publications (2)

Publication Number Publication Date
CN116662864A CN116662864A (zh) 2023-08-29
CN116662864B true CN116662864B (zh) 2024-04-23

Family

ID=87720523

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310700773.XA Active CN116662864B (zh) 2023-06-14 2023-06-14 一种面向在线水质、水动力监测数据的滚动数据清洗方法

Country Status (1)

Country Link
CN (1) CN116662864B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109542740A (zh) * 2017-09-22 2019-03-29 阿里巴巴集团控股有限公司 异常检测方法及装置
CN112527788A (zh) * 2020-12-17 2021-03-19 北京中恒博瑞数字电力科技有限公司 变压器监测数据异常值检测与清洗的方法及装置
WO2021077761A1 (zh) * 2019-10-23 2021-04-29 江苏智通交通科技有限公司 基于层次聚类的路口异常车辆轨迹识别分析方法
CN113591401A (zh) * 2021-08-24 2021-11-02 华北电力大学(保定) 一种基于时间序列分解的电力变压器数据清洗方法
WO2022160682A1 (zh) * 2021-01-27 2022-08-04 力合科技(湖南)股份有限公司 水质监测数据分析方法及装置、设备、存储介质
CN115440032A (zh) * 2022-08-09 2022-12-06 浙江工业大学 一种长短期公共交通流量预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11146445B2 (en) * 2019-12-02 2021-10-12 Alibaba Group Holding Limited Time series decomposition

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109542740A (zh) * 2017-09-22 2019-03-29 阿里巴巴集团控股有限公司 异常检测方法及装置
WO2021077761A1 (zh) * 2019-10-23 2021-04-29 江苏智通交通科技有限公司 基于层次聚类的路口异常车辆轨迹识别分析方法
CN112527788A (zh) * 2020-12-17 2021-03-19 北京中恒博瑞数字电力科技有限公司 变压器监测数据异常值检测与清洗的方法及装置
WO2022160682A1 (zh) * 2021-01-27 2022-08-04 力合科技(湖南)股份有限公司 水质监测数据分析方法及装置、设备、存储介质
CN113591401A (zh) * 2021-08-24 2021-11-02 华北电力大学(保定) 一种基于时间序列分解的电力变压器数据清洗方法
CN115440032A (zh) * 2022-08-09 2022-12-06 浙江工业大学 一种长短期公共交通流量预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于大数据的电力信息通信预警技术研究;王江亭;靳丹;俞俊;巫乾军;;电力信息与通信技术;20170915(第09期);全文 *
基于层次聚类分析的变压器油中溶解气体在线监测数据异常检测;王文森,杨晓西,刘阳,郭晨希,董明;《高压电器》;20230116;全文 *
考虑时间序列关联的变压器在线监测数据清洗;林峻,严英杰,盛戈皞,江秀臣,杨祎,陈玉峰;电网技术;20171105;全文 *

Also Published As

Publication number Publication date
CN116662864A (zh) 2023-08-29

Similar Documents

Publication Publication Date Title
US20210133536A1 (en) Load prediction method and apparatus based on neural network
Jafari et al. A hybrid optimization technique using exchange market and genetic algorithms
CN111723527B (zh) 基于鸡尾酒长短期记忆神经网络的齿轮剩余寿命的预测方法
CN113240011B (zh) 一种深度学习驱动的异常识别与修复方法及智能化系统
CN112910690A (zh) 基于神经网络模型的网络流量预测方法、装置及设备
CN112418491B (zh) 一种水库剩余拦沙库容动态配置方法
CN110515931B (zh) 一种基于随机森林算法的电容型设备缺陷预测方法
CN114529051A (zh) 基于层次残差自注意力神经网络的长期电力负荷预测方法
CN114580762A (zh) 一种基于XGBoost的水文预报误差校正方法
Liao et al. Ultra-short-term interval prediction of wind power based on graph neural network and improved bootstrap technique
CN116662864B (zh) 一种面向在线水质、水动力监测数据的滚动数据清洗方法
CN114897248A (zh) 一种基于人工智能的电网负荷预测方法
CN111062539A (zh) 基于次级用电量特性聚类分析的总电量预测方法
Hernandez-Ambato et al. Multistep-ahead streamflow and reservoir level prediction using ANNs for production planning in hydroelectric stations
CN116451032A (zh) 一种基于de-lssvm的ais数据修复方法
CN116645132A (zh) 基于多因子变量的时序预测方法、装置、电子设备及介质
CN115062832A (zh) 基于多时间尺度注意力网络的废旧家电回收量预测方法
Xiao et al. Crude oil price forecasting: a transfer learning based analog complexing model
CN115456260A (zh) 客服话务量预测方法
CN110909254B (zh) 基于深度学习模型针对问答社区进行问题热度预测的方法和系统
CN109146194A (zh) 一种基于变模态卷积自编码关联向量机的径流量预测方法
CN114492507A (zh) 一种数模协同驱动下的轴承剩余寿命预测方法
CN112667394A (zh) 一种计算机资源利用率优化方法
Xu et al. Load forecasting research based on high performance intelligent data processing of power big data
CN115147135B (zh) 一种基于drsn的台区窃电用户识别方法、系统及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant