CN113760880A - 一种水质自动监测数据的预处理方法 - Google Patents
一种水质自动监测数据的预处理方法 Download PDFInfo
- Publication number
- CN113760880A CN113760880A CN202111046998.5A CN202111046998A CN113760880A CN 113760880 A CN113760880 A CN 113760880A CN 202111046998 A CN202111046998 A CN 202111046998A CN 113760880 A CN113760880 A CN 113760880A
- Authority
- CN
- China
- Prior art keywords
- data set
- water quality
- automatic monitoring
- quality automatic
- original data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
Abstract
本发明提供了一种水质自动监测数据的预处理方法,包括以下步骤:S1、统计并标记原始数据集中的缺失值;S2、对原始数据集中的数据进行时间序列分解,得到残差项;S3、识别所述残差项中的异常值,并删除和/或修正所述异常值;S4、采用线性插值法插补所述原始数据集中的缺失值和删除后的异常值,得到经处理后的完整数据集。相比于现有技术,本发明的预处理方法有效处理了水质自动监测数值集中的异常值和缺失值,可获得完整且可靠性较高的数据集,从而为水质自动监测数据的后续分析和应用提供了便利。
Description
技术领域
本发明涉及水质数据预处理技术领域,具体涉及一种水质自动监测数据的预处理方法。
背景技术
利用历史水质监测数据进行水质评价及预测是水环境管理的重要一环,传统的水质监测方法主要是以月度或季度为监测间隔的人工监测。近年来,随着大数据时代的到来,水质自动监测站逐渐得到研究人员的关注。与常规人工监测的水质数据不同,水质自动监测站获得的自动监测数据具有频次高、数据量大等特点,可以更加全面、精确地识别水质变量的时空变化规律,以及变量之间的动态联系。根据生态环境部制定的《国家地表水水质自动监测站文化建设方案(试行)》,我国计划在全国范围内建设若干个地表水水质自动监测站。所以,水质自动监测数据必将为我国水环境管理带来新的契机。
在实际监测过程中,由于可能受到风雨天气等极端环境条件的影响,传感器获得的水质自动监测数据难免存在异常值和缺失值,需要进行适当的数据清洗。然而,由于自动监测数据具有频次高、数据量大等特点,难以采用常规的目视审验或简单数据分析方法进行预处理,因此,有必要研发出一种科学合理的数据清洗方法对自动监测数据进行批量清洗。
发明内容
本发明的目的在于:针对现有技术的不足,提供一种水质自动监测数据的预处理方法,通过该预处理方法处理后,可以获得完整且可靠性较高的数据集,从而为水质自动监测数据的后续分析和应用提供了便利。
为了实现上述目的,本发明采用以下技术方案:
一种水质自动监测数据的预处理方法,包括以下步骤:
S1、统计并标记原始数据集中的缺失值;
S2、对原始数据集中的数据进行时间序列分解,得到残差项;
S3、识别所述残差项中的异常值,并删除和/或修正所述异常值;
S4、采用线性插值法插补所述原始数据集中的缺失值和删除后的异常值,得到经处理后的完整数据集。
优选的,步骤S1中,通过对所述原始数据集构建时间序列,来得到缺失值的数量及其位置。
优选的,步骤S2中,采用时间序列分解方法剥离所述原始数据集中的趋势项和周期项后,得到残差项。
优选的,采用局部加权回归法对原始数据集进行趋势和周期拟合。
优选的,所述局部加权回归法为STL统计方法。
优选的,步骤S3中,采用极端学习偏差检验算法识别所述残差项中的异常值。
优选的,步骤S3中,所述异常值的修正方法为:以所述原始数据集得到的周期项和趋势项之和代替识别出的异常值。
本发明的有益效果在于:本发明提供的数据预处理方法,将原始数据集的处理分为缺失值和异常值的处理,并限定两者的处理顺序,其中先采用时间序列分解方法筛选出残差项,缩小数据的处理范围,再识别出残差项内的异常值,然后对该异常值进行删除和/或修正;而后再采用线性插值法对缺失值和删除的异常值进行插补,从而得到经处理后的完成数据集。相比于现有技术,本发明的预处理方法有效处理了水质自动监测数值集中的异常值和缺失值,可获得完整且可靠性较高的数据集,从而为水质自动监测数据的后续分析和应用提供了便利。
附图说明
图1为本发明预处理方法的流程图。
图2为实施例1监测时间内原始数据集中pH值的浓度变化图。
图3为实施例1监测时间内原始数据集中温度的浓度变化图。
图4为实施例1监测时间内原始数据集中叶绿素的浓度变化图。
图5为实施例1监测时间内原始数据集中溶解氧的浓度变化图。
图6为实施例1监测时间内原始数据集中各变量缺失值的可视化图。
图7为实施例1监测时间内原始数据集中pH值的异常值识别图。
图8为实施例1监测时间内原始数据集中温度的异常值识别图。
图9为实施例1监测时间内原始数据集中叶绿素的异常值识别图。
图10为实施例1监测时间内原始数据集中溶解氧的异常值识别图。
图11为实施例1异常值删除后待插补的pH值的可视化图。
图12为图11中插补后的pH值的可视化图。
图13为实施例1异常值修正后及插补后的pH值的可视化图。
图14为实施例1异常值删除后待插补的温度的可视化图。
图15为图14中插补后的温度的可视化图。
图16为实施例1异常值修正后及插补后的温度的可视化图。
图17为实施例1异常值删除后待插补的叶绿素的可视化图。
图18为图17中插补后的叶绿素的可视化图。
图19为实施例1异常值修正后及插补后的叶绿素的可视化图。
图20为实施例1异常值删除后待插补的溶解氧的可视化图。
图21为图20中插补后的溶解氧的可视化图。
图22为实施例1异常值修正后及插补后的溶解氧的可视化图。
具体实施方式
为使本发明的技术方案和优点更加清楚,下面将结合具体实施方式和说明书附图,对本发明及其有益效果作进一步详细的描述,但本发明的实施方式不限于此。
其中,线性插值法是指插值函数为一次多项式的插值方式,其在插值节点上的插值误差为零。
STL统计方法代指seasonal trend decomposition using loess,是一种采用局部加权回归法进行趋势和周期拟合的非参数统计方法,适用于处理非线性、局部趋势。
极端学习偏差检验算法是指GESD算法(Generalized Extreme StudentizedDeviate Test),包括S-ESD(Seasonal ESD)与S-H-ESD(Seasonal Hybrid ESD)算法。
本发明提供了一种水质自动监测数据的预处理方法,如图1所示,包括以下步骤:
S1、统计并标记原始数据集中的缺失值;
S2、对原始数据集中的数据进行时间序列分解,得到残差项;
S3、识别所述残差项中的异常值,并删除和/或修正所述异常值;
S4、采用线性插值法插补所述原始数据集中的缺失值和删除后的异常值,得到经处理后的完整数据集。
其中,步骤S3中对于异常值的处理包括以下三种方法:1)删除异常值;2)修正异常值;3)其中一部分异常值采用删除的方法,另一部分异常值采用修正的方法。
步骤S4中的线性插值法可采用python中的pandas包的interpolate函数实现。采用线性插值法具有简便快速,且不易产生噪声的优点,更加适用于由水质自动监测站获得具有频次高、数据量大的水质自动监测数据。
进一步地,步骤S1中,通过对所述原始数据集构建时间序列,来得到缺失值的数量及其位置。通过对缺失值的数量进行统计,可以明确原始数据集的缺失比例,如缺失比例过大,则表明该原始数据集的统计结果可能存在偏差大的问题,一般,缺失比例大于50%时,建议重新收集原始数据集;而缺失比例小于或等于50%时,可继续对原始数据集进行处理分析。优选的,缺失值的缺失比例小于20%为佳。
进一步地,步骤S2中,采用时间序列分解方法剥离所述原始数据集中的趋势项和周期项后,得到残差项。优选的,可采用局部加权回归法对原始数据集进行趋势和周期拟合。进一步优选的,可采用STL统计方法对原始数据集进行趋势和周期拟合。具体的,可以用python中statsmodels包的STL函数实现。
进一步地,步骤S3中,采用极端学习偏差检验(GESD)算法识别所述残差项中的异常值。具体的,可采用python中GESD算法识别异常值及其位置。这里所指的异常值即是指对应原始数据集中的原始数据。常用的异常值识别方法通常需要研究者预先设定时间序列中异常值的个数,然而在实际应用中,异常值个数是无法预知的。本发明采用GESD方法可以通过预设异常值个数的最大比例,通过迭代t-检验(将预测统计值与临界值进行比较)优选异常值的最佳个数,并显示对应的异常值点,应用更加简单准确。
进一步地,步骤S3中,所述异常值的修正方法为:以所述原始数据集得到的周期项和趋势项之和代替识别出的异常值。对于周期项和趋势项的数值由STL函数计算得到。
具体的,采用本发明的预处理方法对以下实施例的数据集进行处理。
实施例1
1、数据介绍
本实施例的数据集是河北省秦皇岛市桃林口水库水源站监测点2016年8月24日16时-2018年4月19日16时的水质在线监测数据。数据采集频率为4h/次,共计14476条,包含pH值、温度(Temp)、叶绿素(CHL)、溶解氧(DO)共4项常见的水质指标,各水质变量浓度变化如图2-5所示。
2、统计各变量缺失、值数量并可视化
为水质数据构建完整的时间序列,将缺失值标记为“NA”,各水质变量缺失值的数量如表1所示。采用python中的missingno包可视化缺失值,如图6所示,白色部分为各水质变量的缺失值。
表1各水质变量缺失值数量统计表
pH值 | 温度 | 叶绿素 | 溶解氧 | |
原始数据数量 | 3153 | 3153 | 3153 | 3153 |
缺失值数量 | 466 | 466 | 466 | 466 |
缺失比例 | 12.88% | 12.88% | 12.88% | 12.88% |
由上述的缺失值比例可以看出,本实施例数据集的缺失比例为12.88%,缺失比例较低,数据的可靠性较高,可继续进一步的处理及分析。
3、时间序列分解
实际水质监测数据可能存在趋势性或周期性特征,因此有必要采用时间序列分解方法剥离原始数据中的趋势项和周期项,便于对剩余的残差项进行分析。在本实施例中,水质变量的周期性是预定的,即存在以天为周期的规律性波动,因此各水质变量每天的监测频次为6,可具体的采用python中statsmodels包的STL函数实现趋势项和周期项对应的原始数据的剥离,进而得到残差项。
4、异常值的识别
基于python采用GESD算法识别残差项中的异常值及其位置,识别结果如图7~10所示,“+”标记的点为异常点;接着对异常值进行处理,处理方式包括:1)删除异常值;2)修正异常值;3)其中一部分异常值采用删除的方法,另一部分异常值采用修正的方法。其中,图11为采用方法1)得到的pH值的数据可视化图;图14为采用方法1)得到的温度的数据可视化图;图17为采用方法1)得到的叶绿素的数据可视化图;图20为采用方法1)得到的溶解氧的数据可视化图。
5、缺失值的插补
调用python中的pandas包的interpolate函数,选用linear线性插值方法对数据集进行插补,以完成原始数据集的预处理。处理后的可视化图如图12~13、15~16、18~19、21~22所示,其中,图12为对图11的数据进行插补得到的pH值的数据可视化图;图15为对图14的数据进行插补得到的温度的数据可视化图;图18为对图17的数据进行插补得到的叶绿素的数据可视化图;图21为对图20的数据进行插补得到的溶解氧的数据可视化图;而图13、16、19、22则是分别为采用修正异常值的方法插补缺失值得到的pH值、温度、叶绿素和溶解氧的数据可视化图。
与图2~5相比可知,本发明的预处理方法得到的完整数据集数据可靠性高,可有效作为水质自动监测数据后续分析的依据,为其后续的应用提供的便利。
根据上述说明书的揭示和教导,本发明所属领域的技术人员还能够对上述实施方式进行变更和修改。因此,本发明并不局限于上述的具体实施方式,凡是本领域技术人员在本发明的基础上所作出的任何显而易见的改进、替换或变型均属于本发明的保护范围。此外,尽管本说明书中使用了一些特定的术语,但这些术语只是为了方便说明,并不对本发明构成任何限制。
Claims (7)
1.一种水质自动监测数据的预处理方法,其特征在于,包括以下步骤:
S1、统计并标记原始数据集中的缺失值;
S2、对原始数据集中的数据进行时间序列分解,得到残差项;
S3、识别所述残差项中的异常值,并删除和/或修正所述异常值;
S4、采用线性插值法插补所述原始数据集中的缺失值和删除后的异常值,得到经处理后的完整数据集。
2.根据权利要求1所述的水质自动监测数据的预处理方法,其特征在于,步骤S1中,通过对所述原始数据集构建时间序列,来得到缺失值的数量及其位置。
3.根据权利要求1所述的水质自动监测数据的预处理方法,其特征在于,步骤S2中,采用时间序列分解方法剥离所述原始数据集中的趋势项和周期项后,得到残差项。
4.根据权利要求3所述的水质自动监测数据的预处理方法,其特征在于,采用局部加权回归法对原始数据集进行趋势和周期拟合。
5.根据权利要求4所述的水质自动监测数据的预处理方法,其特征在于,所述局部加权回归法为STL统计方法。
6.根据权利要求1、3~5任一项所述的水质自动监测数据的预处理方法,其特征在于,步骤S3中,采用极端学习偏差检验算法识别所述残差项中的异常值。
7.根据权利要求6所述的水质自动监测数据的预处理方法,其特征在于,步骤S3中,所述异常值的修正方法为:以所述原始数据集得到的周期项和趋势项之和代替识别出的异常值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111046998.5A CN113760880A (zh) | 2021-09-07 | 2021-09-07 | 一种水质自动监测数据的预处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111046998.5A CN113760880A (zh) | 2021-09-07 | 2021-09-07 | 一种水质自动监测数据的预处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113760880A true CN113760880A (zh) | 2021-12-07 |
Family
ID=78793653
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111046998.5A Pending CN113760880A (zh) | 2021-09-07 | 2021-09-07 | 一种水质自动监测数据的预处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113760880A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114757589A (zh) * | 2022-06-14 | 2022-07-15 | 深圳市拓安信计控仪表有限公司 | 数据处理方法、服务器及存储介质 |
CN115545112A (zh) * | 2022-10-17 | 2022-12-30 | 水利部信息中心 | 一种大量地下水实时自动监测数据自动识别和处理的方法 |
CN115994295A (zh) * | 2023-03-22 | 2023-04-21 | 长江空间信息技术工程有限公司(武汉) | 应用于水利工程运行安全的监测数据处理方法以及装置 |
CN116595327A (zh) * | 2023-07-19 | 2023-08-15 | 水利部交通运输部国家能源局南京水利科学研究院 | 水闸变形监测数据预处理系统及方法 |
CN116756136A (zh) * | 2023-08-16 | 2023-09-15 | 深圳市明心数智科技有限公司 | 鱼塘监测设备数据自动化处理方法、装置、设备及介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108776831A (zh) * | 2018-05-15 | 2018-11-09 | 中南大学 | 一种基于动态卷积神经网络的复杂工业过程数据建模方法 |
CN108897719A (zh) * | 2018-05-25 | 2018-11-27 | 西安电子科技大学 | 基于自适应遗传算法的气象数据缺失值填补方法 |
CN109800483A (zh) * | 2018-12-29 | 2019-05-24 | 北京城市网邻信息技术有限公司 | 一种预测方法、装置、电子设备和计算机可读存储介质 |
CN111178611A (zh) * | 2019-12-23 | 2020-05-19 | 广西电网有限责任公司 | 一种日电量预测的方法 |
CN111444168A (zh) * | 2020-03-26 | 2020-07-24 | 易电务(北京)科技有限公司 | 一种配电室变压器日最大负荷异常数据检测处理方法 |
CN111667168A (zh) * | 2020-06-04 | 2020-09-15 | 同济大学 | 一种基于液位监测诊断排水系统运行状态的方法 |
CN112199362A (zh) * | 2020-10-14 | 2021-01-08 | 北京理工大学 | 一种mes背景下的数据库数据缺失的填补方法及系统 |
CN112215422A (zh) * | 2020-10-13 | 2021-01-12 | 北京工业大学 | 基于季节性分解的长短时记忆网络水质动态预警方法 |
CN112488395A (zh) * | 2020-12-01 | 2021-03-12 | 湖南大学 | 一种配电网线损预测方法及系统 |
CN112905716A (zh) * | 2021-02-24 | 2021-06-04 | 同济大学 | 一种半导体生产过程数据预处理方法及装置 |
CN112988725A (zh) * | 2021-03-15 | 2021-06-18 | 广东电网有限责任公司清远供电局 | 一种输电线路数据清洗方法、系统、电子设备和存储介质 |
-
2021
- 2021-09-07 CN CN202111046998.5A patent/CN113760880A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108776831A (zh) * | 2018-05-15 | 2018-11-09 | 中南大学 | 一种基于动态卷积神经网络的复杂工业过程数据建模方法 |
CN108897719A (zh) * | 2018-05-25 | 2018-11-27 | 西安电子科技大学 | 基于自适应遗传算法的气象数据缺失值填补方法 |
CN109800483A (zh) * | 2018-12-29 | 2019-05-24 | 北京城市网邻信息技术有限公司 | 一种预测方法、装置、电子设备和计算机可读存储介质 |
CN111178611A (zh) * | 2019-12-23 | 2020-05-19 | 广西电网有限责任公司 | 一种日电量预测的方法 |
CN111444168A (zh) * | 2020-03-26 | 2020-07-24 | 易电务(北京)科技有限公司 | 一种配电室变压器日最大负荷异常数据检测处理方法 |
CN111667168A (zh) * | 2020-06-04 | 2020-09-15 | 同济大学 | 一种基于液位监测诊断排水系统运行状态的方法 |
CN112215422A (zh) * | 2020-10-13 | 2021-01-12 | 北京工业大学 | 基于季节性分解的长短时记忆网络水质动态预警方法 |
CN112199362A (zh) * | 2020-10-14 | 2021-01-08 | 北京理工大学 | 一种mes背景下的数据库数据缺失的填补方法及系统 |
CN112488395A (zh) * | 2020-12-01 | 2021-03-12 | 湖南大学 | 一种配电网线损预测方法及系统 |
CN112905716A (zh) * | 2021-02-24 | 2021-06-04 | 同济大学 | 一种半导体生产过程数据预处理方法及装置 |
CN112988725A (zh) * | 2021-03-15 | 2021-06-18 | 广东电网有限责任公司清远供电局 | 一种输电线路数据清洗方法、系统、电子设备和存储介质 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114757589A (zh) * | 2022-06-14 | 2022-07-15 | 深圳市拓安信计控仪表有限公司 | 数据处理方法、服务器及存储介质 |
CN115545112A (zh) * | 2022-10-17 | 2022-12-30 | 水利部信息中心 | 一种大量地下水实时自动监测数据自动识别和处理的方法 |
CN115545112B (zh) * | 2022-10-17 | 2023-05-30 | 水利部信息中心 | 一种大量地下水实时自动监测数据自动识别和处理的方法 |
CN115994295A (zh) * | 2023-03-22 | 2023-04-21 | 长江空间信息技术工程有限公司(武汉) | 应用于水利工程运行安全的监测数据处理方法以及装置 |
CN116595327A (zh) * | 2023-07-19 | 2023-08-15 | 水利部交通运输部国家能源局南京水利科学研究院 | 水闸变形监测数据预处理系统及方法 |
CN116595327B (zh) * | 2023-07-19 | 2023-09-29 | 水利部交通运输部国家能源局南京水利科学研究院 | 水闸变形监测数据预处理系统及方法 |
CN116756136A (zh) * | 2023-08-16 | 2023-09-15 | 深圳市明心数智科技有限公司 | 鱼塘监测设备数据自动化处理方法、装置、设备及介质 |
CN116756136B (zh) * | 2023-08-16 | 2023-10-31 | 深圳市明心数智科技有限公司 | 鱼塘监测设备数据自动化处理方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113760880A (zh) | 一种水质自动监测数据的预处理方法 | |
CN109711659B (zh) | 一种工业生产的良率提升管理系统和方法 | |
CN109727446B (zh) | 一种用电数据异常值的识别与处理方法 | |
CN110457184B (zh) | 基于时序波动关联的化工异常因果分析与图形展示方法 | |
CN110705807B (zh) | 基于现场数据的半导体生产质量预测方法及系统 | |
CN111105082A (zh) | 基于机器学习的工件质量预测模型构建方法及预测方法 | |
CN110019124A (zh) | 一种集合天气预报修订方法及系统 | |
CN109634944B (zh) | 一种基于多维度时空分析的网损数据清洗方法 | |
CN109670652A (zh) | 一种光伏组件的故障预测方法 | |
CN112415635A (zh) | 一种耦合伽马与高斯分布的月尺度降水预报校正方法 | |
CN115808877A (zh) | 一种能源生产设备的加热过程瞬态工况识别方法 | |
CN111737249A (zh) | 基于Lasso算法的异常数据检测方法及装置 | |
CN110163480B (zh) | 一种卷包车间质量辅助决策的方法 | |
CN110175166B (zh) | 一种烟草卷包车间质量异常的确认方法 | |
CN115860797B (zh) | 一种适应新电价改革形势的电量需求预测方法 | |
CN116775632A (zh) | 一种基于车载终端采集数据的近实时清洗数据执行方法 | |
Abdollahi et al. | An iterative decision rule to minimize cost of acceptance sampling plan in machine replacement problem | |
CN116339266A (zh) | 一种管材生产复合监测方法及系统 | |
CN115145903A (zh) | 一种基于生产过程的数据插补方法 | |
CN113946621A (zh) | 一种基于关联规则的制丝车间数据波动关系的挖掘方法 | |
CN111814345B (zh) | 利用多种中尺度风速数据插补观测缺失风速数据的方法 | |
CN113780655A (zh) | 一种基于智慧供应链的钢材多品种需求预测方法 | |
CN110298588B (zh) | 基于统计分析的标准自动优化系统及方法 | |
CN117034166A (zh) | 一种自适应不同离异因子的稳健大坝监测异常数据在线识别方法 | |
CN114969017B (zh) | 风功率数据清洗方法、清洗装置及预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |