CN114817228B - 一种湖泊水位长时间序列监测数据的异常值剔除方法 - Google Patents
一种湖泊水位长时间序列监测数据的异常值剔除方法 Download PDFInfo
- Publication number
- CN114817228B CN114817228B CN202210614390.6A CN202210614390A CN114817228B CN 114817228 B CN114817228 B CN 114817228B CN 202210614390 A CN202210614390 A CN 202210614390A CN 114817228 B CN114817228 B CN 114817228B
- Authority
- CN
- China
- Prior art keywords
- water level
- lake water
- data
- monitoring data
- lake
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 134
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 title claims abstract description 129
- 238000000034 method Methods 0.000 title claims abstract description 77
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 67
- 238000009826 distribution Methods 0.000 claims abstract description 23
- 230000008030 elimination Effects 0.000 claims abstract description 19
- 238000003379 elimination reaction Methods 0.000 claims abstract description 19
- 238000007619 statistical method Methods 0.000 claims abstract description 7
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000010586 diagram Methods 0.000 claims description 13
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000007774 longterm Effects 0.000 claims description 2
- 230000008859 change Effects 0.000 description 19
- 238000012545 processing Methods 0.000 description 12
- 238000004140 cleaning Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 230000001932 seasonal effect Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000003672 processing method Methods 0.000 description 3
- 230000009897 systematic effect Effects 0.000 description 3
- 238000005520 cutting process Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000013450 outlier detection Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2477—Temporal data queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Measurement Of Levels Of Liquids Or Fluent Solid Materials (AREA)
Abstract
本发明公开了一种湖泊水位长时间序列监测数据的异常值剔除方法,包括将湖水位监测数据集成,形成湖水位长时间序列图,对湖水位长时间序列图进行统计分析,获取湖水位时间序列监测数据的分布特征;设置宽度合适的上下限,对湖水位时间序列监测数据进行阈值剔除,获取湖水位阈值剔除监测数据集;对湖水位阈值剔除监测数据集,进行滑动绝对中位差法异常值剔除,获取湖水位滑动绝对中位差法异常值剔除监测数据集;对湖水位滑动绝对中位差法阈值剔除监测数据集进行密度聚类异常值剔除,设定距离阈值以及样本数阈值,获取湖水位密度聚类异常值剔除监测数据集,得到最终结果,获取更精确的有效数据。
Description
技术领域
本发明涉及数据处理应用技术领域,具体涉及一种湖泊水位长时间序列监测数据的异常值剔除方法。
背景技术
随着测绘以及遥感技术的发展,各类监测数据逐渐成为人们最有价值的资产之一。但是,由于气候等环境因素的影响,大多数监测数据是冗余的,且长期内存在有一致的变化趋势。所以,对各类监测数据进行异常值剔除且保证数据本身变化特征是极为重要的。
目前,对于一般的大数据集的异常值剔除,有较多的数学处理办法。一些主流的异常值清洗方法一般是基于数学理论的。对于大规模数据而言,可以采用拉依达法则、肖维勒准则等方法进行异常值检测。但是,这些主流方法的使用前提为数据集是符合正态分布的。然而,在气候变化的影响下,湖水位数据是长期有趋势变化,且短期季节性波动的,不符合正态分布。仅仅依据简单的数学处理方法,往往会造成正常存在的湖水位监测数据的峰值数据被不合理剔除的后果。
发明内容
根据现有技术的不足,本发明的目的是提供一种湖泊水位长时间序列监测数据的异常值剔除方法,能够有效解决季节性有趋势变化数据的不合理剔除问题,从而获取更精确的有效数据,分析湖泊水位的实际变化趋势。
为了解决上述技术问题,本发明采用的技术方案为:
一种湖泊水位长时间序列监测数据的异常值剔除方法,包括:
步骤S1、将湖水位监测数据集成,形成湖水位长时间序列图,对湖水位长时间序列图进行统计分析,获取湖水位时间序列监测数据的分布特征;
步骤S2、设置宽度合适的上下限,对上下限以外的湖水位时间序列监测数据进行阈值剔除,获取湖水位阈值剔除监测数据集;
步骤S3、对步骤S2得到的湖水位阈值剔除监测数据集,进行滑动绝对中位差法异常值剔除,获取湖水位滑动绝对中位差法异常值剔除监测数据集;
步骤S4、对步骤S3得到的湖水位滑动绝对中位差法阈值剔除监测数据集,进行密度聚类异常值剔除,设定密度聚类邻域的距离阈值以及样本数阈值,获取湖水位密度聚类异常值剔除监测数据集,得到最终结果。
进一步地,所述步骤S1包括:步骤S101、通过地面传感器或卫星高度计监测得到湖水位数据,依照地面传感器或卫星高度计提供的数据预处理方法,对得到的湖水位监测数据进行预处理,去除系统误差值;
步骤S102、依照监测时间点,对预处理完毕的湖水位监测数据建立湖水位长时间序列图;
步骤S103、统计分析分析湖水位长时间序列图,分析水位数据的集中趋势以及离散趋势,计算出整体平均值、众数、中位数以及方差,得到湖水位时间序列的整体分布情况;
步骤S104、作出湖水位时间序列监测数据散点图,横坐标为时间,纵坐标为湖水位高度。
进一步地,所述步骤S2中,依据步骤S1中的数据的分布特征,设置宽度合适的阈值A,阈值A包括上限和下限,上限和下限之间为数据分布最密集的带状区域,包含波峰最高点以及波谷最低点,设置好合适的阈值A后,对湖水位监测数据进行过滤,清洗大于阈值A上限以及小于阈值下限的监测数据,得到分布在最密集的带状区域的监测数据。
进一步地,所述步骤S3中,设定滑动时间窗口D,依据时间序列长短,将二者相除取整,确定子时间序列的数量a,切分序列得到各个子时间序列数据集,剔除子数据集内大于三倍绝对中位差的异常数据。
进一步地,子时间序列的数量a计算公式如下:
其中:: 整个数据集的时间区间大小;: 滑动时间窗口D的区
间大小;
绝对中位差的计算公式如下:
其中,为数据集中第i个数据的大小;为数据集的中位数大小。
进一步地,所述步骤S4具体包括:
步骤S401、随机选择一个未被监测的数据作为中心点,计算其他所有数据与该中心点的欧式距离,作为衡量二者相似性的标准;
步骤S402、统计与中心点的欧式距离小于距离阈值E的点数,满足条件的数据称为邻点,若邻点数目大于样本数阈值M,则记录该中心点为核心点,若邻点数目小于等于样本数阈值M,检测邻点中是否存在核心点,若存在核心点,则记录该中心点为边界点;若该中心点既不属于核心点也不属于边界点,确定该点与正常范围内的数据差异较大,被视作异常点;
步骤S403、将所有湖水位数据遍历完毕后,剔除被标记为异常点的湖水位监测值,以完成异常值剔除。
进一步地,在步骤S401中,欧式距离的计算公式如下:
其中,为当前中心点的湖水位监测值;为除中心点之外其他点的湖水位监测
值,
;b为所有湖水位监测值的数量。
进一步地,步骤S402的计算方法为:
其中,为距离阈值;M为样本数阈值;为中心
点c的邻点个数;为中心点c的邻点集合;为所有核心点的集合;为所有边界点的集合;为所有异常点的集合。
进一步地,距离阈值E为湖水位滑动绝对中位差法阈值剔除监测数据集中所有滑动窗口内数据极差的平均数的二分之一,样本数阈值M为湖水位滑动绝对中位差法阈值剔除监测数据集中所有滑动窗口内数据量的中位数,距离阈值E以及样本阈值M的计算公式如下:
其中,为第i个滑动时间窗口内子数据集的最大值大小;为第i个滑动
时间窗口内子数据集的最小值大小,为第i个滑动时间窗口内子数据集的数据量;为子时间序列的数量。
进一步地,还包括步骤S5,根据湖水位密度聚类异常值剔除监测数据集对距离阈值E和样本数阈值M进行调整,调整完毕后,跳转步骤S4。
与现有技术相比,本发明具有以下优点和有益效果:
本发明所述的一种湖泊水位长时间序列监测数据的异常值剔除方法,能够解决湖水位长时间序列监测数据在异常值剔除过程中,极值数据被不合理剔除的问题,从而帮助用户更快捷精确的提取到有效数据,保留真实数据的变化趋势。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明一种湖泊水位长时间序列监测数据的异常值剔除方法整体流程图;
图2是本发明一种湖泊水位长时间序列监测数据的异常值剔除方法具体流程图;
图3是某湖泊监测得到的长时间序列水位未处理时的分布情况;
图4是滑动绝对中误差法异常值剔除的算法流程图;
图5是对某湖泊监测得到的长时间序列水位阈值法处理后滑动窗口的分布情况;
图6是基于密度的聚类异常值剔除的算法流程图;
图7是本发明处理的某湖泊长时间序列水位数据与未处理的数据、水位真实值的分布图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
一般来说,湖水位长时间序列监测数据在正常波动范围内是存在有极大极小值的,而且这些波峰波谷数据大多是真实数据值,不应该被剔除。同时,在气候变化的影响下,这些数据有自身的变化趋势,长时间内变化趋势一致,采用现有的数据处理方法,往往会造成正常存在的湖水位监测数据的峰值数据被不合理剔除的后果。
因此,本发明提出了一种湖泊水位长时间序列监测数据的异常值剔除方法,能够有效解决季节性有趋势变化数据的不合理剔除问题,从而获取更精确的有效数据,分析湖泊水位的实际变化趋势。
一种湖泊水位长时间序列监测数据的异常值剔除方法,如图1和图2所示,包括:
步骤S1、将湖水位监测数据集成,形成湖水位长时间序列图,对湖水位长时间序列图进行统计分析,获取湖水位时间序列监测数据的分布特征;
在步骤S1中,湖水位长时间序列图能够初步判断湖水位的所有监测值的整体变化趋势、异常值分布情况,一般而言,异常值普遍小于有效值,也存在异常值分布均匀、异常值偏大或偏小的情况以及数据的特殊情况(某些数据可能有独特的变化特点),对湖水位长时间序列图进行可视化,能够更直观的得到湖水位时间序列监测数据的分布特征。
湖水位时间序列监测数据的分布特征通常包括集中趋势和离散趋势:
集中趋势:计算平均数、中位数以及众数,初步了解数据的整体水平;其次,作为后续判断异常值剔除效果的基础。如果观察湖水位长时间序列图发现异常值普遍偏小,且按照本发明给出的方法处理完毕后平均数增大,说明处理是合理的。
离散趋势:计算方差以及标准差等,一是可以辅助序列图判断异常值的分布情况,这里主要是帮助判断异常值的多少问题,方差/标准差越大,说明异常值越多;方差以及标准差能够作为后续判断异常值剔除效果的指标,如果处理后方差/标准差明显减小,说明处理是有效的。
步骤S2、设置宽度合适的上下限,对上下限以外的湖水位时间序列监测数据进行阈值剔除,获取湖水位阈值剔除监测数据集;
由于湖水位长时间序列图中监测数据量较大,初步对数据进行清洗,可以降低步骤S3以及步骤S4的运算时间,减小运行所占存储空间,避免不必要的资源支出,通过对湖水位阈值剔除监测数据集可视化,能够更直观的分析进行阈值剔除后的湖水位阈值剔除监测数据集的效果。
步骤S3、对步骤S2得到的湖水位阈值剔除监测数据集,设置滑动窗口,进行滑动绝对中位差法异常值剔除,获取湖水位滑动绝对中位差法阈值剔除监测数据集;
步骤S3中,绝对中位差(MAD)是一种鲁棒性的统计量。相比于标准差,绝对中位差更适应单变量数值型数据的样本异常值。由于绝对中位差的统计标准不是均值而是中位数(均值容易受到个别偏差较大的异常值影响),少量的异常值不会影响绝对中位差的结果,更适合存在有异常值的数据集,通过对湖水位滑动绝对中位差法阈值剔除监测数据集可视化,能够更直观的分析进行滑动绝对中位差法异常值剔除的湖水位滑动绝对中位差法阈值剔除监测数据集的效果。
同时,这里选用时间滑动窗口的方法,逐个滑动窗口进行绝对中位差法异常值剔除。一个滑动窗口内的异常值远少于整体数据集,保证了绝对中位差计算的正确性(即不受异常值干扰或受异常值干扰较小)。除此之外,一个滑动窗口往往具有相同的变化趋势或变化趋势较小,波动情况一致,进行数据清洗时,可以保留时间序列中的峰值数据。
步骤S4、对步骤S3得到的湖水位滑动绝对中位差法阈值剔除监测数据集,进行密度聚类异常值剔除,设定密度聚类邻域的距离阈值以及样本数阈值,获取湖水位密度聚类异常值剔除监测数据集,得到最终结果。
步骤S3处理完毕后,已经剔除了大多数异常数据,但是还存在一个极端情况未被处理。
极端情况:在某些时间点,传感器监测得到的湖水位数据很少,只有几个数据点,且这些数据点相差也不大。由于数据量较小,不能反映湖水位整体的情况,需要被剔除。
而步骤S3的方法无法剔除这些计算情况的数据。因此,为了进一步的得到有效数据,且剔除上述的数据值,采用密度聚类的方法再一次剔除。采用密度聚类,不仅可以清洗遗留的少量异常值,还可以逐步调整处理幅度(两个算法参数:样本数阈值以及距离阈值),进行特殊化的处理(除了上述极端情况的处理外,可能还存在有其他的特殊情况,在这步中均可以按需调整)。
通过对湖水位密度聚类异常值剔除监测数据集可视化,能够更直观的分析进行密度聚类异常值剔除的湖水位密度聚类异常值剔除监测数据集的效果。
本发明能够解决湖水位长时间序列监测数据在异常值剔除过程中,极值数据被不合理剔除的问题,从而帮助用户更快捷精确的提取到有效数据,保留真实数据的变化趋势。
当前,环境变化愈发严重,湖泊也受此影响。随着传感器以及卫星遥感技术的发展,获取湖水位的监测数据越来越便捷,但很多监测值都受到了不同程度的干扰,无法反映湖水的变化趋势。有一部分获取湖水位时间序列的方法,都把重点放在了数据的系统误差处理上(建立系统误差模型、计算大气误差等等),而仅采用简单的方法对系统误差处理过后的湖水位数据进行噪声剔除。然而,对于湖水位时间序列数据这类有趋势变化、短期内季节性波动的数据,采用一般的数据清洗方法(这些数据清洗方法一般都会剔除时间序列前后期的峰值数据,导致一部分时间对应的数据缺失)是不合理的,需要设计适合湖水位数据的异常值剔除方法,保留湖水位的自身的变化情况。
在步骤S1中,具体包括:
步骤S101、通过地面传感器或卫星高度计监测得到湖水位数据,依照地面传感器或卫星高度计提供的数据预处理方法,对得到的湖水位监测数据进行预处理,去除系统误差值;
步骤S102、依照监测时间点,对预处理完毕的湖水位监测数据建立湖水位长时间序列图;
步骤S103、统计分析分析湖水位长时间序列图,分析水位数据的集中趋势以及离散趋势,计算出整体平均值、众数、中位数以及方差,得到湖水位时间序列的整体分布情况;
步骤S104、作出湖水位时间序列监测数据散点图,横坐标为时间,纵坐标为水位高度。
在步骤S103中,平均数、方差和标准差的计算公式如下:
其中,n为数据集的大小;为数据集中第i个数据的大小;为数据集的平均数;为数据集的方差;S为数据集的标准差。
其中,在步骤S104中可以通过采用统计软件或其他方法进行做图,如图3所示,是青藏高原某湖泊的湖水位长时间序列监测数据的散点图,其中设置横坐标为以年为单位的时间值,纵坐标为对应的湖水位监测值。
在步骤S2中,如图2-图5所示,依据步骤S1中的数据的分布特征,设置宽度合适的阈值A,阈值A包括上限和下限,上限和下限之间为数据分布最密集的带状区域,包含波峰最高点以及波谷最低点,设置好合适的阈值A后,对湖水位监测数据进行过滤,清洗大于阈值上限以及小于阈值下限的监测数据,得到分布在密集带状区域的监测数据;
按照此原则,设置密集带状区域的最大值为阈值A的上限,密集带状区域的最小值为其下限。同时,可以采用统计软件将设置好的阈值A与湖水位长时间序列作图比较。
其中,阈值A以步骤S1中数据的分布特征为标准,即湖水位时间序列监测数据散点图为标准。
若该阈值设置过小,则会导致正常波动数据被剔除;若该阈值设置过大,则会增加下述过程计算量。
在步骤S3中,如图2-4所示,对步骤S2得到的数据结果进行滑动绝对中位差法异常值剔除,设定滑动时间窗口D,依据时间序列长短,将二者相除取整,确定子时间序列的数量,切分序列得到各个子时间序列数据集,剔除子数据集内大于三倍绝对中位差的异常数据,获取并可视化湖水位滑动绝对中位差法阈值剔除监测数据集。
依次计算每个子时间序列中的绝对中位差(MAD)大小。与拉依达法则原理类似,统计方法中,波动范围超过三倍绝对中位差(MAD)的数据可以被视作离群点,剔除离群点。
按照这一统计规律,剔除子数据集内大于三倍绝对中位差的异常数据,可以清洗子序列中的异常值,而且该清洗不受子序列之外的极值数据干扰,不会剔除正常波动的有效数据。
子时间序列的数量a计算公式如下:
其中:: 整个数据集的时间区间大小;: 滑动时间窗口D的区
间大小;
绝对中位差的计算公式如下:
其中,为数据集中第i个数据的大小;为数据集的中位数大小。
此外,滑动时间窗口D应不超过数据的单调区间的最大范围。一般而言,依照湖水位的季节性波动特性,D可以设置为0.25年,即一个季度;如果有其他异常情况或时间序列长度极大,D可以设置为数据单调区间大小的平均值或适当增大。为了保证数据清洗的合理性,滑动时间窗口D的大小可以根据实际情况进行调整,但不可过大也不可过小。若该时间窗口过大,则会剔除部分极值数据;若该时间窗口过小,没有实际意义,降低了运算效率。如图5,基于湖水位值季节性变化的特性,设置滑动时间窗口D大小为0.25年(一个季度)。
通过设置滑动时间窗口D大小为0.25年,可以有效解决湖水位季节性有趋势变化数据的不合理剔除问题,从而获取更精确的有效数据,分析数据的实际变化趋势。
在步骤S4中,对步骤S3得到的数据结果进行密度聚类的异常值剔除,设定密度聚类邻域的距离阈值E以及样本数阈值M,剔除密度聚类之外的数据,具体的算法流程见图6。
如图6和图7所示,所述步骤S4具体包括:
步骤S401、随机选择一个未被监测的数据作为中心点,计算其他所有数据与该中心点的欧式距离,作为衡量二者相似性的标准;
步骤S402、统计与中心点的欧式距离小于距离阈值E的点数,满足条件的数据称为邻点,若邻点数目大于样本数阈值M,则记录该中心点为核心点,若邻点数目小于等于样本数阈值M,检测邻点中是否存在核心点,若存在核心点,则记录该中心点为边界点;若该中心点既不属于核心点也不属于边界点,确定该点与正常范围内的数据差异较大,被视作异常点;
步骤S403、将所有湖水位数据遍历完毕后,剔除被标记为异常点的湖水位监测值,以完成异常值剔除。
经过上述步骤进行密度聚类的异常值剔除,可以去除遗留的异常值。更重要的是,可以解决某些监测时间点测量获取的湖水位值较少,不具有代表性的现象。在密度聚类中,直接将这些无法代表整体湖水位的少量监测值剔除,防止某一时间点测量数据较少而对湖水位的整体变化趋势造成较大干扰。
在步骤S401中,欧式距离的计算公式如下:
其中,为当前中心点的湖水位监测值;为除中心点之外其他点的湖水位监测
值,
;b为所有湖水位监测值的数量。
步骤S402的计算方法为:
其中,为距离阈值;M为样本数阈值;为中心
点c的邻点个数;为中心点c的邻点集合;为所有核心点的集合;为所有边界点的集合;为所有异常点的集合。
将所有湖水位数据遍历完毕后,剔除被标记为异常点的湖水位监测值,以完成异常值剔除。
所述步骤S402中,依据数据的季节波动性特征以及保证计算的简单性,距离阈值E为步骤S3中,湖水位滑动绝对中位差法阈值剔除监测数据集中所有滑动窗口内数据极差的平均数的二分之一,样本数阈值M为步骤S3中,湖水位滑动绝对中位差法阈值剔除监测数据集中所有滑动窗口内数据量的中位数。
在步骤S4中,此时的处理数据变为步骤S3处理完毕的数据,即湖水位滑动绝对中位差法阈值剔除监测数据集,步骤S4与步骤S3中计算子时间序列的方法一致,即子时间序列的时间区间大小、子时间序列的数量a不变,子时间序列内的数据量减小。经过滑动绝对中位差法异常值剔除后,对于剔除部分误差的湖水位时间序列而言,滑动时间窗口D内子时间序列数据的极差数值大小基本可以视作该序列的正常波动范围。最终将各个窗口子时间序列数据的极差取平均值,作为距离阈值E的两倍,可以减少部分子时间序列的少量极端值干扰。同时,一个滑动窗口内子时间序列的数据量,即一个波动区间的湖水位监测数据数量,基本可以反映一段时间的数据聚集程度。所以,这里选用所有子时间序列数据量的中位数作为样本数阈值M的合适估计值。
距离阈值E以及样本阈值M的计算公式如下:
其中,为第i个滑动时间窗口内子数据集的最大值大小;为第i个滑动
时间窗口内子数据集的最小值大小,为第i个滑动时间窗口内子数据集的数据量;
为子时间序列的数量。
除此之外,本发明还包括步骤S5,根据湖水位密度聚类异常值剔除监测数据集对距离阈值E和样本数阈值M进行调整。
步骤S5包括:步骤S501、可视化湖水位密度聚类异常值剔除监测数据集,将湖水位密度聚类异常值剔除监测数据集与湖水位滑动绝对中位差法阈值剔除监测数据集进行对比分析,依据经验判断异常值监测结果;
步骤S502、计算湖水位密度聚类异常值剔除监测数据集标准差、湖水位监测数据标准差和湖水位滑动绝对中位差法阈值剔除监测数据集标准差,如果标准差减小,说明异常值被合理剔除;如果异常值未被检测出来或检测出的异常值较少,减小距离阈值E的大小或增大样本数阈值M的大小;如果异常值较多,增大距离阈值E或减小样本数阈值M的大小。
其中,在距离阈值大小一定时,当样本数阈值设置较小,异常值不宜被剔除;当样本数阈值设置较大,会造成极值被不合理剔除的情况。在样本数阈值大小一定时,当距离阈值设置较小,数据被异常清洗,不合实际;当距离阈值设置较大,效果不够明显。
因此,调整的范围应该符合计算得到距离阈值E、样本数阈值M大小的数量级范围,均不可超过二者的一半,按照上述原则,距离阈值E选择其值的十分之一进行逐差调整,样本数阈值M选择其值的十分之一进行逐差调整。
在本发明的一个实施例中,有一组整体上增长且存在正常波动的某湖泊长时间序列监测数据集,数据集中可避免地存在有异常监测值,通过湖泊水位长时间序列监测数据的异常值剔除方法对这个数据集进行相关处理。
如图2所示,根据步骤S1获取某湖泊的数据的分布特征。根据步骤S2,如图3所示,设置阈值A上限为4547.5m,下限为4542.5m,如图5所示,为实施步骤S2后得到的湖水位阈值剔除监测数据集。根据步骤S3,设置滑动窗口D为0.25年,设置相关参数,A=(4547.5,4542.5),D=0.25,E=0.25,M=95,进行数据处理,计算得到一个时间点对应的监测最优值。然后,计算未处理的数据集的每个时间点的最优值作为参考进行对比。如图7所示曲线变化结果,与真实数据对比,可以发现图中本发明计算结果(五角星号线)接近真实值(实心冒号线),与真实水位值的波动一致且整体变化趋势相同,而且效果明显优于原始数据(点划线)。
综上所述,本发明方法对于湖水位长时间序列监测数据的异常值清洗结果是合理的,且更为精确,从而验证了本发明方法的有效性。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (7)
1.一种湖泊水位长时间序列监测数据的异常值剔除方法,其特征在于,包括:
步骤S1、将湖水位监测数据集成,形成湖水位长时间序列图,对湖水位长时间序列图进行统计分析,获取湖水位时间序列监测数据的分布特征;
步骤S2、设置宽度合适的上下限,对上下限以外的湖水位时间序列监测数据进行阈值剔除,获取湖水位阈值剔除监测数据集;
步骤S3、对步骤S2得到的湖水位阈值剔除监测数据集,进行滑动绝对中位差法异常值剔除,获取湖水位滑动绝对中位差法异常值剔除监测数据集,设定滑动时间窗口D,滑动时间窗口D大小为0.25年,依据时间序列长短,将二者相除取整,确定子时间序列的数量a,切分序列得到各个子时间序列数据集,剔除子数据集内大于三倍绝对中位差的异常数据;
子时间序列的数量a计算公式如下:
其中:: 整个数据集的时间区间大小;/>: 滑动时间窗口D的区间大小;
绝对中位差的计算公式如下:
其中,为数据集中第i个数据的大小;/>为数据集的中位数大小;
步骤S4、对步骤S3得到的湖水位滑动绝对中位差法阈值剔除监测数据集,进行密度聚类异常值剔除,设定密度聚类邻域的距离阈值以及样本数阈值,获取湖水位密度聚类异常值剔除监测数据集,得到最终结果,具体为;
步骤S401、随机选择一个未被监测的数据作为中心点,计算其他所有数据与该中心点的欧式距离,作为衡量二者相似性的标准;
步骤S402、统计与中心点的欧式距离小于距离阈值E的点数,满足条件的数据称为邻点,若邻点数目大于样本数阈值M,则记录该中心点为核心点,若邻点数目小于等于样本数阈值M,检测邻点中是否存在核心点,若存在核心点,则记录该中心点为边界点;若该中心点既不属于核心点也不属于边界点,确定该点与正常范围内的数据差异较大,被视作异常点,距离阈值E为湖水位滑动绝对中位差法阈值剔除监测数据集中所有滑动窗口内数据极差的平均数的二分之一,样本数阈值M为湖水位滑动绝对中位差法阈值剔除监测数据集中所有滑动窗口内数据量的中位数;
步骤S403、将所有湖水位数据遍历完毕后,剔除被标记为异常点的湖水位监测值,以完成异常值剔除。
2.根据权利要求1所述的湖泊水位长时间序列监测数据的异常值剔除方法,其特征在于,所述步骤S1包括:步骤S101、通过地面传感器或卫星高度计监测得到湖水位数据,依照地面传感器或卫星高度计提供的数据预处理方法,对得到的湖水位监测数据进行预处理,去除系统误差值;
步骤S102、依照监测时间点,对预处理完毕的湖水位监测数据建立湖水位长时间序列图;
步骤S103、统计分析湖水位长时间序列图,分析水位数据的集中趋势以及离散趋势,计算出整体平均值、众数、中位数以及方差,得到湖水位时间序列的整体分布情况;
步骤S104、作出湖水位时间序列监测数据散点图,横坐标为时间,纵坐标为湖水位高度。
3.根据权利要求1所述的湖泊水位长时间序列监测数据的异常值剔除方法,其特征在于:所述步骤S2中,依据步骤S1中的数据的分布特征,设置宽度合适的阈值A,阈值A包括上限和下限,上限和下限之间为数据分布最密集的带状区域,包含波峰最高点以及波谷最低点,设置好合适的阈值A后,对湖水位监测数据进行过滤,清洗大于阈值A上限以及小于阈值下限的监测数据,得到分布在最密集的带状区域的监测数据。
4.根据权利要求1所述的湖泊水位长时间序列监测数据的异常值剔除方法,其特征在于:在步骤S401中,欧式距离的计算公式如下:
其中,为当前中心点的湖水位监测值;/>为除中心点之外其他点的湖水位监测值,
;b为所有湖水位监测值的数量。
5.根据权利要求1所述的湖泊水位长时间序列监测数据的异常值剔除方法,其特征在于:步骤S402的计算方法为:
其中,为距离阈值;M为样本数阈值;/>为中心点c的邻点个数;/>为中心点c的邻点集合;/>为所有核心点的集合;为所有边界点的集合;/>为所有异常点的集合。
6.根据权利要求1所述的湖泊水位长时间序列监测数据的异常值剔除方法,其特征在于:距离阈值E以及样本阈值M的计算公式如下:
其中,为第i个滑动时间窗口内子数据集的最大值大小;/>为第i个滑动时间窗口内子数据集的最小值大小,/>为第i个滑动时间窗口内子数据集的数据量;为子时间序列的数量。
7.根据权利要求1所述的湖泊水位长时间序列监测数据的异常值剔除方法,其特征在于:还包括步骤S5,根据湖水位密度聚类异常值剔除监测数据集对距离阈值E和样本数阈值M进行调整,调整完毕后,跳转步骤S4。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210614390.6A CN114817228B (zh) | 2022-06-01 | 2022-06-01 | 一种湖泊水位长时间序列监测数据的异常值剔除方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210614390.6A CN114817228B (zh) | 2022-06-01 | 2022-06-01 | 一种湖泊水位长时间序列监测数据的异常值剔除方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114817228A CN114817228A (zh) | 2022-07-29 |
CN114817228B true CN114817228B (zh) | 2023-08-04 |
Family
ID=82518403
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210614390.6A Active CN114817228B (zh) | 2022-06-01 | 2022-06-01 | 一种湖泊水位长时间序列监测数据的异常值剔除方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114817228B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115410342B (zh) * | 2022-08-26 | 2023-08-11 | 安徽省地质矿产勘查局332地质队 | 一种基于裂缝计实时监测的滑坡灾害智能预警方法 |
CN115545112B (zh) * | 2022-10-17 | 2023-05-30 | 水利部信息中心 | 一种大量地下水实时自动监测数据自动识别和处理的方法 |
CN117609710B (zh) * | 2024-01-24 | 2024-04-12 | 中国电建集团西北勘测设计研究院有限公司 | 监测数据正常跳变防剔除方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046084A (zh) * | 2019-12-18 | 2020-04-21 | 重庆大学 | 一种多元时间序列监测数据的关联规则挖掘方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107679215A (zh) * | 2017-10-19 | 2018-02-09 | 西安交通大学 | 一种基于质心的离群点检测方法 |
CN108763346B (zh) * | 2018-05-15 | 2022-02-01 | 中南大学 | 一种滑窗箱型图中值滤波的异常点处理方法 |
CN112287988A (zh) * | 2020-10-19 | 2021-01-29 | 广东长天思源环保科技股份有限公司 | 一种水污染源在线监测数据异常的识别方法 |
CN112800115B (zh) * | 2021-04-07 | 2021-07-23 | 腾讯科技(深圳)有限公司 | 数据处理方法及数据处理装置 |
CN113536198B (zh) * | 2021-07-13 | 2022-12-13 | 中国华能集团清洁能源技术研究院有限公司 | 一种风电机组功率曲线异常散点识别系统及方法 |
CN113742327B (zh) * | 2021-09-02 | 2022-03-25 | 中国水利水电科学研究院 | 一种基于测雨雷达数据的自动雨量站异常值筛选方法 |
-
2022
- 2022-06-01 CN CN202210614390.6A patent/CN114817228B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046084A (zh) * | 2019-12-18 | 2020-04-21 | 重庆大学 | 一种多元时间序列监测数据的关联规则挖掘方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114817228A (zh) | 2022-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114817228B (zh) | 一种湖泊水位长时间序列监测数据的异常值剔除方法 | |
CN111275307B (zh) | 一种水质自动在线站高频连续观测数据质量控制方法 | |
CN116823826B (zh) | 一种数控机床刀具崩刃异常检测方法 | |
CN115661147B (zh) | 基于机器视觉的计量检测数据识别方法 | |
Branisavljević et al. | Improved real-time data anomaly detection using context classification | |
CN112032003B (zh) | 一种大型风电机组运行性能监测方法 | |
CN117312617B (zh) | 基于污水数据监测的实时污水处理方法及系统 | |
CN116243097B (zh) | 基于大数据的电能质量检测方法 | |
CN116089405A (zh) | 一种基于dbscan和knn算法的用电数据离群点检测与清洗方法 | |
CN113670616B (zh) | 一种轴承性能退化状态检测方法及系统 | |
CN116777917B (zh) | 一种光缆生产用缺陷检测方法及系统 | |
CN116738353B (zh) | 基于数据分析的制药车间空气滤芯性能检测方法 | |
CN116304963B (zh) | 一种适用于地质灾害预警的数据处理系统 | |
CN118134539B (zh) | 基于智慧厨房多源数据融合的用户行为预测方法 | |
CN117314016A (zh) | 基于bim技术的水利工程在线监控方法 | |
CN116610938B (zh) | 曲线模式分段的半导体制造无监督异常检测方法及设备 | |
CN114782416A (zh) | 基于图像识别的纺织品质量检测方法及系统 | |
CN114529226B (zh) | 基于工业物联网的地下水污染的监测方法与系统 | |
CN117310118B (zh) | 一种地下水污染可视化监测方法 | |
CN117077051A (zh) | 一种大坝监测异常数据自适应识别方法 | |
CN116881640A (zh) | 岩心采出程度的预测方法、系统及计算机可读存储介质 | |
CN112214655A (zh) | 基于密度的多自适应阈值解决密度不均数据集的聚类方法 | |
CN116467555B (zh) | 一种海洋剖面观测数据质量控制方法及系统 | |
CN117520752B (zh) | 基于大数据的水利工程信息管理方法 | |
CN117314899B (zh) | 基于图像特征的碳纤维板质量检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |