CN117195008B - 一种用于空气质量监测的异常数据处理方法 - Google Patents
一种用于空气质量监测的异常数据处理方法 Download PDFInfo
- Publication number
- CN117195008B CN117195008B CN202311476253.1A CN202311476253A CN117195008B CN 117195008 B CN117195008 B CN 117195008B CN 202311476253 A CN202311476253 A CN 202311476253A CN 117195008 B CN117195008 B CN 117195008B
- Authority
- CN
- China
- Prior art keywords
- concentration data
- suspected
- abnormal
- fluctuation
- mutation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 162
- 238000012544 monitoring process Methods 0.000 title claims abstract description 80
- 238000003672 processing method Methods 0.000 title claims abstract description 14
- 230000035772 mutation Effects 0.000 claims abstract description 86
- 230000005856 abnormality Effects 0.000 claims abstract description 49
- 238000012545 processing Methods 0.000 claims abstract description 12
- 230000008859 change Effects 0.000 claims description 23
- 238000000034 method Methods 0.000 claims description 23
- 238000005070 sampling Methods 0.000 claims description 21
- 238000012216 screening Methods 0.000 claims description 8
- 230000000694 effects Effects 0.000 abstract description 7
- 238000001514 detection method Methods 0.000 abstract description 6
- 238000007405 data analysis Methods 0.000 abstract description 2
- 230000007613 environmental effect Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 4
- 230000005180 public health Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000003915 air pollution Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 239000013618 particulate matter Substances 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Landscapes
- Testing And Monitoring For Control Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及数据分析处理技术领域,具体涉及一种用于空气质量监测的异常数据处理方法,该方法首先获取PM2.5监测浓度数据中数值较大的疑似异常PM2.5浓度数据;根据每个疑似异常PM2.5浓度数据在所有PM2.5监测浓度数据中的孤立突变情况,得到对应的孤立突变可能性;根据每个疑似异常PM2.5浓度数据在所处时间邻域内的波动变化分布情况,得到每个疑似异常PM2.5浓度数据的波动变化稳定性;根据孤立突变可能性和波动变化稳定性数值大小,筛选出更加准确且能够反映客观实际情况的真实异常PM2.5浓度数据,使得对空气质量检测的异常数据处理效果更好。
Description
技术领域
本发明涉及数据分析处理技术领域,具体涉及一种用于空气质量监测的异常数据处理方法。
背景技术
环境保护是可持续发展的基础,而空气质量能够反映大气环境被污染的情况,因此空气质量监测是环境保护中的重中之重。通过空气质量监测能够得到影响公众健康的空气质量异常数据,进一步地能够根据空气质量异常数据进行污染溯源、改进监测设备等,对环境保护、改善空气质量和可持续发展具有重要意义。
考虑到空气污染中影响人体健康的主要因素为可吸入颗粒物,包括但不限于PM2.5和PM10等,以PM2.5为例,现有技术通常基于固定阈值对PM2.5监测浓度数据进行异常检测,从而得到对应的异常PM2.5浓度数据。但是采用空气质量传感器等数据采集设备对PM2.5监测浓度数据进行采集时,可能会由于设备自身问题或者环境意外因素,导致采集到的PM2.5监测浓度数据不能够代表客观真实情况,造成现有技术基于固定阈值对PM2.5监测浓度数据进行处理得到的异常PM2.5浓度数据不够准确,使得对空气质量检测的异常数据处理效果较差。
发明内容
为了解决现有技术基于固定阈值对PM2.5监测浓度数据进行处理得到的异常PM2.5浓度数据不够准确,使得对空气质量检测的异常数据处理效果较差技术问题,本发明的目的在于提供一种用于空气质量监测的异常数据处理方法,所采用的技术方案具体如下:
本发明提出了一种用于空气质量监测的异常数据处理方法,所述方法包括:
获取每个采样时刻的PM2.5监测浓度数据;
根据所有PM2.5监测浓度数据的数值大小分布情况,筛选出疑似异常PM2.5浓度数据;在时间顺序上,根据各个疑似异常PM2.5浓度数据在所有PM2.5监测浓度数据中的孤立突变情况,得到每个疑似异常PM2.5浓度数据的孤立突变可能性;
根据每个疑似异常PM2.5浓度数据在所处时间邻域内的波动变化分布情况,得到每个疑似异常PM2.5浓度数据的波动变化稳定性;在所有疑似异常PM2.5浓度数据中,根据所述孤立突变可能性和所述变化一致性的数值大小分布情况,筛选出真实异常PM2.5浓度数据。
进一步地,所述孤立突变可能性的获取方法包括:
将每个疑似异常PM2.5浓度数据的上一个采样时刻的PM2.5监测浓度数据,作为每个疑似异常PM2.5浓度数据的第一参考PM2.5浓度数据;将每个疑似异常PM2.5浓度数据的下一个采样时刻的PM2.5监测浓度数据,作为每个疑似异常PM2.5浓度数据的第二参考PM2.5浓度数据;
将每个疑似异常PM2.5浓度数据与对应的第一参考PM2.5浓度数据之间的差异,作为每个疑似异常PM2.5浓度数据的第一突变差异;将每个疑似异常PM2.5浓度数据与对应的第二参考PM2.5浓度数据之间的差异,作为每个疑似异常PM2.5浓度数据的第二突变差异;
根据所述第一突变差异、所述第二突变差异、以及每个疑似异常PM2.5浓度数据对应的第一参考PM2.5浓度数据与对应的第二参考PM2.5浓度数据之间的差异,构建孤立突变可能性计算模型,根据所述孤立突变可能性计算模型,得到每个疑似异常PM2.5浓度数据的孤立突变可能性。
进一步地,所述孤立突变可能性计算模型包括:
其中,为第/>个疑似异常PM2.5浓度数据的孤立突变可能性;/>为第/>个疑似异常PM2.5浓度数据第一突变差异;/>为第/>个疑似异常PM2.5浓度数据第二突变差异;为第/>个疑似异常PM2.5浓度数据的第一参考PM2.5浓度数据;/>为第/>个疑似异常PM2.5浓度数据的第二参考PM2.5浓度数据;/>为预设第一调节参数,/>为预设第二调节参数,/>为预设第三调节参数,所述预设第一调节参数、所述预设第二调节参数和所述预设第三调节参数均大于0;/>为绝对值符号。
进一步地,所述波动变化稳定性的获取方法包括:
依次将每个疑似异常PM2.5浓度数据,作为目标疑似异常PM2.5浓度数据;在时间顺序上,将以目标疑似异常PM2.5浓度数据为中心的预设邻域时间范围,均匀划分为至少两个参考划分时间段;
在每个参考划分时间段中,将最后一个采样时刻的PM2.5监测浓度数据与第一个采样时刻的PM2.5监测浓度数据之间的差异,作为每个参考划分时间段的波动振幅变化程度;
根据相邻的参考划分时间段的波动振幅变化程度之间的差异分布情况,构建波动变化稳定性计算模型;根据所述波动变化稳定性计算模型,得到目标疑似异常PM2.5浓度数据的波动变化稳定性。
进一步地,所述波动变化稳定性计算模型包括:
其中,为第/>个疑似异常PM2.5浓度数据的波动变化稳定性;/>为第/>个疑似异常PM2.5浓度数据对应的参考划分时间段数量;/>为第/>个疑似异常PM2.5浓度数据的第/>个参考划分时间段的波动振幅变化程度;/>为第/>个疑似异常PM2.5浓度数据的第个参考划分时间段的波动振幅变化程度,/>为以自然常数为底的指数函数。
进一步地,所述疑似异常PM2.5浓度数据的获取方法包括:
在所有PM2.5监测浓度数据中,将PM2.5浓度大于预设异常阈值的PM2.5监测浓度数据,作为疑似异常PM2.5浓度数据。
进一步地,所述真实异常PM2.5浓度数据的获取方法包括:
将孤立突变可能性小于或等于预设孤立突变异常阈值,且波动变化稳定性小于预设波动变化异常阈值的疑似异常PM2.5浓度数据,作为真实异常PM2.5浓度数据。
进一步地,所述预设异常阈值设置为75微克/立方米。
进一步地,所述预设孤立突变异常阈值设置为80。
进一步地,所述预设波动变化异常阈值设置为0.8。
本发明具有如下有益效果:
考虑到当空气质量传感器等数据采集设备在采集信息时设备突发故障或受到噪声影响时,所采集到的PM2.5监测浓度数据的数值会瞬间暴增,并且会在下个时刻迅速恢复正常,使得受到空气质量传感器等数据采集设备自身影响的PM2.5监测浓度数据不能够反映真实客观的空气质量,因此本发明根据各个疑似异常PM2.5浓度数据在所有PM2.5监测浓度数据中的孤立突变情况,计算出对应的孤立突变可能性,使得后续根据孤立突变可能性对疑似异常PM2.5浓度数据进行进一步地筛选,使得得到的真实异常PM2.5浓度数据更加准确。进一步地考虑到采集PM2.5监测浓度数据的过程中,可能出现风速和风向的突然变化或交通高峰期大量汽车尾气排放的情况,并且这种情况通常会持续一段时间,同样不能够真实客观的反映当前的空气质量,并且该情况下所采集到的PM2.5监测浓度数据在时序上存在会呈现存在周期性的小幅度频繁波动,因此本发明根据每个疑似异常PM2.5浓度数据在所处时间邻域内的波动变化分布情况,计算出对应的波动变化稳定性,进一步地在后续根据波动变化稳定性对疑似异常PM2.5浓度数据进行进一步地筛选,使得得到的真实异常PM2.5浓度数据更加准确。综上所述,本发明通过每个疑似异常PM2.5浓度数据分析计算得到的孤立突变可能性和波动变化稳定性进行筛选,得到更加准确且能够反映客观实际情况的真实异常PM2.5浓度数据,使得对空气质量检测的异常数据处理效果更好。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的一种用于空气质量监测的异常数据处理方法。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种用于空气质量监测的异常数据处理方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种用于空气质量监测的异常数据处理方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种用于空气质量监测的异常数据处理方法流程图,该方法包括:
步骤S1:获取每个采样时刻的PM2.5监测浓度数据。
本发明实施例旨在提供一种用于空气质量监测的异常数据处理方法,用于根据PM2.5监测浓度数据进行分析,筛选出真实异常PM2.5浓度数据。因此首先需要获取每个采样时刻的PM2.5监测浓度数据。在本发明实施例中,通过空气质量传感器采集一天内每个时刻的PM2.5监测浓度数据。需要说明的是,实施者也可对空气污染中影响人体健康的其他可吸入颗粒物浓度数据进行分析,包括但不限于PM10、二氧化硫等,本发明实施例以PM2.5为例进行分析处理,且其余可吸入颗粒物浓度数据的分析方法与本发明实施例中的PM2.5监测浓度数据的分析方法相同,实施者可根据具体实施环境自行调整分析对象,在此不做进一步赘述。在本发明实施例中,采样频率设置为每秒10次,也即相邻采样时刻之间的时间间隔为0.1s,实施者可根据具体实施环境自行调整。
步骤S2:根据所有PM2.5监测浓度数据的数值大小分布情况,筛选出疑似异常PM2.5浓度数据;在时间顺序上,根据各个疑似异常PM2.5浓度数据在所有PM2.5监测浓度数据中的孤立突变情况,得到每个疑似异常PM2.5浓度数据的孤立突变可能性。
考虑影响公众健康的空气质量异常数据,其对应的真实PM2.5浓度通常是较大的;但是可能由于采集设备自身或环境意外因素影响,导致所采集到的PM2.5监测浓度数据与真实PM2.5浓度存在误差,使得某些客观上不影响公众健康的即空气质量正常的真实PM2.5浓度,通过空气质量传感器采集后,对应的PM2.5监测浓度数据被划分为空气质量异常数据,也即影响公众健康的PM2.5监测浓度数据。因此本发明实施例需要对较大的真实PM2.5浓度进行筛选,从而获取更加反映客观真实情况的真实异常PM2.5浓度数据,因此首先需要获取较大的疑似异常的PM2.5监测浓度数据。本发明实施例根据所有PM2.5监测浓度数据的数值大小分布情况,筛选出疑似异常PM2.5浓度数据。
优选地,疑似异常PM2.5浓度数据的获取方法包括:
在所有PM2.5监测浓度数据中,将PM2.5浓度大于预设异常阈值的PM2.5监测浓度数据,作为疑似异常PM2.5浓度数据。优选地,预设异常阈值设置为75微克/立方米。需要说明的是,实施者可根据具体实施环境自行调整预设异常阈值的大小,在此不做进一步赘述。
在获取疑似异常PM2.5浓度数据中,可能存在部分由于采集设备自身或环境意外因素影响所产生的非真实的异常PM2.5浓度数据,因此需要进一步地对疑似异常PM2.5浓度数据进行筛选,获取更加准确的真实异常PM2.5浓度数据。在疑似异常PM2.5浓度数据中,存在真实异常PM2.5浓度数据和非真实异常PM2.5浓度数据,考虑到非真实异常PM2.5浓度数据是由于采集设备自身或环境意外因素影响所产生的,其对应的PM2.5监测浓度数据与真实异常PM2.5浓度数据的表现特征通常不同,因此可进一步的根据该特点,进行真实异常PM2.5浓度数据的筛选。
考虑到当空气质量传感器在采集PM2.5监测浓度数据时,若设备突发故障或受到干扰,其所采集到的PM2.5监测浓度数据的数值会瞬间暴增,并且下一个时刻又迅速恢复正常,因此可能会产生一些由于采集设备自身原因产生的疑似异常PM2.5浓度数据,并且在时间顺序上,对应的PM2.5监测浓度数据的数值孤立存在。因此本发明实施例在时间顺序上,根据各个疑似异常PM2.5浓度数据在所有PM2.5监测浓度数据中的孤立突变情况,得到每个疑似异常PM2.5浓度数据的孤立突变可能性,对应的孤立突变可能性越大,说明对应的疑似异常PM2.5浓度数据越可能是由于采集设备自身原因对应的数据突变产生的,也即越可能不为真实异常PM2.5浓度数据。
优选地,孤立突变可能性的获取方法包括:
将每个疑似异常PM2.5浓度数据的上一个采样时刻的PM2.5监测浓度数据,作为每个疑似异常PM2.5浓度数据的第一参考PM2.5浓度数据;将每个疑似异常PM2.5浓度数据的下一个采样时刻的PM2.5监测浓度数据,作为每个疑似异常PM2.5浓度数据的第二参考PM2.5浓度数据;将每个疑似异常PM2.5浓度数据与对应的第一参考PM2.5浓度数据之间的差异,作为每个疑似异常PM2.5浓度数据的第一突变差异;将每个疑似异常PM2.5浓度数据与对应的第二参考PM2.5浓度数据之间的差异,作为每个疑似异常PM2.5浓度数据的第二突变差异。
其中,第一突变差异和第二突变差异,均表征每个疑似异常PM2.5浓度数据与其中一侧邻接的PM2.5监测浓度数据之间的差异,对应的第一突变差异和第二突变差异越大,说明在疑似异常PM2.5浓度数据处发生的浓度变化越剧烈,也即越符合突变的特性。
进一步地根据第一突变差异、第二突变差异、以及每个疑似异常PM2.5浓度数据对应的第一参考PM2.5浓度数据与对应的第二参考PM2.5浓度数据之间的差异,构建孤立突变可能性计算模型,根据孤立突变可能性计算模型,得到每个疑似异常PM2.5浓度数据的孤立突变可能性。
优选地,依次将每个疑似异常PM2.5浓度数据作为第个疑似异常PM2.5浓度数据,,孤立突变可能性计算模型包括:
其中,为第/>个疑似异常PM2.5浓度数据的孤立突变可能性;/>为第/>个疑似异常PM2.5浓度数据第一突变差异;/>为第/>个疑似异常PM2.5浓度数据第二突变差异;为第/>个疑似异常PM2.5浓度数据的第一参考PM2.5浓度数据;/>为第/>个疑似异常PM2.5浓度数据的第二参考PM2.5浓度数据;/>为预设第一调节参数,/>为预设第二调节参数,/>为预设第三调节参数,预设第一调节参数、预设第二调节参数和预设第三调节参数均大于0;/>为绝对值符号。在本发明实施例中,预设第一调节参数和预设第二调节参数均设置为1,预设第三调节参数设置为0.1,实施者可根据具体实施环境自行调整预设第一调节参数、预设第二调节参数和预设第三调节参数的大小,在此不做进一步赘述。
其中,表征第/>个疑似异常PM2.5浓度数据对应的第一参考PM2.5浓度数据与对应的第二参考PM2.5浓度数据之间的差异,当/>越小时,说明第/>个疑似异常PM2.5浓度数据两侧邻接的PM2.5监测浓度数据之间的差异越小,若此时对应的第一突变差异和第二突变差异越大,则会呈现出越明显的孤立突变特征,也即对应的孤立突变可能性越大。因此进一步地结合第一突变差异和第二突变差异进行乘法运算。并且这里对第一突变差异和第二突变差异分别添加一个预设参数进行调节的目的是,防止最终相乘时的结果为0,减少其中一个参数为0对孤立突变可能性计算的影响;并且预设第三调节参数的目的是,防止/>与/>相等,导致分母为0无意义的情况。
步骤S3:根据每个疑似异常PM2.5浓度数据在所处时间邻域内的波动变化分布情况,得到每个疑似异常PM2.5浓度数据的波动变化稳定性;在所有疑似异常PM2.5浓度数据中,根据孤立突变可能性和变化一致性的数值大小分布情况,筛选出真实异常PM2.5浓度数据。
考虑到当采集PM2.5监测浓度数据时,风速和风向突然发生变化,或者交通高峰期大量汽车排放尾气等影响时,时序上的PM2.5监测浓度数据会在一段时间内的数值存在频繁小幅度波动,导致某些空气质量正常的PM2.5监测浓度数据被划分为疑似异常PM2.5浓度数据。因此可根据频繁小幅度波动的特征进行进一步地筛选,得到更加准确的真实异常PM2.5浓度数据。本发明实施例根据每个疑似异常PM2.5浓度数据在所处时间邻域内的波动变化分布情况,得到每个疑似异常PM2.5浓度数据的波动变化稳定性。对应的波动变化稳定性越大,说明对应的疑似异常PM2.5浓度数据越稳定,越不符合频繁小幅度周期波动的特征,也即越可能为真实异常PM2.5浓度数据。
优选地,波动变化稳定性的获取方法包括:
依次将每个疑似异常PM2.5浓度数据,作为目标疑似异常PM2.5浓度数据;在时间顺序上,将以目标疑似异常PM2.5浓度数据为中心的预设邻域时间范围,均匀划分为至少两个参考划分时间段。在本发明实施例中,预设邻域时间范围设置为8秒,也即预设邻域时间范围中,包括目标疑似异常PM2.5浓度数据及其之前4s和之后4s中所采集到的所有PM2.5监测浓度数据;并且本发明实施例将预设邻域时间范围划分为8个参考划分时间段,也即本发明实施例中每个参考划分时间段对应的时间范围为1s,需要说明的是,实施者可根据具体实施环境自行调整预设邻域时间范围的大小和参考划分时间段的数量,实施者可根据具体实施环境自行调整,在此不做进一步赘述。
在每个参考划分时间段中,将最后一个采样时刻的PM2.5监测浓度数据与第一个采样时刻的PM2.5监测浓度数据之间的差异,作为每个参考划分时间段的波动振幅变化程度。根据相邻的参考划分时间段的波动振幅变化程度之间的差异分布情况,构建波动变化稳定性计算模型;根据波动变化稳定性计算模型,得到目标疑似异常PM2.5浓度数据的波动变化稳定性。对于真实异常PM2.5浓度数据而言,其对应的PM2.5监测浓度数据通常稳定在空气质量异常的PM2.5浓度范围内,在时间顺序上对应的浓度数值较为稳定,波动变化频率较小,因此对应的相邻的参考划分时间段之间的波动振幅变化程度差异较小;而对于一段时间内的数值存在频繁小幅度波动的情况,目标疑似异常PM2.5浓度数据对应的相邻参考划分时间段对应的波动振幅变化程度通常存在一定的差异。需要说明的是,本发明实施例中的差异的含义与差值绝对值的含义相同,后续不做进一步赘述。
依次将每个疑似异常PM2.5浓度数据的每个参考划分时间段,作为第个疑似异常PM2.5浓度数据的第/>个参考划分时间段;则在本发明实施例中,第/>个疑似异常PM2.5浓度数据的第/>个参考划分时间段的波动振幅变化程度的获取方法在公式上表现为:
其中,为第/>个疑似异常PM2.5浓度数据的第/>个参考划分时间段的波动振幅变化程度,/>为第/>个疑似异常PM2.5浓度数据的第/>个参考划分时间段的最后一个采样时刻的PM2.5监测浓度数据的数据值;/>为第/>个疑似异常PM2.5浓度数据的第/>个参考划分时间段的第一个采样时刻的PM2.5监测浓度数据的数据值;/>为绝对值符号。
优选地,波动变化稳定性计算模型包括:
其中,为第/>个疑似异常PM2.5浓度数据的波动变化稳定性;/>为第/>个疑似异常PM2.5浓度数据对应的参考划分时间段数量;/>为第/>个疑似异常PM2.5浓度数据的第/>个参考划分时间段的波动振幅变化程度;/>为第/>个疑似异常PM2.5浓度数据的第个参考划分时间段的波动振幅变化程度,/>为以自然常数为底的指数函数。
其中,表征第/>个疑似异常PM2.5浓度数据的第/>个参考划分时间段和第/>个参考划分时间段之间的波动振幅变化程度差异,波动振幅变化程度差异越大,说明第/>个参考划分时间段对应的波动变化越大,也即越波动变化越不稳定,进一步地将第个疑似异常PM2.5浓度数据对应的所有波动振幅变化程度差异的负相关映射值的均值,作为第/>个疑似异常PM2.5浓度数据的波动变化稳定性,使得波动振幅变化程度差异整体越大时,所得到的波动变化稳定性越小,也即第/>个疑似异常PM2.5浓度数据的预设邻域时间范围内的数值分布越不稳定,越符合频繁小幅度波动的特征,也即越可能不为真实异常PM2.5浓度数据。
在得到每个疑似异常PM2.5浓度数据的孤立突变可能性和波动变化稳定性后,本发明实施例进一步地在所有疑似异常PM2.5浓度数据中,根据孤立突变可能性和变化一致性的数值大小分布情况,筛选出真实异常PM2.5浓度数据。
优选地,真实异常PM2.5浓度数据的获取方法包括:
考虑到孤立突变可能性越大,波动变化稳定性越小时,对应的疑似异常PM2.5浓度数据越可能不为真实异常PM2.5浓度数据。因此本发明实施例将孤立突变可能性小于或等于预设孤立突变异常阈值,且波动变化稳定性大于预设波动变化异常阈值的疑似异常PM2.5浓度数据,作为真实异常PM2.5浓度数据。优选地,预设孤立突变异常阈值设置为80,预设波动变化异常阈值设置为0.8,实施者可根据具体实施环境自行调整预设孤立突变异常阈值和预设波动变化异常阈值的大小,在此不做进一步赘述。也即在本发明实施例中,疑似异常PM2.5浓度数据的孤立突变可能性和波动变化稳定性中的均要满足阈值选取条件时,才能认为该疑似异常PM2.5浓度数据为真实异常PM2.5浓度数据,更加符合客观实际环境,使得得到的真实异常PM2.5浓度数据更加准确。
综上所述,本发明首先获取PM2.5监测浓度数据中数值较大的疑似异常PM2.5浓度数据;根据每个疑似异常PM2.5浓度数据在所有PM2.5监测浓度数据中的孤立突变情况,得到对应的孤立突变可能性;根据每个疑似异常PM2.5浓度数据在所处时间邻域内的波动变化分布情况,得到每个疑似异常PM2.5浓度数据的波动变化稳定性;根据孤立突变可能性和波动变化稳定性数值大小,筛选出更加准确且能够反映客观实际情况的真实异常PM2.5浓度数据,使得对空气质量检测的异常数据处理效果更好。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
Claims (4)
1.一种用于空气质量监测的异常数据处理方法,其特征在于,所述方法包括:
获取每个采样时刻的PM2.5监测浓度数据;
根据所有PM2.5监测浓度数据的数值大小分布情况,筛选出疑似异常PM2.5浓度数据;在时间顺序上,根据各个疑似异常PM2.5浓度数据在所有PM2.5监测浓度数据中的孤立突变情况,得到每个疑似异常PM2.5浓度数据的孤立突变可能性;
根据每个疑似异常PM2.5浓度数据在所处时间邻域内的波动变化分布情况,得到每个疑似异常PM2.5浓度数据的波动变化稳定性;在所有疑似异常PM2.5浓度数据中,根据所述孤立突变可能性和所述波动变化稳定性的数值大小分布情况,筛选出真实异常PM2.5浓度数据;
所述孤立突变可能性的获取方法包括:
将每个疑似异常PM2.5浓度数据的上一个采样时刻的PM2.5监测浓度数据,作为每个疑似异常PM2.5浓度数据的第一参考PM2.5浓度数据;将每个疑似异常PM2.5浓度数据的下一个采样时刻的PM2.5监测浓度数据,作为每个疑似异常PM2.5浓度数据的第二参考PM2.5浓度数据;
将每个疑似异常PM2.5浓度数据与对应的第一参考PM2.5浓度数据之间的差异,作为每个疑似异常PM2.5浓度数据的第一突变差异;将每个疑似异常PM2.5浓度数据与对应的第二参考PM2.5浓度数据之间的差异,作为每个疑似异常PM2.5浓度数据的第二突变差异;
根据所述第一突变差异、所述第二突变差异、以及每个疑似异常PM2.5浓度数据对应的第一参考PM2.5浓度数据与对应的第二参考PM2.5浓度数据之间的差异,构建孤立突变可能性计算模型,根据所述孤立突变可能性计算模型,得到每个疑似异常PM2.5浓度数据的孤立突变可能性;
所述孤立突变可能性计算模型包括:
其中,为第/>个疑似异常PM2.5浓度数据的孤立突变可能性;/>为第/>个疑似异常PM2.5浓度数据第一突变差异;/>为第/>个疑似异常PM2.5浓度数据第二突变差异;/>为第/>个疑似异常PM2.5浓度数据的第一参考PM2.5浓度数据;/>为第/>个疑似异常PM2.5浓度数据的第二参考PM2.5浓度数据;/>为预设第一调节参数,/>为预设第二调节参数,/>为预设第三调节参数,所述预设第一调节参数、所述预设第二调节参数和所述预设第三调节参数均大于0;/>为绝对值符号;
所述波动变化稳定性的获取方法包括:
依次将每个疑似异常PM2.5浓度数据,作为目标疑似异常PM2.5浓度数据;在时间顺序上,将以目标疑似异常PM2.5浓度数据为中心的预设邻域时间范围,均匀划分为至少两个参考划分时间段;
在每个参考划分时间段中,将最后一个采样时刻的PM2.5监测浓度数据与第一个采样时刻的PM2.5监测浓度数据之间的差异,作为每个参考划分时间段的波动振幅变化程度;
根据相邻的参考划分时间段的波动振幅变化程度之间的差异分布情况,构建波动变化稳定性计算模型;根据所述波动变化稳定性计算模型,得到目标疑似异常PM2.5浓度数据的波动变化稳定性;
所述波动变化稳定性计算模型包括:
其中,为第/>个疑似异常PM2.5浓度数据的波动变化稳定性;/>为第/>个疑似异常PM2.5浓度数据对应的参考划分时间段数量;/>为第/>个疑似异常PM2.5浓度数据的第/>个参考划分时间段的波动振幅变化程度;/>为第/>个疑似异常PM2.5浓度数据的第/>个参考划分时间段的波动振幅变化程度,/>为以自然常数为底的指数函数;
所述疑似异常PM2.5浓度数据的获取方法包括:
在所有PM2.5监测浓度数据中,将PM2.5浓度大于预设异常阈值的PM2.5监测浓度数据,作为疑似异常PM2.5浓度数据;
所述真实异常PM2.5浓度数据的获取方法包括:
将孤立突变可能性小于或等于预设孤立突变异常阈值,且波动变化稳定性小于预设波动变化异常阈值的疑似异常PM2.5浓度数据,作为真实异常PM2.5浓度数据。
2.根据权利要求1所述的一种用于空气质量监测的异常数据处理方法,其特征在于,所述预设异常阈值设置为75微克/立方米。
3.根据权利要求1所述的一种用于空气质量监测的异常数据处理方法,其特征在于,所述预设孤立突变异常阈值设置为80。
4.根据权利要求1所述的一种用于空气质量监测的异常数据处理方法,其特征在于,所述预设波动变化异常阈值设置为0.8。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311476253.1A CN117195008B (zh) | 2023-11-08 | 2023-11-08 | 一种用于空气质量监测的异常数据处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311476253.1A CN117195008B (zh) | 2023-11-08 | 2023-11-08 | 一种用于空气质量监测的异常数据处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117195008A CN117195008A (zh) | 2023-12-08 |
CN117195008B true CN117195008B (zh) | 2024-03-12 |
Family
ID=89002058
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311476253.1A Active CN117195008B (zh) | 2023-11-08 | 2023-11-08 | 一种用于空气质量监测的异常数据处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117195008B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117411189B (zh) * | 2023-12-14 | 2024-03-15 | 山东德源电力科技股份有限公司 | 一种微电网协调控制器的监测数据增强方法 |
CN117421689B (zh) * | 2023-12-18 | 2024-03-12 | 杭州湘亭科技有限公司 | 一种基于管道机器人的铀放射性污染测量传输系统 |
CN117540325B (zh) * | 2024-01-05 | 2024-04-26 | 杭银消费金融股份有限公司 | 基于数据变化量捕获的业务数据库异常检测方法及系统 |
CN117556368B (zh) * | 2024-01-12 | 2024-03-29 | 钛合联(深圳)科技有限公司 | 基于物联网的水利监测异常数据处理方法 |
CN117807547B (zh) * | 2024-02-29 | 2024-05-10 | 国网山东省电力公司经济技术研究院 | 一种区域级综合能源大规模数据清洗方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107436277A (zh) * | 2017-07-12 | 2017-12-05 | 广东旭诚科技有限公司 | 基于相似距离判别的单指标数据质量控制方法 |
CN107766299A (zh) * | 2017-10-24 | 2018-03-06 | 携程旅游信息技术(上海)有限公司 | 数据指标异常的监控方法及其系统、存储介质、电子设备 |
WO2018230645A1 (ja) * | 2017-06-14 | 2018-12-20 | 株式会社東芝 | 異常検知装置、異常検知方法、およびプログラム |
KR20220160975A (ko) * | 2021-05-28 | 2022-12-06 | 인하대학교 산학협력단 | 규칙 기반 알고리즘을 이용한 대기질 데이터의 이상 판정 방법 및 시스템 |
CN115700553A (zh) * | 2021-07-22 | 2023-02-07 | 华为技术有限公司 | 一种异常检测方法及相关装置 |
CN115858630A (zh) * | 2023-02-21 | 2023-03-28 | 新风光电子科技股份有限公司 | 一种储能电站储能数据的异常检测方法 |
CN115994248A (zh) * | 2023-03-24 | 2023-04-21 | 青岛精锐机械制造有限公司 | 阀门故障的数据检测方法及系统 |
CN116127270A (zh) * | 2023-01-18 | 2023-05-16 | 中国银联股份有限公司 | 异常检测方法、装置、设备、介质及产品 |
CN116413395A (zh) * | 2023-06-08 | 2023-07-11 | 山东瑞程数据科技有限公司 | 一种环境异常智能检测方法 |
CN116455941A (zh) * | 2023-04-28 | 2023-07-18 | 中国通信建设集团设计院有限公司 | 基于物联网的室内环境多源数据传输方法及系统 |
CN116610482A (zh) * | 2023-07-18 | 2023-08-18 | 山东理工大学 | 一种电气设备运行状态智能监测方法 |
CN116881646A (zh) * | 2023-09-06 | 2023-10-13 | 山东奥晶生物科技有限公司 | 一种甜菊糖苷生产监测数据管理系统 |
-
2023
- 2023-11-08 CN CN202311476253.1A patent/CN117195008B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018230645A1 (ja) * | 2017-06-14 | 2018-12-20 | 株式会社東芝 | 異常検知装置、異常検知方法、およびプログラム |
CN107436277A (zh) * | 2017-07-12 | 2017-12-05 | 广东旭诚科技有限公司 | 基于相似距离判别的单指标数据质量控制方法 |
CN107766299A (zh) * | 2017-10-24 | 2018-03-06 | 携程旅游信息技术(上海)有限公司 | 数据指标异常的监控方法及其系统、存储介质、电子设备 |
KR20220160975A (ko) * | 2021-05-28 | 2022-12-06 | 인하대학교 산학협력단 | 규칙 기반 알고리즘을 이용한 대기질 데이터의 이상 판정 방법 및 시스템 |
CN115700553A (zh) * | 2021-07-22 | 2023-02-07 | 华为技术有限公司 | 一种异常检测方法及相关装置 |
CN116127270A (zh) * | 2023-01-18 | 2023-05-16 | 中国银联股份有限公司 | 异常检测方法、装置、设备、介质及产品 |
CN115858630A (zh) * | 2023-02-21 | 2023-03-28 | 新风光电子科技股份有限公司 | 一种储能电站储能数据的异常检测方法 |
CN115994248A (zh) * | 2023-03-24 | 2023-04-21 | 青岛精锐机械制造有限公司 | 阀门故障的数据检测方法及系统 |
CN116455941A (zh) * | 2023-04-28 | 2023-07-18 | 中国通信建设集团设计院有限公司 | 基于物联网的室内环境多源数据传输方法及系统 |
CN116413395A (zh) * | 2023-06-08 | 2023-07-11 | 山东瑞程数据科技有限公司 | 一种环境异常智能检测方法 |
CN116610482A (zh) * | 2023-07-18 | 2023-08-18 | 山东理工大学 | 一种电气设备运行状态智能监测方法 |
CN116881646A (zh) * | 2023-09-06 | 2023-10-13 | 山东奥晶生物科技有限公司 | 一种甜菊糖苷生产监测数据管理系统 |
Non-Patent Citations (2)
Title |
---|
基于最近邻分析的空气质量时空数据异常点识别;聂斌;胡雪;王曦;;统计研究(第08期);全文 * |
基于贝叶斯的大数据异常值检测模型研究;周梁琦;章权;魏莉;;电脑知识与技术(第01期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117195008A (zh) | 2023-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117195008B (zh) | 一种用于空气质量监测的异常数据处理方法 | |
CN117034043B (zh) | 基于多能源物联网的智慧建筑综合能耗监测方法及系统 | |
CN113282576B (zh) | 一种气象数据质量控制方法 | |
CN112287552B (zh) | 一种航空发动机振动趋势分析方法 | |
CN116865269B (zh) | 一种风电机组高谐波补偿方法及系统 | |
CN112668612A (zh) | 一种基于网格的局部放电信号聚类分析方法 | |
CN117538491B (zh) | 一种站房空气质量智能监测方法及系统 | |
CN117665935B (zh) | 一种破碎岩体支护施工过程的监测数据处理方法 | |
CN113033957A (zh) | 一种多模式降水预报及实时动态检验评估系统 | |
CN117493816B (zh) | 一种基于大数据的空气监测预警方法及系统 | |
CN113076878B (zh) | 基于注意力机制卷积网络结构的体质辨识方法 | |
CN114358550A (zh) | 基于大数据的电网分析系统及方法 | |
CN107609280B (zh) | 一种时间区间的确定方法以及终端 | |
CN113408383B (zh) | 基于有界β(g,h)分布和MWKPCA的可听噪声无效数据判定方法 | |
CN112800103B (zh) | 一种scada数据挖掘的风电机组功率曲线的获取系统及方法 | |
CN115270853A (zh) | 一种基于深度学习的轴承故障诊断自适应输入方法及系统 | |
CN113533644A (zh) | 基于无人机的对面源常规大气污染物的监测方法 | |
Deng et al. | A fractional hilbert transform order optimization algorithm based DE for bearing health monitoring | |
CN113219333A (zh) | 一种电机故障诊断时的频谱参数处理方法 | |
CN114239759B (zh) | 电动汽车的故障诊断方法、装置、电子设备及存储介质 | |
CN117688497B (zh) | 基于后向轨迹模型的海上风电尾流干扰的数据处理方法 | |
CN117908058B (zh) | 一种虚假卫星导航信号的过滤方法 | |
CN117076868B (zh) | 一种持久化数据模型建模方法 | |
CN117370915A (zh) | 一种基于大气污染绝对浓度差异的突出站点识别方法 | |
CN114322930A (zh) | 一种根据gps高度结合气压计算海拔高度的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |