CN113225391A - 基于滑动窗口异常检测的大气环境监测质量监控方法及计算设备 - Google Patents
基于滑动窗口异常检测的大气环境监测质量监控方法及计算设备 Download PDFInfo
- Publication number
- CN113225391A CN113225391A CN202110458853.XA CN202110458853A CN113225391A CN 113225391 A CN113225391 A CN 113225391A CN 202110458853 A CN202110458853 A CN 202110458853A CN 113225391 A CN113225391 A CN 113225391A
- Authority
- CN
- China
- Prior art keywords
- monitoring
- index
- sliding window
- window
- point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 76
- 238000001514 detection method Methods 0.000 title claims abstract description 55
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000002159 abnormal effect Effects 0.000 claims abstract description 45
- 238000004364 calculation method Methods 0.000 claims description 32
- 239000003344 environmental pollutant Substances 0.000 claims description 20
- 231100000719 pollutant Toxicity 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 4
- 230000007613 environmental effect Effects 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 abstract description 2
- 230000000875 corresponding effect Effects 0.000 description 14
- RAHZWNYVWXNFOC-UHFFFAOYSA-N Sulphur dioxide Chemical compound O=S=O RAHZWNYVWXNFOC-UHFFFAOYSA-N 0.000 description 10
- 238000003908 quality control method Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 239000003570 air Substances 0.000 description 2
- 230000002547 anomalous effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000000356 contaminant Substances 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000003912 environmental pollution Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 239000012080 ambient air Substances 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000013450 outlier detection Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/12—Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N15/00—Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials
- G01N15/06—Investigating concentration of particle suspensions
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/0004—Gaseous mixtures, e.g. polluted air
- G01N33/0009—General constructional details of gas analysers, e.g. portable test equipment
- G01N33/0062—General constructional details of gas analysers, e.g. portable test equipment concerning the measuring method or the display, e.g. intermittent measurement or digital display
- G01N33/0063—General constructional details of gas analysers, e.g. portable test equipment concerning the measuring method or the display, e.g. intermittent measurement or digital display using a threshold to release an alarm or displaying means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2272—Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/60—Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A50/00—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE in human health protection, e.g. against extreme weather
- Y02A50/20—Air quality improvement or preservation, e.g. vehicle emission control or emission reduction by using catalytic converters
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Tourism & Hospitality (AREA)
- Educational Administration (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Pathology (AREA)
- Biochemistry (AREA)
- Immunology (AREA)
- Marketing (AREA)
- Software Systems (AREA)
- Analytical Chemistry (AREA)
- General Business, Economics & Management (AREA)
- Medical Informatics (AREA)
- Food Science & Technology (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Combustion & Propulsion (AREA)
- Computational Linguistics (AREA)
- Fuzzy Systems (AREA)
- Medicinal Chemistry (AREA)
- Primary Health Care (AREA)
- Computing Systems (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
Abstract
本发明涉及基于滑动窗口异常检测的大气环境监测质量监控方法及计算设备,监控方法包括:(1)服务器端发送请求命令;(2)数据预处理;(3)计算不同站点之间的关联系数,调整每个站点的位置;(4)通过5*5的关联滑动窗口,计算窗口内污染物浓度的均值和方差;(5)计算异常因子,定位异常数据;(6)采用方差和LOF异常值的乘积与阈值比较来监控异常数据;(7)返回质量监控结果至服务器端。本发明考虑到监测站点以及污染时间上的关联性,使用滑动窗口以及关联系数进行约束和操作、采用方差和LOF异常值的乘积来监控异常数据,以解决通过仪器监测采集的大气环境监测物如SO2、NO2、O3、CO、PM10、PM2.5等引起的异常数据质量问题等。
Description
技术领域
本发明属于大气环境监测物质量控制领域,尤其涉及一种基于滑动窗口异常检测的大气环境监测质量监控方法及计算设备。
背景技术
目前随着城市化进程加快、工业迅猛发展,随之而来的是汽车尾气排放加重导致二氧化硫浓度超标、空气悬浮颗粒浓度超标出现雾霾天气等。针对这些问题需要精确的环境污染指标来进行指导,通过直观性展示污染进程变化来引起人们的重视,并对地方的污染治理提供依据和方向指导。
现阶段环境空气质量的检测主要通过仪器监测,仪器精度出现偏差将影响大气环境质量指标的浓度偏差。现阶段质量监测主要采用人工审核,该方法消耗大量的人力资源,因此,急需一种智能的、在线的手段对仪器监测的大气环境指标进行实时质量监控,来降低人工成本。目前研究以环境应对策略和大气质量指标监测设备设计为主,鲜少有文献关注大气环境智能监测。
由于大气环境监测物的质量管控需要有一段稳定运行的历史数据作为支撑,因此从数据上限制了该领域的发展。基于滑动窗口的异常值检测方法对于窗口的选择比较敏感,针对不同的研究问题和不同数据要经过测试寻找最佳的参数,且手工控制的参数过多,如:采样数、第K个最近距离、滑动窗口、阈值等,严重降低了其泛化能力。基于LOF异常值的主要不足在于只评估每个数据段的异常概率,无法针对单独的数据进行异常判断。
发明内容
本发明的目的在于提供一种基于滑动窗口异常检测的大气环境监测质量监控方法及计算设备,本发明的设备接收方法从服务器端发出的请求命令,并从站点仪器终端采集接收数据,然后经过数据处理后输出异常值,进而报送监控结果返回给服务器端,以解决通过仪器监测采集的大气环境监测物(SO2、NO2、O3、CO、PM10、PM2.5等)引起的异常数据质量问题。目前随着城市化进程加快、工业迅猛发展,随着而来的是汽车尾气排放加重导致二氧化硫浓度超标、空气悬浮颗粒浓度超标出现雾霾天气等问题。针对这些问题需要精准的环境污染指标来进行指导,通过直观性展示污染进程变化来引起人们的重视,并对地方的污染治理提供依据和方向指导。
一种基于滑动窗口异常检测的大气环境监测质量监控方法,主要包括以下步骤:
(1)用户在服务器端发送大气污染监测质量监控指令,得到不同站点在不同时间点的大气环境监测物浓度值;
(2)将得到待质量监控的大气环境监测物在不同站点不同时间点的浓度数据转换成标准化数据格式;
(3)用皮尔逊关联系数计算待质量监控的大气环境监测物在不同站点之间的关联系数,根据对应系数的大小调整每个站点在表格中的位置;
(4)通过5*5的关联滑动窗口将步骤(3)调整后的待质量监控的大气环境监测物浓度值转换成窗口内污染物浓度的均值和方差;
(5)以异常值检测窗口为单元,计算窗口内每个点对应的LOF异常值;然后通过设定阈值定位异常数据;阈值设定为所计算样本异常值的百分之九十九分位数;窗口的大小随着不同站点变化而变化,窗口的列为该站点的个数,窗口的行为时间小于24小时的数据行;
(6)采用步骤(4)的方差和步骤(5)的LOF异常值的乘积跟阈值比较来判断监控采集的污染物是否为异常数据;当方差和LOF值的乘积大于阈值时认为均值和方差对应的监测值为异常值,反之为正常监测;
(7)在指定时间内,自动报送前述异常值筛选与检测结果至服务器端,亦可通过在服务器端设置其他报送路径,将检测结果输出至其他指定用户终端。
优选的,步骤(3)所述皮尔逊相关系数的计算公式为:
优选的,步骤(3)所述根据系数大小调整每个站点在表格中的位置:以A作为分析站点,将A站点的数据放在表格的中间,除去A外其余站点相似系数最高的B放置在A站点的右边,接下来相似系数最高的G站点放置在A站点放置在左边,以此规律类推。
优选的,步骤(4)包括:
首先确定关联滑动窗口的起止位置,以计算点为窗口的中心位置,当计算点前后或者左右不够位置时留空;当前计算点的索引位置为(index_x,index_y),行列索引其实位置计算方式如下:
其中其中start_index_x、End_index_x、start_index_y、End_index_y分别为行索引的起止位置、列索引的起止位置。index_xsize、index_ysize分别为行列大小。
按照行列的起止位置得到对应窗口的数据,然后计算窗口数据的均值和方差作为新的特征。
优选的,步骤(5)所述LOF法中异常因子的计算公式为:
其中,点p的第k距离邻域NK(P)为p的第k距离及以内的所有点,则p的第k邻域点的个数|NK(P)≤K|。
reach-distancek(p,o)为点o到点p的第k可达距离
reach-distancek(p,o)=max{k-distance(o),d(p,o)}
lrdk(p)为点p局部可达密度
表示点p的第k邻域内点到p的平均可达距离的倒数。
滑动窗口的步长设定为1,第K距离设置为5。
优选的,所述待质量监控的大气环境监测物包括SO2、NO2、O3、CO、PM2.5、PM10。
一种用于上述基于滑动窗口异常检测的大气环境监测质量监控的装置,所述装置能对检测时间段范围进行设置,包括起始时间和终止时间(年/月/日/时),并可对检测数据时间属性按日或小时进行设定;对检测空间范围进行设置,范围选择包括按行政区划及按地理距离两种方式,前者涵盖所属城市、所属省域、全国三类空间级别,后者可根据距离目标站点的半径范围(单位为km)进行设定,默认为仅所属城市范围内;对检测目标站点进行设置,包括单点和多点两种选项;对目标污染物指标进行设置,可对选择单个或多个污染物指标,覆盖污染物范围包括但不限于六项常规大气污染物(PM2.5、PM10、CO、SO2、O3、NO2)。
所述装置包括:计算处理单元、数据存储单元、管理控制单元和可视化显示终端;计算处理单元包括一个或多个处理器,用于接收服务器端的数据检测请求命令,并运行大气环境监测数据检测程序;数据存储单元包括至少一个存储器,用于存储原始、计算过程及结果数据,同时对指令执行情况进行记录并存储相应信息;管理控制单元包括程序启动/暂停/终止模块、参数设置模块,前者可对检测程序的执行状态进行管理控制,后者可对请求命令所涉及的参数进行手工设置;可视化显示终端包括一个(主显示)或多个显示装置,这些显示装置可显示计算程序运行或检测结果的画面。
一种电子设备,所述至少包括一个存储器,一个或多个处理器,分别用于存储服务器端的请求指令以及执行指令,所述处理器运行所述计算机程序以实现上述的方法。
一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行实现上述的方法。
本发明考虑到各个站点时间和数值上的关联性、原始数据属性的单一性,结合时间和站点之间的关联关系进行特征映射,将站点在不同时刻的污染数值转换成关联时间和关联站点之间的对应关系。质量监控从异常值检测角度出发,考虑时间跨度上的关联关系,采用滑动窗口的形式通过比较每个点p和其邻域点的密度来计算该点是否为异常点,如果点p的密度越低,越可能被认定是异常点。至于这个密度,是通过点之间的距离来计算的,点之间距离越远,密度越低,距离越近,密度越高,而且这里的密度基于局部数据。
与现有技术相比,本发明具有以下优势:
1、加入了各个站点之间的关联性。在使用关联性窗口计算均值和方差之前计算了各站点之间的相关系数,按照相关系数的顺序进行排序。相关系数大的站点包含在关联性窗口内,关联系数较小的站点则排除在窗口外。
2、引入关联性窗口。对监测的大气环境监测指标进行特征映射。通过站点之间的相关系数建立站点之间的数据关联,在此基础上通过5*5的关联滑动窗口将待质量监控的大气环境监测物浓度值转换成窗口内污染物浓度的均值和方差。该实现方案同时考虑了站点的空间和时间特征,为后面LOF异常值的计算提供了有效的特征维度。
3、引入异常检测窗口。采用窗口大小变化的异常检测滑窗将异常数据检测方法应用到时间和截面数据长度不一的面板数据上。同时考虑污染物浓度的变化受季节以及地区的变化而变化,LOF值计算中的K临近值的寻找只针对当前异常检测窗口内的所有值,因此弱化了季节和地区变化带来的影响。同时针对当前研究的问题,一般异常值所在的关联窗口内会导致方差较大,而根据LOF异常值计算方法可知,计算LOF值较大的一般对应离群点,而离群点可以为方差较小的离群点也可以为方差较大的离群点。因此采用方差和LOF异常值的乘积来监控采集的污染物是否为异常数据。
附图说明
图1是本发明基于滑动窗口异常检测的大气环境监测质量监控方法的技术流程图;
图2是实施例1中A、B位置对应的滑动窗口位置;
图3是实施例1中窗口均值和方差计算示意图;
图4是实施例1中p的第k距离的示意图;
图5是实施例1中o1到p的第5可达距离为d(p,o1),o2到p的第5可达距离为d5(o2)的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。考虑到监测站点以及污染时间上的关联性,在站点和时间上使用滑动窗口以及关联系数进行约束和操作。质量监控问题转换成异常值检测问题,使用局部数据计算点的密度,作为判断指标。
实施例1
一种基于滑动窗口异常检测的大气环境监测质量监控方法,以某市CO浓度为例,其它大气环境监测如SO2、NO2、O3、CO、PM10、PM2.5同样适用。
考虑到监测站点以及污染时间上的关联性,在站点和时间上使用滑动窗口以及关联系数进行约束和操作。质量监控问题转换成异常值检测问题,使用局部数据计算点的密度,作为判断指标。用户通过在服务器端定时发送数据检测请求命令,包括检测时间段范围、检测空间范围、检测目标站点、目标污染物指标等,定时、在线生成目标时空范围内的大气环境监测质控结果,并自动报送给指定终端并提供查询下载与展示。如图1所示,主要包括以下步骤:
本发明的方法每次监控污染物质量时,默认选择同一个城市同一污染物进行质量检测。
第一步:服务器端发送请求命令
用户在服务器端发送大气污染监测质量监控指令,指令内容至少包括检测时间段范围、检测空间范围、检测目标站点、目标污染物指标等,该计算设备接收终端接受请求后,采集目标范围内站点仪器终端的大气环境监测数据;
其中,检测时间段/空间范围用于明确需要进行质量控制检验的时段/地理空间范围,检测目标站点明确了被检测站点对象,目标污染物指标用于设定需要检测的污染物种类,默认情况为六项常规污染物。该计算设备至少包括一个存储器,一个或多个处理器,分别用于存储服务器端的请求指令以及执行指令。
第二步:数据预处理
将同一城市同一污染物指标进行格式转换,转换成列为监测站点、行为监测时间。如下表1为部分原始数据,表2为杭州市CO浓度格式转换后的数据列表。
表1部分原始数据
表2杭州市CO浓度格式转换后的数据
第三步:计算不同站点之间的关联系数
由于不同站点之间的关联性不一样,关联性越大的站点对质量判断的影响作用将会越大。关联性的计算方法选用皮尔逊关联系数。
皮尔逊相关系数是衡量两两向量相似性的一种方法输出范围为-1到1,0代表无相关,负数代表负相关,正数代表正相关。
根据计算的系数调整每个站点的位置。以表1中A站点为例,计算其他10个站点和A站点之间的关联关系。
首先计算各个站点与A站点之间的相关系数,如表3所示。
表3相关系数表
城市 | A | B | C | D | E | F | G | H | I | J | K |
相关系数 | 1 | 0.748 | 0.583 | 0.279 | 0.517 | 0.708 | 0.730 | 0.689 | 0.682 | 0.653 | 0.487 |
然后根据系数大小对应每个站点在表格中的位置。以A作为分析站点,将A站点的数据放在表格的中间,除去A外其余站点相似系数最高的B放置在A站点的右边,接下来相似系数最高的G站点放置在A站点放置在左边,以此规律类推,得到结果如表4所示。
表4根据相关系数转换后的数据格式表
第四步:特征转换
通过5*5的关联滑动窗口将待质量监控的大气环境监测物浓度值转换成窗口内污染物浓度的均值和方差
将上述表4中列名为A站点的特征进行转换。
首先确定关联滑动窗口的起止位置,一般以计算点为窗口的中心位置,当计算点前后或者左右不够位置时留空。假设当前计算点的索引位置为(index_x,index_y),行列索引其实位置计算方式如下。
其中start_index_x、End_index_x、start_index_y、End_index_y分别为行索引的起止位置、列索引的起止位置。index_xsize、index_ysize分别为行列大小。
按照行列的起止位置得到对应窗口的数据,然后计算窗口数据的均值和方差作为新的特征。图2为A点和B点对应的滑动窗口位置。
按照上述方法以此类推计算所有站点在不同时刻下的滑动窗口的均值和方法作为新的特征。特征转换后的数据展示如表5所示。窗口均值和方差计算示意图如图3所示,A的均值为2.222,方差为1.5476;B的均值为3.16,方差为1.347。
表5特征转换后的数据展示
第五步:异常值检测
异常值检测同样也采用滑动窗口的形式,该窗口记为异常检测窗口。窗口的大小随着不同站点的变化而变化,窗口的列为该站点的个数,窗口的行为时间小于24小时的数据行。每次计算以异常值检测窗口为单元,计算该窗口内每个点对应的LOF异常值,然后通过设定阈值定位异常数据。
Local Outlier Factor(LOF)包含的基本概念分别如下:
1)d(p,o):两点p和o之间的距离;
2)k-distance:第k距离
对于点p的第k距离dk(p)
定义如下:dk(p)=d(p,o),并且满足:
a)在集合中至少有不包括p在内的k个点o∈C{x≠p},满足d(p,o,)≤d(p,o);
b)在集合中最多有不包括p在内的k-1个点o∈C{x≠p},满足d(p,o,)<d(p,o);
p的第k距离,也就是距离p第k远的点的距离,不包括p,如图4所示。
3)k-distance neighborhood of p:第k距离邻域
点p的第k距离邻域NK(P)为p的第k距离及以内的所有点,则p的第k邻域点的个数|NK(P)≤K|。4)reach-distance:可达距离
点o到点p的第k可达距离定义为:
reach-distancek(p,o)=max{k-distance(o),d(p,o)}
也就是,点o到点p的第k可达距离,至少是o的第k距离,或者为o、p间的真实距离。
这也意味着,离点o最近的k个点,o到它们的可达距离被认为相等,且都等于dk(o)。
如图5,o1到p的第5可达距离为d(p,o1),o2到p的第5可达距离为d5(o2)。
reach-distk(p,o1)=d(p,o1)
reach-distk(p,o2)=d5(o2)
5)local reachability density:局部可达密度
点p的局部可达密度表示为:
表示点p的第k邻域内点到p的平均可达距离的倒数。
注意,这里是p的邻域点Nk(p)到p的可达距离,不是p到Nk(p)的可达距离。并且,如果有重复点,那么分母的可达距离之和有可能为0,则会导致lrd变为无限大。
lrd代表一个密度,密度越高,认为越可能属于同一簇,密度越低,越可能是离群点。如果p和周围邻域点是同一簇,那么可达距离越可能为较小的dk(o),导致可达距离之和较小,密度值较高;如果p和周围邻居点较远,那么可达距离可能都会取较大值d(p,o),导致密度较小,越可能是离群点。
6)local outlier factor:局部离群因子
点p的局部离群因子表示为:
表示点p的邻域点Nk(p)的局部可达密度与点p的局部可达密度之比的平均数。
如果这个比值越接近1,说明p和其邻域点的密度差不多,p可能和邻域同属一簇;如果这个比值越小于1,说明p的密度高于其邻域点密度,p为密集点;如果这个比值越大于1,说明p的密度小于其邻域点密度,p越可能是异常点。
以滑动窗口为计算单元,窗口内每个点的LOF值作为异常判断的一个指标。滑动窗口的大小根据不同城市不同时间点来确定,以杭州市2020年9月1日1点为例,滑动窗口的列为杭州市所有站点的个数11列,行为9月1日1点到9月2日0点的数据24行(滑动窗口首行和末行时间之差小于等于24,由于部分城市样本缺失么导致滑动窗口的行小于24),因此该城市该时刻滑动窗口的大小为11*24。滑动窗口的步长设定为1,K距离设置为5。
步骤5得到的均值和方差作为计算数据,以滑动窗口的形式按步长为1进行计算得到LOF值。LOF值按照降序排序得到的结果如表6所示。
表6 LOF值按照降序排序得到的结果
第六步:筛选异常值进行质量监控
根据LOF值计算方式可知,LOF值越大说明离群程度越高。针对大气环境质量监控的研究问题,一般异常值所在的关联窗口会导致方差较大。根据LOF异常值计算方法可知,一般较大的LOF值对应离群点,而离群点可以为方差较小的离群点也可以为方差较大的离群点。因此采用方差和LOF异常值的乘积来监控采集的污染物是否为异常数据。以表6计算的数值为例,阈值设定为50,当方差和LOF值的乘积大于50时认为均值和方差对应的监测值为异常值,反之为正常监测。阈值设定为所计算样本异常值的百分之九十九分位数。
第七步:返回质量监控结果至服务器端
在指定时间内,自动报送前述异常值筛选与检测结果至服务器端,亦可通过在服务器端设置其他报送路径,将检测结果输出至其他指定用户终端。
Claims (9)
1.一种基于滑动窗口异常检测的大气环境监测质量监控方法,其特征在于,主要包括以下步骤:
(1)用户在服务器端发送大气污染监测质量监控指令,得到不同站点在不同时间点的大气环境监测物浓度值;
(2)将得到待质量监控的大气环境监测物在不同站点不同时间点的浓度数据转换成标准化数据格式;
(3)用皮尔逊关联系数计算待质量监控的大气环境监测物在不同站点之间的关联系数,根据对应系数的大小调整每个站点在表格中的位置;
(4)通过5*5的关联滑动窗口将步骤(3)调整后的待质量监控的大气环境监测物浓度值转换成窗口内污染物浓度的均值和方差;
(5)以异常值检测窗口为单元,计算窗口内每个点对应的LOF异常值,然后通过设定阈值定位异常数据;
(6)采用步骤(4)的方差和步骤(5)的LOF异常值的乘积与阈值比较来判断监控采集的污染物是否为异常数据;
(7)报送步骤(6)异常值筛选与检测结果至服务器端,通过在服务器端设置报送路径,将检测结果输出至指定用户终端。
3.根据权利要求1所述基于滑动窗口异常检测的大气环境监测质量监控方法,其特征在于,步骤(3)所述根据系数大小调整每个站点在表格中的位置的方法为:以A作为分析站点,将A站点的数据放在表格的中间,除去A外其余站点相似系数最高的B放置在A站点的右边,接下来相似系数最高的G站点放置在A站点放置在左边,以此规律类推。
6.根据权利要求1所述基于滑动窗口异常检测的大气环境监测质量监控方法,其特征在于,所述待质量监控的大气环境监测物包括SO2、NO2、O3、CO、PM2.5、PM10。
7.一种用于权利要求1所述基于滑动窗口异常检测的大气环境监测质量监控的装置。
8.一种电子设备,所述至少包括一个存储器,一个或多个处理器,分别用于存储服务器端的请求指令以及执行指令,其特征在于,所述处理器运行所述计算机程序以实现如权利要求1-6任一项所述的方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行实现如权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110458853.XA CN113225391B (zh) | 2021-04-27 | 2021-04-27 | 基于滑动窗口异常检测的大气环境监测质量监控方法及计算设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110458853.XA CN113225391B (zh) | 2021-04-27 | 2021-04-27 | 基于滑动窗口异常检测的大气环境监测质量监控方法及计算设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113225391A true CN113225391A (zh) | 2021-08-06 |
CN113225391B CN113225391B (zh) | 2022-11-08 |
Family
ID=77089729
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110458853.XA Active CN113225391B (zh) | 2021-04-27 | 2021-04-27 | 基于滑动窗口异常检测的大气环境监测质量监控方法及计算设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113225391B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117776413A (zh) * | 2023-12-28 | 2024-03-29 | 武汉飞博乐环保工程有限公司 | 一种利用二氧化碳废气处理高硬度废水的方法 |
CN118586897A (zh) * | 2024-08-07 | 2024-09-03 | 江西隆锦生态环境建设有限公司 | 一种基于地下排水管网追踪的污水监控方法、系统及设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107682319A (zh) * | 2017-09-13 | 2018-02-09 | 桂林电子科技大学 | 一种基于增强型角度异常因子的数据流异常检测及多重验证的方法 |
CN108038044A (zh) * | 2017-12-26 | 2018-05-15 | 北京航空航天大学 | 一种面向连续被监测对象的异常检测方法 |
CN108508860A (zh) * | 2018-05-10 | 2018-09-07 | 西安交通大学 | 一种基于耦合关系的流程工业生产系统数据监测方法 |
CN108732313A (zh) * | 2018-05-31 | 2018-11-02 | 深圳市创艺工业技术有限公司 | 城市空气污染物浓度智能观测系统 |
CN110362608A (zh) * | 2019-06-11 | 2019-10-22 | 广东工业大学 | 基于雨流计数法和局部异常因子的能耗异常检测方法 |
CN111275307A (zh) * | 2020-01-16 | 2020-06-12 | 生态环境部华南环境科学研究所 | 一种水质自动在线站高频连续观测数据质量控制方法 |
CN112685950A (zh) * | 2020-12-02 | 2021-04-20 | 山东省计算中心(国家超级计算济南中心) | 一种海洋时序观测数据的异常检测方法、系统和设备 |
-
2021
- 2021-04-27 CN CN202110458853.XA patent/CN113225391B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107682319A (zh) * | 2017-09-13 | 2018-02-09 | 桂林电子科技大学 | 一种基于增强型角度异常因子的数据流异常检测及多重验证的方法 |
CN108038044A (zh) * | 2017-12-26 | 2018-05-15 | 北京航空航天大学 | 一种面向连续被监测对象的异常检测方法 |
CN108508860A (zh) * | 2018-05-10 | 2018-09-07 | 西安交通大学 | 一种基于耦合关系的流程工业生产系统数据监测方法 |
CN108732313A (zh) * | 2018-05-31 | 2018-11-02 | 深圳市创艺工业技术有限公司 | 城市空气污染物浓度智能观测系统 |
CN110362608A (zh) * | 2019-06-11 | 2019-10-22 | 广东工业大学 | 基于雨流计数法和局部异常因子的能耗异常检测方法 |
CN111275307A (zh) * | 2020-01-16 | 2020-06-12 | 生态环境部华南环境科学研究所 | 一种水质自动在线站高频连续观测数据质量控制方法 |
CN112685950A (zh) * | 2020-12-02 | 2021-04-20 | 山东省计算中心(国家超级计算济南中心) | 一种海洋时序观测数据的异常检测方法、系统和设备 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117776413A (zh) * | 2023-12-28 | 2024-03-29 | 武汉飞博乐环保工程有限公司 | 一种利用二氧化碳废气处理高硬度废水的方法 |
CN118586897A (zh) * | 2024-08-07 | 2024-09-03 | 江西隆锦生态环境建设有限公司 | 一种基于地下排水管网追踪的污水监控方法、系统及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113225391B (zh) | 2022-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109117883B (zh) | 基于长短时记忆网络的sar影像海冰分类方法及系统 | |
CN113225391B (zh) | 基于滑动窗口异常检测的大气环境监测质量监控方法及计算设备 | |
CN111368980B (zh) | 状态检测方法、装置、设备及存储介质 | |
CN112686833B (zh) | 一种基于卷积神经网络的工业产品表面缺陷检测和分类装置 | |
CN112508056A (zh) | 基于移动多源感知的城市空气质量监测方法 | |
CN114036736B (zh) | 一种基于局部格兰杰因果分析的因果网络学习方法 | |
CN111178653B (zh) | 用于确定污染区域的方法和装置 | |
CN115575584B (zh) | 一种大气环境镉含量监测预警方法及系统 | |
CN113836808A (zh) | 一种基于重污染特征约束的pm2.5深度学习预测方法 | |
CN108304610B (zh) | 一种大气高污染过程动态追踪方法 | |
CN112348290A (zh) | 河流水质预测方法、装置、存储介质及设备 | |
CN112101132A (zh) | 一种基于图嵌入模型和度量学习的交通状况预测方法 | |
CN114694130A (zh) | 基于深度学习的铁路沿线电线杆及杆号检测方法和装置 | |
CN111242028A (zh) | 基于U-Net的遥感图像地物分割方法 | |
CN117436653A (zh) | 一种网约车出行需求的预测模型构建方法和预测方法 | |
CN114598627A (zh) | 一种基于知识图谱的异常网络信息检测方法 | |
CN111062388A (zh) | 基于深度学习的广告文字的识别方法、系统、介质及设备 | |
CN116468205B (zh) | 一种机动车环保检测质量监测方法及系统 | |
Hong et al. | Drainage network flow anomaly classification based on XGBoost | |
CN111428344A (zh) | 一种高速公路机电设备退化分析模型的构建方法 | |
CN116522261B (zh) | 一种基于大数据的风险信息监控方法及系统 | |
CN115878695B (zh) | 一种基于气象数据库的数据可视化调整方法及系统 | |
CN117807518B (zh) | 常规天气图上槽线或切变线的自动识别方法、系统及设备 | |
CN115808504B (zh) | 一种用于浓度预测的气体传感器在线漂移补偿方法 | |
CN118211942B (zh) | 一种半导体气态分子污染物空间分布管理系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |