CN113225391A - 基于滑动窗口异常检测的大气环境监测质量监控方法及计算设备 - Google Patents

基于滑动窗口异常检测的大气环境监测质量监控方法及计算设备 Download PDF

Info

Publication number
CN113225391A
CN113225391A CN202110458853.XA CN202110458853A CN113225391A CN 113225391 A CN113225391 A CN 113225391A CN 202110458853 A CN202110458853 A CN 202110458853A CN 113225391 A CN113225391 A CN 113225391A
Authority
CN
China
Prior art keywords
monitoring
index
sliding window
window
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110458853.XA
Other languages
English (en)
Other versions
CN113225391B (zh
Inventor
徐伟嘉
李东
吕炜
李璇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suncere Information Technology Co ltd
Institute of Dongguan of Sun Yat Sen University
Original Assignee
Suncere Information Technology Co ltd
Institute of Dongguan of Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suncere Information Technology Co ltd, Institute of Dongguan of Sun Yat Sen University filed Critical Suncere Information Technology Co ltd
Priority to CN202110458853.XA priority Critical patent/CN113225391B/zh
Publication of CN113225391A publication Critical patent/CN113225391A/zh
Application granted granted Critical
Publication of CN113225391B publication Critical patent/CN113225391B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N15/00Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials
    • G01N15/06Investigating concentration of particle suspensions
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/0004Gaseous mixtures, e.g. polluted air
    • G01N33/0009General constructional details of gas analysers, e.g. portable test equipment
    • G01N33/0062General constructional details of gas analysers, e.g. portable test equipment concerning the measuring method or the display, e.g. intermittent measurement or digital display
    • G01N33/0063General constructional details of gas analysers, e.g. portable test equipment concerning the measuring method or the display, e.g. intermittent measurement or digital display using a threshold to release an alarm or displaying means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2272Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A50/00TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE in human health protection, e.g. against extreme weather
    • Y02A50/20Air quality improvement or preservation, e.g. vehicle emission control or emission reduction by using catalytic converters

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Educational Administration (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Pathology (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Marketing (AREA)
  • Software Systems (AREA)
  • Analytical Chemistry (AREA)
  • General Business, Economics & Management (AREA)
  • Medical Informatics (AREA)
  • Food Science & Technology (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Combustion & Propulsion (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Medicinal Chemistry (AREA)
  • Primary Health Care (AREA)
  • Computing Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)

Abstract

本发明涉及基于滑动窗口异常检测的大气环境监测质量监控方法及计算设备,监控方法包括:(1)服务器端发送请求命令;(2)数据预处理;(3)计算不同站点之间的关联系数,调整每个站点的位置;(4)通过5*5的关联滑动窗口,计算窗口内污染物浓度的均值和方差;(5)计算异常因子,定位异常数据;(6)采用方差和LOF异常值的乘积与阈值比较来监控异常数据;(7)返回质量监控结果至服务器端。本发明考虑到监测站点以及污染时间上的关联性,使用滑动窗口以及关联系数进行约束和操作、采用方差和LOF异常值的乘积来监控异常数据,以解决通过仪器监测采集的大气环境监测物如SO2、NO2、O3、CO、PM10、PM2.5等引起的异常数据质量问题等。

Description

基于滑动窗口异常检测的大气环境监测质量监控方法及计算 设备
技术领域
本发明属于大气环境监测物质量控制领域,尤其涉及一种基于滑动窗口异常检测的大气环境监测质量监控方法及计算设备。
背景技术
目前随着城市化进程加快、工业迅猛发展,随之而来的是汽车尾气排放加重导致二氧化硫浓度超标、空气悬浮颗粒浓度超标出现雾霾天气等。针对这些问题需要精确的环境污染指标来进行指导,通过直观性展示污染进程变化来引起人们的重视,并对地方的污染治理提供依据和方向指导。
现阶段环境空气质量的检测主要通过仪器监测,仪器精度出现偏差将影响大气环境质量指标的浓度偏差。现阶段质量监测主要采用人工审核,该方法消耗大量的人力资源,因此,急需一种智能的、在线的手段对仪器监测的大气环境指标进行实时质量监控,来降低人工成本。目前研究以环境应对策略和大气质量指标监测设备设计为主,鲜少有文献关注大气环境智能监测。
由于大气环境监测物的质量管控需要有一段稳定运行的历史数据作为支撑,因此从数据上限制了该领域的发展。基于滑动窗口的异常值检测方法对于窗口的选择比较敏感,针对不同的研究问题和不同数据要经过测试寻找最佳的参数,且手工控制的参数过多,如:采样数、第K个最近距离、滑动窗口、阈值等,严重降低了其泛化能力。基于LOF异常值的主要不足在于只评估每个数据段的异常概率,无法针对单独的数据进行异常判断。
发明内容
本发明的目的在于提供一种基于滑动窗口异常检测的大气环境监测质量监控方法及计算设备,本发明的设备接收方法从服务器端发出的请求命令,并从站点仪器终端采集接收数据,然后经过数据处理后输出异常值,进而报送监控结果返回给服务器端,以解决通过仪器监测采集的大气环境监测物(SO2、NO2、O3、CO、PM10、PM2.5等)引起的异常数据质量问题。目前随着城市化进程加快、工业迅猛发展,随着而来的是汽车尾气排放加重导致二氧化硫浓度超标、空气悬浮颗粒浓度超标出现雾霾天气等问题。针对这些问题需要精准的环境污染指标来进行指导,通过直观性展示污染进程变化来引起人们的重视,并对地方的污染治理提供依据和方向指导。
一种基于滑动窗口异常检测的大气环境监测质量监控方法,主要包括以下步骤:
(1)用户在服务器端发送大气污染监测质量监控指令,得到不同站点在不同时间点的大气环境监测物浓度值;
(2)将得到待质量监控的大气环境监测物在不同站点不同时间点的浓度数据转换成标准化数据格式;
(3)用皮尔逊关联系数计算待质量监控的大气环境监测物在不同站点之间的关联系数,根据对应系数的大小调整每个站点在表格中的位置;
(4)通过5*5的关联滑动窗口将步骤(3)调整后的待质量监控的大气环境监测物浓度值转换成窗口内污染物浓度的均值和方差;
(5)以异常值检测窗口为单元,计算窗口内每个点对应的LOF异常值;然后通过设定阈值定位异常数据;阈值设定为所计算样本异常值的百分之九十九分位数;窗口的大小随着不同站点变化而变化,窗口的列为该站点的个数,窗口的行为时间小于24小时的数据行;
(6)采用步骤(4)的方差和步骤(5)的LOF异常值的乘积跟阈值比较来判断监控采集的污染物是否为异常数据;当方差和LOF值的乘积大于阈值时认为均值和方差对应的监测值为异常值,反之为正常监测;
(7)在指定时间内,自动报送前述异常值筛选与检测结果至服务器端,亦可通过在服务器端设置其他报送路径,将检测结果输出至其他指定用户终端。
优选的,步骤(3)所述皮尔逊相关系数的计算公式为:
Figure BDA0003041498150000021
其中x为相关性计算的站点A对应的序列,Y为同X站点B计算相关性的站点序列;
Figure BDA0003041498150000022
为站点A序列的均值,
Figure BDA0003041498150000023
为站点B序列的均值。
优选的,步骤(3)所述根据系数大小调整每个站点在表格中的位置:以A作为分析站点,将A站点的数据放在表格的中间,除去A外其余站点相似系数最高的B放置在A站点的右边,接下来相似系数最高的G站点放置在A站点放置在左边,以此规律类推。
优选的,步骤(4)包括:
首先确定关联滑动窗口的起止位置,以计算点为窗口的中心位置,当计算点前后或者左右不够位置时留空;当前计算点的索引位置为(index_x,index_y),行列索引其实位置计算方式如下:
Figure BDA0003041498150000031
Figure BDA0003041498150000032
Figure BDA0003041498150000033
Figure BDA0003041498150000034
其中其中start_index_x、End_index_x、start_index_y、End_index_y分别为行索引的起止位置、列索引的起止位置。index_xsize、index_ysize分别为行列大小。
按照行列的起止位置得到对应窗口的数据,然后计算窗口数据的均值和方差作为新的特征。
优选的,步骤(5)所述LOF法中异常因子的计算公式为:
Figure BDA0003041498150000035
其中,点p的第k距离邻域NK(P)为p的第k距离及以内的所有点,则p的第k邻域点的个数|NK(P)≤K|。
reach-distancek(p,o)为点o到点p的第k可达距离
reach-distancek(p,o)=max{k-distance(o),d(p,o)}
lrdk(p)为点p局部可达密度
Figure BDA0003041498150000041
表示点p的第k邻域内点到p的平均可达距离的倒数。
滑动窗口的步长设定为1,第K距离设置为5。
优选的,所述待质量监控的大气环境监测物包括SO2、NO2、O3、CO、PM2.5、PM10
一种用于上述基于滑动窗口异常检测的大气环境监测质量监控的装置,所述装置能对检测时间段范围进行设置,包括起始时间和终止时间(年/月/日/时),并可对检测数据时间属性按日或小时进行设定;对检测空间范围进行设置,范围选择包括按行政区划及按地理距离两种方式,前者涵盖所属城市、所属省域、全国三类空间级别,后者可根据距离目标站点的半径范围(单位为km)进行设定,默认为仅所属城市范围内;对检测目标站点进行设置,包括单点和多点两种选项;对目标污染物指标进行设置,可对选择单个或多个污染物指标,覆盖污染物范围包括但不限于六项常规大气污染物(PM2.5、PM10、CO、SO2、O3、NO2)。
所述装置包括:计算处理单元、数据存储单元、管理控制单元和可视化显示终端;计算处理单元包括一个或多个处理器,用于接收服务器端的数据检测请求命令,并运行大气环境监测数据检测程序;数据存储单元包括至少一个存储器,用于存储原始、计算过程及结果数据,同时对指令执行情况进行记录并存储相应信息;管理控制单元包括程序启动/暂停/终止模块、参数设置模块,前者可对检测程序的执行状态进行管理控制,后者可对请求命令所涉及的参数进行手工设置;可视化显示终端包括一个(主显示)或多个显示装置,这些显示装置可显示计算程序运行或检测结果的画面。
一种电子设备,所述至少包括一个存储器,一个或多个处理器,分别用于存储服务器端的请求指令以及执行指令,所述处理器运行所述计算机程序以实现上述的方法。
一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行实现上述的方法。
本发明考虑到各个站点时间和数值上的关联性、原始数据属性的单一性,结合时间和站点之间的关联关系进行特征映射,将站点在不同时刻的污染数值转换成关联时间和关联站点之间的对应关系。质量监控从异常值检测角度出发,考虑时间跨度上的关联关系,采用滑动窗口的形式通过比较每个点p和其邻域点的密度来计算该点是否为异常点,如果点p的密度越低,越可能被认定是异常点。至于这个密度,是通过点之间的距离来计算的,点之间距离越远,密度越低,距离越近,密度越高,而且这里的密度基于局部数据。
与现有技术相比,本发明具有以下优势:
1、加入了各个站点之间的关联性。在使用关联性窗口计算均值和方差之前计算了各站点之间的相关系数,按照相关系数的顺序进行排序。相关系数大的站点包含在关联性窗口内,关联系数较小的站点则排除在窗口外。
2、引入关联性窗口。对监测的大气环境监测指标进行特征映射。通过站点之间的相关系数建立站点之间的数据关联,在此基础上通过5*5的关联滑动窗口将待质量监控的大气环境监测物浓度值转换成窗口内污染物浓度的均值和方差。该实现方案同时考虑了站点的空间和时间特征,为后面LOF异常值的计算提供了有效的特征维度。
3、引入异常检测窗口。采用窗口大小变化的异常检测滑窗将异常数据检测方法应用到时间和截面数据长度不一的面板数据上。同时考虑污染物浓度的变化受季节以及地区的变化而变化,LOF值计算中的K临近值的寻找只针对当前异常检测窗口内的所有值,因此弱化了季节和地区变化带来的影响。同时针对当前研究的问题,一般异常值所在的关联窗口内会导致方差较大,而根据LOF异常值计算方法可知,计算LOF值较大的一般对应离群点,而离群点可以为方差较小的离群点也可以为方差较大的离群点。因此采用方差和LOF异常值的乘积来监控采集的污染物是否为异常数据。
附图说明
图1是本发明基于滑动窗口异常检测的大气环境监测质量监控方法的技术流程图;
图2是实施例1中A、B位置对应的滑动窗口位置;
图3是实施例1中窗口均值和方差计算示意图;
图4是实施例1中p的第k距离的示意图;
图5是实施例1中o1到p的第5可达距离为d(p,o1),o2到p的第5可达距离为d5(o2)的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。考虑到监测站点以及污染时间上的关联性,在站点和时间上使用滑动窗口以及关联系数进行约束和操作。质量监控问题转换成异常值检测问题,使用局部数据计算点的密度,作为判断指标。
实施例1
一种基于滑动窗口异常检测的大气环境监测质量监控方法,以某市CO浓度为例,其它大气环境监测如SO2、NO2、O3、CO、PM10、PM2.5同样适用。
考虑到监测站点以及污染时间上的关联性,在站点和时间上使用滑动窗口以及关联系数进行约束和操作。质量监控问题转换成异常值检测问题,使用局部数据计算点的密度,作为判断指标。用户通过在服务器端定时发送数据检测请求命令,包括检测时间段范围、检测空间范围、检测目标站点、目标污染物指标等,定时、在线生成目标时空范围内的大气环境监测质控结果,并自动报送给指定终端并提供查询下载与展示。如图1所示,主要包括以下步骤:
本发明的方法每次监控污染物质量时,默认选择同一个城市同一污染物进行质量检测。
第一步:服务器端发送请求命令
用户在服务器端发送大气污染监测质量监控指令,指令内容至少包括检测时间段范围、检测空间范围、检测目标站点、目标污染物指标等,该计算设备接收终端接受请求后,采集目标范围内站点仪器终端的大气环境监测数据;
其中,检测时间段/空间范围用于明确需要进行质量控制检验的时段/地理空间范围,检测目标站点明确了被检测站点对象,目标污染物指标用于设定需要检测的污染物种类,默认情况为六项常规污染物。该计算设备至少包括一个存储器,一个或多个处理器,分别用于存储服务器端的请求指令以及执行指令。
第二步:数据预处理
将同一城市同一污染物指标进行格式转换,转换成列为监测站点、行为监测时间。如下表1为部分原始数据,表2为杭州市CO浓度格式转换后的数据列表。
表1部分原始数据
Figure BDA0003041498150000071
表2杭州市CO浓度格式转换后的数据
Figure BDA0003041498150000072
第三步:计算不同站点之间的关联系数
由于不同站点之间的关联性不一样,关联性越大的站点对质量判断的影响作用将会越大。关联性的计算方法选用皮尔逊关联系数。
皮尔逊相关系数是衡量两两向量相似性的一种方法输出范围为-1到1,0代表无相关,负数代表负相关,正数代表正相关。
Figure BDA0003041498150000081
其中x为相关性计算的站点A对应的序列,Y为同X站点B计算相关性的站点序列。
Figure BDA0003041498150000082
为站点A序列的均值,
Figure BDA0003041498150000083
为站点B序列的均值。
根据计算的系数调整每个站点的位置。以表1中A站点为例,计算其他10个站点和A站点之间的关联关系。
首先计算各个站点与A站点之间的相关系数,如表3所示。
表3相关系数表
城市 A B C D E F G H I J K
相关系数 1 0.748 0.583 0.279 0.517 0.708 0.730 0.689 0.682 0.653 0.487
然后根据系数大小对应每个站点在表格中的位置。以A作为分析站点,将A站点的数据放在表格的中间,除去A外其余站点相似系数最高的B放置在A站点的右边,接下来相似系数最高的G站点放置在A站点放置在左边,以此规律类推,得到结果如表4所示。
表4根据相关系数转换后的数据格式表
Figure BDA0003041498150000084
第四步:特征转换
通过5*5的关联滑动窗口将待质量监控的大气环境监测物浓度值转换成窗口内污染物浓度的均值和方差
将上述表4中列名为A站点的特征进行转换。
首先确定关联滑动窗口的起止位置,一般以计算点为窗口的中心位置,当计算点前后或者左右不够位置时留空。假设当前计算点的索引位置为(index_x,index_y),行列索引其实位置计算方式如下。
Figure BDA0003041498150000091
Figure BDA0003041498150000092
Figure BDA0003041498150000093
Figure BDA0003041498150000094
其中start_index_x、End_index_x、start_index_y、End_index_y分别为行索引的起止位置、列索引的起止位置。index_xsize、index_ysize分别为行列大小。
按照行列的起止位置得到对应窗口的数据,然后计算窗口数据的均值和方差作为新的特征。图2为A点和B点对应的滑动窗口位置。
按照上述方法以此类推计算所有站点在不同时刻下的滑动窗口的均值和方法作为新的特征。特征转换后的数据展示如表5所示。窗口均值和方差计算示意图如图3所示,A的均值为2.222,方差为1.5476;B的均值为3.16,方差为1.347。
表5特征转换后的数据展示
Figure BDA0003041498150000095
第五步:异常值检测
异常值检测同样也采用滑动窗口的形式,该窗口记为异常检测窗口。窗口的大小随着不同站点的变化而变化,窗口的列为该站点的个数,窗口的行为时间小于24小时的数据行。每次计算以异常值检测窗口为单元,计算该窗口内每个点对应的LOF异常值,然后通过设定阈值定位异常数据。
Local Outlier Factor(LOF)包含的基本概念分别如下:
1)d(p,o):两点p和o之间的距离;
2)k-distance:第k距离
对于点p的第k距离dk(p)
定义如下:dk(p)=d(p,o),并且满足:
a)在集合中至少有不包括p在内的k个点o∈C{x≠p},满足d(p,o,)≤d(p,o);
b)在集合中最多有不包括p在内的k-1个点o∈C{x≠p},满足d(p,o,)<d(p,o);
p的第k距离,也就是距离p第k远的点的距离,不包括p,如图4所示。
3)k-distance neighborhood of p:第k距离邻域
点p的第k距离邻域NK(P)为p的第k距离及以内的所有点,则p的第k邻域点的个数|NK(P)≤K|。4)reach-distance:可达距离
点o到点p的第k可达距离定义为:
reach-distancek(p,o)=max{k-distance(o),d(p,o)}
也就是,点o到点p的第k可达距离,至少是o的第k距离,或者为o、p间的真实距离。
这也意味着,离点o最近的k个点,o到它们的可达距离被认为相等,且都等于dk(o)。
如图5,o1到p的第5可达距离为d(p,o1),o2到p的第5可达距离为d5(o2)。
reach-distk(p,o1)=d(p,o1)
reach-distk(p,o2)=d5(o2)
5)local reachability density:局部可达密度
点p的局部可达密度表示为:
Figure BDA0003041498150000101
表示点p的第k邻域内点到p的平均可达距离的倒数。
注意,这里是p的邻域点Nk(p)到p的可达距离,不是p到Nk(p)的可达距离。并且,如果有重复点,那么分母的可达距离之和有可能为0,则会导致lrd变为无限大。
lrd代表一个密度,密度越高,认为越可能属于同一簇,密度越低,越可能是离群点。如果p和周围邻域点是同一簇,那么可达距离越可能为较小的dk(o),导致可达距离之和较小,密度值较高;如果p和周围邻居点较远,那么可达距离可能都会取较大值d(p,o),导致密度较小,越可能是离群点。
6)local outlier factor:局部离群因子
点p的局部离群因子表示为:
Figure BDA0003041498150000111
表示点p的邻域点Nk(p)的局部可达密度与点p的局部可达密度之比的平均数。
如果这个比值越接近1,说明p和其邻域点的密度差不多,p可能和邻域同属一簇;如果这个比值越小于1,说明p的密度高于其邻域点密度,p为密集点;如果这个比值越大于1,说明p的密度小于其邻域点密度,p越可能是异常点。
以滑动窗口为计算单元,窗口内每个点的LOF值作为异常判断的一个指标。滑动窗口的大小根据不同城市不同时间点来确定,以杭州市2020年9月1日1点为例,滑动窗口的列为杭州市所有站点的个数11列,行为9月1日1点到9月2日0点的数据24行(滑动窗口首行和末行时间之差小于等于24,由于部分城市样本缺失么导致滑动窗口的行小于24),因此该城市该时刻滑动窗口的大小为11*24。滑动窗口的步长设定为1,K距离设置为5。
步骤5得到的均值和方差作为计算数据,以滑动窗口的形式按步长为1进行计算得到LOF值。LOF值按照降序排序得到的结果如表6所示。
表6 LOF值按照降序排序得到的结果
Figure BDA0003041498150000121
第六步:筛选异常值进行质量监控
根据LOF值计算方式可知,LOF值越大说明离群程度越高。针对大气环境质量监控的研究问题,一般异常值所在的关联窗口会导致方差较大。根据LOF异常值计算方法可知,一般较大的LOF值对应离群点,而离群点可以为方差较小的离群点也可以为方差较大的离群点。因此采用方差和LOF异常值的乘积来监控采集的污染物是否为异常数据。以表6计算的数值为例,阈值设定为50,当方差和LOF值的乘积大于50时认为均值和方差对应的监测值为异常值,反之为正常监测。阈值设定为所计算样本异常值的百分之九十九分位数。
第七步:返回质量监控结果至服务器端
在指定时间内,自动报送前述异常值筛选与检测结果至服务器端,亦可通过在服务器端设置其他报送路径,将检测结果输出至其他指定用户终端。

Claims (9)

1.一种基于滑动窗口异常检测的大气环境监测质量监控方法,其特征在于,主要包括以下步骤:
(1)用户在服务器端发送大气污染监测质量监控指令,得到不同站点在不同时间点的大气环境监测物浓度值;
(2)将得到待质量监控的大气环境监测物在不同站点不同时间点的浓度数据转换成标准化数据格式;
(3)用皮尔逊关联系数计算待质量监控的大气环境监测物在不同站点之间的关联系数,根据对应系数的大小调整每个站点在表格中的位置;
(4)通过5*5的关联滑动窗口将步骤(3)调整后的待质量监控的大气环境监测物浓度值转换成窗口内污染物浓度的均值和方差;
(5)以异常值检测窗口为单元,计算窗口内每个点对应的LOF异常值,然后通过设定阈值定位异常数据;
(6)采用步骤(4)的方差和步骤(5)的LOF异常值的乘积与阈值比较来判断监控采集的污染物是否为异常数据;
(7)报送步骤(6)异常值筛选与检测结果至服务器端,通过在服务器端设置报送路径,将检测结果输出至指定用户终端。
2.根据权利要求1所述基于滑动窗口异常检测的大气环境监测质量监控方法,其特征在于,步骤(3)所述皮尔逊相关系数的计算公式为:
Figure FDA0003041498140000011
其中x为相关性计算的站点A对应的序列,Y为同X站点B计算相关性的站点序列;
Figure FDA0003041498140000012
为站点A序列的均值,
Figure FDA0003041498140000013
为站点B序列的均值。
3.根据权利要求1所述基于滑动窗口异常检测的大气环境监测质量监控方法,其特征在于,步骤(3)所述根据系数大小调整每个站点在表格中的位置的方法为:以A作为分析站点,将A站点的数据放在表格的中间,除去A外其余站点相似系数最高的B放置在A站点的右边,接下来相似系数最高的G站点放置在A站点放置在左边,以此规律类推。
4.根据权利要求1所述基于滑动窗口异常检测的大气环境监测质量监控方法,其特征在于,步骤(4)包括:
首先确定关联滑动窗口的起止位置,以计算点为窗口的中心位置,当计算点前后或者左右不够位置时留空;当前计算点的索引位置为(index_x,index_y),行列索引位置计算方式如下:
Figure FDA0003041498140000021
Figure FDA0003041498140000022
Figure FDA0003041498140000023
Figure FDA0003041498140000024
其中start_index_x、End_index_x、start_index_y、End_index_y分别为行索引的起止位置、列索引的起止位置。index_xsize、index_ysize分别为行列大小;
按照行列的起止位置得到对应窗口的数据,然后计算窗口数据的均值和方差作为新的特征。
5.根据权利要求1所述基于滑动窗口异常检测的大气环境监测质量监控方法,其特征在于,步骤(5)所述LOF法中异常因子的计算公式为:
Figure FDA0003041498140000025
其中,点p的第k距离邻域NK(P)为p的第k距离及以内的所有点,则p的第k邻域点的个数|NK(P)≤K|;
reach-distancek(p,o)为点o到点p的第k可达距离
reach-distancek(p,o)=max{k-distance(o),d(p,o)}
lrdk(p)为点p局部可达密度
Figure FDA0003041498140000031
表示点p的第k邻域内点到p的平均可达距离的倒数。
6.根据权利要求1所述基于滑动窗口异常检测的大气环境监测质量监控方法,其特征在于,所述待质量监控的大气环境监测物包括SO2、NO2、O3、CO、PM2.5、PM10
7.一种用于权利要求1所述基于滑动窗口异常检测的大气环境监测质量监控的装置。
8.一种电子设备,所述至少包括一个存储器,一个或多个处理器,分别用于存储服务器端的请求指令以及执行指令,其特征在于,所述处理器运行所述计算机程序以实现如权利要求1-6任一项所述的方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行实现如权利要求1-6中任一项所述的方法。
CN202110458853.XA 2021-04-27 2021-04-27 基于滑动窗口异常检测的大气环境监测质量监控方法及计算设备 Active CN113225391B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110458853.XA CN113225391B (zh) 2021-04-27 2021-04-27 基于滑动窗口异常检测的大气环境监测质量监控方法及计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110458853.XA CN113225391B (zh) 2021-04-27 2021-04-27 基于滑动窗口异常检测的大气环境监测质量监控方法及计算设备

Publications (2)

Publication Number Publication Date
CN113225391A true CN113225391A (zh) 2021-08-06
CN113225391B CN113225391B (zh) 2022-11-08

Family

ID=77089729

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110458853.XA Active CN113225391B (zh) 2021-04-27 2021-04-27 基于滑动窗口异常检测的大气环境监测质量监控方法及计算设备

Country Status (1)

Country Link
CN (1) CN113225391B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117776413A (zh) * 2023-12-28 2024-03-29 武汉飞博乐环保工程有限公司 一种利用二氧化碳废气处理高硬度废水的方法
CN118586897A (zh) * 2024-08-07 2024-09-03 江西隆锦生态环境建设有限公司 一种基于地下排水管网追踪的污水监控方法、系统及设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107682319A (zh) * 2017-09-13 2018-02-09 桂林电子科技大学 一种基于增强型角度异常因子的数据流异常检测及多重验证的方法
CN108038044A (zh) * 2017-12-26 2018-05-15 北京航空航天大学 一种面向连续被监测对象的异常检测方法
CN108508860A (zh) * 2018-05-10 2018-09-07 西安交通大学 一种基于耦合关系的流程工业生产系统数据监测方法
CN108732313A (zh) * 2018-05-31 2018-11-02 深圳市创艺工业技术有限公司 城市空气污染物浓度智能观测系统
CN110362608A (zh) * 2019-06-11 2019-10-22 广东工业大学 基于雨流计数法和局部异常因子的能耗异常检测方法
CN111275307A (zh) * 2020-01-16 2020-06-12 生态环境部华南环境科学研究所 一种水质自动在线站高频连续观测数据质量控制方法
CN112685950A (zh) * 2020-12-02 2021-04-20 山东省计算中心(国家超级计算济南中心) 一种海洋时序观测数据的异常检测方法、系统和设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107682319A (zh) * 2017-09-13 2018-02-09 桂林电子科技大学 一种基于增强型角度异常因子的数据流异常检测及多重验证的方法
CN108038044A (zh) * 2017-12-26 2018-05-15 北京航空航天大学 一种面向连续被监测对象的异常检测方法
CN108508860A (zh) * 2018-05-10 2018-09-07 西安交通大学 一种基于耦合关系的流程工业生产系统数据监测方法
CN108732313A (zh) * 2018-05-31 2018-11-02 深圳市创艺工业技术有限公司 城市空气污染物浓度智能观测系统
CN110362608A (zh) * 2019-06-11 2019-10-22 广东工业大学 基于雨流计数法和局部异常因子的能耗异常检测方法
CN111275307A (zh) * 2020-01-16 2020-06-12 生态环境部华南环境科学研究所 一种水质自动在线站高频连续观测数据质量控制方法
CN112685950A (zh) * 2020-12-02 2021-04-20 山东省计算中心(国家超级计算济南中心) 一种海洋时序观测数据的异常检测方法、系统和设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117776413A (zh) * 2023-12-28 2024-03-29 武汉飞博乐环保工程有限公司 一种利用二氧化碳废气处理高硬度废水的方法
CN118586897A (zh) * 2024-08-07 2024-09-03 江西隆锦生态环境建设有限公司 一种基于地下排水管网追踪的污水监控方法、系统及设备

Also Published As

Publication number Publication date
CN113225391B (zh) 2022-11-08

Similar Documents

Publication Publication Date Title
CN109117883B (zh) 基于长短时记忆网络的sar影像海冰分类方法及系统
CN113225391B (zh) 基于滑动窗口异常检测的大气环境监测质量监控方法及计算设备
CN111368980B (zh) 状态检测方法、装置、设备及存储介质
CN112686833B (zh) 一种基于卷积神经网络的工业产品表面缺陷检测和分类装置
CN112508056A (zh) 基于移动多源感知的城市空气质量监测方法
CN114036736B (zh) 一种基于局部格兰杰因果分析的因果网络学习方法
CN111178653B (zh) 用于确定污染区域的方法和装置
CN115575584B (zh) 一种大气环境镉含量监测预警方法及系统
CN113836808A (zh) 一种基于重污染特征约束的pm2.5深度学习预测方法
CN108304610B (zh) 一种大气高污染过程动态追踪方法
CN112348290A (zh) 河流水质预测方法、装置、存储介质及设备
CN112101132A (zh) 一种基于图嵌入模型和度量学习的交通状况预测方法
CN114694130A (zh) 基于深度学习的铁路沿线电线杆及杆号检测方法和装置
CN111242028A (zh) 基于U-Net的遥感图像地物分割方法
CN117436653A (zh) 一种网约车出行需求的预测模型构建方法和预测方法
CN114598627A (zh) 一种基于知识图谱的异常网络信息检测方法
CN111062388A (zh) 基于深度学习的广告文字的识别方法、系统、介质及设备
CN116468205B (zh) 一种机动车环保检测质量监测方法及系统
Hong et al. Drainage network flow anomaly classification based on XGBoost
CN111428344A (zh) 一种高速公路机电设备退化分析模型的构建方法
CN116522261B (zh) 一种基于大数据的风险信息监控方法及系统
CN115878695B (zh) 一种基于气象数据库的数据可视化调整方法及系统
CN117807518B (zh) 常规天气图上槽线或切变线的自动识别方法、系统及设备
CN115808504B (zh) 一种用于浓度预测的气体传感器在线漂移补偿方法
CN118211942B (zh) 一种半导体气态分子污染物空间分布管理系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant