CN117093832A - 一种用于空气质量数据缺失的数据插补方法及系统 - Google Patents
一种用于空气质量数据缺失的数据插补方法及系统 Download PDFInfo
- Publication number
- CN117093832A CN117093832A CN202311346154.1A CN202311346154A CN117093832A CN 117093832 A CN117093832 A CN 117093832A CN 202311346154 A CN202311346154 A CN 202311346154A CN 117093832 A CN117093832 A CN 117093832A
- Authority
- CN
- China
- Prior art keywords
- data
- value
- monitoring position
- sequence
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000012544 monitoring process Methods 0.000 claims abstract description 210
- 239000003344 environmental pollutant Substances 0.000 claims abstract description 68
- 231100000719 pollutant Toxicity 0.000 claims abstract description 68
- 238000010586 diagram Methods 0.000 claims abstract description 34
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 18
- 238000004364 calculation method Methods 0.000 claims abstract description 15
- 230000006870 function Effects 0.000 claims description 24
- 230000005856 abnormality Effects 0.000 claims description 19
- 230000011218 segmentation Effects 0.000 claims description 15
- 239000000356 contaminant Substances 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 6
- 238000012217 deletion Methods 0.000 claims description 5
- 230000037430 deletion Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 238000012545 processing Methods 0.000 abstract description 2
- 230000008859 change Effects 0.000 description 15
- 239000002245 particle Substances 0.000 description 8
- 230000002159 abnormal effect Effects 0.000 description 5
- 230000007704 transition Effects 0.000 description 4
- RAHZWNYVWXNFOC-UHFFFAOYSA-N Sulphur dioxide Chemical compound O=S=O RAHZWNYVWXNFOC-UHFFFAOYSA-N 0.000 description 2
- 238000009792 diffusion process Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- MGWGWNFMUOTEHG-UHFFFAOYSA-N 4-(3,5-dimethylphenyl)-1,3-thiazol-2-amine Chemical compound CC1=CC(C)=CC(C=2N=C(N)SC=2)=C1 MGWGWNFMUOTEHG-UHFFFAOYSA-N 0.000 description 1
- UGFAIRIUMAVXCW-UHFFFAOYSA-N Carbon monoxide Chemical compound [O+]#[C-] UGFAIRIUMAVXCW-UHFFFAOYSA-N 0.000 description 1
- 241000239366 Euphausiacea Species 0.000 description 1
- CBENFWSGALASAD-UHFFFAOYSA-N Ozone Chemical compound [O-][O+]=O CBENFWSGALASAD-UHFFFAOYSA-N 0.000 description 1
- 239000000809 air pollutant Substances 0.000 description 1
- 231100001243 air pollutant Toxicity 0.000 description 1
- 229910002091 carbon monoxide Inorganic materials 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- JCXJVPUVTGWSNB-UHFFFAOYSA-N nitrogen dioxide Inorganic materials O=[N]=O JCXJVPUVTGWSNB-UHFFFAOYSA-N 0.000 description 1
- 239000013618 particulate matter Substances 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 239000013049 sediment Substances 0.000 description 1
- 238000004062 sedimentation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000009423 ventilation Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01D—MEASURING NOT SPECIALLY ADAPTED FOR A SPECIFIC VARIABLE; ARRANGEMENTS FOR MEASURING TWO OR MORE VARIABLES NOT COVERED IN A SINGLE OTHER SUBCLASS; TARIFF METERING APPARATUS; MEASURING OR TESTING NOT OTHERWISE PROVIDED FOR
- G01D21/00—Measuring or testing not otherwise provided for
- G01D21/02—Measuring two or more variables by means not covered by a single other subclass
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
- G06F18/15—Statistical pre-processing, e.g. techniques for normalisation or restoring missing data
Abstract
本发明涉及数据处理技术领域,具体涉及一种用于空气质量数据缺失的数据插补方法及系统,包括:采集目标区域内每个监测位置的经纬度、风速值、湿度值、污染物浓度值,获取目标监测位置,根据目标监测位置的风速值、湿度值、污染物浓度值,得到目标监测位置的属性值,结合经纬度,得到初始距离序列与每个监测位置的更新污染物浓度值,从而得到距离序列与其每个数据值对应的半方差,并得到距离与半方差散点图,由此得到变程,进而使用克里金插值算法,得到目标区域内监测不到空气质量的位置对应的污染物浓度值。本发明通过分析计算得到更加符合实际的数据,使得插值结果在空间上更加平滑和连续,有助于准确地估计观测不到的位置的空气质量。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种用于空气质量数据缺失的数据插补方法及系统。
背景技术
随着工业化和城市化的不断发展,空气质量成为了一个重要的环境问题。监测和评估空气质量数据成为了保护公众健康和环境的重要工作。空气质量指数是一种用于度量空气质量的标准化指标,常用于向公众传递空气质量信息。通过监测与空气质量相关的数据,如PM2.5、PM10、臭氧、二氧化氮、二氧化硫、一氧化碳等,并将其与国家或地区的空气质量标准相比较,从而得到空气质量指数。
用于空气质量数据缺失的数据插补方法及系统,是指通过对已有的监测数据结合空间等因素分析并推断出由于监测位置发生故障导致数据缺失或者未知区域的空气质量数据,以便在分析、建模和决策中获得更全面的空气质量信息。
现有的问题:在对空气质量数据进行插值计算的过程中,传统的插值算法往往会在插值过程中对数据进行平滑处理,导致插值结果过于平缓,无法准确地反映真实的数据变化情况,这可能掩盖了真实的空气质量波动或污染源的局部影响,导致插值结果和实际情况有所偏差。
发明内容
本发明提供一种用于空气质量数据缺失的数据插补方法及系统,以解决现有的问题。
本发明的一种用于空气质量数据缺失的数据插补方法及系统采用如下技术方案:
本发明一个实施例提供了一种用于空气质量数据缺失的数据插补方法,该方法包括以下步骤:
将城市内任意一片区域,记为目标区域;在当前时刻上,使用传感器采集目标区域内每个监测位置的经纬度、风速值、湿度值、污染物浓度值;将目标区域内任意一个监测位置,记为目标监测位置;根据目标监测位置的风速值、湿度值、污染物浓度值,得到目标监测位置的属性值;
根据所有监测位置的属性值之间的差异、监测位置的经纬度,得到初始距离序列与每个监测位置的更新污染物浓度值;
根据初始距离序列、所有监测位置的更新污染物浓度值,得到距离序列与距离序列中每个数据值对应的半方差,并得到平面坐标系上的距离与半方差散点图;
根据距离与半方差散点图中所有相邻数据点的连线的斜率之间的差异,得到变程;
将目标区域内不是监测位置的任意一个位置,记为参考位置;根据当前时刻上目标区域内所有监测位置的更新污染物浓度值、距离序列中所有数据值与其对应的半方差、变程,使用克里金插值算法,得到当前时刻上目标区域内参考位置对应的污染物浓度值。
进一步地,所述根据目标监测位置的风速值、湿度值、污染物浓度值,得到目标监测位置的属性值对应的具体计算公式为:
其中Z为目标监测位置的属性值,C为目标监测位置的污染物浓度值,S为目标监测
位置的湿度值,V为目标监测位置的风速值,为线性归一化函数。
进一步地,所述根据所有监测位置的属性值之间的差异、监测位置的经纬度,得到初始距离序列与每个监测位置的更新污染物浓度值,包括的具体步骤如下:
根据监测位置的经纬度,计算目标区域内任意两个监测位置之间的距离,将所有监测位置之间的距离由小到大排序,得到初始距离序列;
在目标区域内,将距离目标监测位置最近的监测位置,记为目标监测位置对应的参考监测位置;将目标监测位置对应的参考监测位置的属性值,记为目标监测位置的参考属性值;
根据目标区域内目标监测位置与其之外的所有监测位置的属性值、目标监测位置的参考属性值,得到目标监测位置存在数据异常的可能性;
当目标监测位置存在数据异常的可能性大于预设的异常阈值时,将目标监测位置的更新污染物浓度值设置为目标监测位置对应的参考监测位置的污染物浓度值;
当目标监测位置存在数据异常的可能性小于等于预设的异常阈值时,将目标监测位置的更新污染物浓度值设置为目标监测位置的污染物浓度值。
进一步地,所述根据目标区域内目标监测位置与其之外的所有监测位置的属性值、目标监测位置的参考属性值,得到目标监测位置存在数据异常的可能性对应的具体计算公式为:
其中P为目标监测位置存在数据异常的可能性,Z为目标监测位置的属性值,
为目标区域内目标监测位置之外的所有监测位置的属性值的均值,为目标监测位置的参
考属性值,为线性归一化函数,| |绝对值函数。
进一步地,所述根据初始距离序列、所有监测位置的更新污染物浓度值,得到距离序列与距离序列中每个数据值对应的半方差,包括的具体步骤如下:
将初始距离序列等分为n个初始距离序列段,依次计算每个初始距离序列段内的数据均值,得到距离序列;所述n为预设的等分数量;
根据目标区域内所有监测位置的更新污染物浓度值,使用半方差函数,依次将距离序列中每个数据值作为距离阈值,得到距离序列中每个数据值对应的半方差。
进一步地,所述得到平面坐标系上的距离与半方差散点图,包括的具体步骤如下:
以距离序列中的数据值为横轴,以距离序列中数据值对应的半方差为纵轴,构建平面坐标系;
在平面坐标系上,根据距离序列中所有数据值与其对应的半方差构成的数据点,得到距离与半方差散点图。
进一步地,所述根据距离与半方差散点图中所有相邻数据点的连线的斜率之间的差异,得到变程,包括的具体步骤如下:
根据距离与半方差散点图中数据点的横坐标值,由小到大将所有数据点排序,依次计算相邻两个数据点的连线的斜率,得到斜率序列;
依次计算斜率序列中相邻两个数据的差值的绝对值,得到绝对值序列;
将斜率序列中每个数据对应在绝对值序列中的数据的均值,记为斜率序列中每个数据对应的邻域差异;
根据斜率序列中每个数据对应的邻域差异、所有数据之间的差异,得到斜率序列中每个数据为分割界限的可能性;
根据斜率序列中每个数据为分割界限的可能性的大小,得到变程。
进一步地,所述根据斜率序列中每个数据对应的邻域差异、所有数据之间的差异,得到斜率序列中每个数据为分割界限的可能性对应的具体计算公式为:
其中为斜率序列中第i个数据为分割界限的可能性,为斜率序列中第i个数据
对应的邻域差异,为斜率序列中第i个数据与其之前的所有数据的均值,为斜率序列中
第i个数据之后的所有数据的均值,| |为绝对值函数。
进一步地,所述根据斜率序列中每个数据为分割界限的可能性的大小,得到变程,包括的具体步骤如下:
在斜率序列中,选取所有数据为分割界限的可能性中的最大值对应的数据,将所述最大值对应的数据对应在距离与半方差散点图中的两个数据点的横坐标值中的最大值,记为变程。
本发明还提出了一种用于空气质量数据缺失的数据插补系统,包括存储器和处理器,所述处理器执行所述存储器存储的计算机程序,以实现前述所述的方法。
本发明的技术方案的有益效果是:
本发明实施例中,使用传感器采集目标区域内每个监测位置的经纬度、风速值、湿度值、污染物浓度值,将任意一个监测位置,记为目标监测位置,根据目标监测位置的风速值、湿度值、污染物浓度值,得到目标监测位置的属性值,结合监测位置的经纬度,得到初始距离序列与每个监测位置的更新污染物浓度值,由此对目标监测位置中的异常数据进行修正,从而提高后续数据插补的准确性。再获取距离序列与距离序列中每个数据值对应的半方差,并得到距离与半方差散点图,根据距离与半方差散点图中数据点的分布,得到变程,由此自适应克里金插值算法中的重要参数,使得算法构建的模型更加合理与符合实际数据。最后使用克里金插值算法,得到目标区域内监测不到空气质量的位置对应的污染物浓度值。至此本发明通过对克里金插值算法中的半方差函数模型进行分析计算得到更加符合实际的数据,使得插值结果在空间上更加平滑和连续,有助于准确地估计观测不到的位置的空气质量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种用于空气质量数据缺失的数据插补方法的步骤流程图。
图2为本实施例所提供的一个距离与半方差散点图示意图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种用于空气质量数据缺失的数据插补方法及系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种用于空气质量数据缺失的数据插补方法及系统的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种用于空气质量数据缺失的数据插补方法的步骤流程图,该方法包括以下步骤:
步骤S001:将城市内任意一片区域,记为目标区域;在当前时刻上,使用传感器采集目标区域内每个监测位置的经纬度、风速值、湿度值、污染物浓度值;将目标区域内任意一个监测位置,记为目标监测位置;根据目标监测位置的风速值、湿度值、污染物浓度值,得到目标监测位置的属性值。
通常情况下,空气质量监测位置会在不同地理位置设置,以覆盖城市内不同区域的空气质量状况。但有时候因为监测设备损坏或者地理位置的影响导致部分地方的空气质量数据监测不到,因此本实施例主要是对这些监测不到的位置进行插值计算,得到这些位置的空气质量数据。
将城市内任意一片区域,记为目标区域。在当前时刻上,使用传感器采集目标区域内每个监测位置的经纬度、风速值、湿度值、污染物浓度值。
所需说明的是:空气质量的数据会因为空间位置的不同而有所差异,比如当某两处监测位置的空间距离比较接近时,所采集到的空气中的一些数据是比较接近的,即各监测位置的数据具有一定的空间相关性。因此,在对空气质量数据进行插值计算时,需要对监测位置的地理位置进行标记,对监测设备内部部署GPS等相关位置传感器,记录其经纬度。同时,风速是空气质量的重要影响因素之一。较高的风速具有更好的通风和扩散能力,可以将污染物迅速带走并稀释到较低的浓度。相反,低风速可能导致污染物滞留在区域内,进而影响空气质量。因此,还需要通过对各监测位置部署的风速传感器记录各监测位置当前时刻的风速大小。此外,湿度较高的环境有利于颗粒物的湿沉降,水分可以吸附在颗粒物表面,增加颗粒物的重量和大小,使其更易于沉降到地面。因此在高湿度条件下,空气中的细颗粒物,如PM2.5的浓度可能会相对较低,为了获得更准确的空气质量数据还需部署的湿度传感器以及污染物浓度监测的传感器,并记录各监测位置当前时刻的湿度以及污染物浓度大小。通过污染物的浓度和其他影响因素进行分析,从而便于获得监测不到的位置处的空气质量数据。
因为空气质量数据通常具有空间相关性,监测位置所处的空间不同,监测数据也有所差异,已知克里金插值是一种基于空间统计的插值方法,它通过建立变异函数模型来估计监测不到的位置上的数值。因此本实施例通过对空气监测数据影响因素分析,并结合克里金差值算法对空气质量数据进行相关模型的构建,进而得到更准确的空气质量数据插值结果。
已知当监测位置周围当前时刻的风速比较大时,监测位置所采集的污染物浓度是比较小的,因为风速会导致空气中的污染物的扩散速度发生变化,即在一定变化范围内,监测位置周围的风速越大时,当前时刻所监测到的污染物浓度是比较小的,当风速稳定或者趋于0时,污染物的浓度变化则是比较平稳的。因此,在一定范围内,风速和污染物浓度呈现一定的反比关系。与此同时,影响空气污染物的浓度监测的准确性和变化的另一个主要因素是空气的湿度,当监测位置周围的空气湿度较大时,空气中的水分含量比较多,水分会附着在悬浮颗粒上,使其重量增减,能够快速的沉降到地面,当一定范围内,监测位置周围的空气中的湿度较大时,空气中的污染物浓度是比较小的,而在干燥的天气,空气中的悬浮颗粒是相对比较大的,有时候需要人工降雨或者洒水车对空气中进行洒水,来降低空气中的污染物浓度。因此,在一定的变化范围内,空气中的湿度和污染物浓度也会呈现一定的反比关系。
将目标区域内任意一个监测位置,记为目标监测位置。由此可知目标监测位置的属性值Z的计算公式为:
其中Z为目标监测位置的属性值,C为目标监测位置的污染物浓度值,S为目标监测
位置的湿度值,V为目标监测位置的风速值。为线性归一化函数,将数据值归一化至
[0,1]区间内。
所需说明的是:根据上述分析可知,监测位置监测到的污染物浓度与湿度和风速
都呈现一定的反比关系,因此用表示目标监测位置的属性值,分别对三者都
进行归一化处理,是为了将其统一到相同的尺度范围内。
按照上述方式,得到目标区域内每个监测位置的属性值。
步骤S002:根据所有监测位置的属性值之间的差异、监测位置的经纬度,得到初始距离序列与每个监测位置的更新污染物浓度值。
根据监测位置的经纬度,计算目标区域内任意两个监测位置之间的距离,将所有监测位置之间的距离由小到大排序,得到初始距离序列。将距离目标监测位置最近的监测位置,记为目标监测位置对应的参考监测位置。将参考监测位置的属性值,记为目标监测位置的参考属性值。所需说明的是,若存在多个参考监测位置,将所有参考监测位置的属性值的均值,记为目标监测位置的参考属性值。
由于每个监测位置的属性值在短时间内是不变的或者变化是很小的,当监测位置存在异常时,对应的属性值就会发生变化,由此可知目标监测位置存在数据异常的可能性P的计算公式为:
其中P为目标监测位置存在数据异常的可能性,Z为目标监测位置的属性值,
为目标区域内目标监测位置之外的所有监测位置的属性值的均值,为目标监测位置的参
考属性值。为线性归一化函数,将数据值归一化至[0,1]区间内。| |绝对值函数。
所需说明的是:当监测位置的污染物浓度异常时,对应的属性值则会比较大,那么
相对于其它监测位置的平均属性值的差异则是比较大,即越大,目标监测位置存
在数据异常的可能性越大。同样的,监测位置和它距离最近的检测点的属性值,因为地理位
置比较相近,那么属性值也应该接近,但是当监测位置的发生异常时,与其距离最近的监测
位置的属性值差异是比较大的,即越大目标监测位置存在数据异常的可能性越大。
因此用表示目标监测位置存在数据异常的可能性,其值越大,
存在数据异常的可能性越大。
本实施例设定的异常阈值为0.7,以此为例进行叙述,其它实施方式中可设置为其它值,本实施例不进行限定。当目标监测位置存在数据异常的可能性P大于异常阈值0.7时,将目标监测位置的更新污染物浓度值设置为目标监测位置对应的参考监测位置的污染物浓度值。当目标监测位置存在数据异常的可能性P小于等于异常阈值0.7时,将目标监测位置的更新污染物浓度值设置为目标监测位置的污染物浓度值。所需说明的是,若存在多个参考监测位置,令所有参考监测位置的污染物浓度值的均值,为目标监测位置的更新污染物浓度值。
按照上述方式,得到目标区域内每个监测位置的更新污染物浓度值。已知采集的监测位置的污染物浓度值可能存在异常,通过上述方式,得到每个监测位置的更新污染物浓度值,用于减少异常数据对后续数据插补的影响。
步骤S003:根据初始距离序列、所有监测位置的更新污染物浓度值,得到距离序列与距离序列中每个数据值对应的半方差,并得到平面坐标系上的距离与半方差散点图。
本实施例使用改进的克里金插值算法进行数据插补,克里金插值算法进行数据插补准确性的关键为距离与半方差散点图的构建,以及变程的选取,其需要根据距离与半方差散点图中的数据变化以及变程,构建克里金插值算法中的半方差函数模型,再通过半方差函数模型来预测未知点处的插值。
已知距离相近的监测位置的空气质量数据比较相近,一般情况下由于空气的流动性,两个空间距离越近的空气质量的影响程度也就越大,即它们之间相关性也就越大,而空间中距离越远的两个位置,空气质量数据的影响程度也就越低,即它们之间的相关性也就越小。而半方差的含义在于表达了变量值在空间上的相关性或半变异。通常较小的半方差值表示较近距离的数据点具有更高的相似性和相关性,而较大的半方差值表示较远距离的数据点之间的相似性和相关性较低,空气质量数据正好在空间上符合这一特点,因此可通过计算各监测位置空气质量数据的半方差,来表示其在空间上的相关程度的测度。
本实施例设定的等分数量n为20,且初始距离序列中的数据数量应为n的整数倍,以此为例进行叙述,其它实施方式中可设置为其它值,本实施例不进行限定。将初始距离序列等分为n个初始距离序列段,依次计算每个初始距离序列段内的数据均值,得到距离序列h。
根据目标区域内所有监测位置的更新污染物浓度值,使用半方差函数,依次将距离序列h中每个数据值作为距离阈值,得到距离序列h中每个数据值对应的半方差。
所需说明的是:半方差函数为公知技术,半方差的计算步骤为,先选择一个距离阈值,表示在这个距离范围内计算数据值之间的差异。对于每对距离小于等于距离阈值的数据点,计算其数值差的平方,并求平均。这个平均值就是半方差。
以距离序列h中的数据值为横轴,以距离序列h中数据值对应的半方差为纵
轴,构建平面坐标系;在平面坐标系上,根据距离序列中所有数据值与其对应的半方差构成
的数据点,得到距离与半方差散点图。图2为本实施例所提供的一个距离与半方差散点图示
意图。
步骤S004:根据距离与半方差散点图中所有相邻数据点的连线的斜率之间的差异,得到变程。
已知变程为克里金插值算法中的半方差函数模型中的一个参数,变程的取值决定了函数模型的变化趋势,当变程较大时,半方差的变化是比较明显的,而当变程较小时,半方差的变化随距离的变化是比较平缓的,故变程的选择会直接影响半方差函数与实际数据点之间的拟合程度,选择适当的变程值可以使模型更好地拟合数据,并提高预测准确性。
由此通过距离与半方差散点图中的数据点的分布变化,确定变程的取值。在距离与半方差散点图中,以数据点的横坐标值由小到大将所有数据点排序,依次计算相邻两个数据点的连线的斜率,得到斜率序列。
由于变程的含义是指的是距离与半方差散点图中数据点变化趋势发生明显变化时的横坐标值,即距离与半方差散点图中变程前的数据点变化趋势的变化程度是比较明显的,而变程之后的数据点变化趋势逐渐减缓。因此,可以通过分析斜率序列中的斜率变化程度,从而得到变程的取值。
依次计算斜率序列中相邻两个数据的差值的绝对值,得到绝对值序列。将斜率序列中每个数据对应在绝对值序列中的数据的均值,记为斜率序列中每个数据对应的邻域差异。所需说明的是,斜率序列中第一个或者最后一个数据对应在绝对值序列中的数据只有一个,则其对应的唯一的一个数据,就是其邻域差异。而斜率序列中的其它数据会在绝对值序列中对应两个数据,因此取对应的两个数据的均值,为其邻域差异。
由此可知斜率序列中每个数据为分割界限的可能性的计算公式为:
其中为斜率序列中第i个数据为分割界限的可能性,为斜率序列中第i个数据
对应的邻域差异,为斜率序列中第i个数据与其之前的所有数据的均值,为斜率序列中
第i个数据之后的所有数据的均值,n为等分数量,故n-1为斜率序列中的数据数量。| |为绝
对值函数。
所需说明的是:由于在距离与半方差散点图中,变程前的数据点变化趋势陡峭,变
程后的数据点变化趋势平缓,因此通过斜率序列每个数据分别将斜率序列划分为两部分,
当划分的前后两部分数据值差异最大时,该数据为分割界限的可能性,即该数据对应在距
离与半方差散点图中的两个数据点的横坐标值中的最大值,应为变程。当较大时,说明该
局部区域内的斜率变化程度较大,即其为数据点变化趋势陡峭与平缓状态转变处的可能性
越大。当较大时,说明第i个数据之前与之后的斜率差异越大,即其为分割界限的
可能性越大。因此用与的乘积,表示斜率序列中第i个数据为分割界限的可能性。
在斜率序列中,选取所有数据为分割界限的可能性中的最大值对应的数据,将所述最大值对应的数据对应在距离与半方差散点图中的两个数据点的横坐标值中的最大值,记为变程。
步骤S005:将目标区域内不是监测位置的任意一个位置,记为参考位置;根据当前时刻上目标区域内所有监测位置的更新污染物浓度值、距离序列中所有数据值与其对应的半方差、变程,使用克里金插值算法,得到当前时刻上目标区域内参考位置对应的污染物浓度值。
将目标区域内不是监测位置的任意一个位置,记为参考位置。所需说明的是,参考位置为目标区域内无法监测到空气质量的位置。
根据当前时刻上目标区域内所有监测位置的更新污染物浓度值、距离序列中所有数据值与其对应的半方差、变程,使用克里金插值算法,得到当前时刻上目标区域内参考位置对应的污染物浓度值。其中,克里金插值算法为公知技术,具体方法在此不做介绍。
按照上述方式,得到当前时刻上目标区域内所有监测不到空气质量的位置对应的污染物浓度值,以及任意时刻上任意一个区域内监测不到空气质量的位置对应的污染物浓度值。由此完成监测不到的位置的空气质量数据插补。
至此,本发明完成。
综上所述,在本发明实施例中,在当前时刻上,使用传感器采集目标区域内每个监测位置的经纬度、风速值、湿度值、污染物浓度值,将任意一个监测位置,记为目标监测位置,根据目标监测位置的风速值、湿度值、污染物浓度值,得到目标监测位置的属性值,结合监测位置的经纬度,得到初始距离序列与每个监测位置的更新污染物浓度值,从而得到距离序列与距离序列中每个数据值对应的半方差,并得到距离与半方差散点图。根据距离与半方差散点图中数据点的分布,得到变程,由此使用克里金插值算法,得到当前时刻上目标区域内监测不到空气质量的位置对应的污染物浓度值。本发明通过对克里金插值算法中的半方差函数模型进行分析计算得到更加符合实际的数据,使得插值结果在空间上更加平滑和连续,有助于准确地估计观测不到的位置的空气质量。
本发明还提供了一种用于空气质量数据缺失的数据插补系统,系统包括存储器和处理器,处理器执行存储器存储的计算机程序,以实现前述的一种用于空气质量数据缺失的数据插补方法。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种用于空气质量数据缺失的数据插补方法,其特征在于,该方法包括以下步骤:
将城市内任意一片区域,记为目标区域;在当前时刻上,使用传感器采集目标区域内每个监测位置的经纬度、风速值、湿度值、污染物浓度值;将目标区域内任意一个监测位置,记为目标监测位置;根据目标监测位置的风速值、湿度值、污染物浓度值,得到目标监测位置的属性值;
根据所有监测位置的属性值之间的差异、监测位置的经纬度,得到初始距离序列与每个监测位置的更新污染物浓度值;
根据初始距离序列、所有监测位置的更新污染物浓度值,得到距离序列与距离序列中每个数据值对应的半方差,并得到平面坐标系上的距离与半方差散点图;
根据距离与半方差散点图中所有相邻数据点的连线的斜率之间的差异,得到变程;
将目标区域内不是监测位置的任意一个位置,记为参考位置;根据当前时刻上目标区域内所有监测位置的更新污染物浓度值、距离序列中所有数据值与其对应的半方差、变程,使用克里金插值算法,得到当前时刻上目标区域内参考位置对应的污染物浓度值。
2.根据权利要求1所述一种用于空气质量数据缺失的数据插补方法,其特征在于,所述根据目标监测位置的风速值、湿度值、污染物浓度值,得到目标监测位置的属性值对应的具体计算公式为:
其中Z为目标监测位置的属性值,C为目标监测位置的污染物浓度值,S为目标监测位置的湿度值,V为目标监测位置的风速值,为线性归一化函数。
3.根据权利要求1所述一种用于空气质量数据缺失的数据插补方法,其特征在于,所述根据所有监测位置的属性值之间的差异、监测位置的经纬度,得到初始距离序列与每个监测位置的更新污染物浓度值,包括的具体步骤如下:
根据监测位置的经纬度,计算目标区域内任意两个监测位置之间的距离,将所有监测位置之间的距离由小到大排序,得到初始距离序列;
在目标区域内,将距离目标监测位置最近的监测位置,记为目标监测位置对应的参考监测位置;将目标监测位置对应的参考监测位置的属性值,记为目标监测位置的参考属性值;
根据目标区域内目标监测位置与其之外的所有监测位置的属性值、目标监测位置的参考属性值,得到目标监测位置存在数据异常的可能性;
当目标监测位置存在数据异常的可能性大于预设的异常阈值时,将目标监测位置的更新污染物浓度值设置为目标监测位置对应的参考监测位置的污染物浓度值;
当目标监测位置存在数据异常的可能性小于等于预设的异常阈值时,将目标监测位置的更新污染物浓度值设置为目标监测位置的污染物浓度值。
4.根据权利要求3所述一种用于空气质量数据缺失的数据插补方法,其特征在于,所述根据目标区域内目标监测位置与其之外的所有监测位置的属性值、目标监测位置的参考属性值,得到目标监测位置存在数据异常的可能性对应的具体计算公式为:
其中P为目标监测位置存在数据异常的可能性,Z为目标监测位置的属性值,为目标区域内目标监测位置之外的所有监测位置的属性值的均值,/>为目标监测位置的参考属性值,/>为线性归一化函数,| |绝对值函数。
5.根据权利要求1所述一种用于空气质量数据缺失的数据插补方法,其特征在于,所述根据初始距离序列、所有监测位置的更新污染物浓度值,得到距离序列与距离序列中每个数据值对应的半方差,包括的具体步骤如下:
将初始距离序列等分为n个初始距离序列段,依次计算每个初始距离序列段内的数据均值,得到距离序列;所述n为预设的等分数量;
根据目标区域内所有监测位置的更新污染物浓度值,使用半方差函数,依次将距离序列中每个数据值作为距离阈值,得到距离序列中每个数据值对应的半方差。
6.根据权利要求1所述一种用于空气质量数据缺失的数据插补方法,其特征在于,所述得到平面坐标系上的距离与半方差散点图,包括的具体步骤如下:
以距离序列中的数据值为横轴,以距离序列中数据值对应的半方差为纵轴,构建平面坐标系;
在平面坐标系上,根据距离序列中所有数据值与其对应的半方差构成的数据点,得到距离与半方差散点图。
7.根据权利要求1所述一种用于空气质量数据缺失的数据插补方法,其特征在于,所述根据距离与半方差散点图中所有相邻数据点的连线的斜率之间的差异,得到变程,包括的具体步骤如下:
根据距离与半方差散点图中数据点的横坐标值,由小到大将所有数据点排序,依次计算相邻两个数据点的连线的斜率,得到斜率序列;
依次计算斜率序列中相邻两个数据的差值的绝对值,得到绝对值序列;
将斜率序列中每个数据对应在绝对值序列中的数据的均值,记为斜率序列中每个数据对应的邻域差异;
根据斜率序列中每个数据对应的邻域差异、所有数据之间的差异,得到斜率序列中每个数据为分割界限的可能性;
根据斜率序列中每个数据为分割界限的可能性的大小,得到变程。
8.根据权利要求7所述一种用于空气质量数据缺失的数据插补方法,其特征在于,所述根据斜率序列中每个数据对应的邻域差异、所有数据之间的差异,得到斜率序列中每个数据为分割界限的可能性对应的具体计算公式为:
其中为斜率序列中第i个数据为分割界限的可能性,/>为斜率序列中第i个数据对应的邻域差异,/>为斜率序列中第i个数据与其之前的所有数据的均值,/>为斜率序列中第i个数据之后的所有数据的均值,| |为绝对值函数。
9.根据权利要求7所述一种用于空气质量数据缺失的数据插补方法,其特征在于,所述根据斜率序列中每个数据为分割界限的可能性的大小,得到变程,包括的具体步骤如下:
在斜率序列中,选取所有数据为分割界限的可能性中的最大值对应的数据,将所述最大值对应的数据对应在距离与半方差散点图中的两个数据点的横坐标值中的最大值,记为变程。
10.一种用于空气质量数据缺失的数据插补系统,所述系统包括存储器和处理器,其特征在于,所述处理器执行所述存储器存储的计算机程序,以实现根据权利要求1-9任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311346154.1A CN117093832B (zh) | 2023-10-18 | 2023-10-18 | 一种用于空气质量数据缺失的数据插补方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311346154.1A CN117093832B (zh) | 2023-10-18 | 2023-10-18 | 一种用于空气质量数据缺失的数据插补方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117093832A true CN117093832A (zh) | 2023-11-21 |
CN117093832B CN117093832B (zh) | 2024-01-26 |
Family
ID=88782079
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311346154.1A Active CN117093832B (zh) | 2023-10-18 | 2023-10-18 | 一种用于空气质量数据缺失的数据插补方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117093832B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117493816A (zh) * | 2023-12-29 | 2024-02-02 | 深圳市智德森水务科技有限公司 | 一种基于大数据的空气监测预警方法及系统 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050090988A1 (en) * | 2003-10-22 | 2005-04-28 | John Bryant | Apparatus and method for displaying subsurface anomalies and surface features |
CN103336093A (zh) * | 2013-06-26 | 2013-10-02 | 中山大学 | 一种区域空间质量分析方法 |
CN107507152A (zh) * | 2017-09-13 | 2017-12-22 | 鲁东大学 | 一种基于多图像局部插值的遥感图像缺失数据修复方法 |
CN109753631A (zh) * | 2018-12-04 | 2019-05-14 | 西北工业大学 | 一种基于主动学习和克里金插值的空气质量推测算法 |
CN112213444A (zh) * | 2020-08-28 | 2021-01-12 | 浙江工业大学 | 大气污染微监测网络时间切片分析的溯源方法 |
CN112800603A (zh) * | 2021-01-26 | 2021-05-14 | 北京航空航天大学 | 一种基于集合最优插值算法的大气环境数据同化方法 |
CN112989529A (zh) * | 2021-02-05 | 2021-06-18 | 河北农业大学 | 一种基于遗传算法的鸡舍温度传感器布置优化方法 |
CN114240719A (zh) * | 2021-12-24 | 2022-03-25 | 西安交通大学 | 一种基于多元逐步回归的空气质量缺失数据填充方法及系统 |
CN114819289A (zh) * | 2022-04-01 | 2022-07-29 | 桂林电子科技大学 | 预测方法、训练方法、装置、电子设备及存储介质 |
CN114912343A (zh) * | 2022-03-30 | 2022-08-16 | 南通大学 | 基于lstm神经网络的空气质量二次预报模型构建方法 |
CN115438848A (zh) * | 2022-08-29 | 2022-12-06 | 武汉大学 | 基于深度混合图神经网络的pm2.5浓度长期预测方法 |
CN115526298A (zh) * | 2022-10-18 | 2022-12-27 | 安徽工业大学 | 一种高鲁棒性的大气污染物浓度综合预测方法 |
CN116008481A (zh) * | 2023-01-05 | 2023-04-25 | 山东理工大学 | 基于大范围地面监测站点的空气污染物监测方法、装置 |
CN116776238A (zh) * | 2023-08-25 | 2023-09-19 | 汇杰设计集团股份有限公司 | 一种基于多源信息水旱灾害动态风险评估方法和系统 |
-
2023
- 2023-10-18 CN CN202311346154.1A patent/CN117093832B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050090988A1 (en) * | 2003-10-22 | 2005-04-28 | John Bryant | Apparatus and method for displaying subsurface anomalies and surface features |
CN103336093A (zh) * | 2013-06-26 | 2013-10-02 | 中山大学 | 一种区域空间质量分析方法 |
CN107507152A (zh) * | 2017-09-13 | 2017-12-22 | 鲁东大学 | 一种基于多图像局部插值的遥感图像缺失数据修复方法 |
CN109753631A (zh) * | 2018-12-04 | 2019-05-14 | 西北工业大学 | 一种基于主动学习和克里金插值的空气质量推测算法 |
CN112213444A (zh) * | 2020-08-28 | 2021-01-12 | 浙江工业大学 | 大气污染微监测网络时间切片分析的溯源方法 |
CN112800603A (zh) * | 2021-01-26 | 2021-05-14 | 北京航空航天大学 | 一种基于集合最优插值算法的大气环境数据同化方法 |
CN112989529A (zh) * | 2021-02-05 | 2021-06-18 | 河北农业大学 | 一种基于遗传算法的鸡舍温度传感器布置优化方法 |
CN114240719A (zh) * | 2021-12-24 | 2022-03-25 | 西安交通大学 | 一种基于多元逐步回归的空气质量缺失数据填充方法及系统 |
CN114912343A (zh) * | 2022-03-30 | 2022-08-16 | 南通大学 | 基于lstm神经网络的空气质量二次预报模型构建方法 |
CN114819289A (zh) * | 2022-04-01 | 2022-07-29 | 桂林电子科技大学 | 预测方法、训练方法、装置、电子设备及存储介质 |
CN115438848A (zh) * | 2022-08-29 | 2022-12-06 | 武汉大学 | 基于深度混合图神经网络的pm2.5浓度长期预测方法 |
CN115526298A (zh) * | 2022-10-18 | 2022-12-27 | 安徽工业大学 | 一种高鲁棒性的大气污染物浓度综合预测方法 |
CN116008481A (zh) * | 2023-01-05 | 2023-04-25 | 山东理工大学 | 基于大范围地面监测站点的空气污染物监测方法、装置 |
CN116776238A (zh) * | 2023-08-25 | 2023-09-19 | 汇杰设计集团股份有限公司 | 一种基于多源信息水旱灾害动态风险评估方法和系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117493816A (zh) * | 2023-12-29 | 2024-02-02 | 深圳市智德森水务科技有限公司 | 一种基于大数据的空气监测预警方法及系统 |
CN117493816B (zh) * | 2023-12-29 | 2024-03-29 | 深圳市智德森水务科技有限公司 | 一种基于大数据的空气监测预警方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117093832B (zh) | 2024-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jiao et al. | Multi-order landscape expansion index: Characterizing urban expansion dynamics | |
CN117093832B (zh) | 一种用于空气质量数据缺失的数据插补方法及系统 | |
CN105785411B (zh) | 一种基于区域划分的异常轨迹检测方法 | |
CN109543907B (zh) | 一种复杂地形风资源评估方法及其装置 | |
CN109740195B (zh) | 一种基于气象站观测数据的极值台风风速概率分布模型及设计台风风速的评估方法 | |
CN116522270B (zh) | 用于智慧海绵城市的数据处理系统 | |
CN113901384A (zh) | 顾及全局空间自相关性和局部异质性的地面pm2.5浓度建模方法 | |
CN115388344B (zh) | 一种基于分布式协调检测的管道泄漏监测方法 | |
CN110174106A (zh) | 一种基于pm2.5的健康步行路径规划方法及终端设备 | |
CN116227752A (zh) | 一种基于物联网的园区设施管理系统 | |
CN112348290A (zh) | 河流水质预测方法、装置、存储介质及设备 | |
CN115578227A (zh) | 一种基于多源数据确定大气颗粒物污染重点区域的方法 | |
CN117132508B (zh) | 基于gis+bim技术的数字孪生数据驱动方法及系统 | |
CN116340863B (zh) | 空气污染物预测方法、装置、电子设备及可读存储介质 | |
CN113280764A (zh) | 基于多星协同技术的输变电工程扰动范围定量监测方法及系统 | |
CN115062859B (zh) | 一种对长爪沙鼠的密度进行预测的方法和装置 | |
CN113496182A (zh) | 基于遥感影像的道路提取方法及装置、存储介质及设备 | |
CN113269768B (zh) | 一种交通拥堵分析方法、装置及分析设备 | |
CN117251520B (zh) | 生物多样性关键区域识别方法、装置和电子设备 | |
OBRETIN | Sensor-based Methodology for Indoor Trajectory Determination | |
CN116628411B (zh) | 一种基于全感融合的高精度流量在线监测智能方法 | |
Li et al. | Pavement pothole detection based on 3d laser point cloud | |
CN111679041B (zh) | 一种污染物排放量的监测方法、装置及终端设备 | |
CN115508511B (zh) | 基于网格化设备全参数特征分析的传感器自适应校准方法 | |
CN115936496A (zh) | 水质预测模型数据治理标准化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |