CN116429648B - 改进的时空LightGBM的地表PM10估算方法 - Google Patents
改进的时空LightGBM的地表PM10估算方法 Download PDFInfo
- Publication number
- CN116429648B CN116429648B CN202310294738.2A CN202310294738A CN116429648B CN 116429648 B CN116429648 B CN 116429648B CN 202310294738 A CN202310294738 A CN 202310294738A CN 116429648 B CN116429648 B CN 116429648B
- Authority
- CN
- China
- Prior art keywords
- data
- time
- target
- data set
- grid
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000003287 optical effect Effects 0.000 claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims description 51
- 230000011218 segmentation Effects 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 12
- 230000002159 abnormal effect Effects 0.000 claims description 8
- 238000004140 cleaning Methods 0.000 claims description 7
- 230000002123 temporal effect Effects 0.000 claims description 6
- 239000000443 aerosol Substances 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 239000005427 atmospheric aerosol Substances 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 8
- 239000002245 particle Substances 0.000 abstract description 3
- 239000003623 enhancer Substances 0.000 description 12
- 230000000694 effects Effects 0.000 description 7
- 238000002790 cross-validation Methods 0.000 description 4
- 238000003066 decision tree Methods 0.000 description 4
- 238000010200 validation analysis Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- MWUXSHHQAYIFBG-UHFFFAOYSA-N nitrogen oxide Inorganic materials O=[N] MWUXSHHQAYIFBG-UHFFFAOYSA-N 0.000 description 3
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 2
- 229910052799 carbon Inorganic materials 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 239000000428 dust Substances 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 238000004848 nephelometry Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 208000024172 Cardiovascular disease Diseases 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000003872 anastomosis Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 208000026106 cerebrovascular disease Diseases 0.000 description 1
- 238000001311 chemical methods and process Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002526 effect on cardiovascular system Effects 0.000 description 1
- 239000003344 environmental pollutant Substances 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000007789 gas Substances 0.000 description 1
- 239000005431 greenhouse gas Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 231100000719 pollutant Toxicity 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N15/00—Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials
- G01N15/06—Investigating concentration of particle suspensions
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01W—METEOROLOGY
- G01W1/00—Meteorology
- G01W1/02—Instruments for indicating weather conditions by measuring two or more variables, e.g. humidity, pressure, temperature, cloud cover or wind speed
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N15/00—Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials
- G01N15/06—Investigating concentration of particle suspensions
- G01N15/075—Investigating concentration of particle suspensions by optical means
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Chemical & Material Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Environmental & Geological Engineering (AREA)
- Artificial Intelligence (AREA)
- Biodiversity & Conservation Biology (AREA)
- Medical Informatics (AREA)
- Environmental Sciences (AREA)
- Atmospheric Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Pathology (AREA)
- Immunology (AREA)
- Ecology (AREA)
- General Health & Medical Sciences (AREA)
- Biochemistry (AREA)
- Analytical Chemistry (AREA)
- Health & Medical Sciences (AREA)
- Dispersion Chemistry (AREA)
- Computational Linguistics (AREA)
- Investigating Or Analysing Materials By Optical Means (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及可吸入颗粒物浓度估算技术领域,具体涉及一种改进的时空LightGBM的地表PM10估算方法,获得待监测地表区域内各个站点的目标PM10浓度数据和预处理后的遥感影像数据,数据处理过程有助于提高浓度数据的精准性;将预处理后的遥感影像数据和各个站点的目标PM10浓度数据分配到对应格网中,并获取每个格网的目标观测值集合,从两个方面考虑地表PM10,有助于提高地表PM10浓度估算的准确性;将时空光梯度提升机模型作为预测模型,可以实现更高精度的地表PM10预测。
Description
技术领域
本发明涉及可吸入颗粒物浓度估算技术领域,具体涉及一种改进的时空LightGBM的地表PM10估算方法。
背景技术
随着经济发展的加快,PM10(inhalable particles,可吸入颗粒物)等大气细颗粒物带来的环境生态与人体安全问题逐渐凸显。沙尘天气、道路扬尘、尾气排放是PM10主要来源,PM10不仅容易诱发人体心脑血管疾病,还能与氮氧化物反应增加大气中温室气体含量。因此,需要检测地表的PM10浓度,以根据浓度监测结果,实现改善空气、减碳降污的目标。
建立环境质量监测站点是分析PM10浓度的最直接方法,但存在气象站点建立时间较晚、数量较少以及分布东密西疏的缺陷,导致站点监测数据缺乏代表性。为了克服上述PM10浓度估算的缺陷,现有通过使用污染源排放清单,对污染物在大气中发生的物理化学过程进行仿真模拟,该方法通过统计模型实现PM10浓度估算,统计模型的模型预测精度较差,不能与站点数据进行良好吻合,且没有考虑AOD(Area of Deployment,部署区域)分布的时空异质性问题,容易影响模型的拟合效果,导致地表PM10估算准确度低。
发明内容
为了解决上述现有方法的地表PM10估算准确度低的技术问题,本发明的目的在于提供一种改进的时空LightGBM的地表PM10估算方法,所采用的技术方案具体如下:
本发明一个实施例提供了一种改进的时空LightGBM的地表PM10估算方法,该方法包括以下步骤:
获取待监测地表区域内各个站点的PM10浓度数据,剔除所述PM10浓度数据中的异常值,获得各个站点的目标PM10浓度数据;
采集待监测地表区域的遥感影像数据,对所述遥感影像数据进行数据预处理,获得预处理后的遥感影像数据,所述遥感影像数据包括大气光学气溶胶厚度、气象数据和辅助数据;
创建待监测地表区域的预设尺寸格网,按照每个格网中心的地理坐标,将预处理后的遥感影像数据和各个站点的目标PM10浓度数据分配到对应格网中;
对处于同一格网中变量的多个数值计算平均值,将平均值确定为对应变量的观测值,获得每个格网的观测值集合;
对每个格网的观测值集合进行数据清洗和异常值删除,获得每个格网的目标观测值集合;
根据每个格网的目标观测值集合和预先构建并训练好的时空光梯度提升机模型,获得待监测地表区域的PM10预测浓度数据集。
进一步地,所述获得待监测地表区域的PM10预测浓度数据集的步骤包括:
对每个格网的目标观测值集合中的每个目标观测值计算残差,并将残差作为时空光梯度提升机模型的训练样本数据,获得每个格网的训练样本数据集合;
将训练样本数据集合代入到最小化损失函数中,迭代循环,获得最佳切分节点,将最佳切分节点对应的训练样本数据集合确定为目标训练数据集合;
将目标训练数据集合的地理极坐标和样本时间转化为笛卡尔坐标,根据笛卡尔坐标确定目标训练数据集合的空间特征和时间特征;
根据目标训练数据集合、目标训练数据集合的空间特征和时间特征,获得PM10预测浓度数据集。
进一步地,所述最佳切分节点的获得步骤包括:
根据所述训练样本数据集合,把连续的浮点特征值离散化为各个整数,并构造一个宽度为整数数目的直方图,对于迭代循环,将离散化后的各个整数作为索引,在所述直方图中累积统计量,当完成一次遍历后,根据所述直方图的离散值,遍历寻找最优的分割点确定为最佳切分节点。
进一步地,所述空间特征的计算公式为:
其中,gi为空间特征,(gxi,gyi,gzi)为目标训练数据的空间特征,R为地球半径,θ为目标训练数据集合中第i个变量的经度,为目标训练数据集合中第i个变量的维度;
所述时间特征的计算公式为:
其中,ti为时间特征,(txi,tyi)为转换后的时间笛卡尔坐标,DOYi为训练数据时间变量,T为一年的天数,和/>均为对训练数据时间变量进行标准化处理操作。
进一步地,待监测地表区域的PM10预测浓度数据集的计算公式为:
p=f(PM10SM,aod,blh,sp,rh,t2m,u10,v10,ndvi,dem,lucc,gi,ti)
其中,p为待监测地表区域的PM10预测浓度,PM10SM为地面站点PM10的观测数据平均值,aod为大气气溶胶厚度,blh为大气边界层高度,sp为地表压力,rh为相对湿度,t2m为地表2m温度,u10为10m维向风速,v10为10m径向风速,ndvi为植被覆盖度指数,dem为高程值,lucc为土地利用类型,gi为空间特征,ti为时间特征。
本发明具有如下有益效果:
本发明提供了一种改进的时空LightGBM的地表PM10估算方法,该方法在LightGBM模型基础上进行改进,不但考虑PM10的时空异质性,还引入时空属性特性,其有效增强了地表PM10估算的准确度;该方法中的时空光梯度提升机模型能够以更少的样本特征、更少的内存和更快的速度,实现更高精度的地表PM10预测。结合时间特征和空间特征,可以有效提高时空光梯度提升机模型的泛化能力,使其具有良好的鲁棒性和稳定性。通过应用长时间尺度和大空间尺度,对PM10进行估算,具有较高的预测精确性。本发明依靠机器学习方法,结合地面站点数据和遥感影像数据,能够为政府减碳降污提供数据基础。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一种改进的时空LightGBM的地表PM10估算方法的流程图;
图2为本发明实施例中的改进的时空LightGBM模型空间特征计算演示图;
图3为本发明实施例中的改进的时空LightGBM模型时间特征计算演示图;
图4为本发明实施例中的改进的时空LightGBM模型预测结果交叉验证图;
图5为时空光梯度增强机模型月尺度的验证结果图;
图6为时空光梯度增强机模型季尺度的验证结果图;
图7为时空光梯度增强机模型年尺度的验证结果图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的技术方案的具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一个实施例。此外,一个或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
为了克服现有PM10浓度预测方法存在的两个方面的缺陷,即模型预测精度较差,不能与站点数据进行良好吻合;没有考虑AOD(Area of Deployment,部署区域)分布的时空异质性问题,影响了预测模型的拟合效果,本实施例提供了一种改进的时空LightGBM(Light Gradient Boosting Machine,轻量的梯度提升机)的地表PM10估算方法,如图1所示,包括以下步骤:
S1,获取待监测地表区域内各个站点的PM10浓度数据,剔除PM10浓度数据中的异常值,获得各个站点的目标PM10浓度数据。
在本实施例中,利用浊度法,基于红外观散射,获得待监测地表区域内各个站点的PM10浓度数据。为了提高站点采集的浓度数据的准确度,剔除PM10浓度数据中的异常值,将完成异常值剔除的PM10浓度数据确定为目标PM10浓度数据。相比原始PM10浓度数据,目标PM10浓度数据的数据质量会更高,其有利于提高后续PM10浓度预测的准确度。浊度法的实现过程为现有技术,不在本发明保护范围内,此处不再进行详细阐述。当然,采集PM10浓度数据的方法有很多,这里不做具体限定。
至此,本实施例获得了待监测地表区域内各个站点的目标PM10浓度数据。
S2,采集待监测地表区域的遥感影像数据,对遥感影像数据进行数据预处理,获得预处理后的遥感影像数据。
在本实施例中,为了便于后续基于遥感影像数据预测PM10浓度,需要采集待监测地表区域的遥感影像数据,遥感影像数据可以包括大气光学气溶胶厚度、气象数据和辅助数据。其中,气象数据可以包括地表两米温度、1km大气层高度、风速、地面压强、相对湿度等,辅助数据可以包括土地利用、高程、植被覆盖度等。为了便于后续进行数据整理,需要对遥感影像数据进行数据预处理操作,即使大气光学气溶胶厚度、气象数据和辅助数据统一数据格式和时间分辨率,以获得预处理后的遥感影像数据。统一数据格式和时间分辨率的过程为现有技术,此处不再进行详细阐述。
S3,创建待监测地表区域的预设尺寸格网,按照每个格网中心的地理坐标,将预处理后的遥感影像数据和各个站点的目标PM10浓度数据分配到对应格网中。
在本实施例中,创建一个可以覆盖整个待监测地表的格网数据,该格网数据的尺寸为0.01°×0.01°,进而获取待监测地表区域的站点数据和遥感影像数据。按照每个格网中心的地理坐标,即每个格网中心在整个地表中的横坐标和纵坐标,将预处理后的遥感影像数据和各个站点的目标PM10浓度数据映射到格网中,使每个格网均有其对应的初始观测值集合。格网数据的尺寸可由实施者根据具体实际情况,自行设置不作具体限定。
S4,对处于同一格网中变量的多个数值计算平均值,将平均值确定为对应变量的观测值,获得每个格网的观测值集合。
在本实施例中,对变量的多个数值求平均值,是为了确保格网中的所有变量数据在空间分辨率和时间分辨率保持一致,例如,对0.01°范围内多个站点的PM10观测值,也计算均值,这里的观测值是指不同变量的数值大小,将数据处理后的初始观测值确定为对应格网的观测值集合。
S5,对每个格网的观测值集合进行数据清洗和异常值删除,获得每个格网的目标观测值集合。
在本实施例中,对每个格网的观测值集合进行数据清洗处理,这里的数据清洗是为了检测观测值集合是否存在重复、是否存在缺失、数据是否完整性和一致性,故对观测值集合进行数据清洗处理,将此时的观测值集合作为模型输入数据,有利于提高待监测地表区域的PM10预测浓度数据集的参考价值,提高PM10浓度估算的准确性。同时,为了避免异常值影响后续数据预测的精确性,需要对每个格网的异常值和缺失值进行删除操作。数据清洗的实现过程为现有技术,不在本发明保护范围内,此处不再进行详细阐述。
S6,根据每个格网的目标观测值集合和预先构建并训练好的时空光梯度提升机模型,获得待监测地表区域的PM10预测浓度数据集,其步骤包括:
第一步,对每个格网的目标观测值集合中的每个目标观测值计算残差,并将残差作为时空光梯度提升机模型的训练样本数据,获得每个格网的训练样本数据集合。
在本实施例中,对每个目标观测值计算残差,也就是对以站点数据为基础构成的数据集中的每个样本观测值计算负梯度,可以有效提高神经网络的训练深度,增强时空光梯度提升机模型的训练效果。计算负梯度的过程为现有技术,不在本发明保护范围内,此处不再进行详细阐述。
第二步,将训练样本数据集合代入到最小化损失函数中,迭代循环,获得最佳切分节点,将最佳切分节点对应的训练样本数据集合确定为目标训练数据集合。
在本实施例中,将残差作为训练数据后,根据训练样本数据集合,把连续的浮点特征值离散化为各个整数,并构造一个宽度为整数数目的直方图,对于迭代循环,将离散化后的各个整数作为索引,在直方图中累积统计量,当完成一次遍历后,根据直方图的离散值,遍历寻找最优的分割点确定为最佳切分节点,也就是直至误差满足要求且对应决策树满足条件,从多维特征中选取最佳划分节点。然后,利用最佳划分节点划分训练样本数据集合,得到新决策树对应的叶子节点区域,更新决策树,将最佳切分节点对应的训练样本数据集合确定为目标训练数据集合,以用于后续进行数据预测。
其中,上述误差满足要求和对应决策树满足条件的具体内容包括:
首先,对于每个浮点特征值,离散化为离散值,获得各个整数,将整数个数作为直方图的宽度,建立一个直方图,整数个数可以设定为K,也就是建立一个宽度为K的直方图。
然后,遍历所有样本统计每个样本,对每个整数进行二进制字符转换,即bin(),累积二进制字符的梯度以及样本数。
最后,对于直方图的每个二进制字符进行划分,将直方图平分为两部分,计算直方图左边部分的梯度值和样本数,将父节点的直方图作差,获得节点的梯度值和样本数,计算loss损失。
第三步,将目标训练数据集合的地理极坐标和样本时间转化为笛卡尔坐标,根据笛卡尔坐标确定目标训练数据集合的空间特征和时间特征。
在本实施例中,改进的时空LightGBM模型空间特征计算演示图如图2所示,空间特征的计算公式可以为:
其中,其中,gi为空间特征,(gxi,gyi,gzi)为目标训练数据的空间特征,R为地球半径,θ为目标训练数据集合中第i个变量的经度,为目标训练数据集合中第i个变量的维度,sinθ为经度的正弦值,/>为维度的余弦值。
需要说明的是,为使地理空间编码接近测量空间,对gi进行归一化处理。
改进的时空LightGBM模型时间特征计算演示图如图3所示,时间特征的计算公式可以为:
其中,ti为时间特征,(txi,tyi)为转换后的时间笛卡尔坐标,DOYi为训练数据时间变量,T为一年的天数,T可以为365或366,和/>均为对训练数据时间变量进行标准化处理操作。
需要说明的是,将地理空间编码设置为1,以实现编码的归一化处理,其时间范围为[0,2π],π为时间单位,时间数据可以使用tx来表示。极坐标的计算过程为现有技术,此处不再进行详细阐述。
第四步,根据目标训练数据集合、目标训练数据集合的空间特征和时间特征,获得PM10预测浓度数据集。
在本实施例中,改进的时空LightGBM模型预测结果交叉验证图如图4所示,同时,为了验证时空光梯度增强机模型的数据预测效果,获取不同时间尺度下的验证结果,时空光梯度增强机模型月尺度的验证结果图如图5所示、时空光梯度增强机模型季尺度的验证结果图如图6所示、时空光梯度增强机模型年尺度的验证结果图如图7所示。基于步骤S6中的第一步至第四步,可以应用于最终的时空光梯度提升机模型,其计算公式可以为:
p=f(PM10SM,aod,blh,sp,rh,t2m,u10,v10,ndvi,dem,lucc,gi,ti)
其中,p为待监测地表区域的PM10预测浓度,PM10SM为地面站点PM10的观测数据平均值,aod为大气气溶胶厚度,blh为大气边界层高度,sp为地表压力,rh为相对湿度,t2m为地表2m温度,u10为10m维向风速,v10为10m径向风速,ndvi为植被覆盖度指数,dem为高程值,lucc为土地利用类型,gi为空间特征,ti为时间特征。
需要说明的是,由于本实施例可以实现1km分辨率的PM10浓度反演,1km*1km可以表征一个格网区域,格网区域可以构成待检测地表区域,通过本步骤的第三步可以获得时空特征,故空间特征和时间特征是可以通过待检测地表区域中每个格网区域的数据获得的。
至此,本实施例获得了待监测地表区域的PM10预测浓度数据集,其中,时空光梯度增强机模型2015-2020年的验证结果如表1所示:
表1
通过时空光梯度增强机模型和其他模型在一定时期内的交叉验证,可以获得不同模型预测PM10浓度结果,如表2所示:
表2
需要说明的是,由表2可知,相比其他模型,时空光梯度增强机模型的交叉验证效果更好,其说明时空光梯度增强机模型可以有效提高地表PM10浓度估算的准确度。
本发明提供了一种改进的时空LightGBM的地表PM10估算方法,该方法中的时空光梯度提升机模型是基于LightGBM模型并引入时空特征搭建改进得到的,时空光梯度提升机模型能够以更少的样本特征、更少的内存和更快的速度,实现更高精度的预测,具有良好的泛化能力和较强的鲁棒性、稳定性。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,均应包含在本发明的保护范围之内。
Claims (3)
1.一种改进的时空LightGBM的地表PM10估算方法,其特征在于,包括以下步骤:
获取待监测地表区域内各个站点的PM10浓度数据,剔除所述PM10浓度数据中的异常值,获得各个站点的目标PM10浓度数据;
采集待监测地表区域的遥感影像数据,对所述遥感影像数据进行数据预处理,获得预处理后的遥感影像数据,所述遥感影像数据包括大气光学气溶胶厚度、气象数据和辅助数据;
创建待监测地表区域的预设尺寸格网,按照每个格网中心的地理坐标,将预处理后的遥感影像数据和各个站点的目标PM10浓度数据分配到对应格网中;
对处于同一格网中变量的多个数值计算平均值,将平均值确定为对应变量的观测值,获得每个格网的观测值集合;
对每个格网的观测值集合进行数据清洗和异常值删除,获得每个格网的目标观测值集合;
根据每个格网的目标观测值集合和预先构建并训练好的时空光梯度提升机模型,获得待监测地表区域的PM10预测浓度数据集;
所述获得待监测地表区域的PM10预测浓度数据集的步骤包括:
对每个格网的目标观测值集合中的每个目标观测值计算残差,并将残差作为时空光梯度提升机模型的训练样本数据,获得每个格网的训练样本数据集合;
将训练样本数据集合代入到最小化损失函数中,迭代循环,获得最佳切分节点,将最佳切分节点对应的训练样本数据集合确定为目标训练数据集合;
将目标训练数据集合的地理极坐标和样本时间转化为笛卡尔坐标,根据笛卡尔坐标确定目标训练数据集合的空间特征和时间特征;
根据目标训练数据集合、目标训练数据集合的空间特征和时间特征,获得PM10预测浓度数据集;
所述空间特征的计算公式为:
其中,gi为空间特征,(gxi,gyi,gzi)为目标训练数据的空间特征,R为地球半径,θ为目标训练数据集合中第i个变量的经度,为目标训练数据集合中第i个变量的维度;
所述时间特征的计算公式为:
其中,ti为时间特征,(txi,tyi)为转换后的时间笛卡尔坐标,DOYi为训练数据时间变量,T为一年的天数,和/>均为对训练数据时间变量进行标准化处理操作。
2.根据权利要求1所述的一种改进的时空LightGBM的地表PM10估算方法,其特征在于,所述最佳切分节点的获得步骤包括:
根据所述训练样本数据集合,把连续的浮点特征值离散化为各个整数,并构造一个宽度为整数数目的直方图,对于迭代循环,将离散化后的各个整数作为索引,在所述直方图中累积统计量,当完成一次遍历后,根据所述直方图的离散值,遍历寻找最优的分割点确定为最佳切分节点。
3.根据权利要求1所述的一种改进的时空LightGBM的地表PM10估算方法,其特征在于,待监测地表区域的PM10预测浓度数据集的计算公式为:
p=f(PM10SM,aod,blh,sp,rh,t2m,u10,v10,ndvi,dem,lucc,gi,ti)
其中,p为待监测地表区域的PM10预测浓度,PM10SM为地面站点PM10的观测数据平均值,aod为大气气溶胶厚度,blh为大气边界层高度,sp为地表压力,rh为相对湿度,t2m为地表2m温度,u10为10m维向风速,v10为10m径向风速,ndvi为植被覆盖度指数,dem为高程值,lucc为土地利用类型,gi为空间特征,ti为时间特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310294738.2A CN116429648B (zh) | 2023-03-23 | 2023-03-23 | 改进的时空LightGBM的地表PM10估算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310294738.2A CN116429648B (zh) | 2023-03-23 | 2023-03-23 | 改进的时空LightGBM的地表PM10估算方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116429648A CN116429648A (zh) | 2023-07-14 |
CN116429648B true CN116429648B (zh) | 2023-11-17 |
Family
ID=87084745
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310294738.2A Active CN116429648B (zh) | 2023-03-23 | 2023-03-23 | 改进的时空LightGBM的地表PM10估算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116429648B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112069673A (zh) * | 2020-08-31 | 2020-12-11 | 河南大学 | 基于梯度提升决策树地表pm2.5浓度估算的方法 |
CN114757103A (zh) * | 2022-04-19 | 2022-07-15 | 河南大学 | 基于时空光梯度增强机的地表o3浓度估算方法 |
CN114898823A (zh) * | 2022-07-01 | 2022-08-12 | 北京英视睿达科技股份有限公司 | 一种高时空分辨率遥感近地面no2浓度预估方法和系统 |
CN115356249A (zh) * | 2022-10-19 | 2022-11-18 | 北华航天工业学院 | 基于机器学习融合模型的卫星偏振pm2.5估算方法和系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11294096B2 (en) * | 2017-11-03 | 2022-04-05 | The Tomorrow Companies Inc. | Real-time data pipeline techniques for improving a fast weather forecasting system |
-
2023
- 2023-03-23 CN CN202310294738.2A patent/CN116429648B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112069673A (zh) * | 2020-08-31 | 2020-12-11 | 河南大学 | 基于梯度提升决策树地表pm2.5浓度估算的方法 |
CN114757103A (zh) * | 2022-04-19 | 2022-07-15 | 河南大学 | 基于时空光梯度增强机的地表o3浓度估算方法 |
CN114898823A (zh) * | 2022-07-01 | 2022-08-12 | 北京英视睿达科技股份有限公司 | 一种高时空分辨率遥感近地面no2浓度预估方法和系统 |
CN115356249A (zh) * | 2022-10-19 | 2022-11-18 | 北华航天工业学院 | 基于机器学习融合模型的卫星偏振pm2.5估算方法和系统 |
Non-Patent Citations (5)
Title |
---|
Estimating hourly surface PM2.5 concentrations across China from high-density meteorological observations by machine learning;Zhaoliang Zeng et al.;Atmospheric Research;第254卷;105516-1-105516-12 * |
Spatiotemporal PM2.5 estimations in China from 2015 to 2020 using an improved gradient boosting decision tree;Weihuan He.et al.;Chemosphere;第296卷;第134003-1-134003-11页 * |
土地利用与大气污染的耦合影响测度及空间分异 ———以河南省为例;赵修研等;河南大学学报(自然科学版);第48卷(第6期);第650-659页 * |
基于 Stacking 的地面 PM2. 5浓度估算;赵滨等;环境工程;第38卷(第2期);第153-159页 * |
基于机器学习的中国近地面NO2浓度估算;龙水菊;中国优秀硕士学位论文全文数据库工程科技Ⅰ辑(第01期);正文第21-54页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116429648A (zh) | 2023-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113919448B (zh) | 一种任意时空位置二氧化碳浓度预测影响因素分析方法 | |
WO2018214060A1 (zh) | 一种城市小尺度空气质量指数预测方法与系统 | |
CN110346517B (zh) | 一种智慧城市工业大气污染可视化预警方法及其系统 | |
CN106651036A (zh) | 空气质量预报系统 | |
CN102507586B (zh) | 碳排放遥感监测方法 | |
Shahriar et al. | Applicability of machine learning in modeling of atmospheric particle pollution in Bangladesh | |
Liu et al. | Spatio-temporal prediction and factor identification of urban air quality using support vector machine | |
CN109784552A (zh) | 一种基于Re-ESF算法的空间变系数PM2.5浓度估算模型的构建方法 | |
CN110261272B (zh) | 基于地理探测和pca对pm2.5浓度分布的关键影响因子筛选方法 | |
CN114578457B (zh) | 一种基于进化集成学习的大气污染物浓度时空预测方法 | |
Biard et al. | Automated detection of weather fronts using a deep learning neural network | |
CN108802856B (zh) | 一种基于ai的源数据动态修正预报系统及其工作方法 | |
CN116011317B (zh) | 一种基于多方法融合的小尺度近实时大气污染溯源方法 | |
CN115438848A (zh) | 基于深度混合图神经网络的pm2.5浓度长期预测方法 | |
CN115203189A (zh) | 融合多源数据提升大气传输量化能力的方法及可视化系统 | |
CN113987912A (zh) | 一种基于地理信息的污染物在线监测系统 | |
CN108764527B (zh) | 一种土壤有机碳库时空动态预测最优环境变量筛选方法 | |
CN116223395A (zh) | 近地表痕量气体浓度反演模型及反演方法 | |
CN116611547A (zh) | 大气污染物来源预报方法、装置、设备及存储介质 | |
Lin et al. | Dynamic system approach for improved PM 2.5 prediction in Taiwan | |
Wu et al. | Analysis of the gridded influencing factors of the PM2. 5 concentration in Sichuan province based on a stacked machine learning model | |
CN114066070A (zh) | 基于人工智能和数值计算的天气预报方法 | |
Wang et al. | Estimation of urban AQI based on interpretable machine learning | |
CN117219183A (zh) | 多云雨地区的高覆盖度近地面no2浓度估算方法及系统 | |
CN111125937B (zh) | 基于时空加权回归模型近地面大气细颗粒物浓度估算方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |