CN113919448A - 一种任意时空位置二氧化碳浓度预测影响因素分析方法 - Google Patents

一种任意时空位置二氧化碳浓度预测影响因素分析方法 Download PDF

Info

Publication number
CN113919448A
CN113919448A CN202111524281.7A CN202111524281A CN113919448A CN 113919448 A CN113919448 A CN 113919448A CN 202111524281 A CN202111524281 A CN 202111524281A CN 113919448 A CN113919448 A CN 113919448A
Authority
CN
China
Prior art keywords
carbon dioxide
model
data
space
factors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111524281.7A
Other languages
English (en)
Other versions
CN113919448B (zh
Inventor
巫兆聪
莫露
闫钊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202111524281.7A priority Critical patent/CN113919448B/zh
Publication of CN113919448A publication Critical patent/CN113919448A/zh
Application granted granted Critical
Publication of CN113919448B publication Critical patent/CN113919448B/zh
Priority to US17/882,649 priority patent/US20230186173A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/0004Gaseous mixtures, e.g. polluted air
    • G01N33/0009General constructional details of gas analysers, e.g. portable test equipment
    • G01N33/0027General constructional details of gas analysers, e.g. portable test equipment concerning the detector
    • G01N33/0036General constructional details of gas analysers, e.g. portable test equipment concerning the detector specially adapted to detect a particular component
    • G01N33/0039O3
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/0004Gaseous mixtures, e.g. polluted air
    • G01N33/0009General constructional details of gas analysers, e.g. portable test equipment
    • G01N33/0027General constructional details of gas analysers, e.g. portable test equipment concerning the detector
    • G01N33/0036General constructional details of gas analysers, e.g. portable test equipment concerning the detector specially adapted to detect a particular component
    • G01N33/004CO or CO2
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medicinal Chemistry (AREA)
  • Biochemistry (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Pathology (AREA)
  • Combustion & Propulsion (AREA)
  • Immunology (AREA)
  • Food Science & Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种任意时空位置二氧化碳浓度预测影响因素分析方法,首先利用稀疏、不均匀的卫星二氧化碳柱浓度观测数据和对应的环境因素,包括地表覆盖因素、气候气象因素与燃烧排放因素,结合XGBoost算法构建模拟区域二氧化碳时空分布的模型,提取出二氧化碳时间、空间分布趋势变量;然后利用上述构建的区域二氧化碳时空分布模型,结合全局敏感性分析算法,实现环境因素敏感性的定量评价,根据敏感性分析的结果,量化确定影响区域二氧化碳时空分布的各种环境因素影响程度与大小。与传统方法相比,本发明方法能够以较高精度模拟区域二氧化碳浓度分布,并且实现环境变量重要性程度的定量评价。

Description

一种任意时空位置二氧化碳浓度预测影响因素分析方法
技术领域
本发明涉及遥感温室气体监测领域,尤其涉及一种基于机器学习的大气二氧化碳时空分布模拟及影响因素全局敏感性分析方法。
背景技术
二氧化碳作为最主要的温室气体和全球变暖最大的贡献者,准确地了解二氧化碳浓度的时空分布及其变化趋势,对于认识并缓解温室效应至关重要。卫星观测能够较为准确地以一定的时空分辨率和相对长时序观测提供地面二氧化碳信息,但受云和气溶胶等影响,实际应用中卫星观测数据存在空缺,精确的区域二氧化碳时空分布分析存在困难。常用的获取区域任意位置二氧化碳浓度的方法以内插为主,包括空间域上的内插和根据二氧化碳时序规律建立物理模型进行插值,其中空间域内插方法插值精度较低,而物理模型插值方法生成的模型十分复杂,计算效率低。随着机器学习算法的不断发展,为了弥补XCO2数据的时空空缺而将各种神经网络和机器学习模型应用于区域CO2模拟建模的相关研究也开始发展,可以高效的生成高精度大范围二氧化碳时空分布图。但是现有的基于机器学习的方法通常只考虑环境因素或人为排放因素某一方面进行建模,而二氧化碳浓度是受两者共同影响的,目前仍缺少相关的方法。
此外区域二氧化碳分布受自然环境和人为排放等多种因素的影响。影响因素复杂且过程复杂,相关研究也较多。但多为环境因素与二氧化碳浓度的定性分析或相关性分析,针对多因素影响程度的定量评价方法也较少,无法实现不同环境因素对大气二氧化碳浓度的贡献和影响的量化分析。
发明内容
本发明的主要目的是提出一种基于机器学习的大气二氧化碳时空分布模拟及影响因素全局敏感性分析方法,对卫星观测二氧化碳数据空缺的区域实现模拟,获取整个区域二氧化碳时空分布模式,并通过对模型的全局敏感性分析,量化影响区域二氧化碳分布的环境因素的重要性程度。
为了实现上述发明目的,本发明采用的技术方案为一种任意时空位置二氧化碳浓度预测影响因素分析方法,首先提出了一种大气二氧化碳时空分布模拟方法,该模拟方法基于机器学习算法,结合卫星观测二氧化碳数据与对应的环境因素,构建模拟区域任意位置二氧化碳浓度分布的模拟模型;接着通过全局敏感性分析方法,实现定量的多影响因素对区域二氧化碳分布的重要性评价,具体包括以下步骤:
步骤1,结合区域环境特点,将影响区域二氧化碳分布的环境因素分类,包括但不仅限于地表和植被覆盖因素、气候气象因素和燃烧排放因素;
步骤2,结合卫星二氧化碳观测数据与环境因素,使用机器学习算法构建区域二氧化碳时空分布模拟模型,并利用训练数据集进行训练;
步骤3,针对构建的二氧化碳时空分布模拟模型,首先使用测试数据集验证模型预测精度,然后将卫星观测缺失处的环境因素数据输入训练好的二氧化碳时空分布模拟模型得到预测的二氧化碳浓度,最终获得区域二氧化碳浓度分布图;
步骤4,结合构建的区域二氧化碳时空分布模拟模型与全局敏感性分析方法,计算二氧化碳浓度对各个输入参数,即环境因素的敏感度;
步骤5,统计全局敏感性分析方法得到的区域二氧化碳浓度对不同环境因素的敏感度,定量分析各参数的敏感性大小,最终确定各个环境因素随区域二氧化碳分布的影响程度。
进一步的,步骤1中环境因素分类具体包括区域的地表覆盖类型、植被覆盖、气候类型、降水、气温、风速风向、人为排放量和生物质燃烧排放量;
其中植被覆盖使用归一化植被指数数据来表示,该数据可以从MODIS卫星的L3植被指数产品获得;人为排放统计来自高分辨率全球人为排放数据集ODIAC;生物质燃烧数据来自全球火灾排放数据库GFED4;气温和降水数据来自国家青藏高原科学数据中心提供的中国1km分辨率逐月平均气温数据集;地表覆盖数据来自欧空局发布的逐年全球土地覆盖数据集,气候类型数据来自柯本气候分区数据集,风速风向来自ERA5数据集。
进一步的,步骤2中使用的机器学习算法为极端梯度提升树XGBoost,XGBoost是一种基于梯度提升的树集成模型,模型的基本构建思路是:首先构建初始子树对数据进行拟合,相应的得到拟合的残差,后续的子树构建是针对上一步的模型残差进行,直至模型残差小于阈值为止,最终的模拟结果为所有子树结果之和,具体构造步骤为:
初始构造一个弱学习器,得到初始模型对应的残差;
后续的每一次训练迭代,都是在现有模型的基础上,增加一个弱学习器拟合上一个模型的残差;
通过不断地学习拟合K个弱学习器来降低模型预测结果与真实值之间的残差,直到残差小于阈值,模型终止,最终模型预测值是K个基学习器加权求和的结果。
进一步的,步骤2中利用训练数据集进行训练的具体实现方式如下;
首先训练数据集进行预处理,包括数据清洗,数据编码和数据变换,其中数据清洗包括去除缺失值、异常值和噪声,数据变换包括归一化和降维;
数据编码是将非数值型特征进行编码,以便输入模型中进行训练,即对地表覆盖类型、气候类型和风向这些环境因素进行编码,这里使用的是one-hot独热编码;
对数据进行归一化处理,归一化处理的计算公式为:
Figure 324291DEST_PATH_IMAGE001
其中,mean(x i )为环境因素x i 数据的均值,std(x i )为环境因素x i 数据的标准差;
然后将预处理好的训练数据集输入XGBoost模型,并对XGBoost模型进行参数调整和进一步优化,反复迭代,得到最优的二氧化碳时空分布模拟模型。
进一步的,XGBoost模型的基学习器是CART树,针对n个样本m个特征的数据集
Figure 652153DEST_PATH_IMAGE002
,训练完成后,最终的预测值可表示如下:
Figure 25365DEST_PATH_IMAGE003
其中,K为样本数量,x i 为第i个样本,y i 为第i个样本对应的类别标签,f i (.)为第i棵树的模型,将第i棵树拆分为树的叶子节点q和对应的权重部分ω,即:
Figure 686154DEST_PATH_IMAGE004
其中,
Figure 828422DEST_PATH_IMAGE005
为样本x i 所在叶子节点q的权重,
Figure 713201DEST_PATH_IMAGE006
为样本x i 所在叶子节点的位 置,也就是说对于任意一个样本x i ,最后会落在树的某个叶子节点上,取值为
Figure 42552DEST_PATH_IMAGE007
因为每次迭代,模型都是在拟合上一次预测的残差,所以当生成第t个基学习器时,预测模型可表示为:
Figure 507031DEST_PATH_IMAGE008
目标函数可表示为:
Figure 241156DEST_PATH_IMAGE009
目标函数由2部分构成,其中第一个部分函数l是描述真实值与拟合值的差异,使 用欧式距离进行计算;第二个部分是防止函数过拟合的正则化部分
Figure 827995DEST_PATH_IMAGE010
,即
Figure 644642DEST_PATH_IMAGE011
,用于限制每棵树的复杂度,防止模型过拟合,其中T是CART 数上所有叶子节点的数量,γ和
Figure 443970DEST_PATH_IMAGE012
是超参数,用来调整正则化计算时叶子节点数量和权重的 重要性分配,ω j 是第j个叶子节点的权重值;为了使目标函数最小化,XGBoost考虑对目标 函数进行二阶泰勒展开,可近似表达为:
Figure 29673DEST_PATH_IMAGE013
其中,
Figure 318571DEST_PATH_IMAGE014
为一阶导数,定义为
Figure 622514DEST_PATH_IMAGE015
h i 为二阶导数,
Figure 753762DEST_PATH_IMAGE016
,代入目标函数,结果为:
Figure 459550DEST_PATH_IMAGE017
每次迭代使目标函数最小,得到第t个基学习器最优的j个叶子节点和每个叶子节点对应的最优解ω j
进一步的,步骤4中使用的全局敏感性分析方法是Sobol方法,Sobol法的敏感度是通过将输出的总方差分解为每个参数的方差和参数相互作用的方差之和,然后通过参数对输出方差的贡献比例进行敏感性分级计算的;
对于各个环境因素,统计其变化范围和概率分布,然后结合区域二氧化碳时空分布模拟模型计算相应的敏感性指数;
区域二氧化碳时空分布模拟模型可表达为y=f(x 1,x 2,⋯,x n ),f是训练好的XGBoost模型,其中,x 1,x 2,⋯,x n为影响二氧化碳分布的环境因素,是XGBoost模型的输入参数;XGBoost模型的总方差为:
Figure 857033DEST_PATH_IMAGE018
其中,f 0为模型初值,而XGBoost模型的偏方差为:
Figure 913851DEST_PATH_IMAGE019
其中,
Figure 54982DEST_PATH_IMAGE020
Figure 615277DEST_PATH_IMAGE021
,各个环境因素的敏感性
Figure 449241DEST_PATH_IMAGE022
为:
Figure 665458DEST_PATH_IMAGE023
其中,
Figure 613210DEST_PATH_IMAGE024
为环境因素
Figure 28011DEST_PATH_IMAGE025
的一阶敏感性指数,表示该参数对模型输出的影响,
Figure 32876DEST_PATH_IMAGE026
为环境因素
Figure 798707DEST_PATH_IMAGE027
的s阶敏感性指数,表示s个参数对模型的共同影响;
进而得到各个环境因素的总敏感性指数,环境因素
Figure 281641DEST_PATH_IMAGE025
的总敏感性指数
Figure 19790DEST_PATH_IMAGE028
定义为:
Figure 992294DEST_PATH_IMAGE029
使用Sobol法得到的各个环境因素的总敏感性指数评价最终影响区域二氧化碳分布的影响因素敏感性,实现定量的影响程度分析。
与现有技术相比,本发明的优点和有益效果如下:
本发明在反演区域范围二氧化碳分布时,综合考虑与二氧化碳浓度相关的所有地表环境、气候气象和人为燃烧排放因素构建了机器学习模型,实现了更加准确和快速的区域二氧化碳浓度分布预测;并根据建立的机器学习模型,实现了考虑交互效应情况下,定量地评价影响区域CO2增长的各因素的敏感性,能够为碳排放政策制定提供科学指导。
附图说明
图1是本发明实施例的总体方法流程图;。
图2是本发明实施例的卫星二氧化碳观测数据和建模反演的区域二氧化碳分布图。
图3是本发明实施例的影响因素敏感性指数扇形图。
具体实施方式
为了更为详细的说明本发明的技术方案和技术优势,下面结合附图,通过具体实施案例对本发明进行更为完整的描述。
如图1所示,本发明提供了一种任意时空位置二氧化碳浓度预测影响因素分析方法,大体上分为两个部分,第一部分是:基于机器学习算法的区域二氧化碳模拟建模,进而对卫星观测二氧化碳数据空缺的区域实现模拟,获取整个区域二氧化碳时空分布模式;第二部分是:根据训练得到的区域二氧化碳时空分布模拟模型,结合全局敏感性分析方法,量化影响区域二氧化碳分布的环境因素的重要性程度。具体实现过程如下:
一、基于机器学习算法的区域二氧化碳模拟建模方法的具体步骤如下:
步骤1,收集影响区域二氧化碳分布的环境因素数据,包括但不限于区域地表覆盖类型、植被覆盖、气候类型、降水、气温、风速和风向、人为排放量统计数据以及生物质燃烧排放等,并与卫星观测二氧化碳数据匹配,获取机器学习模型的训练和验证数据集;
其中植被覆盖使用归一化植被指数数据来表示,该数据可以从MODIS卫星的L3植被指数产品获得;人为排放统计来自高分辨率全球人为排放数据集ODIAC;生物质燃烧数据来自全球火灾排放数据库GFED4;气温和降水数据来自国家青藏高原科学数据中心提供的中国1km分辨率逐月平均气温数据集;地表覆盖数据来自欧空局发布的逐年全球土地覆盖数据集,气候类型数据来自柯本气候分区数据集,风速风向来自ERA5数据集。
步骤2,选择的机器学习算法构建区域二氧化碳分布模拟模型,结合环境因素与卫星二氧化碳的训练数据集,对模型进行训练。
具体的训练实施步骤如下,对训练数据集进行预处理,包括数据清洗(去除缺失值、异常值和噪声等)、数据编码和数据变换(归一化、降维等)等;
针对数据集中的缺失值处理,若缺失值较少,可考虑删除该样本;
数据异常值和噪声的处理,首先通过数据的统计特性或是聚类方法检测噪声,然后使用分箱、聚类、回归、计算机检查和人工检查结合等方法“光滑”数据,去掉数据中的异常值和噪声;
数据编码主要是将非数值型特征进行编码,以便输入模型中进行训练。在本次实验中主要是需要对地表覆盖类型、气候类型和风向等环境因素进行编码,这里使用的是one-hot独热编码;
数据预处理还需要对数据进行归一化处理,归一化处理的计算公式为:
Figure 979841DEST_PATH_IMAGE030
其中,mean(x i )为环境因素x i 数据的均值,std(x i )为环境因素x i 数据的标准差;
另外,步骤2中使用的机器学习算法为极端梯度提升树XGBoost。XGBoost是一种基于梯度提升的树集成模型。模型的基本构建思路是:首先构建初始子树对数据进行拟合,相应的得到拟合的残差,后续的子树构建主要是针对上一步的模型残差进行,直至模型残差小于阈值为止,最终的模拟结果为所有子树结果之和。具体构造步骤为:
初始构造一个弱学习器,得到初始模型对应的残差;
后续的每一次训练迭代,都是在现有模型的基础上,增加一个弱学习器拟合上一个模型的残差;
通过不断地学习拟合K个弱学习器来降低模型预测结果与真实值之间的残差,直到残差小于阈值,模型终止。最终模型预测值是K个基学习器加权求和的结果。
进一步的,XGBoost模型的基学习器一般是CART树。针对n个样本m个特征的数据集
Figure 466799DEST_PATH_IMAGE002
,训练完成后,最终的预测值可表示如下:
Figure 590613DEST_PATH_IMAGE003
其中,K为样本数量,x i 为第i个样本,y i 为第i个样本对应的类别标签,f i (.)为第i棵树的模型,将第i棵树拆分为树的叶子节点q和对应的权重部分ω,即:
Figure 937280DEST_PATH_IMAGE031
其中,
Figure 677703DEST_PATH_IMAGE005
为样本x i 所在叶子节点q的权重,
Figure 768019DEST_PATH_IMAGE006
为样本x i 所在叶子节点的位 置,也就是说对于任意一个样本x i ,最后会落在树的某个叶子节点上,取值为
Figure 215181DEST_PATH_IMAGE007
因为每次迭代,模型都是在拟合上一次预测的残差,所以当生成第t个基学习器时,预测模型可表示为:
Figure 467171DEST_PATH_IMAGE008
目标函数可表示为:
Figure 429310DEST_PATH_IMAGE032
目标函数由2部分构成,其中第一个部分函数l是描述真实值与拟合值的差异,使 用欧式距离进行计算;第二个部分是防止函数过拟合的正则化部分
Figure 323317DEST_PATH_IMAGE010
,即
Figure 690232DEST_PATH_IMAGE011
,用于限制每棵树的复杂度,防止模型过拟合,其中T是CART 数上所有叶子节点的数量,γ和
Figure 113123DEST_PATH_IMAGE012
是超参数,用来调整正则化计算时叶子节点数量和权重的 重要性分配,ω j 是第j个叶子节点的权重值;为了使目标函数最小化,XGBoost考虑对目标 函数进行二阶泰勒展开,可近似表达为:
Figure 765821DEST_PATH_IMAGE033
其中,
Figure 197940DEST_PATH_IMAGE014
为一阶导数,定义为
Figure 150852DEST_PATH_IMAGE015
h i 为二阶导数,
Figure 275803DEST_PATH_IMAGE016
,代入目标函数,结果为:
Figure 946956DEST_PATH_IMAGE017
每次迭代使目标函数最小,得到第t个基学习器最优的j个叶子节点和每个叶子节点对应的最优解ω j
将预处理好的训练数据集输入XGBoost模型,并对模型进行参数调整和进一步优化,反复迭代,得到最优的二氧化碳分布模拟模型;
步骤3,针对构建的二氧化碳分布模拟模型,首先使用测试数据集验证模型预测精度。然后将卫星观测缺失处的环境因素数据输入训练好的二氧化碳分布模拟模型得到预测的二氧化碳浓度,最终获得区域二氧化碳浓度的时空分布。
二、根据上述训练得到的区域二氧化碳时空分布模拟模型,结合全局敏感性分析方法,进行影响因素的重要性进行定量分析,包括以下步骤:
步骤4,结合构建的区域二氧化碳时空分布模拟模型与全局敏感性分析方法,估算二氧化碳分布对各个环境因素的敏感度;
步骤5,统计全局敏感性分析方法得到的不同环境因素对区域二氧化碳浓度的敏感度,定量分析各参数的敏感性大小,最终确定各个环境因素随区域二氧化碳分布的影响程度。
其中,步骤4中使用的全局敏感性分析方法为Sobol全局敏感性分析法,具体的方法步骤如下:
对于各个环境因素,统计其变化范围和概率分布,然后结合区域二氧化碳时空分布模拟模型计算相应的敏感性指数。
区域二氧化碳时空分布模拟模型可表达为y=f(x 1,x 2,⋯,x n ),f是训练好的XGBoost模型,其中,x 1,x 2,⋯,x n为影响二氧化碳分布的环境因素,是XGBoost模型的输入参数,就是步骤1中9项影响因素;XGBoost模型的总方差为:
Figure 386027DEST_PATH_IMAGE018
其中,f 0为模型初值,而XGBoost模型的偏方差为:
Figure 459026DEST_PATH_IMAGE019
其中,
Figure 751948DEST_PATH_IMAGE020
Figure 910397DEST_PATH_IMAGE021
,各个环境因素的敏感性
Figure 887580DEST_PATH_IMAGE022
为:
Figure 815085DEST_PATH_IMAGE023
其中,
Figure 281838DEST_PATH_IMAGE024
为环境因素
Figure 927583DEST_PATH_IMAGE034
的一阶敏感性指数,表示该参数对模型输出的影响,
Figure 239616DEST_PATH_IMAGE026
为环境因素
Figure 490469DEST_PATH_IMAGE027
的s阶敏感性指数,表示s个参数对模型的共同影响;
进而得到各个环境因素的总敏感性指数,环境因素
Figure 128123DEST_PATH_IMAGE025
的总敏感性指数
Figure 264094DEST_PATH_IMAGE028
定义 为:
Figure 379818DEST_PATH_IMAGE029
而步骤5中,使用Sobol法得到的各个环境因素的总敏感性指数评价最终影响区域二氧化碳分布的影响因素敏感性,实现定量的影响程度分析。
三、实施例
本发明实施例中使用2016年OCO-2卫星XCO2观测数据与对应的环境因素,结合XGBoost模型建模,模拟中国东部地区CO2浓度分布,图2为卫星观测数据与建模反演结果。针对机器学习算法构建的模拟模型精度评价,这里使用决定系数R2和均方根误差RMSE两个指标,调参优化后得到的最终建模精度如表1所示。
表1 建模精度
Figure 281915DEST_PATH_IMAGE035
使用全局敏感性分析法与构建的二氧化碳模拟模型,对影响因素的敏感性进行定量评价,结果如表2所示。
表2为各个环境因素使用全局敏感性分析法估算的一阶敏感性指数和总体敏感性指数
Figure 28154DEST_PATH_IMAGE036
为了更直观地展示不同环境因素对总体二氧化碳分布的敏感性大小,绘制敏感性指数扇形图,确定影响因素占比,结果如图3所示。
从表2可以看出,将环境因素按敏感性指数由大到小进行排序,分别为风速风向、植被、降水、气温、地表覆盖类型、气候类型、生物质燃烧排放和人为排放量。其中,风速风向、植被、降水和气温的敏感性指数较大,说明它们是影响区域二氧化碳分布的主要因素。
从模型精度可知,利用模型模拟区域二氧化碳时空分布具有可行性。本发明提出的方法可以实现通过环境数据模拟区域二氧化碳浓度的时空分布,填补卫星观测数据的空缺。并且提出定量评价环境因素对区域二氧化碳分布影响程度的方法,确定了各类环境因素对区域二氧化碳分布的影响大小和具体程度。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (6)

1.一种任意时空位置二氧化碳浓度预测影响因素分析方法,其特征在于,包括如下步骤:
步骤1,结合区域环境特点,将影响区域二氧化碳分布的环境因素分类,包括但不仅限于地表和植被覆盖因素、气候气象因素和燃烧排放因素;
步骤2,结合卫星二氧化碳观测数据与环境因素,使用机器学习算法构建区域二氧化碳时空分布模拟模型,并利用训练数据集进行训练;
步骤3,针对构建的二氧化碳时空分布模拟模型,首先使用测试数据集验证模型预测精度,然后将卫星观测缺失处的环境因素数据输入训练好的二氧化碳时空分布模拟模型得到预测的二氧化碳浓度,最终获得区域二氧化碳浓度分布图;
步骤4,结合构建的区域二氧化碳时空分布模拟模型与全局敏感性分析方法,计算二氧化碳浓度对各个输入参数,即环境因素的敏感度;
步骤5,统计全局敏感性分析方法得到的区域二氧化碳浓度对不同环境因素的敏感度,定量分析各参数的敏感性大小,最终确定各个环境因素随区域二氧化碳分布的影响程度。
2.如权利要求1所述的一种任意时空位置二氧化碳浓度预测影响因素分析方法,其特征在于:步骤1中环境因素分类具体包括区域的地表覆盖类型、植被覆盖、气候类型、降水、气温、风速风向、人为排放量和生物质燃烧排放量;
其中植被覆盖使用归一化植被指数数据来表示,该数据可以从MODIS卫星的L3植被指数产品获得;人为排放统计来自高分辨率全球人为排放数据集ODIAC;生物质燃烧数据来自全球火灾排放数据库GFED4;气温和降水数据来自国家青藏高原科学数据中心提供的中国1km分辨率逐月平均气温数据集;地表覆盖数据来自欧空局发布的逐年全球土地覆盖数据集,气候类型数据来自柯本气候分区数据集,风速风向来自ERA5数据集。
3.如权利要求1所述的一种任意时空位置二氧化碳浓度预测影响因素分析方法,其特征在于:步骤2中使用的机器学习算法为极端梯度提升树XGBoost,XGBoost是一种基于梯度提升的树集成模型,模型的基本构建思路是:首先构建初始子树对数据进行拟合,相应的得到拟合的残差,后续的子树构建是针对上一步的模型残差进行,直至模型残差小于阈值为止,最终的模拟结果为所有子树结果之和,具体构造步骤为:
初始构造一个弱学习器,得到初始模型对应的残差;
后续的每一次训练迭代,都是在现有模型的基础上,增加一个弱学习器拟合上一个模型的残差;
通过不断地学习拟合K个弱学习器来降低模型预测结果与真实值之间的残差,直到残差小于阈值,模型终止,最终模型预测值是K个基学习器加权求和的结果。
4.如权利要求1所述的一种任意时空位置二氧化碳浓度预测影响因素分析方法,其特征在于:步骤2中利用训练数据集进行训练的具体实现方式如下;
首先训练数据集进行预处理,包括数据清洗,数据编码和数据变换,其中数据清洗包括去除缺失值、异常值和噪声,数据变换包括归一化和降维;
数据编码是将非数值型特征进行编码,以便输入模型中进行训练,即对地表覆盖类型、气候类型和风向这些环境因素进行编码,这里使用的是one-hot独热编码;
对数据进行归一化处理,归一化处理的计算公式为:
Figure 536690DEST_PATH_IMAGE001
其中,mean(x i )为环境因素x i 数据的均值,std(x i )为环境因素x i 数据的标准差;
然后将预处理好的训练数据集输入XGBoost模型,并对XGBoost模型进行参数调整和进一步优化,反复迭代,得到最优的二氧化碳时空分布模拟模型。
5.如权利要求3所述的一种任意时空位置二氧化碳浓度预测影响因素分析方法,其特 征在于:XGBoost模型的基学习器是CART树,针对n个样本m个特征的数据集
Figure 721684DEST_PATH_IMAGE002
,训练完成后,最终的预测值可表示如下:
Figure 478287DEST_PATH_IMAGE003
其中,K为样本数量,x i 为第i个样本,y i 为第i个样本对应的类别标签,f i (.)为第i棵树的模型,将第i棵树拆分为树的叶子节点q和对应的权重部分ω,即:
Figure 395427DEST_PATH_IMAGE004
其中,
Figure 768640DEST_PATH_IMAGE005
为样本x i 所在叶子节点q的权重,
Figure 226166DEST_PATH_IMAGE006
为样本x i 所在叶子节点的位置,也 就是说对于任意一个样本x i ,最后会落在树的某个叶子节点上,取值为
Figure 40538DEST_PATH_IMAGE007
因为每次迭代,模型都是在拟合上一次预测的残差,所以当生成第t个基学习器时,预测模型可表示为:
Figure 190897DEST_PATH_IMAGE008
目标函数可表示为:
Figure 782897DEST_PATH_IMAGE009
目标函数由2部分构成,其中第一个部分函数l是描述真实值与拟合值的差异,使用欧 式距离进行计算;第二个部分是防止函数过拟合的正则化部分
Figure 44114DEST_PATH_IMAGE010
,即
Figure 712992DEST_PATH_IMAGE011
,用于限制每棵树的复杂度,防止模型过拟合,其中T是CART 数上所有叶子节点的数量,γ和λ是超参数,用来调整正则化计算时叶子节点数量和权重的 重要性分配,ω j 是第j个叶子节点的权重值;为了使目标函数最小化,XGBoost考虑对目标 函数进行二阶泰勒展开,可近似表达为:
Figure 299832DEST_PATH_IMAGE012
其中,
Figure 116478DEST_PATH_IMAGE013
为一阶导数,定义为
Figure 119069DEST_PATH_IMAGE014
h i 为二阶导数,
Figure 704771DEST_PATH_IMAGE015
,代入目标函数,结果为:
Figure 196932DEST_PATH_IMAGE016
每次迭代使目标函数最小,得到第t个基学习器最优的j个叶子节点和每个叶子节点对应的最优解ω j
6.如权利要求1所述的一种任意时空位置二氧化碳浓度预测影响因素分析方法,其特征在于:步骤4中使用的全局敏感性分析方法是Sobol方法,Sobol法的敏感度是通过将输出的总方差分解为每个参数的方差和参数相互作用的方差之和,然后通过参数对输出方差的贡献比例进行敏感性分级计算的;
对于各个环境因素,统计其变化范围和概率分布,然后结合区域二氧化碳时空分布模拟模型计算相应的敏感性指数;
区域二氧化碳时空分布模拟模型可表达为
Figure 235295DEST_PATH_IMAGE017
f是训练好的XGBoost模 型,其中,x 1,x 2,⋯,x n为影响二氧化碳分布的环境因素,是XGBoost模型的输入参数;XGBoost 模型的总方差为:
Figure 841245DEST_PATH_IMAGE018
其中,f 0为模型初值,而XGBoost模型的偏方差为:
Figure 547033DEST_PATH_IMAGE019
其中,
Figure 944516DEST_PATH_IMAGE020
Figure 532492DEST_PATH_IMAGE021
,各个环境因素的敏感性
Figure 673623DEST_PATH_IMAGE022
为:
Figure 233918DEST_PATH_IMAGE023
其中,
Figure 802302DEST_PATH_IMAGE024
为环境因素
Figure 284099DEST_PATH_IMAGE025
的一阶敏感性指数,表示该参数对模型输出的影响,
Figure 225992DEST_PATH_IMAGE026
为 环境因素
Figure 640793DEST_PATH_IMAGE027
的s阶敏感性指数,表示s个参数对模型的共同影响;
进而得到各个环境因素的总敏感性指数,环境因素
Figure 911237DEST_PATH_IMAGE025
的总敏感性指数
Figure 411488DEST_PATH_IMAGE028
Figure 97685DEST_PATH_IMAGE029
定义为:
Figure 632571DEST_PATH_IMAGE030
使用Sobol法得到的各个环境因素的总敏感性指数评价最终影响区域二氧化碳分布的影响因素敏感性,实现定量的影响程度分析。
CN202111524281.7A 2021-12-14 2021-12-14 一种任意时空位置二氧化碳浓度预测影响因素分析方法 Active CN113919448B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111524281.7A CN113919448B (zh) 2021-12-14 2021-12-14 一种任意时空位置二氧化碳浓度预测影响因素分析方法
US17/882,649 US20230186173A1 (en) 2021-12-14 2022-08-08 Method of analyzing influence factor for predicting carbon dioxide concentration of any spatiotemporal position

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111524281.7A CN113919448B (zh) 2021-12-14 2021-12-14 一种任意时空位置二氧化碳浓度预测影响因素分析方法

Publications (2)

Publication Number Publication Date
CN113919448A true CN113919448A (zh) 2022-01-11
CN113919448B CN113919448B (zh) 2022-04-01

Family

ID=79249212

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111524281.7A Active CN113919448B (zh) 2021-12-14 2021-12-14 一种任意时空位置二氧化碳浓度预测影响因素分析方法

Country Status (2)

Country Link
US (1) US20230186173A1 (zh)
CN (1) CN113919448B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114878748A (zh) * 2022-05-07 2022-08-09 国网四川省电力公司电力科学研究院 一种co2排放量的监测方法及监测系统
CN114974453A (zh) * 2022-05-30 2022-08-30 中南大学 一种大气二氧化碳柱浓度高覆盖度重建方法
CN115222201A (zh) * 2022-06-06 2022-10-21 扬州大学 一种作物生产碳足迹评价的全局敏感性分析方法
CN115271265A (zh) * 2022-09-27 2022-11-01 四川中电启明星信息技术有限公司 基于碳卫星数据的电能碳流转分析方法及系统
CN115630870A (zh) * 2022-11-01 2023-01-20 中国矿业大学 地质碳封存区域大气co2时空分异特征及影响因子分析方法
US20230304981A1 (en) * 2022-03-25 2023-09-28 Project Canary, Pbc Emissions detection system and methods
US11781979B1 (en) 2020-09-10 2023-10-10 Project Canary, Pbc Air quality monitoring system and method
US11788889B1 (en) 2018-11-13 2023-10-17 Project Canary, Pbc Air quality monitoring system and method
US11810216B1 (en) 2023-02-01 2023-11-07 Project Canary, Pbc Air quality monitors minimization system and methods
CN117153291A (zh) * 2023-10-31 2023-12-01 水利部交通运输部国家能源局南京水利科学研究院 一种灌区稻田碳汇价值计算方法及系统
US11861753B1 (en) 2023-02-01 2024-01-02 Project Canary, Pbc Air quality monitors minimization system and methods
CN117421643A (zh) * 2023-12-18 2024-01-19 贵州省环境工程评估中心 基于人工智能的生态环境遥感数据分析方法及系统
US11887203B1 (en) 2023-02-01 2024-01-30 Project Canary, Pbc Air quality monitors minimization system and methods
US11892437B2 (en) 2019-01-23 2024-02-06 Project Canary, Pbc Apparatus and methods for reducing fugitive gas emissions at oil facilities

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116954058B (zh) * 2023-07-13 2024-02-23 淮阴工学院 一种锅炉NOx浓度预测与智能控制方法及系统
CN116859001B (zh) * 2023-07-18 2024-03-19 安徽碧水环业生态科技有限公司 一种碳排放在线监测平台及分析方法
CN117030828A (zh) * 2023-09-28 2023-11-10 生态环境部华南环境科学研究所(生态环境部生态环境应急研究所) 电化学传感器结合多元分析的全氟辛烷磺酸定量检测方法
CN117272121B (zh) * 2023-11-21 2024-03-12 江苏米特物联网科技有限公司 一种基于Deep SHAP的酒店负荷影响因素量化分析方法
CN117556953A (zh) * 2023-11-21 2024-02-13 中国气象局沈阳大气环境研究所 一种基于卫星遥感反演数据的自动处理与预测系统
CN117371667B (zh) * 2023-12-04 2024-03-12 中国长江电力股份有限公司 碳排放量影响因数的分析方法及相关设备
CN117592005B (zh) * 2024-01-19 2024-04-26 中国科学院空天信息创新研究院 Pm2.5浓度卫星遥感估算方法、装置、设备及介质
CN117686667B (zh) * 2024-01-31 2024-04-09 伟凯美(深圳)自动化技术有限公司 一种氧气浓度检测分析方法、装置和系统
CN117674303B (zh) * 2024-02-02 2024-05-14 华北电力大学 一种基于数据价值阈值的虚拟电厂并行控制方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130179078A1 (en) * 2009-11-26 2013-07-11 Tanguy Griffon Method for measuring weekly and annual emissions of a greenhouse gas over a given surface area
US20130181836A1 (en) * 2012-01-18 2013-07-18 Xerox Corporation Image-based determination of co and co2 concentrations in vehicle exhaust gas emissions
CN108252688A (zh) * 2018-01-08 2018-07-06 中国地质大学(北京) 致密油藏二氧化碳吞吐影响因素敏感性分析方法及其应用
CN113762607A (zh) * 2021-08-26 2021-12-07 甘肃同兴智能科技发展有限责任公司 一种电网企业碳排放量的预测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130179078A1 (en) * 2009-11-26 2013-07-11 Tanguy Griffon Method for measuring weekly and annual emissions of a greenhouse gas over a given surface area
US20130181836A1 (en) * 2012-01-18 2013-07-18 Xerox Corporation Image-based determination of co and co2 concentrations in vehicle exhaust gas emissions
CN108252688A (zh) * 2018-01-08 2018-07-06 中国地质大学(北京) 致密油藏二氧化碳吞吐影响因素敏感性分析方法及其应用
CN113762607A (zh) * 2021-08-26 2021-12-07 甘肃同兴智能科技发展有限责任公司 一种电网企业碳排放量的预测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
WANG, YIOU, ET.AL: "A regression forecasting model of carbon dioxide concentrations based-on principal component analysis-support vector machine", 《INTERNATIONAL CONFERENCE ON GEO-INFORMATICS IN RESOURCE MANAGEMENT AND SUSTAINABLE ECOSYSTEM》 *
刘合林: "《创意产业时空过程模拟》", 30 November 2017 *
卖山楂啦PRSS: "sklearn与XGBoost", 《HTTPS://BLOG.CSDN.NET/QQ_42374697/ARTICLE/DETAILS/107354736》 *
维基百科: "Variance-based sensitivity analysis", 《HTTPS://EN.WIKIPEDIA.ORG/WIKI/VARIANCE-BASED_SENSITIVITY_ANALYSIS》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11788889B1 (en) 2018-11-13 2023-10-17 Project Canary, Pbc Air quality monitoring system and method
US11892437B2 (en) 2019-01-23 2024-02-06 Project Canary, Pbc Apparatus and methods for reducing fugitive gas emissions at oil facilities
US11781979B1 (en) 2020-09-10 2023-10-10 Project Canary, Pbc Air quality monitoring system and method
US11867619B1 (en) 2020-09-10 2024-01-09 Project Canary, Pbc Air quality monitoring system and method
US11802860B1 (en) * 2022-03-25 2023-10-31 Project Canary, Pbc Emissions detection system and methods
US20230304981A1 (en) * 2022-03-25 2023-09-28 Project Canary, Pbc Emissions detection system and methods
CN114878748A (zh) * 2022-05-07 2022-08-09 国网四川省电力公司电力科学研究院 一种co2排放量的监测方法及监测系统
CN114974453B (zh) * 2022-05-30 2023-08-29 中南大学 一种大气二氧化碳柱浓度高覆盖度重建方法
CN114974453A (zh) * 2022-05-30 2022-08-30 中南大学 一种大气二氧化碳柱浓度高覆盖度重建方法
CN115222201A (zh) * 2022-06-06 2022-10-21 扬州大学 一种作物生产碳足迹评价的全局敏感性分析方法
CN115222201B (zh) * 2022-06-06 2024-03-08 扬州大学 一种作物生产碳足迹评价的全局敏感性分析方法
CN115271265A (zh) * 2022-09-27 2022-11-01 四川中电启明星信息技术有限公司 基于碳卫星数据的电能碳流转分析方法及系统
CN115630870A (zh) * 2022-11-01 2023-01-20 中国矿业大学 地质碳封存区域大气co2时空分异特征及影响因子分析方法
CN115630870B (zh) * 2022-11-01 2024-03-22 中国矿业大学 地质碳封存区域大气co2时空分异特征及影响因子分析方法
US11810216B1 (en) 2023-02-01 2023-11-07 Project Canary, Pbc Air quality monitors minimization system and methods
US11887203B1 (en) 2023-02-01 2024-01-30 Project Canary, Pbc Air quality monitors minimization system and methods
US11861753B1 (en) 2023-02-01 2024-01-02 Project Canary, Pbc Air quality monitors minimization system and methods
CN117153291B (zh) * 2023-10-31 2024-01-02 水利部交通运输部国家能源局南京水利科学研究院 一种灌区稻田碳汇价值计算方法及系统
CN117153291A (zh) * 2023-10-31 2023-12-01 水利部交通运输部国家能源局南京水利科学研究院 一种灌区稻田碳汇价值计算方法及系统
CN117421643A (zh) * 2023-12-18 2024-01-19 贵州省环境工程评估中心 基于人工智能的生态环境遥感数据分析方法及系统
CN117421643B (zh) * 2023-12-18 2024-02-23 贵州省环境工程评估中心 基于人工智能的生态环境遥感数据分析方法及系统

Also Published As

Publication number Publication date
CN113919448B (zh) 2022-04-01
US20230186173A1 (en) 2023-06-15

Similar Documents

Publication Publication Date Title
CN113919448B (zh) 一种任意时空位置二氧化碳浓度预测影响因素分析方法
CN111815037B (zh) 一种基于注意力机制的可解释性短临极端降雨预测方法
CN112766549A (zh) 一种空气污染物浓度预报方法、装置及存储介质
CN108009674A (zh) 基于cnn和lstm融合神经网络的空气pm2.5浓度预测方法
Chen et al. Comparison of feature selection methods for mapping soil organic matter in subtropical restored forests
CN109377440B (zh) 一种基于多任务集成学习器的pm2.5和o3浓度协同预测方法
CN115438848A (zh) 基于深度混合图神经网络的pm2.5浓度长期预测方法
CN111784022A (zh) 一种基于Wrapper方法与SVM方法结合的短时邻近大雾预测方法
Knutti et al. Uncertainty quantification using multiple models—Prospects and challenges
CN114005048A (zh) 基于多时相数据的土地覆盖变化与热环境影响研究方法
CN113836808A (zh) 一种基于重污染特征约束的pm2.5深度学习预测方法
Wen et al. Applying an artificial neural network to simulate and predict Chinese fir (Cunninghamia lanceolata) plantation carbon flux in subtropical China
CN114429077A (zh) 一种基于量子游走的时间序列多尺度分析方法
CN115718746A (zh) 基于机器学习的稻田甲烷排放量预测方法
CN115758270A (zh) 基于随机森林与环境变量的土壤矿物结合态有机碳预测方法及装置
Kapadia et al. Prediction of tropospheric ozone using artificial neural network (ANN) and feature selection techniques
Braghiere et al. Characterization of the radiative impact of aerosols on CO 2 and energy fluxes in the Amazon deforestation arch using artificial neural networks
Sharma et al. Forecasting and prediction of air pollutants concentrates using machine learning techniques: the case of India
CN113281229A (zh) 一种基于小样本下多模型自适应大气pm2.5浓度预测方法
CN116779172A (zh) 一种基于集成学习的肺癌疾病负担风险预警方法
Chao et al. A spatio-temporal neural network learning system for city-scale carbon storage capacity estimating
CN116189796A (zh) 基于机器学习的星载短波红外co2柱浓度估算方法
Masinde et al. Training recurrent neural networks for particulate matter concentration prediction
Jager et al. Constructive contrasts between modeled and measured climate responses over a regional scale
CN113537645A (zh) 基于机器学习融合卫星与天气数据的大豆产量预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant