CN113919448A - 一种任意时空位置二氧化碳浓度预测影响因素分析方法 - Google Patents
一种任意时空位置二氧化碳浓度预测影响因素分析方法 Download PDFInfo
- Publication number
- CN113919448A CN113919448A CN202111524281.7A CN202111524281A CN113919448A CN 113919448 A CN113919448 A CN 113919448A CN 202111524281 A CN202111524281 A CN 202111524281A CN 113919448 A CN113919448 A CN 113919448A
- Authority
- CN
- China
- Prior art keywords
- carbon dioxide
- model
- data
- space
- factors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- CURLTUGMZLYLDI-UHFFFAOYSA-N Carbon dioxide Chemical compound O=C=O CURLTUGMZLYLDI-UHFFFAOYSA-N 0.000 title claims abstract description 214
- 229910002092 carbon dioxide Inorganic materials 0.000 title claims abstract description 107
- 239000001569 carbon dioxide Substances 0.000 title claims abstract description 104
- 238000000034 method Methods 0.000 title claims abstract description 61
- 230000007613 environmental effect Effects 0.000 claims abstract description 77
- 230000035945 sensitivity Effects 0.000 claims abstract description 44
- 238000010206 sensitivity analysis Methods 0.000 claims abstract description 19
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 13
- 238000002485 combustion reaction Methods 0.000 claims abstract description 11
- 238000004088 simulation Methods 0.000 claims description 31
- 238000012549 training Methods 0.000 claims description 29
- 239000000126 substance Substances 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 18
- 238000010801 machine learning Methods 0.000 claims description 18
- 238000010606 normalization Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 8
- 230000000694 effects Effects 0.000 claims description 8
- 238000001556 precipitation Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 239000002028 Biomass Substances 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 6
- 230000002159 abnormal effect Effects 0.000 claims description 5
- 238000004140 cleaning Methods 0.000 claims description 5
- 238000013501 data transformation Methods 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000010354 integration Effects 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000011158 quantitative evaluation Methods 0.000 abstract description 3
- 238000005094 computer simulation Methods 0.000 description 3
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 2
- 229910052799 carbon Inorganic materials 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000005431 greenhouse gas Substances 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 239000000443 aerosol Substances 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000010792 warming Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/0004—Gaseous mixtures, e.g. polluted air
- G01N33/0009—General constructional details of gas analysers, e.g. portable test equipment
- G01N33/0027—General constructional details of gas analysers, e.g. portable test equipment concerning the detector
- G01N33/0036—General constructional details of gas analysers, e.g. portable test equipment concerning the detector specially adapted to detect a particular component
- G01N33/0039—O3
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/0004—Gaseous mixtures, e.g. polluted air
- G01N33/0009—General constructional details of gas analysers, e.g. portable test equipment
- G01N33/0027—General constructional details of gas analysers, e.g. portable test equipment concerning the detector
- G01N33/0036—General constructional details of gas analysers, e.g. portable test equipment concerning the detector specially adapted to detect a particular component
- G01N33/004—CO or CO2
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medicinal Chemistry (AREA)
- Biochemistry (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Pathology (AREA)
- Combustion & Propulsion (AREA)
- Immunology (AREA)
- Food Science & Technology (AREA)
- General Health & Medical Sciences (AREA)
- Analytical Chemistry (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种任意时空位置二氧化碳浓度预测影响因素分析方法,首先利用稀疏、不均匀的卫星二氧化碳柱浓度观测数据和对应的环境因素,包括地表覆盖因素、气候气象因素与燃烧排放因素,结合XGBoost算法构建模拟区域二氧化碳时空分布的模型,提取出二氧化碳时间、空间分布趋势变量;然后利用上述构建的区域二氧化碳时空分布模型,结合全局敏感性分析算法,实现环境因素敏感性的定量评价,根据敏感性分析的结果,量化确定影响区域二氧化碳时空分布的各种环境因素影响程度与大小。与传统方法相比,本发明方法能够以较高精度模拟区域二氧化碳浓度分布,并且实现环境变量重要性程度的定量评价。
Description
技术领域
本发明涉及遥感温室气体监测领域,尤其涉及一种基于机器学习的大气二氧化碳时空分布模拟及影响因素全局敏感性分析方法。
背景技术
二氧化碳作为最主要的温室气体和全球变暖最大的贡献者,准确地了解二氧化碳浓度的时空分布及其变化趋势,对于认识并缓解温室效应至关重要。卫星观测能够较为准确地以一定的时空分辨率和相对长时序观测提供地面二氧化碳信息,但受云和气溶胶等影响,实际应用中卫星观测数据存在空缺,精确的区域二氧化碳时空分布分析存在困难。常用的获取区域任意位置二氧化碳浓度的方法以内插为主,包括空间域上的内插和根据二氧化碳时序规律建立物理模型进行插值,其中空间域内插方法插值精度较低,而物理模型插值方法生成的模型十分复杂,计算效率低。随着机器学习算法的不断发展,为了弥补XCO2数据的时空空缺而将各种神经网络和机器学习模型应用于区域CO2模拟建模的相关研究也开始发展,可以高效的生成高精度大范围二氧化碳时空分布图。但是现有的基于机器学习的方法通常只考虑环境因素或人为排放因素某一方面进行建模,而二氧化碳浓度是受两者共同影响的,目前仍缺少相关的方法。
此外区域二氧化碳分布受自然环境和人为排放等多种因素的影响。影响因素复杂且过程复杂,相关研究也较多。但多为环境因素与二氧化碳浓度的定性分析或相关性分析,针对多因素影响程度的定量评价方法也较少,无法实现不同环境因素对大气二氧化碳浓度的贡献和影响的量化分析。
发明内容
本发明的主要目的是提出一种基于机器学习的大气二氧化碳时空分布模拟及影响因素全局敏感性分析方法,对卫星观测二氧化碳数据空缺的区域实现模拟,获取整个区域二氧化碳时空分布模式,并通过对模型的全局敏感性分析,量化影响区域二氧化碳分布的环境因素的重要性程度。
为了实现上述发明目的,本发明采用的技术方案为一种任意时空位置二氧化碳浓度预测影响因素分析方法,首先提出了一种大气二氧化碳时空分布模拟方法,该模拟方法基于机器学习算法,结合卫星观测二氧化碳数据与对应的环境因素,构建模拟区域任意位置二氧化碳浓度分布的模拟模型;接着通过全局敏感性分析方法,实现定量的多影响因素对区域二氧化碳分布的重要性评价,具体包括以下步骤:
步骤1,结合区域环境特点,将影响区域二氧化碳分布的环境因素分类,包括但不仅限于地表和植被覆盖因素、气候气象因素和燃烧排放因素;
步骤2,结合卫星二氧化碳观测数据与环境因素,使用机器学习算法构建区域二氧化碳时空分布模拟模型,并利用训练数据集进行训练;
步骤3,针对构建的二氧化碳时空分布模拟模型,首先使用测试数据集验证模型预测精度,然后将卫星观测缺失处的环境因素数据输入训练好的二氧化碳时空分布模拟模型得到预测的二氧化碳浓度,最终获得区域二氧化碳浓度分布图;
步骤4,结合构建的区域二氧化碳时空分布模拟模型与全局敏感性分析方法,计算二氧化碳浓度对各个输入参数,即环境因素的敏感度;
步骤5,统计全局敏感性分析方法得到的区域二氧化碳浓度对不同环境因素的敏感度,定量分析各参数的敏感性大小,最终确定各个环境因素随区域二氧化碳分布的影响程度。
进一步的,步骤1中环境因素分类具体包括区域的地表覆盖类型、植被覆盖、气候类型、降水、气温、风速风向、人为排放量和生物质燃烧排放量;
其中植被覆盖使用归一化植被指数数据来表示,该数据可以从MODIS卫星的L3植被指数产品获得;人为排放统计来自高分辨率全球人为排放数据集ODIAC;生物质燃烧数据来自全球火灾排放数据库GFED4;气温和降水数据来自国家青藏高原科学数据中心提供的中国1km分辨率逐月平均气温数据集;地表覆盖数据来自欧空局发布的逐年全球土地覆盖数据集,气候类型数据来自柯本气候分区数据集,风速风向来自ERA5数据集。
进一步的,步骤2中使用的机器学习算法为极端梯度提升树XGBoost,XGBoost是一种基于梯度提升的树集成模型,模型的基本构建思路是:首先构建初始子树对数据进行拟合,相应的得到拟合的残差,后续的子树构建是针对上一步的模型残差进行,直至模型残差小于阈值为止,最终的模拟结果为所有子树结果之和,具体构造步骤为:
初始构造一个弱学习器,得到初始模型对应的残差;
后续的每一次训练迭代,都是在现有模型的基础上,增加一个弱学习器拟合上一个模型的残差;
通过不断地学习拟合K个弱学习器来降低模型预测结果与真实值之间的残差,直到残差小于阈值,模型终止,最终模型预测值是K个基学习器加权求和的结果。
进一步的,步骤2中利用训练数据集进行训练的具体实现方式如下;
首先训练数据集进行预处理,包括数据清洗,数据编码和数据变换,其中数据清洗包括去除缺失值、异常值和噪声,数据变换包括归一化和降维;
数据编码是将非数值型特征进行编码,以便输入模型中进行训练,即对地表覆盖类型、气候类型和风向这些环境因素进行编码,这里使用的是one-hot独热编码;
对数据进行归一化处理,归一化处理的计算公式为:
其中,mean(x i )为环境因素x i 数据的均值,std(x i )为环境因素x i 数据的标准差;
然后将预处理好的训练数据集输入XGBoost模型,并对XGBoost模型进行参数调整和进一步优化,反复迭代,得到最优的二氧化碳时空分布模拟模型。
其中,K为样本数量,x i 为第i个样本,y i 为第i个样本对应的类别标签,f i (.)为第i棵树的模型,将第i棵树拆分为树的叶子节点q和对应的权重部分ω,即:
因为每次迭代,模型都是在拟合上一次预测的残差,所以当生成第t个基学习器时,预测模型可表示为:
目标函数可表示为:
目标函数由2部分构成,其中第一个部分函数l是描述真实值与拟合值的差异,使
用欧式距离进行计算;第二个部分是防止函数过拟合的正则化部分,即,用于限制每棵树的复杂度,防止模型过拟合,其中T是CART
数上所有叶子节点的数量,γ和是超参数,用来调整正则化计算时叶子节点数量和权重的
重要性分配,ω j 是第j个叶子节点的权重值;为了使目标函数最小化,XGBoost考虑对目标
函数进行二阶泰勒展开,可近似表达为:
每次迭代使目标函数最小,得到第t个基学习器最优的j个叶子节点和每个叶子节点对应的最优解ω j 。
进一步的,步骤4中使用的全局敏感性分析方法是Sobol方法,Sobol法的敏感度是通过将输出的总方差分解为每个参数的方差和参数相互作用的方差之和,然后通过参数对输出方差的贡献比例进行敏感性分级计算的;
对于各个环境因素,统计其变化范围和概率分布,然后结合区域二氧化碳时空分布模拟模型计算相应的敏感性指数;
区域二氧化碳时空分布模拟模型可表达为y=f(x 1,x 2,⋯,x n ),f是训练好的XGBoost模型,其中,x 1,x 2,⋯,x n为影响二氧化碳分布的环境因素,是XGBoost模型的输入参数;XGBoost模型的总方差为:
其中,f 0为模型初值,而XGBoost模型的偏方差为:
使用Sobol法得到的各个环境因素的总敏感性指数评价最终影响区域二氧化碳分布的影响因素敏感性,实现定量的影响程度分析。
与现有技术相比,本发明的优点和有益效果如下:
本发明在反演区域范围二氧化碳分布时,综合考虑与二氧化碳浓度相关的所有地表环境、气候气象和人为燃烧排放因素构建了机器学习模型,实现了更加准确和快速的区域二氧化碳浓度分布预测;并根据建立的机器学习模型,实现了考虑交互效应情况下,定量地评价影响区域CO2增长的各因素的敏感性,能够为碳排放政策制定提供科学指导。
附图说明
图1是本发明实施例的总体方法流程图;。
图2是本发明实施例的卫星二氧化碳观测数据和建模反演的区域二氧化碳分布图。
图3是本发明实施例的影响因素敏感性指数扇形图。
具体实施方式
为了更为详细的说明本发明的技术方案和技术优势,下面结合附图,通过具体实施案例对本发明进行更为完整的描述。
如图1所示,本发明提供了一种任意时空位置二氧化碳浓度预测影响因素分析方法,大体上分为两个部分,第一部分是:基于机器学习算法的区域二氧化碳模拟建模,进而对卫星观测二氧化碳数据空缺的区域实现模拟,获取整个区域二氧化碳时空分布模式;第二部分是:根据训练得到的区域二氧化碳时空分布模拟模型,结合全局敏感性分析方法,量化影响区域二氧化碳分布的环境因素的重要性程度。具体实现过程如下:
一、基于机器学习算法的区域二氧化碳模拟建模方法的具体步骤如下:
步骤1,收集影响区域二氧化碳分布的环境因素数据,包括但不限于区域地表覆盖类型、植被覆盖、气候类型、降水、气温、风速和风向、人为排放量统计数据以及生物质燃烧排放等,并与卫星观测二氧化碳数据匹配,获取机器学习模型的训练和验证数据集;
其中植被覆盖使用归一化植被指数数据来表示,该数据可以从MODIS卫星的L3植被指数产品获得;人为排放统计来自高分辨率全球人为排放数据集ODIAC;生物质燃烧数据来自全球火灾排放数据库GFED4;气温和降水数据来自国家青藏高原科学数据中心提供的中国1km分辨率逐月平均气温数据集;地表覆盖数据来自欧空局发布的逐年全球土地覆盖数据集,气候类型数据来自柯本气候分区数据集,风速风向来自ERA5数据集。
步骤2,选择的机器学习算法构建区域二氧化碳分布模拟模型,结合环境因素与卫星二氧化碳的训练数据集,对模型进行训练。
具体的训练实施步骤如下,对训练数据集进行预处理,包括数据清洗(去除缺失值、异常值和噪声等)、数据编码和数据变换(归一化、降维等)等;
针对数据集中的缺失值处理,若缺失值较少,可考虑删除该样本;
数据异常值和噪声的处理,首先通过数据的统计特性或是聚类方法检测噪声,然后使用分箱、聚类、回归、计算机检查和人工检查结合等方法“光滑”数据,去掉数据中的异常值和噪声;
数据编码主要是将非数值型特征进行编码,以便输入模型中进行训练。在本次实验中主要是需要对地表覆盖类型、气候类型和风向等环境因素进行编码,这里使用的是one-hot独热编码;
数据预处理还需要对数据进行归一化处理,归一化处理的计算公式为:
其中,mean(x i )为环境因素x i 数据的均值,std(x i )为环境因素x i 数据的标准差;
另外,步骤2中使用的机器学习算法为极端梯度提升树XGBoost。XGBoost是一种基于梯度提升的树集成模型。模型的基本构建思路是:首先构建初始子树对数据进行拟合,相应的得到拟合的残差,后续的子树构建主要是针对上一步的模型残差进行,直至模型残差小于阈值为止,最终的模拟结果为所有子树结果之和。具体构造步骤为:
初始构造一个弱学习器,得到初始模型对应的残差;
后续的每一次训练迭代,都是在现有模型的基础上,增加一个弱学习器拟合上一个模型的残差;
通过不断地学习拟合K个弱学习器来降低模型预测结果与真实值之间的残差,直到残差小于阈值,模型终止。最终模型预测值是K个基学习器加权求和的结果。
其中,K为样本数量,x i 为第i个样本,y i 为第i个样本对应的类别标签,f i (.)为第i棵树的模型,将第i棵树拆分为树的叶子节点q和对应的权重部分ω,即:
因为每次迭代,模型都是在拟合上一次预测的残差,所以当生成第t个基学习器时,预测模型可表示为:
目标函数可表示为:
目标函数由2部分构成,其中第一个部分函数l是描述真实值与拟合值的差异,使
用欧式距离进行计算;第二个部分是防止函数过拟合的正则化部分,即,用于限制每棵树的复杂度,防止模型过拟合,其中T是CART
数上所有叶子节点的数量,γ和是超参数,用来调整正则化计算时叶子节点数量和权重的
重要性分配,ω j 是第j个叶子节点的权重值;为了使目标函数最小化,XGBoost考虑对目标
函数进行二阶泰勒展开,可近似表达为:
每次迭代使目标函数最小,得到第t个基学习器最优的j个叶子节点和每个叶子节点对应的最优解ω j 。
将预处理好的训练数据集输入XGBoost模型,并对模型进行参数调整和进一步优化,反复迭代,得到最优的二氧化碳分布模拟模型;
步骤3,针对构建的二氧化碳分布模拟模型,首先使用测试数据集验证模型预测精度。然后将卫星观测缺失处的环境因素数据输入训练好的二氧化碳分布模拟模型得到预测的二氧化碳浓度,最终获得区域二氧化碳浓度的时空分布。
二、根据上述训练得到的区域二氧化碳时空分布模拟模型,结合全局敏感性分析方法,进行影响因素的重要性进行定量分析,包括以下步骤:
步骤4,结合构建的区域二氧化碳时空分布模拟模型与全局敏感性分析方法,估算二氧化碳分布对各个环境因素的敏感度;
步骤5,统计全局敏感性分析方法得到的不同环境因素对区域二氧化碳浓度的敏感度,定量分析各参数的敏感性大小,最终确定各个环境因素随区域二氧化碳分布的影响程度。
其中,步骤4中使用的全局敏感性分析方法为Sobol全局敏感性分析法,具体的方法步骤如下:
对于各个环境因素,统计其变化范围和概率分布,然后结合区域二氧化碳时空分布模拟模型计算相应的敏感性指数。
区域二氧化碳时空分布模拟模型可表达为y=f(x 1,x 2,⋯,x n ),f是训练好的XGBoost模型,其中,x 1,x 2,⋯,x n为影响二氧化碳分布的环境因素,是XGBoost模型的输入参数,就是步骤1中9项影响因素;XGBoost模型的总方差为:
其中,f 0为模型初值,而XGBoost模型的偏方差为:
而步骤5中,使用Sobol法得到的各个环境因素的总敏感性指数评价最终影响区域二氧化碳分布的影响因素敏感性,实现定量的影响程度分析。
三、实施例
本发明实施例中使用2016年OCO-2卫星XCO2观测数据与对应的环境因素,结合XGBoost模型建模,模拟中国东部地区CO2浓度分布,图2为卫星观测数据与建模反演结果。针对机器学习算法构建的模拟模型精度评价,这里使用决定系数R2和均方根误差RMSE两个指标,调参优化后得到的最终建模精度如表1所示。
表1 建模精度
使用全局敏感性分析法与构建的二氧化碳模拟模型,对影响因素的敏感性进行定量评价,结果如表2所示。
表2为各个环境因素使用全局敏感性分析法估算的一阶敏感性指数和总体敏感性指数
为了更直观地展示不同环境因素对总体二氧化碳分布的敏感性大小,绘制敏感性指数扇形图,确定影响因素占比,结果如图3所示。
从表2可以看出,将环境因素按敏感性指数由大到小进行排序,分别为风速风向、植被、降水、气温、地表覆盖类型、气候类型、生物质燃烧排放和人为排放量。其中,风速风向、植被、降水和气温的敏感性指数较大,说明它们是影响区域二氧化碳分布的主要因素。
从模型精度可知,利用模型模拟区域二氧化碳时空分布具有可行性。本发明提出的方法可以实现通过环境数据模拟区域二氧化碳浓度的时空分布,填补卫星观测数据的空缺。并且提出定量评价环境因素对区域二氧化碳分布影响程度的方法,确定了各类环境因素对区域二氧化碳分布的影响大小和具体程度。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (6)
1.一种任意时空位置二氧化碳浓度预测影响因素分析方法,其特征在于,包括如下步骤:
步骤1,结合区域环境特点,将影响区域二氧化碳分布的环境因素分类,包括但不仅限于地表和植被覆盖因素、气候气象因素和燃烧排放因素;
步骤2,结合卫星二氧化碳观测数据与环境因素,使用机器学习算法构建区域二氧化碳时空分布模拟模型,并利用训练数据集进行训练;
步骤3,针对构建的二氧化碳时空分布模拟模型,首先使用测试数据集验证模型预测精度,然后将卫星观测缺失处的环境因素数据输入训练好的二氧化碳时空分布模拟模型得到预测的二氧化碳浓度,最终获得区域二氧化碳浓度分布图;
步骤4,结合构建的区域二氧化碳时空分布模拟模型与全局敏感性分析方法,计算二氧化碳浓度对各个输入参数,即环境因素的敏感度;
步骤5,统计全局敏感性分析方法得到的区域二氧化碳浓度对不同环境因素的敏感度,定量分析各参数的敏感性大小,最终确定各个环境因素随区域二氧化碳分布的影响程度。
2.如权利要求1所述的一种任意时空位置二氧化碳浓度预测影响因素分析方法,其特征在于:步骤1中环境因素分类具体包括区域的地表覆盖类型、植被覆盖、气候类型、降水、气温、风速风向、人为排放量和生物质燃烧排放量;
其中植被覆盖使用归一化植被指数数据来表示,该数据可以从MODIS卫星的L3植被指数产品获得;人为排放统计来自高分辨率全球人为排放数据集ODIAC;生物质燃烧数据来自全球火灾排放数据库GFED4;气温和降水数据来自国家青藏高原科学数据中心提供的中国1km分辨率逐月平均气温数据集;地表覆盖数据来自欧空局发布的逐年全球土地覆盖数据集,气候类型数据来自柯本气候分区数据集,风速风向来自ERA5数据集。
3.如权利要求1所述的一种任意时空位置二氧化碳浓度预测影响因素分析方法,其特征在于:步骤2中使用的机器学习算法为极端梯度提升树XGBoost,XGBoost是一种基于梯度提升的树集成模型,模型的基本构建思路是:首先构建初始子树对数据进行拟合,相应的得到拟合的残差,后续的子树构建是针对上一步的模型残差进行,直至模型残差小于阈值为止,最终的模拟结果为所有子树结果之和,具体构造步骤为:
初始构造一个弱学习器,得到初始模型对应的残差;
后续的每一次训练迭代,都是在现有模型的基础上,增加一个弱学习器拟合上一个模型的残差;
通过不断地学习拟合K个弱学习器来降低模型预测结果与真实值之间的残差,直到残差小于阈值,模型终止,最终模型预测值是K个基学习器加权求和的结果。
4.如权利要求1所述的一种任意时空位置二氧化碳浓度预测影响因素分析方法,其特征在于:步骤2中利用训练数据集进行训练的具体实现方式如下;
首先训练数据集进行预处理,包括数据清洗,数据编码和数据变换,其中数据清洗包括去除缺失值、异常值和噪声,数据变换包括归一化和降维;
数据编码是将非数值型特征进行编码,以便输入模型中进行训练,即对地表覆盖类型、气候类型和风向这些环境因素进行编码,这里使用的是one-hot独热编码;
对数据进行归一化处理,归一化处理的计算公式为:
其中,mean(x i )为环境因素x i 数据的均值,std(x i )为环境因素x i 数据的标准差;
然后将预处理好的训练数据集输入XGBoost模型,并对XGBoost模型进行参数调整和进一步优化,反复迭代,得到最优的二氧化碳时空分布模拟模型。
其中,K为样本数量,x i 为第i个样本,y i 为第i个样本对应的类别标签,f i (.)为第i棵树的模型,将第i棵树拆分为树的叶子节点q和对应的权重部分ω,即:
因为每次迭代,模型都是在拟合上一次预测的残差,所以当生成第t个基学习器时,预测模型可表示为:
目标函数可表示为:
目标函数由2部分构成,其中第一个部分函数l是描述真实值与拟合值的差异,使用欧
式距离进行计算;第二个部分是防止函数过拟合的正则化部分,即,用于限制每棵树的复杂度,防止模型过拟合,其中T是CART
数上所有叶子节点的数量,γ和λ是超参数,用来调整正则化计算时叶子节点数量和权重的
重要性分配,ω j 是第j个叶子节点的权重值;为了使目标函数最小化,XGBoost考虑对目标
函数进行二阶泰勒展开,可近似表达为:
每次迭代使目标函数最小,得到第t个基学习器最优的j个叶子节点和每个叶子节点对应的最优解ω j 。
6.如权利要求1所述的一种任意时空位置二氧化碳浓度预测影响因素分析方法,其特征在于:步骤4中使用的全局敏感性分析方法是Sobol方法,Sobol法的敏感度是通过将输出的总方差分解为每个参数的方差和参数相互作用的方差之和,然后通过参数对输出方差的贡献比例进行敏感性分级计算的;
对于各个环境因素,统计其变化范围和概率分布,然后结合区域二氧化碳时空分布模拟模型计算相应的敏感性指数;
其中,f 0为模型初值,而XGBoost模型的偏方差为:
使用Sobol法得到的各个环境因素的总敏感性指数评价最终影响区域二氧化碳分布的影响因素敏感性,实现定量的影响程度分析。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111524281.7A CN113919448B (zh) | 2021-12-14 | 2021-12-14 | 一种任意时空位置二氧化碳浓度预测影响因素分析方法 |
US17/882,649 US20230186173A1 (en) | 2021-12-14 | 2022-08-08 | Method of analyzing influence factor for predicting carbon dioxide concentration of any spatiotemporal position |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111524281.7A CN113919448B (zh) | 2021-12-14 | 2021-12-14 | 一种任意时空位置二氧化碳浓度预测影响因素分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113919448A true CN113919448A (zh) | 2022-01-11 |
CN113919448B CN113919448B (zh) | 2022-04-01 |
Family
ID=79249212
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111524281.7A Active CN113919448B (zh) | 2021-12-14 | 2021-12-14 | 一种任意时空位置二氧化碳浓度预测影响因素分析方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20230186173A1 (zh) |
CN (1) | CN113919448B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114878748A (zh) * | 2022-05-07 | 2022-08-09 | 国网四川省电力公司电力科学研究院 | 一种co2排放量的监测方法及监测系统 |
CN114974453A (zh) * | 2022-05-30 | 2022-08-30 | 中南大学 | 一种大气二氧化碳柱浓度高覆盖度重建方法 |
CN115222201A (zh) * | 2022-06-06 | 2022-10-21 | 扬州大学 | 一种作物生产碳足迹评价的全局敏感性分析方法 |
CN115271265A (zh) * | 2022-09-27 | 2022-11-01 | 四川中电启明星信息技术有限公司 | 基于碳卫星数据的电能碳流转分析方法及系统 |
CN115630870A (zh) * | 2022-11-01 | 2023-01-20 | 中国矿业大学 | 地质碳封存区域大气co2时空分异特征及影响因子分析方法 |
US20230304981A1 (en) * | 2022-03-25 | 2023-09-28 | Project Canary, Pbc | Emissions detection system and methods |
US11781979B1 (en) | 2020-09-10 | 2023-10-10 | Project Canary, Pbc | Air quality monitoring system and method |
US11788889B1 (en) | 2018-11-13 | 2023-10-17 | Project Canary, Pbc | Air quality monitoring system and method |
US11810216B1 (en) | 2023-02-01 | 2023-11-07 | Project Canary, Pbc | Air quality monitors minimization system and methods |
CN117153291A (zh) * | 2023-10-31 | 2023-12-01 | 水利部交通运输部国家能源局南京水利科学研究院 | 一种灌区稻田碳汇价值计算方法及系统 |
US11861753B1 (en) | 2023-02-01 | 2024-01-02 | Project Canary, Pbc | Air quality monitors minimization system and methods |
CN117421643A (zh) * | 2023-12-18 | 2024-01-19 | 贵州省环境工程评估中心 | 基于人工智能的生态环境遥感数据分析方法及系统 |
US11887203B1 (en) | 2023-02-01 | 2024-01-30 | Project Canary, Pbc | Air quality monitors minimization system and methods |
US11892437B2 (en) | 2019-01-23 | 2024-02-06 | Project Canary, Pbc | Apparatus and methods for reducing fugitive gas emissions at oil facilities |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116954058B (zh) * | 2023-07-13 | 2024-02-23 | 淮阴工学院 | 一种锅炉NOx浓度预测与智能控制方法及系统 |
CN116859001B (zh) * | 2023-07-18 | 2024-03-19 | 安徽碧水环业生态科技有限公司 | 一种碳排放在线监测平台及分析方法 |
CN117030828A (zh) * | 2023-09-28 | 2023-11-10 | 生态环境部华南环境科学研究所(生态环境部生态环境应急研究所) | 电化学传感器结合多元分析的全氟辛烷磺酸定量检测方法 |
CN117272121B (zh) * | 2023-11-21 | 2024-03-12 | 江苏米特物联网科技有限公司 | 一种基于Deep SHAP的酒店负荷影响因素量化分析方法 |
CN117556953A (zh) * | 2023-11-21 | 2024-02-13 | 中国气象局沈阳大气环境研究所 | 一种基于卫星遥感反演数据的自动处理与预测系统 |
CN117371667B (zh) * | 2023-12-04 | 2024-03-12 | 中国长江电力股份有限公司 | 碳排放量影响因数的分析方法及相关设备 |
CN117592005B (zh) * | 2024-01-19 | 2024-04-26 | 中国科学院空天信息创新研究院 | Pm2.5浓度卫星遥感估算方法、装置、设备及介质 |
CN117686667B (zh) * | 2024-01-31 | 2024-04-09 | 伟凯美(深圳)自动化技术有限公司 | 一种氧气浓度检测分析方法、装置和系统 |
CN117674303B (zh) * | 2024-02-02 | 2024-05-14 | 华北电力大学 | 一种基于数据价值阈值的虚拟电厂并行控制方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130179078A1 (en) * | 2009-11-26 | 2013-07-11 | Tanguy Griffon | Method for measuring weekly and annual emissions of a greenhouse gas over a given surface area |
US20130181836A1 (en) * | 2012-01-18 | 2013-07-18 | Xerox Corporation | Image-based determination of co and co2 concentrations in vehicle exhaust gas emissions |
CN108252688A (zh) * | 2018-01-08 | 2018-07-06 | 中国地质大学(北京) | 致密油藏二氧化碳吞吐影响因素敏感性分析方法及其应用 |
CN113762607A (zh) * | 2021-08-26 | 2021-12-07 | 甘肃同兴智能科技发展有限责任公司 | 一种电网企业碳排放量的预测方法 |
-
2021
- 2021-12-14 CN CN202111524281.7A patent/CN113919448B/zh active Active
-
2022
- 2022-08-08 US US17/882,649 patent/US20230186173A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130179078A1 (en) * | 2009-11-26 | 2013-07-11 | Tanguy Griffon | Method for measuring weekly and annual emissions of a greenhouse gas over a given surface area |
US20130181836A1 (en) * | 2012-01-18 | 2013-07-18 | Xerox Corporation | Image-based determination of co and co2 concentrations in vehicle exhaust gas emissions |
CN108252688A (zh) * | 2018-01-08 | 2018-07-06 | 中国地质大学(北京) | 致密油藏二氧化碳吞吐影响因素敏感性分析方法及其应用 |
CN113762607A (zh) * | 2021-08-26 | 2021-12-07 | 甘肃同兴智能科技发展有限责任公司 | 一种电网企业碳排放量的预测方法 |
Non-Patent Citations (4)
Title |
---|
WANG, YIOU, ET.AL: "A regression forecasting model of carbon dioxide concentrations based-on principal component analysis-support vector machine", 《INTERNATIONAL CONFERENCE ON GEO-INFORMATICS IN RESOURCE MANAGEMENT AND SUSTAINABLE ECOSYSTEM》 * |
刘合林: "《创意产业时空过程模拟》", 30 November 2017 * |
卖山楂啦PRSS: "sklearn与XGBoost", 《HTTPS://BLOG.CSDN.NET/QQ_42374697/ARTICLE/DETAILS/107354736》 * |
维基百科: "Variance-based sensitivity analysis", 《HTTPS://EN.WIKIPEDIA.ORG/WIKI/VARIANCE-BASED_SENSITIVITY_ANALYSIS》 * |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11788889B1 (en) | 2018-11-13 | 2023-10-17 | Project Canary, Pbc | Air quality monitoring system and method |
US11892437B2 (en) | 2019-01-23 | 2024-02-06 | Project Canary, Pbc | Apparatus and methods for reducing fugitive gas emissions at oil facilities |
US11781979B1 (en) | 2020-09-10 | 2023-10-10 | Project Canary, Pbc | Air quality monitoring system and method |
US11867619B1 (en) | 2020-09-10 | 2024-01-09 | Project Canary, Pbc | Air quality monitoring system and method |
US11802860B1 (en) * | 2022-03-25 | 2023-10-31 | Project Canary, Pbc | Emissions detection system and methods |
US20230304981A1 (en) * | 2022-03-25 | 2023-09-28 | Project Canary, Pbc | Emissions detection system and methods |
CN114878748A (zh) * | 2022-05-07 | 2022-08-09 | 国网四川省电力公司电力科学研究院 | 一种co2排放量的监测方法及监测系统 |
CN114974453B (zh) * | 2022-05-30 | 2023-08-29 | 中南大学 | 一种大气二氧化碳柱浓度高覆盖度重建方法 |
CN114974453A (zh) * | 2022-05-30 | 2022-08-30 | 中南大学 | 一种大气二氧化碳柱浓度高覆盖度重建方法 |
CN115222201A (zh) * | 2022-06-06 | 2022-10-21 | 扬州大学 | 一种作物生产碳足迹评价的全局敏感性分析方法 |
CN115222201B (zh) * | 2022-06-06 | 2024-03-08 | 扬州大学 | 一种作物生产碳足迹评价的全局敏感性分析方法 |
CN115271265A (zh) * | 2022-09-27 | 2022-11-01 | 四川中电启明星信息技术有限公司 | 基于碳卫星数据的电能碳流转分析方法及系统 |
CN115630870A (zh) * | 2022-11-01 | 2023-01-20 | 中国矿业大学 | 地质碳封存区域大气co2时空分异特征及影响因子分析方法 |
CN115630870B (zh) * | 2022-11-01 | 2024-03-22 | 中国矿业大学 | 地质碳封存区域大气co2时空分异特征及影响因子分析方法 |
US11810216B1 (en) | 2023-02-01 | 2023-11-07 | Project Canary, Pbc | Air quality monitors minimization system and methods |
US11887203B1 (en) | 2023-02-01 | 2024-01-30 | Project Canary, Pbc | Air quality monitors minimization system and methods |
US11861753B1 (en) | 2023-02-01 | 2024-01-02 | Project Canary, Pbc | Air quality monitors minimization system and methods |
CN117153291B (zh) * | 2023-10-31 | 2024-01-02 | 水利部交通运输部国家能源局南京水利科学研究院 | 一种灌区稻田碳汇价值计算方法及系统 |
CN117153291A (zh) * | 2023-10-31 | 2023-12-01 | 水利部交通运输部国家能源局南京水利科学研究院 | 一种灌区稻田碳汇价值计算方法及系统 |
CN117421643A (zh) * | 2023-12-18 | 2024-01-19 | 贵州省环境工程评估中心 | 基于人工智能的生态环境遥感数据分析方法及系统 |
CN117421643B (zh) * | 2023-12-18 | 2024-02-23 | 贵州省环境工程评估中心 | 基于人工智能的生态环境遥感数据分析方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113919448B (zh) | 2022-04-01 |
US20230186173A1 (en) | 2023-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113919448B (zh) | 一种任意时空位置二氧化碳浓度预测影响因素分析方法 | |
CN111815037B (zh) | 一种基于注意力机制的可解释性短临极端降雨预测方法 | |
CN112766549A (zh) | 一种空气污染物浓度预报方法、装置及存储介质 | |
CN108009674A (zh) | 基于cnn和lstm融合神经网络的空气pm2.5浓度预测方法 | |
Chen et al. | Comparison of feature selection methods for mapping soil organic matter in subtropical restored forests | |
CN109377440B (zh) | 一种基于多任务集成学习器的pm2.5和o3浓度协同预测方法 | |
CN115438848A (zh) | 基于深度混合图神经网络的pm2.5浓度长期预测方法 | |
CN111784022A (zh) | 一种基于Wrapper方法与SVM方法结合的短时邻近大雾预测方法 | |
Knutti et al. | Uncertainty quantification using multiple models—Prospects and challenges | |
CN114005048A (zh) | 基于多时相数据的土地覆盖变化与热环境影响研究方法 | |
CN113836808A (zh) | 一种基于重污染特征约束的pm2.5深度学习预测方法 | |
Wen et al. | Applying an artificial neural network to simulate and predict Chinese fir (Cunninghamia lanceolata) plantation carbon flux in subtropical China | |
CN114429077A (zh) | 一种基于量子游走的时间序列多尺度分析方法 | |
CN115718746A (zh) | 基于机器学习的稻田甲烷排放量预测方法 | |
CN115758270A (zh) | 基于随机森林与环境变量的土壤矿物结合态有机碳预测方法及装置 | |
Kapadia et al. | Prediction of tropospheric ozone using artificial neural network (ANN) and feature selection techniques | |
Braghiere et al. | Characterization of the radiative impact of aerosols on CO 2 and energy fluxes in the Amazon deforestation arch using artificial neural networks | |
Sharma et al. | Forecasting and prediction of air pollutants concentrates using machine learning techniques: the case of India | |
CN113281229A (zh) | 一种基于小样本下多模型自适应大气pm2.5浓度预测方法 | |
CN116779172A (zh) | 一种基于集成学习的肺癌疾病负担风险预警方法 | |
Chao et al. | A spatio-temporal neural network learning system for city-scale carbon storage capacity estimating | |
CN116189796A (zh) | 基于机器学习的星载短波红外co2柱浓度估算方法 | |
Masinde et al. | Training recurrent neural networks for particulate matter concentration prediction | |
Jager et al. | Constructive contrasts between modeled and measured climate responses over a regional scale | |
CN113537645A (zh) | 基于机器学习融合卫星与天气数据的大豆产量预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |