CN114881165A - 一种基于随机森林的碳强度关键影响因子识别方法 - Google Patents

一种基于随机森林的碳强度关键影响因子识别方法 Download PDF

Info

Publication number
CN114881165A
CN114881165A CN202210567546.XA CN202210567546A CN114881165A CN 114881165 A CN114881165 A CN 114881165A CN 202210567546 A CN202210567546 A CN 202210567546A CN 114881165 A CN114881165 A CN 114881165A
Authority
CN
China
Prior art keywords
carbon
carbon intensity
model
data
influence factor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210567546.XA
Other languages
English (en)
Inventor
李天鹏
郑洪波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202210567546.XA priority Critical patent/CN114881165A/zh
Publication of CN114881165A publication Critical patent/CN114881165A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/80Management or planning
    • Y02P90/84Greenhouse gas [GHG] management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Tourism & Hospitality (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Educational Administration (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Evolutionary Biology (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及碳减排策略计算领域,具体为一种基于随机森林的碳强度关键影响因子识别方法。本发明较传统碳强度影响因子解析方法具有数据选取灵活、不受维度限制的特点,可以比较精准地识别诸多潜在影响因子中较重要的影响因子,弥补传统解析方法数据维度限制的缺陷,为准确实行碳减排方案提供了科学参考,也为区域碳减排政策制定提供相对侧重点。

Description

一种基于随机森林的碳强度关键影响因子识别方法
技术领域
本发明涉及碳减排策略计算领域,具体为一种基于随机森林的碳强度关键影响因子识别方法。
背景技术
气候变化问题已得到全球范围内越来越多的关注,被视作21世纪需要全世界共同应对的挑战。人类的排放行为对自然气候体系的影响有着明确的联系,温室气体中,二氧化碳的过度排放是造成气候变化的主要原因,通过控制二氧化碳的人为排放,将有希望遏制气温上涨的趋势。碳强度通常用于衡量某国家(地区)国民经济发展和碳排放量之间的关系,在发展中国家的相对减排过程中发挥重要的评判作用,即代表发展过程中的相对效率。碳强度是综合因素共同作用的结果,各地区资源禀赋、支柱产业、技术水平均存在差异,碳强度关键影响因子存在差别,因此,识别出影响地区碳强度的主要因素,做到有的放矢地完成碳强度控制工作显得十分有必要。
目前关于碳强度影响因子识别的研究中,较多地指向某具体行业或类型,如对数均值迪氏分解法(LMDI)、可拓展的随机性环境影响评估模型(STIRPAT)、Kaya恒等式分解、Laspeyres指数分解模型等技术手段。但由于这些传统算法具有数据维度限制,视角往往仅能局限于某个细分领域(如能源结构、能源强度领域等),缺乏社会整体发展视角下的范畴内细分指标的控制。机器学习方法对数据维度没有限制,即可以将更多类型的参数加入到碳强度关键影响因子的识别中,将视角转向整体社会发展过程的全方位。
发明内容
为解决上述问题,本发明提出一种基于随机森林的碳强度关键影响因子识别方法,收集到区域内一定时间范围内的碳强度及潜在影响因子数据集,将它们输入模型中,就可以完成关键影响因子的识别分析。本发明能够提高碳强度针对性减排的识别效率。
本发明的技术方案步骤如下:
一种基于随机森林的碳强度关键影响因子识别方法,具体步骤如下:
1)数据收集与分类:包括待识别区域若干年的碳强度数据以及潜在碳强度影响因子的数据,并将碳强度影响因子按类别划分,划分类别包括化石能源产量、电力规模、高能耗产业规模、能源消耗量、交通运输行业发展、居民收入及消费、技术进步和土地利用等;
2)将该区域的碳强度作为因变量,潜在碳强度影响因子数据作为自变量,将碳强度潜在影响因子数据归一化处理;
3)构建基于决策树的随机森林模型,即建立模型算法并进行验证。具体模型构建过程分为以下步骤:
S1,将碳强度数据集随机按比例划分为训练集和测试集,并将所有潜在影响因子数据输入RandomForestRegressor模型;
S2,设置sklearn.RandomForestRegressor参数并训练数据集,参数包括:n_estimators(决策树最大迭代次数)、oob_score(袋外样本评估)、criterion(划分特征评价标准)、max_features(最大特征数)、max_depth(决策树最大深度)、min_samples_split(内部节点再划分所需最小样本数)、min_samples_leaf(叶节点最少样本数)、min_weght_fraction_leaf(叶节点最小样本权重)、max_leaf_nodes(最大叶节点数)、min_impurity_split(节点划分最小不纯度)等。
其中,节点处划分特征评价标准选取均方差,每一个决策树的构建过程遵循节点特征均方差最小原则,采用网格搜索(GridSearchCV)方法与手动调整参数结合的方法确定最优参数,即可完成RandomForestRegressor模型构建。
S3,为验证训练结果在整体数据中的适用程度,利用最优参数,将训练集的训练模型对测试集进行模型精度检验,使用均方差(MSE)来表征模型精度,计算公式如下:
Figure BDA0003658769030000031
其中,N为样本数,observedi为第i个样本的碳强度真实值,predictedi为第i个样本的碳强度预测值。MSE值越小,说明该模型的精确程度越高。
4)结果输出:根据建模结果,输出所有潜在影响因子重要性程度并对其排序,通过划定一定关键影响因子数目,识别碳强度的关键影响因子,将关键影响因子按步骤1中的划分类别归类分析。
本发明的有益效果:
1、本发明克服传统碳强度分析模型的数据维度限制,提供拓展碳强度相关潜在影响因子范围的分析能力,从社会经济发展整体角度解析碳强度贡献来源,作为整个数据集完成模型输入。
2、本发明从算法应用方面改进了碳强度关键影响因子的识别方法,可以实现区域碳强度关键影响因子的识别,为区域碳强度降低目标的实现途径提供丰富的科学依据。
3、本发明引入机器学习算法建模,实现了区域碳强度关键影响因素的分类探讨,简单且直观地表现出各类别影响因子对碳强度的影响程度。
附图说明
图1为本发明的总体流程图。
图2为本发明实施例的潜在影响因子及分类情况。
图3为本发明实施例的关键影响因子类别重要性占比。
图4为本发明的模型算法流程图。
具体实施方法
下面结合附图并举实施例,对本发明进行详细描述。
选取辽宁省作为本实施例的实例区域,研究时间范围为2001年-2019年。对该地区碳强度及潜在影响因子数据进行整合处理,总体流程框架如图1所示,算法流程如图4所示,具体步骤如下:
1)获取数据:碳强度数据中,碳排放量采用《2006年IPCC国家温室气体清单指南》中的估算方法计算,区域国民生产总值(GDP)来源于《辽宁省统计年鉴》。潜在碳强度影响因子数据分别来自于《中国统计年鉴》《中国能源统计年鉴》《辽宁省统计年鉴》《中国高技术产业统计年鉴》《中国人口和就业统计年鉴》、辽宁省统计局信息公开数据库和国际能源署(International Energy Agency,IEA)数据库等,每一个数据类别下保证数值量纲统一。
在考虑尽量避免信息效用重复的原则下,结合数据可获得性,将潜在碳强度影响因子划分为化石能源产量、电力规模、高能耗产业规模、能源消耗量、交通运输行业发展、居民收入及消费、技术进步和土地利用8个类别,共计69项,组成总数据集,共计1330条数据。数据名录及分类情况见表1。
表1辽宁省潜在碳强度影响因子及类别
Figure BDA0003658769030000051
2)数据归一化:由于样本的所有特征,在特征空间中,对样本的距离产生的影响是同级的,故调用sklearn.preprocessing中的scale模块,对潜在影响因子数据做归一化,通过数据集的均值和方差,将它们映射到相同的[0,1]的尺度上,生成新数据集。
3)碳强度数据作为因变量,归一化后的潜在影响因子数据作为自变量,进行基于决策树的随机森林识别模型构建。
具体算法构建过程分为以下步骤:
S1,将步骤2中生成的数据集采用有放回的随机抽样(Bagging方法),按8:2的比例划分为训练集和测试集。
S2,设置RandomForestRegressor参数并训练数据集:a,利用网格搜索(GridSearchCV)设置初级参数n_estimators(树的棵树)为range(1,20),步长为1,评价标准参数criterion为'neg_mean_squared_error′(均方误差);b,max_depth(决策树最大深度)参数搜索range(1,30),步长为2,min_samples_split(节点再划分所需最小样本数)参数搜索在[2,3,4]内,max_features(最大特征数)参数搜索设置为["auto","sqrt","log2"];c,手动调节min_samples_leaf(叶子节点最少样本数)和min_weight_fraction_leaf(叶子节点最小的样本权重);d,手动调节max_leaf_nodes(最大叶子节点数)和min_impurity_split(节点划分最小不纯度);e,输出最佳参数确定模型,具体参数如下:
n_estimators:10,
criterion:′neg_mean_squared_error′
oob_score:True
max_depth:13,
min_samples_split:3,
max_features:auto,
min_samples_leaf:6,
min_weight_fraction_leaf:0
max_leaf_nodes:None
min_impurity_split:0
这时即完成模型构建,通过训练,模型中特征重要性数值即对应各潜在影响因子在数据集中对碳强度的影响重要性。
S3,利用测试集数据对模型进行模型精度检验,均方差(MSE)的计算公式如下:
Figure BDA0003658769030000071
其中,N为样本数,observedi为第i个样本的碳强度真实值,Predictedi为第i个样本的碳强度预测值。
识别模型的均方差计算结果为0.004139,均方误差越小,表明模型准确度越高,结果表明,该模型具有较好的预测性能。
S4,输出识别结果,将特征重要性从大到小排列,获得潜在碳强度影响因子对碳强度的影响程度。
4)将步骤3中的识别结果进行整理,发现近1/2的指标即可体现出整个数据集超过90%的重要性,综合识别准确度和精简度的要求,将识别的碳强度关键影响因子数目确定为32个,识别结果如表2所示。
表2辽宁省2001-2019年碳强度关键影响因子及所属类别
Figure BDA0003658769030000081
从碳强度关键影响因子指标个体来看,辽宁省在21世纪的前20年的发展过程中,对整体碳强度影响最大的影响因子是纸浆与印刷行业能源强度、天然气产量、原油产量、发电量和电力消耗量,均分别占超过5%的重要性;将识别到的关键影响因子归类分析,能源消耗量、居民收入及消费、高能耗产业规模、技术进步等大类有5项以上的指标入选;从类别重要性上看,32项关键影响因子占整体碳强度重要性的90.39%,其中技术进步类的影响重要性最高,为24.81%,重要性占比超过10%的类别依次是居民收入及消费、化石能源产量以及能源消耗量,高能耗产业规模类因子也有9.02%的重要性占比。如图2、图3所示。
识别结果可以理解为排名靠前的因子背后的生产过程中的碳排放对区域碳强度有更显著的影响,针对它们制定减排政策可能取得更突出的效果。可以为后续的碳减排政策制定提供方向性的建议,助力政策调整在保证经济发展速度的同时,针对性地实现区域碳强度高效控制。

Claims (1)

1.一种基于随机森林的碳强度关键影响因子识别方法,其特征在于,具体步骤如下:
1)数据收集与分类:包括待识别区域若干年的碳强度数据以及潜在碳强度影响因子的数据,并将碳强度影响因子按类别划分,划分类别包括化石能源产量、电力规模、高能耗产业规模、能源消耗量、交通运输行业发展、居民收入及消费、技术进步和土地利用;
2)将该区域的碳强度作为因变量,潜在碳强度影响因子数据作为自变量,将碳强度潜在影响因子数据归一化处理;
3)构建基于决策树的随机森林模型,即建立模型算法并进行验证;具体模型构建过程分为以下步骤:
S1,将碳强度数据集随机按比例划分为训练集和测试集,并将所有潜在影响因子数据输入RandomForestRegressor模型;
S2,设置sklearn.RandomForestRegressor参数并训练数据集,参数包括:决策树最大迭代次数n_estimators、袋外样本评估oob_score、划分特征评价标准criterion、最大特征数max_features、决策树最大深度max_depth、内部节点再划分所需最小样本数min_samples_split、叶节点最少样本数min_samples_leaf、叶节点最小样本权重min_weght_fraction_leaf、最大叶节点数max_leaf_nodes和节点划分最小不纯度min_impurity_split;
其中,节点处划分特征评价标准选取均方差,每一个决策树的构建过程遵循节点特征均方差最小原则,采用网格搜索方法与手动调整参数结合的方法确定最优参数,即完成RandomForestRegressor模型构建;
S3,为验证训练结果在整体数据中的适用程度,利用最优参数,将训练集的训练模型对测试集进行模型精度检验,使用均方差MSE来表征模型精度,计算公式如下:
Figure FDA0003658769020000021
其中,N为样本数,observedi为第i个样本的碳强度真实值,predictedi为第i个样本的碳强度预测值;MSE值越小,说明该模型的精确程度越高;
4)结果输出:根据建模结果,输出所有潜在影响因子重要性程度并对其排序,通过划定一定关键影响因子数目,识别碳强度的关键影响因子,将关键影响因子按步骤1中的划分类别归类分析。
CN202210567546.XA 2022-05-24 2022-05-24 一种基于随机森林的碳强度关键影响因子识别方法 Pending CN114881165A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210567546.XA CN114881165A (zh) 2022-05-24 2022-05-24 一种基于随机森林的碳强度关键影响因子识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210567546.XA CN114881165A (zh) 2022-05-24 2022-05-24 一种基于随机森林的碳强度关键影响因子识别方法

Publications (1)

Publication Number Publication Date
CN114881165A true CN114881165A (zh) 2022-08-09

Family

ID=82676924

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210567546.XA Pending CN114881165A (zh) 2022-05-24 2022-05-24 一种基于随机森林的碳强度关键影响因子识别方法

Country Status (1)

Country Link
CN (1) CN114881165A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115495702A (zh) * 2022-11-16 2022-12-20 浪潮电子信息产业股份有限公司 一种模型训练能耗计算方法、装置、系统及可读存储介质
CN115994327A (zh) * 2023-03-22 2023-04-21 山东能源数智云科技有限公司 基于边缘计算的设备故障诊断方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115495702A (zh) * 2022-11-16 2022-12-20 浪潮电子信息产业股份有限公司 一种模型训练能耗计算方法、装置、系统及可读存储介质
CN115994327A (zh) * 2023-03-22 2023-04-21 山东能源数智云科技有限公司 基于边缘计算的设备故障诊断方法及装置

Similar Documents

Publication Publication Date Title
CN114881165A (zh) 一种基于随机森林的碳强度关键影响因子识别方法
CN105844300A (zh) 一种基于随机森林算法的优化分类方法及装置
CN112613536B (zh) 一种基于smote和深度学习的近红外光谱柴油牌号识别方法
CN104820724B (zh) 文本类教育资源知识点预测模型获得方法及模型应用方法
CN108960269B (zh) 数据集的特征获取方法、装置及计算设备
US10387805B2 (en) System and method for ranking news feeds
Chakrabarty A regression approach to distribution and trend analysis of quarterly foreign tourist arrivals in India
CN108197280B (zh) 一种基于工业设备数据的可挖掘性评估方法
CN110378206A (zh) 一种智能审图系统及方法
CN115829105A (zh) 基于历史数据特征搜索的光伏功率预测方法
CN114741972A (zh) 一种空气污染物浓度季节性预测模型的构建方法
CN106951728B (zh) 一种基于粒子群优化和打分准则的肿瘤关键基因识别方法
CN111708810A (zh) 模型优化推荐方法、装置和计算机存储介质
Landaluce-Calvo et al. Proposal for a dynamic composite indicator: application in a comparative analysis of trends in the EU member states towards the Europe 2020 strategy
Ghosh et al. Prediction of student’s performance using random forest classifier
Wang et al. Empirical study on reform model of college English teaching model based on computer and big data
CN115660608A (zh) 一种一站式的创新创业孵化方法
Gonzales et al. Distance Metric Recommendation for k-Means Clustering: A Meta-Learning Approach
Dong et al. Research on academic early warning model based on improved SVM algorithm
CN113254632B (zh) 基于事件检测技术的时间线摘要自动生成方法
CN115472181A (zh) 基于特征融合和聚类的翻唱识别方法、装置和存储介质
CN108022057A (zh) 学习行为分析方法及系统
CN114117876A (zh) 基于改进哈里斯鹰算法的特征选择方法
CN114386697A (zh) 一种基于改进随机森林的船舶主机备件预测方法
CN112634947A (zh) 一种动物声音情感特征集合排序识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination