CN116362376A - 基于机器学习的综合能源站建设碳排放预测方法 - Google Patents
基于机器学习的综合能源站建设碳排放预测方法 Download PDFInfo
- Publication number
- CN116362376A CN116362376A CN202310130789.1A CN202310130789A CN116362376A CN 116362376 A CN116362376 A CN 116362376A CN 202310130789 A CN202310130789 A CN 202310130789A CN 116362376 A CN116362376 A CN 116362376A
- Authority
- CN
- China
- Prior art keywords
- carbon emission
- energy station
- comprehensive energy
- prediction
- construction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 229910052799 carbon Inorganic materials 0.000 title claims abstract description 228
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 title claims abstract description 227
- 238000010276 construction Methods 0.000 title claims abstract description 135
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000010801 machine learning Methods 0.000 title claims abstract description 41
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 33
- 238000004364 calculation method Methods 0.000 claims abstract description 14
- 238000013461 design Methods 0.000 claims abstract description 9
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 49
- 238000012549 training Methods 0.000 claims description 34
- 230000002159 abnormal effect Effects 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 11
- 238000012360 testing method Methods 0.000 claims description 11
- 238000012795 verification Methods 0.000 claims description 11
- 229910000831 Steel Inorganic materials 0.000 claims description 9
- 239000010959 steel Substances 0.000 claims description 9
- 239000000654 additive Substances 0.000 claims description 4
- 230000000996 additive effect Effects 0.000 claims description 4
- 230000010354 integration Effects 0.000 claims description 4
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 4
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 238000009933 burial Methods 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 description 7
- 239000000523 sample Substances 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 101001095088 Homo sapiens Melanoma antigen preferentially expressed in tumors Proteins 0.000 description 4
- 102100037020 Melanoma antigen preferentially expressed in tumors Human genes 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 239000004566 building material Substances 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/22—Social work or social welfare, e.g. community support activities or counselling services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/80—Management or planning
- Y02P90/84—Greenhouse gas [GHG] management systems
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Software Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- Data Mining & Analysis (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Development Economics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于机器学习的综合能源站建设碳排放预测方法,该方法包括:采集综合能源站建设碳排放预测指标体系及识别碳排放源;预处理综合能源站项目预测指标数据及碳排放源数据;构建基于机器学习算法的综合能源站建设碳排放预测模型,以预测综合能源站建设碳排放。本发明提供了一个准确、快速和智能化的综合能源站建设碳排放预测的方法,减少了传统碳排放计算过程的复杂和繁琐性,为低碳设计和施工提供有效的、可信度高的数据支持。
Description
技术领域
本发明属于碳排放预测技术领域,尤其是涉及基于机器学习的综合能源站建设碳排放预测方法。
背景技术
机器学习方法在综合能源站和建筑领域的预测研究中有着充分的应用前景,但是目前缺乏对综合能源站等综合能源站碳排放的研究。在综合能源站碳排放的相关研究中,综合能源站建设碳排放的分析和预测缺乏重视,并且在实际开展综合能源站建设碳排放评估的工作中,目前的碳排放计算方法多侧重于事中或者事后计算,依赖大量设计与施工数据,计算过程较为繁琐,而且由于参建单位众多、资料完整性差、技术复杂性高和数据收集困难的原因,导致综合能源站建设阶段碳排放的计算困难、实际开展效果较差、难以普遍推行,实际设计和施工指导意义不高。因此,亟需一种结合数据预处理与机器学习的智能化预测方法。在机器学习算法中,XGBoost算法是一种基于Boosting的新型集成学习算法,与传统的机器学习算法相比其具有运行速度快、泛化能力强、预测精度高、鲁棒性好等优点,此外XGBoost算法的模型可解释性较高,能用于小样本的预测,目前已经在径流预测、信用卡交易、项目投资预测、故障监测等领域得到了广泛应用,但在碳排放预测领域尚无深入应用。
发明内容
针对以上问题,本发明提出一种基于机器学习的综合能源站建设碳排放预测方法,首先立足综合能源站项目组成、建设过程和碳足迹的视角构建综合能源站建设碳排放预测指标体系并识别碳排放源,其次采集和处理综合能源站建设预测指标和碳排放源的相关数据,然后基于机器学习算法构建综合能源站建设碳排放预测模型并对模型进行训练、测试和评价。最后,实现实际应用,向综合能源站建设碳排放预测模型输入预测指标数据,得到综合能源站建设碳排放的预测值,完成对新建综合能源站项目建设碳排放的预测。
技术方案:本发明提出一种基于机器学习的综合能源站建设碳排放预测方法,该方法包括如下步骤:
步骤1,采集综合能源站建设碳排放预测指标体系及识别碳排放源;
步骤2,预处理综合能源站建设碳排放预测指标数据及碳排放源数据;
步骤3,构建基于机器学习算法的综合能源站建设碳排放预测模型,使用步骤2的数据对模型进行训练;
步骤4,向综合能源站建设碳排放预测模型输入预测指标数据,模型输出综合能源站建设碳排放值,完成对新建综合能源站建设碳排放的预测。
进一步的,步骤1中,采集综合能源站建设碳排放预测指标体系包括综合能源站地上层数、基础埋深、总建筑面积、基础土方量、混凝土设计体积、钢筋设计重量;碳排放源包括综合能源站施工所需钢材、混凝土、电力消耗量、水消耗量。
进一步的,步骤2中,预处理综合能源站建设碳排放预测指标数据及碳排放源数据的具体方法如下:
步骤2-1,将综合能源站建设消耗的碳排放源数据转化为单位建筑面积的碳排放源数据;
步骤2-2,利用箱线图对采用单位建筑面积的碳排放源数据进行分析,识别异常数据作为待修复数据;
步骤2-3,利用K-最近邻算法对单位建筑面积碳排放源数据的缺失值或者异常值进行替换;
步骤2-4,利用经过替换后的单位建筑面积的碳排放源数据,结合各碳排放源的碳排放因子,计算单位建筑面积综合能源站建设碳排放数值,作为综合能源站建设碳排放预测模型的输出变量;
步骤2-5,利用Min-Max归一化方法分别处理每类综合能源站建设碳排放预测指标,作为综合能源站建设碳排放预测模型的输入变量。
进一步的,步骤2-1中,通过公式(1)将综合能源站建设碳排放源数据转化为单位建筑面积的碳排放源数据;
式中:
Yi为第i种碳排放源单位建筑面积的消耗量,i为碳排放源种类;
Mi为第i种碳排放源的总量;
S为综合能源站总建筑面积。
进一步的,步骤2-2中的方法如下:取所有样本的25%分位点Q1和75%分位点Q2,Q1、Q2之间的差值为箱体的长度IQR,当单位建筑面积的碳排放源数值小于(Q1-1.5IQR)或者大于(Q2+1.5IQR)时,即为异常样本。
进一步的,步骤2-3中的方法如下:利用K-最近邻算法计算正常项目的预测指标与待修复项目的预测指标之间的欧氏距离,并选择最邻近的k个欧氏距离的正常项目的单位建筑面积的碳排放源数据平均值对单位建筑面积的碳排放源数据中的缺失值或者异常值进行替换。
进一步的,步骤2-4中的方法如下:通过各单位建筑面积的碳排放源数据与碳排放因子累乘求和以计算单位建筑面积综合能源站建设碳排放量,作为综合能源站建设碳排放预测模型的输出变量,计算模型如公式所示:
式中:
C为综合能源站建设过程单位建筑面积的碳排放量;
Yi为第i种碳排放源单位建筑面积的消耗量;
Fi为第i类碳排放源的碳排放因子,i为碳排放源种类,共有N种;
通过计算得到输出变量数据集L={Ci}。
进一步的,步骤2-5的方法如下:以每类综合能源站建设碳排放预测指标为对象分别进行处理,作为综合能源站建设碳排放预测模型的输入变量,形成输入变量集F={X1’,X2’,X3’,X4’,X5’,X6’},其中,Xj’={x′1j,x′2j,x′3j,x′4j,x′5j,…,x′mj},表示归一化处理后第j个预测指标数据集,由m个项目的第j个预测指标归一化处理后的数值组成;
式中:
x′ij代表第i个项目在第j个预测指标归一化处理后的数值;
xj,max,xj,min分别代表第j个预测指标同类中的最大值和最小值;
xij代表第i个项目在第j个预测指标的原始数值;
j代表预测指标类别,i代表不同项目,n代表项目数量。
进一步的,步骤3中,构建基于机器学习算法的综合能源站建设碳排放预测模型,并对模型进行训练的方法如下:
步骤3-1,将经过处理得到的综合能源站建设碳排放预测指标数据和单位建筑面积综合能源站建设碳排放数据划分训练集和测试集;
步骤3-2,在步骤3-1所得训练集基础上,将训练集分成K个相等大小的子集,K-1个子集用于模型训练,剩余的1个子集构成验证子集;
步骤3-3,构建基于XGBoost算法的综合能源站建设碳排放预测模型,XGBoost算法中使用的树集成模型以相加的方式进行训练,并基于K折交叉验证的方式,通过验证子集调整模型参数进行训练以得到多个综合能源站建设碳排放预测模型;
步骤3-4,将测试集输入综合能源站建设碳排放预测模型进行预测,将预测模型的预测结果与实际结果进行对比,确定最佳的综合能源站建设碳排放预测模型预测模型。
进一步的,步骤3-3的方法如下:
①以CART分类树作为基学习器,设定损失函数、目标函数与XGBoost预测模型,分别如公式(4)-(7)示:
设定损失函数:
设定目标函数:
设定XGBoost预测模型:
目标函数Objt写成如式(7)所示:
式中,C为常数项,Ω(ft(xi))为正则项,t为生成树的数量,Objt为生成第t棵树后的目标函数;
②依据泰勒公式展开,损失函数如公式(8):
式中,gi为损失函数的一阶导,hi为损失函数的二阶导;
③依据公式(7)、(8),将目标函数写为如公式(9)所示:
④基于公式(10)的目标函数,在输入训练集时,计算出每一步损失函数的一阶导gi及二阶导hi的值,然后最优化目标函数得到每一步的ft(xi),根据公式(6)得到整体模型,即为综合能源站建设碳排放预测模型;
⑤调整模型参数以得到不同的综合能源站建设碳排放预测模型。
有益效果:与现有技术相比,本发明的技术方案与现有技术相比具有以下有益效果:
(1)本发明通过对综合能源站项目组成、建设过程和碳排放源的分析,构建了综合能源站建设碳排放预测指标体系,明确了综合能源站建设碳排放来源,并且确定了数据处理的方法和碳排放计算模型。本发明构建了基于机器学习算法的综合能源站建设碳排放预测模型,通过K折交叉验证训练得到最优模型,并且在测试集上对综合能源站建设碳排放进行预测和效果评估,从而完成对新建综合能源站项目建设碳排放的预测。
(2)本发明一方面对综合能源站建设过程碳排放的预测提供了思路和方法,并且对于如何处理数据提供了参考,对于一些数量有限、数据存在问题的项目具有较高的参考价值。另一方面,本发明构建的基于机器学习算法的综合能源站建设碳排放预测模型拟合优良,模型误差小,能较好地预测综合能源站建设碳排放,从而避免了综合能源站建设碳排放计算过程中大量数据的收集和繁琐的计算,人工干预较少,预测过程简单,能够实现事前对综合能源站建设碳排放的预测,具有较强的普适性规律。
附图说明
图1是本发明方法的实施流程图。
图2是本发明方法采用箱线图进行异常值识别的示意图。
图3是本发明方法采用5折交叉验证构建并训练模型的示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明进行详细描述,实施例给出了综合能源站建设碳排放预测流程。
实施例
本发明为了解决现有技术中存在的问题,提供了一种基于机器学习的综合能源站建设碳排放预测方法,该方法能够通过综合能源站建设碳排放影响因素实现对综合能源站建设碳排放的预测。图1是本发明的实施流程图。本发明公开了一种基于机器学习的综合能源站建设碳排放预测方法,具体包括以下步骤:
步骤1,采集综合能源站建设碳排放预测指标体系及识别碳排放源。
综合能源站建设碳排放预测指标需要反映建筑结构类型、建筑材料用量和工程量等特征,因此本发明将综合能源站建设碳排放预测指标确定为地上层数、基础埋深、总建筑面积、基础土方量、混凝土设计体积、钢筋设计重量,形成六个预测指标组成的预测指标体系。碳排放源包括综合能源站施工所需钢材、混凝土、电力消耗量、水消耗量。
步骤2,采集并处理综合能源站建设碳排放预测指标及碳排放源数据。综合能源站建设碳排放预测指标及碳排放源数据采集方式如下表1所示。
表1数据采集表
将综合能源站建设碳排放源数据转化为单位建筑面积的碳排放源数据,以便进行数据分析与处理,见公式(1):
式中:
Yi为第i种碳排放源单位建筑面积的消耗量,i为碳排放源种类。
Mi为第i种碳排放源的总量。
S为总建筑面积。
进一步地,利用箱线图对采用单位建筑面积的碳排放源数据进行分析,识别其中异常的数据,作为待修复的数据。取所有样本的25%分位点Q1和75%分位点Q2,Q1、Q2之间的差值为箱体的长度IQR,当单位建筑面积的碳排放源数值小于(Q1-1.5IQR)或者大于(Q2+1.5IQR)时,即为异常样本。本发明绘制的箱线图如图2所示,箱子外部的点为异常值,即在某一碳排放源数值上存在异常的项目序号。以单位面积的混凝土消耗量为例,第5、6、33、46个项目的单位建筑面积混凝土消耗量存在异常,作为待修复的对象。其他类型的单位建筑面积碳排放源数据处理过程以同样的方式处理。
进一步地,利用K-最近邻算法计算正常项目的预测指标与待修复项目的预测指标之间的欧氏距离,并选择最邻近k个欧氏距离的正常项目的单位建筑面积碳排放源平均值对单位建筑面积的碳排放源数据中的缺失值或者异常值进行替换。
进一步地,完成数据修复后,通过各单位建筑面积的碳排放源数据与碳排放因子累乘求和,计算单位建筑面积综合能源站建设碳排放量,作为综合能源站建设碳排放预测模型的输出变量,计算模型如公式(2)所示:
式中:
C为综合能源站建设过程单位建筑面积的碳排放量(单位:kgCO2e/m2)。
Yi为第i种碳排放源单位建筑面积的消耗量。
Fi为第i类碳排放源的碳排放因子,i为碳排放源种类,共有4种。
通过计算模型得到输出变量数据集L={Ci}。
第i个综合能源站项目单位建筑面积碳排放源数值如下表2所示,各碳排放源的碳排放因子如表3所示,结合公式(2)计算第i个综合能源站项目的单位建筑面积综合能源站建设碳排放。
表2单位建筑面积的碳排放源消耗量
表3各碳排放源碳排放因子
类别 | 数值 | 单位 |
电力 | 0.581 | kgCO2e/Kwh |
钢材 | 2.35 | kgCO2e/kg |
混凝土 | 295 | kgCO2e/m3 |
水 | 0.168 | kgCO2e/t |
进一步地,利用Min-Max归一化方法处理各类综合能源站建设碳排放预测指标,如公式(3)所示,以每类综合能源站建设碳排放预测指标为对象分别进行处理,作为综合能源站建设碳排放预测模型的输入变量,形成输入变量集F={X1’,X2’,X3’,X4’,X5’,X6’},其中Xj’={x′1j,x′2j,x′3j,x′4j,x′5j,…,x′mj}。
式中:
x′ij代表第i个项目在第j个预测指标归一化处理后的数值。
xj,max,xj,min分别代表第j个预测指标的最大值和最小值。
xij代表第i个项目在第j个预测指标的原始数值。
j代表预测指标类别,i代表不同项目,m代表项目数量。
归一化处理结果如表4所示。
表4Min-Max归一化处理结果
X1’ | X2’ | … | X4’ | X5” | X6’ |
0.24 | 0.11 | … | 0.07 | 0.37 | 0.07 |
0.09 | 0.12 | … | 0.01 | 0.12 | 0.04 |
0.12 | 0.08 | … | 0.03 | 0.07 | 0.03 |
x′i1 | x′i2 | … | x′i4 | x′i5 | x′i6 |
0.12 | 0.15 | … | 0.04 | 0.09 | 0.06 |
0.12 | 0.15 | ... | 0.04 | 0.09 | 0.03 |
0.05 | 0.02 | ... | 0.09 | 0.34 | 0.00 |
0.14 | 0.08 | ... | 0.04 | 0.09 | 0.04 |
步骤3,构建基于机器学习算法的综合能源站建设碳排放预测模型。
步骤3-1,将经过处理得到的综合能源站建设碳排放预测指标数据和单位建筑面积综合能源站建设碳排放数据划分训练集和测试集;
在构建基于机器学习算法的综合能源站建设预测模型前,根据步骤2得到的输入数据集F={X1’,X2’,X3’,X4’,X5’,X6’}和输出数据集L={Ci},借助Python中sklearn包划分为训练集和测试集,并设置比例为7:3。
步骤3-2,在步骤3-1所得训练集基础上,将数据集分成K个相等大小的子集,K-1个子集用于模型训练,剩余的1个子集构成验证子集;
为了消除样本的划分方式及排序的随机性对预测结果的影响,数据集划分后所得的训练集的基础上,进一步将数据集分成K个相等大小的子集,K-1个子集用于模型构建,剩余的1个子集用于模型验证。这K次结果的评价指标的均值作为对模型精度的估计,在实践中,K的典型选择范围为5~10,在本发明中取K=5,如图3所示。
步骤3-3,构建基于XGBoost算法的综合能源站建设碳排放预测模型,XGBoost算法中使用的树集成模型以相加的方式进行训练,并基于K折交叉验证的方式,通过验证子集调整模型参数进行训练,得到多个综合能源站建设碳排放预测模型;
步骤3-4,将测试集输入综合能源站建设碳排放预测模型进行预测,将预测模型的预测结果与实际结果进行对比,确定最佳的综合能源站建设碳排放预测模型预测模型。
构建基于XGBoost算法的综合能源站建设碳排放预测模型,XGBoost算法中使用的树集成模型以相加的方式进行训练,直到达到树的深度阈值时停止分裂,保存综合能源站建设碳排放预测模型,本发明构建基于Python中机器学习算法的综合能源站建设碳排放预测模型,包括以下步骤:
(1)以CART分类树作为基学习器,设定损失函数、目标函数与XGBoost预测模型,分别如公式(4)-(7)示:
设定损失函数:
设定目标函数:
设定XGBoost预测模型:
目标函数Objt写成如式(7)所示:
式中,C为常数项,Ω(ft(xi))为正则项,t为生成树的数量,Objt为生成第t棵树后的目标函数。
(2)依据泰勒公式展开,损失函数,如公式(8):
式中,gi为损失函数的一阶导,hi为损失函数的二阶导;
(3)依据公式(7)、(8),目标函数写成如公式(9)所示:
(4)基于公式(10)的目标函数,在输入训练集时,只需计算出每一步损失函数的一阶导gi及二阶导hi的值,然后最优化目标函数得到每一步的ft(xi),根据公式(6)得到整体模型,即为综合能源站建设碳排放预测模型;
(5)调整模型参数以得到不同的综合能源站建设碳排放预测模型。
调整机器学习模型的参数,保存性能最好的模型。本发明基于python中的机器学习包中的XGBRegressor构建模型和调整参数,具体参数包括:
①Booster为选择每次迭代的模型,一般两种选择:gbtree和gbliner。
②learning_rate为学习率,范围[0,1],该参数越小,计算速度越慢;该参数越大,有可能无法收敛。
③max_depth为每颗树的最大深度,范围[0,+∞),该参数越大,越容易出现过拟合,max_depth越大,模型会学到更具体更局部的样本。
④n_estimators为机器学习中树的个数,数量越多模型性能越好,但当数量到一定程度,模型性能提升有限,反而会拖累算法的速度。
⑤colsample_bytree为列采样率,一般是特征采样率,通过对每棵树的生成用的特征采用类似于随机森林的列采样,范围(0,1]。
⑥min_child_weight为每个叶子里面的最小权重和,范围[0,+∞)。该参数越大,算法越保守,越不容易过拟合。
⑦lambda为L2正则化参数,用来控制机器学习的正则化部分。范围[0,+∞),该参数越大,越不容易过拟合。
⑧gamma为损失阈值,是控制叶子个数的参数,gamma指定了节点分裂所需的最小损失函数下降值,范围[0,+∞),该参数越大,算法越保守越不容易过拟合。
对模型训练结果进行评估,并且测试集输入综合能源站建设碳排放预测模型进行验证,将预测模型的预测结果与实际结果进行对比,对模型进行评估,在评估通过后,依据综合能源站建设碳排放预测模型评估效果确定最佳的综合能源站建设碳排放预测模型预测模型。模型评价依据公式(11)-(14)所示:
式中,yi是第i个样本的实际值,是第i个样本的预测值,/>是样本的平均值,n是样本数量。在本发明中,当R2大于等于0.8,且MAPE≤20%时,认为模型的准确度可以接受,保存模型。在所有保存的模型中,通过对MSE、MAE、R2、MAPE模型指标的对比选择最优的模型,在本发明中,在保证R2≥0.9、MAPE≤10%的情况下,取MAE、MSE两者中最小值的模型为最优模型。本发明基于以上四个模型评价指标保存了最优预测模型,模型参数如下表5所示。
表5最优机器学习模型的参数选择
参数名 | 最优参数值 | 含义 |
booster | gbtree | 每次迭代模型 |
learning_rate | 0.001 | 学习率 |
max_depth | 8 | 每颗树的最大深度 |
n_estimators | 5000 | 机器学习中树的个数 |
colsample_bytree | 0.6 | 列采样率 |
min_child_weight | 0 | 每个叶子里面的最小权重和 |
lambda | 1 | L2正则化参数 |
gamma | 0.0001 | 损失阈值 |
最优机器学习模型的指标评价效果如表6所示:
表6最优机器学习模型性能
MSE | MAE | R2 | MAPE | |
Training | 0.003363 | 0.041492 | 0.993361 | 1.82042 |
Testing | 0.00992 | 0.086771 | 0.973252 | 5.80986 |
步骤4,实际应用,向预测模型输入预测指标数据,模型输出综合能源站建设碳排放值,预测情况如表7所示。本研究提出的基于机器学习算法的综合能源站建设碳排放预测方法达到了较高的准确度,最大误差都在10%以内,平均绝对误差为5.8%,具有很高的实际与预测价值。
表7综合能源站建设碳排放预测效果
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围内。
Claims (10)
1.一种基于机器学习的综合能源站建设碳排放预测方法,其特征在于,该方法包括如下步骤:
步骤1,采集综合能源站建设碳排放预测指标体系及识别碳排放源;
步骤2,预处理综合能源站建设碳排放预测指标数据及碳排放源数据;
步骤3,构建基于机器学习算法的综合能源站建设碳排放预测模型,使用步骤2的数据对模型进行训练;
步骤4,向综合能源站建设碳排放预测模型输入预测指标数据,模型输出综合能源站建设碳排放值,对新建综合能源站建设碳排放进行预测。
2.根据权利要求1所述的一种基于机器学习的综合能源站建设碳排放预测方法,其特征在于,步骤1中,采集综合能源站建设碳排放预测指标体系包括综合能源站地上层数、基础埋深、总建筑面积、基础土方量、混凝土设计体积、钢筋设计重量;碳排放源包括综合能源站施工所需钢材消耗量、混凝土消耗量、电力消耗量、水消耗量。
3.根据权利要求1所述的一种基于机器学习的综合能源站建设碳排放预测方法,其特征在于,步骤2中,预处理综合能源站建设碳排放预测指标数据及碳排放源数据的具体方法如下:
步骤2-1,将综合能源站建设消耗的碳排放源数据转化为单位建筑面积的碳排放源数据;
步骤2-2,利用箱线图对采用单位建筑面积的碳排放源数据进行分析,识别缺失或异常数据作为待修复数据;
步骤2-3,利用K-最近邻算法对单位建筑面积碳排放源数据的缺失值或者异常值进行替换;
步骤2-4,利用经过替换后的单位建筑面积的碳排放源数据,结合各碳排放源的碳排放因子,计算单位建筑面积综合能源站建设碳排放数值,作为综合能源站建设碳排放预测模型的输出变量;
步骤2-5,利用Min-Max归一化方法分别处理每类综合能源站建设碳排放预测指标,作为综合能源站建设碳排放预测模型的输入变量。
5.根据权利要求3所述的一种基于机器学习的综合能源站建设碳排放预测方法,其特征在于,步骤2-2中的方法如下:取所有样本的25%分位点Q1和75%分位点Q2,Q1、Q2之间的差值为箱体的长度IQR,当单位建筑面积的碳排放源数值小于(Q1-1.5IQR)或者大于(Q2+1.5IQR)时,即为异常样本。
6.根据权利要求3或5所述的一种基于机器学习的综合能源站建设碳排放预测方法,其特征在于,步骤2-3中的方法如下:利用K-最近邻算法计算正常项目的预测指标与待修复项目的预测指标之间的欧氏距离,并选择最邻近的K个欧氏距离的正常项目的单位建筑面积的碳排放源数据平均值对单位建筑面积的碳排放源数据中的缺失值或者异常值进行替换。
8.根据权利要求3所述的一种基于机器学习的综合能源站建设碳排放预测方法,其特征在于,步骤2-5的方法如下:以每类综合能源站建设碳排放预测指标为对象分别进行处理,作为综合能源站建设碳排放预测模型的输入变量,形成输入变量集F={X1’,X2’,X3’,X4’,X5’,X6’},其中,Xj’={x′1j,x′2j,x′3j,x′4j,x′5j,…,x′mj},表示归一化处理后第j个预测指标数据集,由m个项目的第j个预测指标归一化处理后的数值组成;
式中:
xi′j代表第i个项目在第j个预测指标归一化处理后的数值;
xj,max,xj,min分别代表第j个预测指标同类中的最大值和最小值;
xij代表第i个项目在第j个预测指标的原始数值;
j代表预测指标类别,i代表不同项目,n代表项目数量。
9.根据权利要求1所述的一种基于机器学习的综合能源站建设碳排放预测方法,其特征在于,步骤3中,构建基于机器学习算法的综合能源站建设碳排放预测模型,并对模型进行训练的方法如下:
步骤3-1,将经过处理得到的综合能源站建设碳排放预测指标数据和单位建筑面积综合能源站建设碳排放数据划分训练集和测试集;
步骤3-2,在步骤3-1所得训练集基础上,将训练集分成K个相等大小的子集,K-1个子集用于模型训练,剩余的1个子集构成验证子集;
步骤3-3,构建基于XGBoost算法的综合能源站建设碳排放预测模型,XGBoost算法中使用的树集成模型以相加的方式进行训练,并基于K折交叉验证的方式,通过验证子集调整模型参数进行训练以得到多个综合能源站建设碳排放预测模型;
步骤3-4,将测试集输入综合能源站建设碳排放预测模型进行预测,将预测模型的预测结果与实际结果进行对比,确定最佳的综合能源站建设碳排放预测模型预测模型。
10.根据权利要求9所述的一种基于机器学习的综合能源站建设碳排放预测方法,其特征在于,步骤3-3的方法如下:
①以CART分类树作为基学习器,设定损失函数、目标函数与XGBoost预测模型,分别如公式(4)-(7)示:
设定损失函数:
设定目标函数:
设定XGBoost预测模型:
目标函数Objt写成如式(7)所示:
式中,C为常数项,Ω(ft(xi))为正则项,t为生成树的数量,Objt为生成第t棵树后的目标函数;
②依据泰勒公式展开,损失函数如公式(8):
式中,gi为损失函数的一阶导,hi为损失函数的二阶导;
③依据公式(7)、(8),将目标函数写为如公式(9)所示:
④基于公式(10)的目标函数,在输入训练集时,计算出每一步损失函数的一阶导gi及二阶导hi的值,然后最优化目标函数得到每一步的ft(xi),根据公式(6)得到整体模型,即为综合能源站建设碳排放预测模型;
⑤调整模型参数以得到不同的综合能源站建设碳排放预测模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310130789.1A CN116362376A (zh) | 2023-02-17 | 2023-02-17 | 基于机器学习的综合能源站建设碳排放预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310130789.1A CN116362376A (zh) | 2023-02-17 | 2023-02-17 | 基于机器学习的综合能源站建设碳排放预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116362376A true CN116362376A (zh) | 2023-06-30 |
Family
ID=86931255
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310130789.1A Pending CN116362376A (zh) | 2023-02-17 | 2023-02-17 | 基于机器学习的综合能源站建设碳排放预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116362376A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117251816A (zh) * | 2023-10-26 | 2023-12-19 | 南方电网能源发展研究院有限责任公司 | 碳排放数据的验证方法、装置、计算机设备和存储介质 |
CN117494063A (zh) * | 2023-09-08 | 2024-02-02 | 国网江苏省电力有限公司仪征市供电分公司 | 新型电力系统下企业碳排放监测方法、系统、终端及介质 |
-
2023
- 2023-02-17 CN CN202310130789.1A patent/CN116362376A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117494063A (zh) * | 2023-09-08 | 2024-02-02 | 国网江苏省电力有限公司仪征市供电分公司 | 新型电力系统下企业碳排放监测方法、系统、终端及介质 |
CN117494063B (zh) * | 2023-09-08 | 2024-06-07 | 国网江苏省电力有限公司仪征市供电分公司 | 新型电力系统下企业碳排放监测方法 |
CN117251816A (zh) * | 2023-10-26 | 2023-12-19 | 南方电网能源发展研究院有限责任公司 | 碳排放数据的验证方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cao et al. | Hybrid ensemble deep learning for deterministic and probabilistic low-voltage load forecasting | |
CN116362376A (zh) | 基于机器学习的综合能源站建设碳排放预测方法 | |
US20230196076A1 (en) | Method for optimally selecting flood-control operation scheme based on temporal convolutional network | |
CN108921339B (zh) | 基于分位数回归的遗传支持向量机光伏功率区间预测方法 | |
CN111915092B (zh) | 基于长短时记忆神经网络的超短期风电功率预测方法 | |
CN112990500B (zh) | 基于改进加权灰色关联分析的台区线损分析方法及系统 | |
CN111260117B (zh) | 一种基于气象因子的ca-narx水质预测方法 | |
CN112381673B (zh) | 一种基于数字孪生的园区用电信息分析方法及装置 | |
CN109978253B (zh) | 一种基于增量学习的电力系统短期负荷预测方法 | |
CN113449919B (zh) | 一种基于特征和趋势感知的用电量预测方法及系统 | |
CN107909221A (zh) | 基于组合神经网络的电力系统短期负荷预测方法 | |
CN115438833A (zh) | 一种短期电力负荷混合预测方法 | |
CN112884012A (zh) | 基于支持向量机原理的建筑能耗预测方法 | |
CN116757057A (zh) | 基于pso-ga-lstm模型的空气质量预测方法 | |
CN115358437A (zh) | 基于卷积神经网络的供电负荷预测方法 | |
CN112149896A (zh) | 一种基于注意力机制的机械设备多工况故障预测方法 | |
CN113762591B (zh) | 一种基于gru和多核svm对抗学习的短期电量预测方法及系统 | |
CN109408896B (zh) | 一种污水厌氧处理产气量多元智能实时监控方法 | |
CN112232570A (zh) | 一种正向有功总电量预测方法、装置及可读存储介质 | |
CN117113086A (zh) | 一种储能机组负荷预测方法、系统、电子设备及介质 | |
CN112014757A (zh) | 一种容量增量分析与遗传小波神经网络融合的电池soh估计方法 | |
CN114971090A (zh) | 一种电供暖负荷预测方法、系统、设备和介质 | |
CN115860212A (zh) | 一种配电网的风险预测方法与终端 | |
CN115511230A (zh) | 一种电能替代潜力分析预测方法 | |
CN112581311B (zh) | 一种多风电场聚合后出力长期波动特性预测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |