CN116362376A - 基于机器学习的综合能源站建设碳排放预测方法 - Google Patents

基于机器学习的综合能源站建设碳排放预测方法 Download PDF

Info

Publication number
CN116362376A
CN116362376A CN202310130789.1A CN202310130789A CN116362376A CN 116362376 A CN116362376 A CN 116362376A CN 202310130789 A CN202310130789 A CN 202310130789A CN 116362376 A CN116362376 A CN 116362376A
Authority
CN
China
Prior art keywords
carbon emission
energy station
comprehensive energy
prediction
construction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310130789.1A
Other languages
English (en)
Inventor
凌建
孙雷
马天
陈松涛
方磊
徐超
沈文韬
刘骁繁
林冬阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Jiangsu Electric Power Co Ltd
Original Assignee
State Grid Jiangsu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Jiangsu Electric Power Co Ltd filed Critical State Grid Jiangsu Electric Power Co Ltd
Priority to CN202310130789.1A priority Critical patent/CN116362376A/zh
Publication of CN116362376A publication Critical patent/CN116362376A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/22Social work or social welfare, e.g. community support activities or counselling services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/80Management or planning
    • Y02P90/84Greenhouse gas [GHG] management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Software Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Data Mining & Analysis (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Development Economics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于机器学习的综合能源站建设碳排放预测方法,该方法包括:采集综合能源站建设碳排放预测指标体系及识别碳排放源;预处理综合能源站项目预测指标数据及碳排放源数据;构建基于机器学习算法的综合能源站建设碳排放预测模型,以预测综合能源站建设碳排放。本发明提供了一个准确、快速和智能化的综合能源站建设碳排放预测的方法,减少了传统碳排放计算过程的复杂和繁琐性,为低碳设计和施工提供有效的、可信度高的数据支持。

Description

基于机器学习的综合能源站建设碳排放预测方法
技术领域
本发明属于碳排放预测技术领域,尤其是涉及基于机器学习的综合能源站建设碳排放预测方法。
背景技术
机器学习方法在综合能源站和建筑领域的预测研究中有着充分的应用前景,但是目前缺乏对综合能源站等综合能源站碳排放的研究。在综合能源站碳排放的相关研究中,综合能源站建设碳排放的分析和预测缺乏重视,并且在实际开展综合能源站建设碳排放评估的工作中,目前的碳排放计算方法多侧重于事中或者事后计算,依赖大量设计与施工数据,计算过程较为繁琐,而且由于参建单位众多、资料完整性差、技术复杂性高和数据收集困难的原因,导致综合能源站建设阶段碳排放的计算困难、实际开展效果较差、难以普遍推行,实际设计和施工指导意义不高。因此,亟需一种结合数据预处理与机器学习的智能化预测方法。在机器学习算法中,XGBoost算法是一种基于Boosting的新型集成学习算法,与传统的机器学习算法相比其具有运行速度快、泛化能力强、预测精度高、鲁棒性好等优点,此外XGBoost算法的模型可解释性较高,能用于小样本的预测,目前已经在径流预测、信用卡交易、项目投资预测、故障监测等领域得到了广泛应用,但在碳排放预测领域尚无深入应用。
发明内容
针对以上问题,本发明提出一种基于机器学习的综合能源站建设碳排放预测方法,首先立足综合能源站项目组成、建设过程和碳足迹的视角构建综合能源站建设碳排放预测指标体系并识别碳排放源,其次采集和处理综合能源站建设预测指标和碳排放源的相关数据,然后基于机器学习算法构建综合能源站建设碳排放预测模型并对模型进行训练、测试和评价。最后,实现实际应用,向综合能源站建设碳排放预测模型输入预测指标数据,得到综合能源站建设碳排放的预测值,完成对新建综合能源站项目建设碳排放的预测。
技术方案:本发明提出一种基于机器学习的综合能源站建设碳排放预测方法,该方法包括如下步骤:
步骤1,采集综合能源站建设碳排放预测指标体系及识别碳排放源;
步骤2,预处理综合能源站建设碳排放预测指标数据及碳排放源数据;
步骤3,构建基于机器学习算法的综合能源站建设碳排放预测模型,使用步骤2的数据对模型进行训练;
步骤4,向综合能源站建设碳排放预测模型输入预测指标数据,模型输出综合能源站建设碳排放值,完成对新建综合能源站建设碳排放的预测。
进一步的,步骤1中,采集综合能源站建设碳排放预测指标体系包括综合能源站地上层数、基础埋深、总建筑面积、基础土方量、混凝土设计体积、钢筋设计重量;碳排放源包括综合能源站施工所需钢材、混凝土、电力消耗量、水消耗量。
进一步的,步骤2中,预处理综合能源站建设碳排放预测指标数据及碳排放源数据的具体方法如下:
步骤2-1,将综合能源站建设消耗的碳排放源数据转化为单位建筑面积的碳排放源数据;
步骤2-2,利用箱线图对采用单位建筑面积的碳排放源数据进行分析,识别异常数据作为待修复数据;
步骤2-3,利用K-最近邻算法对单位建筑面积碳排放源数据的缺失值或者异常值进行替换;
步骤2-4,利用经过替换后的单位建筑面积的碳排放源数据,结合各碳排放源的碳排放因子,计算单位建筑面积综合能源站建设碳排放数值,作为综合能源站建设碳排放预测模型的输出变量;
步骤2-5,利用Min-Max归一化方法分别处理每类综合能源站建设碳排放预测指标,作为综合能源站建设碳排放预测模型的输入变量。
进一步的,步骤2-1中,通过公式(1)将综合能源站建设碳排放源数据转化为单位建筑面积的碳排放源数据;
Figure BDA0004083977830000021
式中:
Yi为第i种碳排放源单位建筑面积的消耗量,i为碳排放源种类;
Mi为第i种碳排放源的总量;
S为综合能源站总建筑面积。
进一步的,步骤2-2中的方法如下:取所有样本的25%分位点Q1和75%分位点Q2,Q1、Q2之间的差值为箱体的长度IQR,当单位建筑面积的碳排放源数值小于(Q1-1.5IQR)或者大于(Q2+1.5IQR)时,即为异常样本。
进一步的,步骤2-3中的方法如下:利用K-最近邻算法计算正常项目的预测指标与待修复项目的预测指标之间的欧氏距离,并选择最邻近的k个欧氏距离的正常项目的单位建筑面积的碳排放源数据平均值对单位建筑面积的碳排放源数据中的缺失值或者异常值进行替换。
进一步的,步骤2-4中的方法如下:通过各单位建筑面积的碳排放源数据与碳排放因子累乘求和以计算单位建筑面积综合能源站建设碳排放量,作为综合能源站建设碳排放预测模型的输出变量,计算模型如公式所示:
Figure BDA0004083977830000031
式中:
C为综合能源站建设过程单位建筑面积的碳排放量;
Yi为第i种碳排放源单位建筑面积的消耗量;
Fi为第i类碳排放源的碳排放因子,i为碳排放源种类,共有N种;
通过计算得到输出变量数据集L={Ci}。
进一步的,步骤2-5的方法如下:以每类综合能源站建设碳排放预测指标为对象分别进行处理,作为综合能源站建设碳排放预测模型的输入变量,形成输入变量集F={X1’,X2’,X3’,X4’,X5’,X6’},其中,Xj’={x′1j,x′2j,x′3j,x′4j,x′5j,…,x′mj},表示归一化处理后第j个预测指标数据集,由m个项目的第j个预测指标归一化处理后的数值组成;
Figure BDA0004083977830000032
式中:
x′ij代表第i个项目在第j个预测指标归一化处理后的数值;
xj,max,xj,min分别代表第j个预测指标同类中的最大值和最小值;
xij代表第i个项目在第j个预测指标的原始数值;
j代表预测指标类别,i代表不同项目,n代表项目数量。
进一步的,步骤3中,构建基于机器学习算法的综合能源站建设碳排放预测模型,并对模型进行训练的方法如下:
步骤3-1,将经过处理得到的综合能源站建设碳排放预测指标数据和单位建筑面积综合能源站建设碳排放数据划分训练集和测试集;
步骤3-2,在步骤3-1所得训练集基础上,将训练集分成K个相等大小的子集,K-1个子集用于模型训练,剩余的1个子集构成验证子集;
步骤3-3,构建基于XGBoost算法的综合能源站建设碳排放预测模型,XGBoost算法中使用的树集成模型以相加的方式进行训练,并基于K折交叉验证的方式,通过验证子集调整模型参数进行训练以得到多个综合能源站建设碳排放预测模型;
步骤3-4,将测试集输入综合能源站建设碳排放预测模型进行预测,将预测模型的预测结果与实际结果进行对比,确定最佳的综合能源站建设碳排放预测模型预测模型。
进一步的,步骤3-3的方法如下:
①以CART分类树作为基学习器,设定损失函数、目标函数与XGBoost预测模型,分别如公式(4)-(7)示:
设定损失函数:
Figure BDA0004083977830000041
式中,
Figure BDA0004083977830000042
分别表示综合能源站建设碳排放的实际值与综合能源站建设碳排放的预测值,n为样本数量,l()为损失函数;
设定目标函数:
Figure BDA0004083977830000043
式中,ft(xi)是第t棵树的预测模型,
Figure BDA0004083977830000044
是将全部t棵树的复杂度进行求和,添加到目标函数的正则化项,用于防止模型过拟合;
设定XGBoost预测模型:
Figure BDA0004083977830000045
式中,
Figure BDA0004083977830000046
均是迭代t次后,训练集输入样本xi的损失预测值,/>
Figure BDA0004083977830000047
是前t-1棵树的损失预测值,ft(xi)为第t棵树的预测模型;
目标函数Objt写成如式(7)所示:
Figure BDA0004083977830000048
式中,C为常数项,Ω(ft(xi))为正则项,t为生成树的数量,Objt为生成第t棵树后的目标函数;
②依据泰勒公式展开,损失函数如公式(8):
Figure BDA0004083977830000051
式中,gi为损失函数的一阶导,hi为损失函数的二阶导;
③依据公式(7)、(8),将目标函数写为如公式(9)所示:
Figure BDA0004083977830000052
式中,
Figure BDA0004083977830000054
为常数,目标函数进一步优化,如公式(10):
Figure BDA0004083977830000053
④基于公式(10)的目标函数,在输入训练集时,计算出每一步损失函数的一阶导gi及二阶导hi的值,然后最优化目标函数得到每一步的ft(xi),根据公式(6)得到整体模型,即为综合能源站建设碳排放预测模型;
⑤调整模型参数以得到不同的综合能源站建设碳排放预测模型。
有益效果:与现有技术相比,本发明的技术方案与现有技术相比具有以下有益效果:
(1)本发明通过对综合能源站项目组成、建设过程和碳排放源的分析,构建了综合能源站建设碳排放预测指标体系,明确了综合能源站建设碳排放来源,并且确定了数据处理的方法和碳排放计算模型。本发明构建了基于机器学习算法的综合能源站建设碳排放预测模型,通过K折交叉验证训练得到最优模型,并且在测试集上对综合能源站建设碳排放进行预测和效果评估,从而完成对新建综合能源站项目建设碳排放的预测。
(2)本发明一方面对综合能源站建设过程碳排放的预测提供了思路和方法,并且对于如何处理数据提供了参考,对于一些数量有限、数据存在问题的项目具有较高的参考价值。另一方面,本发明构建的基于机器学习算法的综合能源站建设碳排放预测模型拟合优良,模型误差小,能较好地预测综合能源站建设碳排放,从而避免了综合能源站建设碳排放计算过程中大量数据的收集和繁琐的计算,人工干预较少,预测过程简单,能够实现事前对综合能源站建设碳排放的预测,具有较强的普适性规律。
附图说明
图1是本发明方法的实施流程图。
图2是本发明方法采用箱线图进行异常值识别的示意图。
图3是本发明方法采用5折交叉验证构建并训练模型的示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明进行详细描述,实施例给出了综合能源站建设碳排放预测流程。
实施例
本发明为了解决现有技术中存在的问题,提供了一种基于机器学习的综合能源站建设碳排放预测方法,该方法能够通过综合能源站建设碳排放影响因素实现对综合能源站建设碳排放的预测。图1是本发明的实施流程图。本发明公开了一种基于机器学习的综合能源站建设碳排放预测方法,具体包括以下步骤:
步骤1,采集综合能源站建设碳排放预测指标体系及识别碳排放源。
综合能源站建设碳排放预测指标需要反映建筑结构类型、建筑材料用量和工程量等特征,因此本发明将综合能源站建设碳排放预测指标确定为地上层数、基础埋深、总建筑面积、基础土方量、混凝土设计体积、钢筋设计重量,形成六个预测指标组成的预测指标体系。碳排放源包括综合能源站施工所需钢材、混凝土、电力消耗量、水消耗量。
步骤2,采集并处理综合能源站建设碳排放预测指标及碳排放源数据。综合能源站建设碳排放预测指标及碳排放源数据采集方式如下表1所示。
表1数据采集表
Figure BDA0004083977830000061
Figure BDA0004083977830000071
将综合能源站建设碳排放源数据转化为单位建筑面积的碳排放源数据,以便进行数据分析与处理,见公式(1):
Figure BDA0004083977830000072
式中:
Yi为第i种碳排放源单位建筑面积的消耗量,i为碳排放源种类。
Mi为第i种碳排放源的总量。
S为总建筑面积。
以某项目为例,建筑面积S=1182.6m2,钢材消耗量M1=1200t,则该项目的单位建筑面积钢材消耗量
Figure BDA0004083977830000073
其他类型的碳排放源以同样的方式处理。
进一步地,利用箱线图对采用单位建筑面积的碳排放源数据进行分析,识别其中异常的数据,作为待修复的数据。取所有样本的25%分位点Q1和75%分位点Q2,Q1、Q2之间的差值为箱体的长度IQR,当单位建筑面积的碳排放源数值小于(Q1-1.5IQR)或者大于(Q2+1.5IQR)时,即为异常样本。本发明绘制的箱线图如图2所示,箱子外部的点为异常值,即在某一碳排放源数值上存在异常的项目序号。以单位面积的混凝土消耗量为例,第5、6、33、46个项目的单位建筑面积混凝土消耗量存在异常,作为待修复的对象。其他类型的单位建筑面积碳排放源数据处理过程以同样的方式处理。
进一步地,利用K-最近邻算法计算正常项目的预测指标与待修复项目的预测指标之间的欧氏距离,并选择最邻近k个欧氏距离的正常项目的单位建筑面积碳排放源平均值对单位建筑面积的碳排放源数据中的缺失值或者异常值进行替换。
进一步地,完成数据修复后,通过各单位建筑面积的碳排放源数据与碳排放因子累乘求和,计算单位建筑面积综合能源站建设碳排放量,作为综合能源站建设碳排放预测模型的输出变量,计算模型如公式(2)所示:
Figure BDA0004083977830000074
式中:
C为综合能源站建设过程单位建筑面积的碳排放量(单位:kgCO2e/m2)。
Yi为第i种碳排放源单位建筑面积的消耗量。
Fi为第i类碳排放源的碳排放因子,i为碳排放源种类,共有4种。
通过计算模型得到输出变量数据集L={Ci}。
第i个综合能源站项目单位建筑面积碳排放源数值如下表2所示,各碳排放源的碳排放因子如表3所示,结合公式(2)计算第i个综合能源站项目的单位建筑面积综合能源站建设碳排放。
表2单位建筑面积的碳排放源消耗量
Figure BDA0004083977830000081
表3各碳排放源碳排放因子
类别 数值 单位
电力 0.581 kgCO2e/Kwh
钢材 2.35 kgCO2e/kg
混凝土 295 kgCO2e/m3
0.168 kgCO2e/t
进一步地,利用Min-Max归一化方法处理各类综合能源站建设碳排放预测指标,如公式(3)所示,以每类综合能源站建设碳排放预测指标为对象分别进行处理,作为综合能源站建设碳排放预测模型的输入变量,形成输入变量集F={X1’,X2’,X3’,X4’,X5’,X6’},其中Xj’={x′1j,x′2j,x′3j,x′4j,x′5j,…,x′mj}。
Figure BDA0004083977830000082
式中:
x′ij代表第i个项目在第j个预测指标归一化处理后的数值。
xj,max,xj,min分别代表第j个预测指标的最大值和最小值。
xij代表第i个项目在第j个预测指标的原始数值。
j代表预测指标类别,i代表不同项目,m代表项目数量。
归一化处理结果如表4所示。
表4Min-Max归一化处理结果
X1 X2 X4 X5 X6
0.24 0.11 0.07 0.37 0.07
0.09 0.12 0.01 0.12 0.04
0.12 0.08 0.03 0.07 0.03
x′i1 x′i2 x′i4 x′i5 x′i6
0.12 0.15 0.04 0.09 0.06
0.12 0.15 ... 0.04 0.09 0.03
0.05 0.02 ... 0.09 0.34 0.00
0.14 0.08 ... 0.04 0.09 0.04
步骤3,构建基于机器学习算法的综合能源站建设碳排放预测模型。
步骤3-1,将经过处理得到的综合能源站建设碳排放预测指标数据和单位建筑面积综合能源站建设碳排放数据划分训练集和测试集;
在构建基于机器学习算法的综合能源站建设预测模型前,根据步骤2得到的输入数据集F={X1’,X2’,X3’,X4’,X5’,X6’}和输出数据集L={Ci},借助Python中sklearn包划分为训练集和测试集,并设置比例为7:3。
步骤3-2,在步骤3-1所得训练集基础上,将数据集分成K个相等大小的子集,K-1个子集用于模型训练,剩余的1个子集构成验证子集;
为了消除样本的划分方式及排序的随机性对预测结果的影响,数据集划分后所得的训练集的基础上,进一步将数据集分成K个相等大小的子集,K-1个子集用于模型构建,剩余的1个子集用于模型验证。这K次结果的评价指标的均值作为对模型精度的估计,在实践中,K的典型选择范围为5~10,在本发明中取K=5,如图3所示。
步骤3-3,构建基于XGBoost算法的综合能源站建设碳排放预测模型,XGBoost算法中使用的树集成模型以相加的方式进行训练,并基于K折交叉验证的方式,通过验证子集调整模型参数进行训练,得到多个综合能源站建设碳排放预测模型;
步骤3-4,将测试集输入综合能源站建设碳排放预测模型进行预测,将预测模型的预测结果与实际结果进行对比,确定最佳的综合能源站建设碳排放预测模型预测模型。
构建基于XGBoost算法的综合能源站建设碳排放预测模型,XGBoost算法中使用的树集成模型以相加的方式进行训练,直到达到树的深度阈值时停止分裂,保存综合能源站建设碳排放预测模型,本发明构建基于Python中机器学习算法的综合能源站建设碳排放预测模型,包括以下步骤:
(1)以CART分类树作为基学习器,设定损失函数、目标函数与XGBoost预测模型,分别如公式(4)-(7)示:
设定损失函数:
Figure BDA0004083977830000101
式中,
Figure BDA0004083977830000102
分别表示综合能源站建设碳排放的实际值与综合能源站建设碳排放的预测值,n为样本数量,l()为损失函数;
设定目标函数:
Figure BDA0004083977830000103
式中,ft(xi)是第t棵树的预测模型,
Figure BDA0004083977830000104
是将全部t棵树的复杂度进行求和,添加到目标函数的正则化项,用于防止模型过拟合;
设定XGBoost预测模型:
Figure BDA0004083977830000105
式中,
Figure BDA0004083977830000106
均是迭代t次后,训练集输入样本xi的损失预测值,/>
Figure BDA0004083977830000107
是前t-1棵树的损失预测值,ft(xi)为第t棵树的预测模型;
目标函数Objt写成如式(7)所示:
Figure BDA0004083977830000108
式中,C为常数项,Ω(ft(xi))为正则项,t为生成树的数量,Objt为生成第t棵树后的目标函数。
(2)依据泰勒公式展开,损失函数,如公式(8):
Figure BDA0004083977830000109
式中,gi为损失函数的一阶导,hi为损失函数的二阶导;
(3)依据公式(7)、(8),目标函数写成如公式(9)所示:
Figure BDA0004083977830000111
式中,
Figure BDA0004083977830000112
为常数,目标函数进一步优化,如公式(10):
Figure BDA0004083977830000113
(4)基于公式(10)的目标函数,在输入训练集时,只需计算出每一步损失函数的一阶导gi及二阶导hi的值,然后最优化目标函数得到每一步的ft(xi),根据公式(6)得到整体模型,即为综合能源站建设碳排放预测模型;
(5)调整模型参数以得到不同的综合能源站建设碳排放预测模型。
调整机器学习模型的参数,保存性能最好的模型。本发明基于python中的机器学习包中的XGBRegressor构建模型和调整参数,具体参数包括:
①Booster为选择每次迭代的模型,一般两种选择:gbtree和gbliner。
②learning_rate为学习率,范围[0,1],该参数越小,计算速度越慢;该参数越大,有可能无法收敛。
③max_depth为每颗树的最大深度,范围[0,+∞),该参数越大,越容易出现过拟合,max_depth越大,模型会学到更具体更局部的样本。
④n_estimators为机器学习中树的个数,数量越多模型性能越好,但当数量到一定程度,模型性能提升有限,反而会拖累算法的速度。
⑤colsample_bytree为列采样率,一般是特征采样率,通过对每棵树的生成用的特征采用类似于随机森林的列采样,范围(0,1]。
⑥min_child_weight为每个叶子里面的最小权重和,范围[0,+∞)。该参数越大,算法越保守,越不容易过拟合。
⑦lambda为L2正则化参数,用来控制机器学习的正则化部分。范围[0,+∞),该参数越大,越不容易过拟合。
⑧gamma为损失阈值,是控制叶子个数的参数,gamma指定了节点分裂所需的最小损失函数下降值,范围[0,+∞),该参数越大,算法越保守越不容易过拟合。
对模型训练结果进行评估,并且测试集输入综合能源站建设碳排放预测模型进行验证,将预测模型的预测结果与实际结果进行对比,对模型进行评估,在评估通过后,依据综合能源站建设碳排放预测模型评估效果确定最佳的综合能源站建设碳排放预测模型预测模型。模型评价依据公式(11)-(14)所示:
Figure BDA0004083977830000121
Figure BDA0004083977830000122
Figure BDA0004083977830000123
Figure BDA0004083977830000124
式中,yi是第i个样本的实际值,
Figure BDA0004083977830000125
是第i个样本的预测值,/>
Figure BDA0004083977830000126
是样本的平均值,n是样本数量。在本发明中,当R2大于等于0.8,且MAPE≤20%时,认为模型的准确度可以接受,保存模型。在所有保存的模型中,通过对MSE、MAE、R2、MAPE模型指标的对比选择最优的模型,在本发明中,在保证R2≥0.9、MAPE≤10%的情况下,取MAE、MSE两者中最小值的模型为最优模型。本发明基于以上四个模型评价指标保存了最优预测模型,模型参数如下表5所示。
表5最优机器学习模型的参数选择
参数名 最优参数值 含义
booster gbtree 每次迭代模型
learning_rate 0.001 学习率
max_depth 8 每颗树的最大深度
n_estimators 5000 机器学习中树的个数
colsample_bytree 0.6 列采样率
min_child_weight 0 每个叶子里面的最小权重和
lambda 1 L2正则化参数
gamma 0.0001 损失阈值
最优机器学习模型的指标评价效果如表6所示:
表6最优机器学习模型性能
MSE MAE R2 MAPE
Training 0.003363 0.041492 0.993361 1.82042
Testing 0.00992 0.086771 0.973252 5.80986
步骤4,实际应用,向预测模型输入预测指标数据,模型输出综合能源站建设碳排放值,预测情况如表7所示。本研究提出的基于机器学习算法的综合能源站建设碳排放预测方法达到了较高的准确度,最大误差都在10%以内,平均绝对误差为5.8%,具有很高的实际与预测价值。
表7综合能源站建设碳排放预测效果
Figure BDA0004083977830000131
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围内。

Claims (10)

1.一种基于机器学习的综合能源站建设碳排放预测方法,其特征在于,该方法包括如下步骤:
步骤1,采集综合能源站建设碳排放预测指标体系及识别碳排放源;
步骤2,预处理综合能源站建设碳排放预测指标数据及碳排放源数据;
步骤3,构建基于机器学习算法的综合能源站建设碳排放预测模型,使用步骤2的数据对模型进行训练;
步骤4,向综合能源站建设碳排放预测模型输入预测指标数据,模型输出综合能源站建设碳排放值,对新建综合能源站建设碳排放进行预测。
2.根据权利要求1所述的一种基于机器学习的综合能源站建设碳排放预测方法,其特征在于,步骤1中,采集综合能源站建设碳排放预测指标体系包括综合能源站地上层数、基础埋深、总建筑面积、基础土方量、混凝土设计体积、钢筋设计重量;碳排放源包括综合能源站施工所需钢材消耗量、混凝土消耗量、电力消耗量、水消耗量。
3.根据权利要求1所述的一种基于机器学习的综合能源站建设碳排放预测方法,其特征在于,步骤2中,预处理综合能源站建设碳排放预测指标数据及碳排放源数据的具体方法如下:
步骤2-1,将综合能源站建设消耗的碳排放源数据转化为单位建筑面积的碳排放源数据;
步骤2-2,利用箱线图对采用单位建筑面积的碳排放源数据进行分析,识别缺失或异常数据作为待修复数据;
步骤2-3,利用K-最近邻算法对单位建筑面积碳排放源数据的缺失值或者异常值进行替换;
步骤2-4,利用经过替换后的单位建筑面积的碳排放源数据,结合各碳排放源的碳排放因子,计算单位建筑面积综合能源站建设碳排放数值,作为综合能源站建设碳排放预测模型的输出变量;
步骤2-5,利用Min-Max归一化方法分别处理每类综合能源站建设碳排放预测指标,作为综合能源站建设碳排放预测模型的输入变量。
4.根据权利要求3所述的一种基于机器学习的综合能源站建设碳排放预测方法,其特征在于,步骤2-1中,通过公式(1)将综合能源站建设碳排放源数据转化为单位建筑面积的碳排放源数据;
Figure QLYQS_1
式中:
Yi为第i种碳排放源单位建筑面积的消耗量,i为碳排放源种类;
Mi为第i种碳排放源的总量;
S为综合能源站总建筑面积。
5.根据权利要求3所述的一种基于机器学习的综合能源站建设碳排放预测方法,其特征在于,步骤2-2中的方法如下:取所有样本的25%分位点Q1和75%分位点Q2,Q1、Q2之间的差值为箱体的长度IQR,当单位建筑面积的碳排放源数值小于(Q1-1.5IQR)或者大于(Q2+1.5IQR)时,即为异常样本。
6.根据权利要求3或5所述的一种基于机器学习的综合能源站建设碳排放预测方法,其特征在于,步骤2-3中的方法如下:利用K-最近邻算法计算正常项目的预测指标与待修复项目的预测指标之间的欧氏距离,并选择最邻近的K个欧氏距离的正常项目的单位建筑面积的碳排放源数据平均值对单位建筑面积的碳排放源数据中的缺失值或者异常值进行替换。
7.根据权利要求3所述的一种基于机器学习的综合能源站建设碳排放预测方法,其特征在于,步骤2-4中的方法如下:通过各单位建筑面积的碳排放源数据与碳排放因子累乘求和以计算单位建筑面积综合能源站建设碳排放量,作为综合能源站建设碳排放预测模型的输出变量,计算模型如公式所示:
Figure QLYQS_2
式中:
C为综合能源站建设过程单位建筑面积的碳排放量;
Yi为第i种碳排放源单位建筑面积的消耗量;
Fi为第i类碳排放源的碳排放因子,i为碳排放源种类,共有4种;
通过计算得到输出变量数据集L={Ci}。
8.根据权利要求3所述的一种基于机器学习的综合能源站建设碳排放预测方法,其特征在于,步骤2-5的方法如下:以每类综合能源站建设碳排放预测指标为对象分别进行处理,作为综合能源站建设碳排放预测模型的输入变量,形成输入变量集F={X1’,X2’,X3’,X4’,X5’,X6’},其中,Xj’={x′1j,x′2j,x′3j,x′4j,x′5j,…,x′mj},表示归一化处理后第j个预测指标数据集,由m个项目的第j个预测指标归一化处理后的数值组成;
Figure QLYQS_3
式中:
xij代表第i个项目在第j个预测指标归一化处理后的数值;
xj,max,xj,min分别代表第j个预测指标同类中的最大值和最小值;
xij代表第i个项目在第j个预测指标的原始数值;
j代表预测指标类别,i代表不同项目,n代表项目数量。
9.根据权利要求1所述的一种基于机器学习的综合能源站建设碳排放预测方法,其特征在于,步骤3中,构建基于机器学习算法的综合能源站建设碳排放预测模型,并对模型进行训练的方法如下:
步骤3-1,将经过处理得到的综合能源站建设碳排放预测指标数据和单位建筑面积综合能源站建设碳排放数据划分训练集和测试集;
步骤3-2,在步骤3-1所得训练集基础上,将训练集分成K个相等大小的子集,K-1个子集用于模型训练,剩余的1个子集构成验证子集;
步骤3-3,构建基于XGBoost算法的综合能源站建设碳排放预测模型,XGBoost算法中使用的树集成模型以相加的方式进行训练,并基于K折交叉验证的方式,通过验证子集调整模型参数进行训练以得到多个综合能源站建设碳排放预测模型;
步骤3-4,将测试集输入综合能源站建设碳排放预测模型进行预测,将预测模型的预测结果与实际结果进行对比,确定最佳的综合能源站建设碳排放预测模型预测模型。
10.根据权利要求9所述的一种基于机器学习的综合能源站建设碳排放预测方法,其特征在于,步骤3-3的方法如下:
①以CART分类树作为基学习器,设定损失函数、目标函数与XGBoost预测模型,分别如公式(4)-(7)示:
设定损失函数:
Figure QLYQS_4
式中,yi,
Figure QLYQS_5
分别表示综合能源站建设碳排放的实际值与综合能源站建设碳排放的预测值,n为样本数量,l()为损失函数;
设定目标函数:
Figure QLYQS_6
式中,ft(x))是第t棵树的预测模型,
Figure QLYQS_7
是将全部t棵树的复杂度进行求和,添加到目标函数的正则化项,用于防止模型过拟合;
设定XGBoost预测模型:
Figure QLYQS_8
式中,
Figure QLYQS_9
均是迭代t次后,训练集输入样本xi的损失预测值,/>
Figure QLYQS_10
是前t-1棵树的损失预测值,ft(x))为第t棵树的预测模型;
目标函数Objt写成如式(7)所示:
Figure QLYQS_11
式中,C为常数项,Ω(ft(xi))为正则项,t为生成树的数量,Objt为生成第t棵树后的目标函数;
②依据泰勒公式展开,损失函数如公式(8):
Figure QLYQS_12
式中,gi为损失函数的一阶导,hi为损失函数的二阶导;
③依据公式(7)、(8),将目标函数写为如公式(9)所示:
Figure QLYQS_13
式中,
Figure QLYQS_14
为常数,目标函数进一步优化,如公式(10):
Figure QLYQS_15
④基于公式(10)的目标函数,在输入训练集时,计算出每一步损失函数的一阶导gi及二阶导hi的值,然后最优化目标函数得到每一步的ft(xi),根据公式(6)得到整体模型,即为综合能源站建设碳排放预测模型;
⑤调整模型参数以得到不同的综合能源站建设碳排放预测模型。
CN202310130789.1A 2023-02-17 2023-02-17 基于机器学习的综合能源站建设碳排放预测方法 Pending CN116362376A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310130789.1A CN116362376A (zh) 2023-02-17 2023-02-17 基于机器学习的综合能源站建设碳排放预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310130789.1A CN116362376A (zh) 2023-02-17 2023-02-17 基于机器学习的综合能源站建设碳排放预测方法

Publications (1)

Publication Number Publication Date
CN116362376A true CN116362376A (zh) 2023-06-30

Family

ID=86931255

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310130789.1A Pending CN116362376A (zh) 2023-02-17 2023-02-17 基于机器学习的综合能源站建设碳排放预测方法

Country Status (1)

Country Link
CN (1) CN116362376A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117251816A (zh) * 2023-10-26 2023-12-19 南方电网能源发展研究院有限责任公司 碳排放数据的验证方法、装置、计算机设备和存储介质
CN117494063A (zh) * 2023-09-08 2024-02-02 国网江苏省电力有限公司仪征市供电分公司 新型电力系统下企业碳排放监测方法、系统、终端及介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117494063A (zh) * 2023-09-08 2024-02-02 国网江苏省电力有限公司仪征市供电分公司 新型电力系统下企业碳排放监测方法、系统、终端及介质
CN117494063B (zh) * 2023-09-08 2024-06-07 国网江苏省电力有限公司仪征市供电分公司 新型电力系统下企业碳排放监测方法
CN117251816A (zh) * 2023-10-26 2023-12-19 南方电网能源发展研究院有限责任公司 碳排放数据的验证方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
Cao et al. Hybrid ensemble deep learning for deterministic and probabilistic low-voltage load forecasting
CN116362376A (zh) 基于机器学习的综合能源站建设碳排放预测方法
US20230196076A1 (en) Method for optimally selecting flood-control operation scheme based on temporal convolutional network
CN108921339B (zh) 基于分位数回归的遗传支持向量机光伏功率区间预测方法
CN111915092B (zh) 基于长短时记忆神经网络的超短期风电功率预测方法
CN112990500B (zh) 基于改进加权灰色关联分析的台区线损分析方法及系统
CN111260117B (zh) 一种基于气象因子的ca-narx水质预测方法
CN112381673B (zh) 一种基于数字孪生的园区用电信息分析方法及装置
CN109978253B (zh) 一种基于增量学习的电力系统短期负荷预测方法
CN113449919B (zh) 一种基于特征和趋势感知的用电量预测方法及系统
CN107909221A (zh) 基于组合神经网络的电力系统短期负荷预测方法
CN115438833A (zh) 一种短期电力负荷混合预测方法
CN112884012A (zh) 基于支持向量机原理的建筑能耗预测方法
CN116757057A (zh) 基于pso-ga-lstm模型的空气质量预测方法
CN115358437A (zh) 基于卷积神经网络的供电负荷预测方法
CN112149896A (zh) 一种基于注意力机制的机械设备多工况故障预测方法
CN113762591B (zh) 一种基于gru和多核svm对抗学习的短期电量预测方法及系统
CN109408896B (zh) 一种污水厌氧处理产气量多元智能实时监控方法
CN112232570A (zh) 一种正向有功总电量预测方法、装置及可读存储介质
CN117113086A (zh) 一种储能机组负荷预测方法、系统、电子设备及介质
CN112014757A (zh) 一种容量增量分析与遗传小波神经网络融合的电池soh估计方法
CN114971090A (zh) 一种电供暖负荷预测方法、系统、设备和介质
CN115860212A (zh) 一种配电网的风险预测方法与终端
CN115511230A (zh) 一种电能替代潜力分析预测方法
CN112581311B (zh) 一种多风电场聚合后出力长期波动特性预测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination