CN116341929A - 一种基于聚类和自适应梯度提升决策树的预测方法 - Google Patents
一种基于聚类和自适应梯度提升决策树的预测方法 Download PDFInfo
- Publication number
- CN116341929A CN116341929A CN202310327926.0A CN202310327926A CN116341929A CN 116341929 A CN116341929 A CN 116341929A CN 202310327926 A CN202310327926 A CN 202310327926A CN 116341929 A CN116341929 A CN 116341929A
- Authority
- CN
- China
- Prior art keywords
- data
- energy consumption
- feature
- loss function
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 82
- 238000003066 decision tree Methods 0.000 title claims abstract description 32
- 230000003044 adaptive effect Effects 0.000 title claims description 24
- 238000005265 energy consumption Methods 0.000 claims abstract description 115
- 239000000203 mixture Substances 0.000 claims abstract description 24
- 238000007781 pre-processing Methods 0.000 claims abstract description 17
- 230000002159 abnormal effect Effects 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims description 42
- 238000004422 calculation algorithm Methods 0.000 claims description 25
- 230000000694 effects Effects 0.000 claims description 17
- 230000008030 elimination Effects 0.000 claims description 16
- 238000003379 elimination reaction Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 7
- 230000002068 genetic effect Effects 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 99
- 238000010586 diagram Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000013507 mapping Methods 0.000 description 4
- 238000007637 random forest analysis Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000012417 linear regression Methods 0.000 description 3
- 230000015654 memory Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000012163 sequencing technique Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000002547 anomalous effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000004134 energy conservation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 239000005431 greenhouse gas Substances 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012887 quadratic function Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0637—Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
- G06Q10/06375—Prediction of business process outcome or impact based on a proposed change
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/08—Construction
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
发明公开了一种基于聚类和自适应梯度提升决策树的预测方法,通过MRGALnet模型对原始数据进行预处理,删除缺失数据、无效数据和异常数据,再进行MI+RFE两步特征选择,筛选出与建筑能耗相关性强的特征,然后对筛选之后的建筑数据利用高斯混合模型进行分类,将能耗数据相似的建筑划分到同一类;并基于AR自适应损失函数设计ALGBM预测方法,该方法可以根据不同聚类的能耗数据自适应的确定损失函数超参数,再利用AR损失函数对预测误差进行修正以提高模型预测性能,发明公开了一种基于聚类和自适应梯度提升决策树的建筑能耗预测方法,通过结合MI、REF、高斯混合聚类和ALGBM,进一步提高预测精度和收敛速度,从而提高模型预测精度。
Description
技术领域
本发明涉及一种建筑能耗预测领域,具体的涉及一种基于聚类和自适应梯度提升决策树的预测方法。
背景技术
随着时代的不断发展,近些年来能源消耗量持续增长,能源问题已成为了一个全球性的问题。节能和可持续性建筑已成为节约环境的当务之急,因为建筑效率低下是世界能源消耗和温室气体排放的主要原因。根据2016年International Energy Agency报告指出,其中建筑能耗占全球能源总消耗的30%。在欧洲,建筑相关能源消耗占能源消耗总量的40%。中国建筑能耗增长1.7倍,建筑能耗占能源消耗总量的比重相对稳定在17.7%~20.3%之间。建筑能耗的准确预测对于能源管理、设备效率提升、建筑能源与电网合作等方面变得越来越重要。建筑物中的建筑能耗预测已经通过不同的方法得到了广泛的研究。
能源使用强度(Energy Use Intensity,EUI)用于衡量不同建筑能源综合利用效率,即建筑能源消耗与产出的比重。在建筑能耗预测中,EUI一般用单位面积能耗来表示。EUI预测一直受到高度重视,已经有许多研究人员开发了许多强大的仿真工具,例如EnergyPlus、DEST和eQuest。这些工具可以精确地计算具有精确边界条件的建筑能耗,并提供有关能耗过程的有价值的见解,具有明确的物理意义。然而这些工具也有缺点,因为他们对边界条件极其敏感,而边界条件很大程度上依赖于专业知识。除此之外,建筑能耗模拟非常耗时,这和大数据背景下快速准确计算的基本思想不符。而数据挖掘技术的不断崛起,并彻底改变了许多行业,因此,数据驱动的方法已经成为建筑能耗预测领域的主流。
更好地了解建筑能源效率的研究引起了各种研究人员的广泛注意,并通过机器学习产生了新的发展。近年来,研究表明,来自机器学习和人工智能领域的预测技术,如支持向量回归和人工神经网络,在建筑能源预测方面工作的很好。研究还表明,与线性技术相比,非线性技术可以获得更准确的结果,例如多元线性回归和自回归移动平均。
目前许多学者采用了不同的预测方法来预测建筑能耗。Hailing Sun利用BP神经网络建立了建筑能耗预测模型,其模型预测精度高,且输入参数少,预测效果好。JangJihoon等人考虑到数据时序性和非线性关系,使用长短期记忆神经网络,构建非住宅建筑供暖系统能耗预测模型。事实上,只有通过准确的建筑能耗预测模型来正确定义基线情景,建筑中能源消耗效率措施的实施才能产生可量化的影响。在实际中,节能是通过将实际能效措施厚的实际监测能耗与预测能耗进行比较来确定的。国际测量和验证协议(IPMVP)是一个在建筑物中设计和实施节能措施的框架,该框架接受线性回归模型来定义建筑物中的基线消耗能源消耗情景,在此基础上可以量化节约。然而,由于输入变量和能源消耗之间的关系可能并不总是线性描述,线性模型往是不准确的,为了提高模型的准确性,必须考虑大量的表征变量,这会导致模型复杂。因此,研究人员开始把方向放在了集成方法,例如轻量型梯度提升机(LightGBM,LGBM)和随机森林(Random Forest,RF)采用Bagging集成学习方式,能够提升训练效率,节省时间。
针对数据存在离群值的问题。机器学习中常用的损失函数,对误差大的灵敏度比误差小的高,即模型偏向于减少最大的误差,难以有效降低离群值对预测效果的影响,且常用的损失函数无法根据样本特征自适应调整。
发明内容
本发明为了克服以上技术的不足,提供了一种基于聚类和自适应梯度提升决策树的预测方法,以解决建筑能耗数据之间存在非线性和离群值点的问题,通过MI+REF特征选择算法有效去除冗余特征,GMM聚类方法对原始数据进行合理的聚类划分,采用的ALGBM模型,对不同的聚类的能耗数据自适应的确定损失函数超参数,提升预测的准确性和鲁棒性。
本发明克服其技术问题所采用的技术方案是:本发明提出的一种基于聚类和自适应梯度提升决策树的预测方法,具体包括:S1,对原始建筑能耗数据进行数据预处理;S2,基于互信息法和递归特征消除法对数据预处理后的数据进行特征选择,从而得到最优特征变量集合,并将最优特征变量集合划分为训练集和测试集;S3,基于高斯混合聚类对训练集进行分类得到若干聚类后的能耗数据;S4,基于自适应梯度提升决策树ALGBM对每个聚类的能耗数据进行预测,并对预测误差进行修正得到能耗最终预测结果。
进一步的,S1具体包括:分析原始建筑能耗数据中是否存在无效数据、异常数据或缺失数据,若存在无效数据或异常数据,则舍弃原始建筑能耗数据中的无效数据或异常数据;若原始建筑能耗数据中的缺失数据比例大于预设缺失阈值,则舍弃缺失数据,若原始建筑能耗数据中的缺失数据比例小于等于预设缺失阈值,则对原始建筑能耗数据的缺失数据补充缺失值。
进一步的,所述基于互信息法和递归特征消除法对数据预处理后的数据进行特征选择,从而得到最优特征变量集合,具体包括:S21,基于互信息法对数据预处理后的能耗数据进行初次特征选择,从而得到初选特征序列;S22,基于递归特征消除法对初选特征序列特征进行二次特征选择,从而得到最优特征变量集合。
进一步的,所述基于互信息法和递归特征消除法对数据预处理后的数据进行特征选择,具体包括,S211,计算建筑能耗特征序列X与目标序列Y的互信息,进行互信息量排序;S212,基于特征序列X和目标序列Y的互信息排序,并选择大于预设特征信息量阈值的特征数据作为初选特征序列。
进一步的,所述基于递归特征消除法对初选特征序列特征进行二次特征选择,从而得到最优特征变量集合,具体包括:S221,使用初选特征序列特征训练模型;S222,计算初选特征序列每一个特征变量的重要性,并进行排序;S223,对于每一个特征变量子集,提取前Xi个重要特征变量构建新数据集;S224,基于新数据集训练模型;S225,计算新数据集中每一个特征变量的重要性并进行排序;S226,重复上述过程,计算比较每一个特征子集的模型效果,决定并输出最优特征变量集合。
采用MI+RFE二次特征选择算法有效去除冗余特征。
进一步的,所述基于高斯混合聚类对训练集进行分类得到若干聚类后的能耗数据,具体包括:初始化高斯混合分布模型参数;基于EM算法对高斯混合分布模型参数进行迭代更新,进行聚类分组,对每组数据集计算轮廓系数,并基于轮廓系数确定最优的聚类个数;基于最优聚类个数进行聚类分组,从而得到若干聚类后的能耗数据。
通过GMM高斯混合类型算法将能耗特性相近的能耗数据归类,对原始数据进行合理的聚类划分。
进一步的,S4具体包括:S41,采用直方图分别处理聚类后的能耗数据,S42,构建AR损失函数,并分别基于聚类后的能耗数据获取损失函数参数,并基于损失函数参数构建训练损失函数和评估损失函数,其中,训练损失函数作为LGBM的损失函数;S43,基于遗传算法获取ALGBM模型的最优参数;S44,基于评估损失函数对预测误差进行修正,从而得到能耗最终预测结果。
对每个聚类的能耗数据采用基于AR函数的改进LGBM模型进行能耗预测,根据不同的聚类的能耗数据自适应的确定损失函数超参数,可以根据所需产生不同的表现形式,更好地适应实际需求。采用直方图对输入至ALGBM预测模型的聚类的能耗数据进行处理,花费内存更小,运算速度更快。
进一步的,对LGBM采用单边梯度采样进行训练,具体包括S421,将训练集按照梯度排列;S422,对大梯度样本按比例a保存,对小梯度样本按比例b采样;S423,将小梯度样本数据的梯度放大(1-a)/b;S424,合并选取的大梯度数据和放大之后的新小梯度样本数据,训练弱学习器。
进一步的,所述基于损失函数参数构建训练损失函数和评估损失函数,具体包括:基于损失函数参数和AR损失函数的一阶导数构建训练损失函数,基于损失函数参数和AR损失函数的二阶导数构建评估损失函数。
本发明的有益效果是:
1)采用MI+RFE二次特征选择算法有效去除冗余特征;
2)通过GMM高斯混合类型算法将能耗特性相近的能耗数据归类,对原始数据进行合理的聚类划分,通过拟合输入数据集构建合适的混合多维高斯分布模型,从而达到无监督聚类的目的;
3)对每个聚类的能耗数据采用基于AR函数的改进LGBM模型进行能耗预测,根据不同的聚类的能耗数据自适应的确定损失函数超参数,可以根据所需产生不同的表现形式,更好地适应实际需求,有助于提高模型的泛化能力,提高模型预测性能;
4)综合了MI、REF、GMM和ALGBM的MRGALnet可以提高预测精度和收敛速度;
5)采用直方图对输入至ALGBM预测模型的聚类的能耗数据进行处理,花费内存更小,运算速度更快;
6)ALGBM预测模型的模型训练基于AR损失函数参数配置LGBM损失函数,并采用单边梯度采样,训练弱学习器,以及基于遗传算法获取ALGBM模型的最优参数。
附图说明
图1为本发明实施例的一种基于聚类和自适应梯度提升决策树的预测方法流程示意图;
图2为本发明实施例的一种基于聚类和自适应梯度提升决策树的预测方法整体架构图;
图3为本发明实施例的特征选择算法对比图;
图4为本发明实施例的高斯混合模型的聚类效果对比示意图;
图5为不同α的损失函数及其一阶导数;
图6为本发明实施例的损失函数寻优示意图;
图7为本发明实施例的原始建筑类型能耗分布直方图;
图8为本发明实施例的实验对比基准模型;
图9为模型预测结果评价指标对比。
具体实施方式
为了便于本领域人员更好的理解本发明,下面结合附图和具体实施例对本发明做进一步详细说明,下述仅是示例性的不限定本发明的保护范围。
在描述本发明的一种基于聚类和自适应梯度提升决策树的预测方法之前,首先对一些专有名词进行解释:
MI:Mutual Information,互信息法特征选择;
RFE:Recursive Feature Elimination,递归特征消除法;
GMM:Gaussian Mixed Model,高斯混合模型;
EM:Expectation Maximization,期望最大算法;
LGBM:基于分布式梯度提升树GBDT的集成强学习器模型;
GBDT:Gradient Boosting Decision Tree,分布式梯度提升树;
AR:Adaptive Robust Loss Function,自适应鲁棒损失函数;
ALGBM:基于AR损失函数改进的LGBM模型;
MRGALnet:MI特征选择算法、RFE特征选择算法、GMM聚类和改进LGBM组合的模型结合。
如图1所示,是本发明的一种基于聚类和自适应梯度提升决策树的预测方法的实施例的流程图,图2为本发明的一种用基于聚类和自适应梯度提升决策树的预测方法的整体架构图,具体包括:
S1,对原始建筑能耗数据进行数据预处理。
对于给定的n维建筑能耗数据(X,Y),其中X=(X1,X2,L,Xn)表示建筑特征数据,Y表示其对应的建筑能耗EUI目标变量。
对于建筑能耗预测问题,给定已知的建筑特征数据X=(X1,X2,L,Xn)及其对应的建筑能耗Y,其目标在于寻找到特征变量X和目标预测变量Y之间的映射关系,即找到一个映射函数使得Y=F(X1,X2,L,Xn),从而针对未知的建筑特征数据通过映射函数Y=F(X),求得其对应的能耗数据/>
建筑能耗原始数据包含缺失数据、无效数据或异常数据,这些数据可能会影响模型的预测效果,并影响后续的结论。因此数据预处理就是对缺失值或无效数据或异常数据处理,具体包括:
分析原始建筑能耗数据中是否存在无效数据、异常数据或缺失数据,
若存在无效数据或异常数据,则舍弃原始建筑能耗数据中的无效数据或异常数据;
若原始建筑能耗数据中的缺失数据比例大于预设缺失阈值,则舍弃缺失数据,若原始建筑能耗数据中的缺失数据比例小于等于预设缺失阈值,则对原始建筑能耗数据的缺失数据补充缺失值。
S2,基于互信息法和递归特征消除法对数据预处理后的数据进行特征选择,从而得到最优特征变量集合,并将最优特征变量集合划分为训练集和测试集。
S21,互信息法对数据预处理后的能耗数据进行初次特征选择,从而得到初选特征序列。包括如下步骤,
S211,计算建筑能耗特征序列X与目标序列Y的互信息,进行互信息量排序;
S212,基于特征序列X和目标序列Y的互信息排序,并选择大于预设特征信息量阈值的特征数据作为初选特征序列。
需要说明的是,步骤S21的建筑能耗特征序列X为经过数据预处理的能耗数据。
MI互信息法是用于捕捉每个特征与标签之间的的线性或者非线性关系的过滤方法。互信息量化了两个随机变量之间,互信息量化了两个随机变量之间的相互依赖的量度。两个离散的随即变量的互信息可以定义为如下公式(1)
其中,p(x,y)是x和y的联合概率密度函数,而p(x)和p(y)分别是X和Y的边缘概率密度函数。互信息量确定联合分布与分解的边际分布p(x,y)的乘积有多相似。使用Kraskov等提出的基于K近邻的无参数方法,选择X和Y方向上的欧氏距离最大值作为选择最近邻的标准,并进行统计计数和概率密度估计。
S22,基于递归特征消除法对初选特征序列特征进行二次特征选择,从而得到最优特征变量集合。
使用一组最优特征训练机器学习模型被认为是一项关键任务,因此从任何数据集中选择最优特征集合是一个复杂的过程。RFE(Recursive Feature Elimination,RFE)递归特征消除法使用一个机器学习模型来进行多轮训练,每一次训练结束后,就会消除若干权值系数所对应的特征,之后在新的特征集上面进行下一轮训练。重复该过程直至产生最优的特征子集。算法的基本步骤如下:
1)使用初选特征序列特征的所有的特征变量训练模型;
2)计算每一个特征变量的重要性并进行排序;
3)对每一个变量子集s_{i},i=1,L,s,提取前s_{i}个最重要的特征变量,基于新数据训练模型,重新计算每一个特征变量的重要性并进行排序;
4)计算比较每个子集获得的模型的效果;
5)决定最优的特征变量子集。
为了验证MI+RFE特征选择的有效性和优异性,采用K近邻交叉验证来评估MI特征选择、RFE特征选择和MI+RFE组合特征选择这三种特征选择方法的R2得分与特征个数的变化趋势。其结果如图3所示。MI+RFE组合特征选择效果优于其他两种方法。为了进一步确定最优的特征个数,利用MI+RFE对数据进行作二次特征选择。
在本发明的一个实施例中,选择互信息量较大特征,以0.5为界,大于0.5对应的特征保留,小于0.5的则舍弃。原始特征维度为487维,利用MI特征初步选择的特征维度是200。再利用RFE对MI筛选出来的数据进行二次特征选择,最终确定的特征维数是18维。
S3,基于高斯混合聚类对训练集进行分类得到若干聚类后的能耗数据。
高斯混合模型GMM是一种业界广泛使用的聚类算法,该方法使用了高斯分布作为参数模型,并使用期望最大算法EM进行训练。GMM是学习速度最快的概率模型,通过拟合输入数据集构建合适的混合多维高斯分布模型,从而达到无监督聚类的目的。
高斯分布的概率密度函数如式(2)所示:
其中μ是n维均值向量,∑是n×n的协方差矩阵,由式可以看出,高斯分布由均值向量μ和协方差矩阵∑这两个参数确定。因此高斯混合分布定义式(3)所示:
在本发明的一个实施例中,高斯混合模型算法先对高斯混合分布的参数进行初始化,然后基于EM算法对模型参数进行迭代更新,直至满足停止条件,确定簇划分,并返回簇划分的结果。
在本发明的一个实施例中,对于簇划分的结果,先计算轮廓系数确定最优的聚类个数,再根据最优的聚类个数,重新聚类分组,对建筑能耗数据进行合理划分。其中,轮廓系数计算参照公式(4),其中a表示同簇中样本之间的相似度,b表示不同簇之间的相似度。图4为聚类个数与轮廓系数之间的关系,从中可知,高斯混合模型的最佳聚类个数为3。因此,根据最优的聚类个数,重新聚类分组的结果分为3个,即图2所示的聚类1,聚类2和聚类3。
S4,基于自适应梯度提升决策树ALGBM对每个聚类的能耗数据进行预测,并对预测误差进行修正得到能耗最终预测结果。
自适应梯度提升决策树ALGBM是基于AR自适应鲁棒损失函数对LGBM进行改进。LGBM是基于分布式梯度提升树GBDT的集成强学习器模型,凭借其快速、低内耗、高准确性等优势被应用于回归问题。LGBM将决策树作为基学习器,如式(5)所示:
式中,Ht(x)为第t个学习器;Θ为所有学习器的集合空间。
LGBM通过多次迭代不断提升学习器的性能,使用学习器来获取从输入空间Xs到梯度空间G的映射函数。假设有一个数据量为n的训练集{x1,L,xn},其中,xi是空间中第i个维度为s的向量。若前一轮迭代获得的学习器为Ht-1(x),损失函数为L(y,Ht-1(x)),则本轮迭代的目标为寻找弱学习器ht(x),使得本轮的损失函数最小,即:
计算该损失函数的负梯度,用于获取本轮损失函数的近似值,可表示为:
目标损失函数通常为二次函数,ht(x)可近似表示为:
最终获得本轮迭代的强学习器为:
Ht(x)=Ht-1(x)+ht(x) (9)
损失函数用来评价模型的预测值和真实值不一样的程度,损失函数越好,通常模型的性能越好,不同模型用的损失函数一般也不一样。传统的损失函数主要包括Huber损失函数、L1范数损失、L2范数损失。常见损失函数,对大误差的灵敏度比小误差低,即模型偏向于减少误差最大的误差,难以有效降低离群值对预测效果的影响,且常用的损失函数无法根据样本特征数据进行自适应调整。
LGBM采用Bagging的学习方式,为了提升预测效果,进一步降低离群值的影响,本发明一种基于聚类和自适应梯度提升决策树的建筑能耗预测方法引入自适应鲁棒损失函数AR,如图5所示,为不同α的损失函数及其一阶导数。其中,α∈R是控制鲁棒性的变形参数,c>0是协调参数,用于控制函数底部有多宽的尺度系数。虽然α在α=0、α=2、α=-∞处没有定义,但是可以通过求极限近似。因此可设计图5中最后一行的AR损失函数及其一阶导数形式,该函数主要通过超参数α控制损失函数的鲁棒性,因此可以调整超参数α,从而根据不同数据特征来变换损失函数及其对应的梯度的表达形式,来降低离群值对预测精度影响。
基于自适应梯度提升决策树ALGBM模型对每个聚类的能耗数据进行预测,分别包括模型训练和模型预测过程,模型训练包括,
S41,利用直方图处理数据和构建AR损失函数,再确定最优函数参数。
获取AR损失函数参数,针对每一维数据特征,首先确定每一个特征需要k个箱子,并为每一个箱子分配一个整数;然后将浮点数的范围划分为k个区间,将属于该箱子的样本数据更新为箱子的值,最后构建一个宽度为k的直方图。如图2所示的ALGBM模块中直方图优化伪代码所示。与传统的Boosting方式相比,直方图算法花费内存更小,运算速度更快。除此之外,LGBM使用的分类回归树为弱模型,k决定了正则化的程度,从而避免了过度拟合。获取了建筑能耗数据之后,通过AR损失函数得到超参数α和协调参数c,用于配置LGBM的损失函数。
S42,构建AR损失函数,并分别基于聚类后的能耗数据获取损失函数参数,并基于损失函数参数构建训练损失函数和评估损失函数,其中,训练损失函数作为LGBM的损失函数。
训练损失函数为AR损失函数的一阶导数,评估损失函数为AR损失函数的二阶导数。
以图2中的聚类1为例,通过AR损失函数得到损失值与α、c的关系,损失值趋近于0时,对应的超参数最优,如图6所示,可得聚类1的最优超参数α=0.2458,协调参数c=1.5648。根据自适应公式,可以得到α不同值对应的损失函数和其一阶导数,,损失函数为平滑曲线,适用于基于梯度的算法优化。在x=0处导数为0,且损失函数单调递增。损失函数对于超参数α的偏导大于0,即α越大,损失值越大。同时,AR损失函数可以完成不同损失函数的平滑转换,损失函数的一阶导数值会随着α值的减少而减少。其幅度不会超过1/c。也就是说,当残差|x|>c时,其对梯度的影响将会下降。因此,在梯度下降的过程中,离群值对EUI预测的影响也随之降低。
S43,基于S41处理后的数据进行单边梯度采样。
单边梯度采样。首先将训练集按照梯度排列,对大梯度样本按比例a保存,对小梯度样本按比例b采样,然后将小梯度样本数据的梯度放大(1-a)/b。合并选取的大梯度数据和放大之后的新小梯度样本数据,训练弱学习器。
S44,基于遗传算法获取ALGBM模型的最优参数。
基于遗传算法GA获取ALGBM模型的最优参数。遗传算法是模拟自然界生物进化机制而发展起来的一种高效、并行、全局搜索和优化方法,可以在搜索过程中自动获取和积累有关搜索空间的知识,并自适应地控制搜索过程以求得最优解。
S45,基于评估损失函数对预测误差进行修正,从而得到能耗最终预测结果基于遗传算法获取ALGBM模型的最优参数。
对待预测建筑能耗数据EUI进行预测,并基于评估损失函数对预测误差进行修正。
需要说明的是,将训练集基于ALGBM模型直接进行预测,即得到预测结果,并基于评估损失函数对预测误差进行修正。
在一些实施方式中,评估损失函数会根据预测的结果和真实的结果,计算两者之间的误差作为损失值,如果损失值过大,LGBM就会继续进行梯度下降,直至损失值较小或者达到了预设终止条件。
本发明的一个实施例用于本发明的一种基于聚类和自适应梯度提升决策树的预测方法中的数据集,为美国能源部提供的商业建筑能耗统计数据库。商业建筑能耗统计数据库是一项全国抽样调查,收集关于建筑物能源使用的信息及其能源使用的相关特性。
商业建筑能耗统计数据库提供了约20种建筑类型的建筑物,及其能耗数据。建筑能耗分布如图7所示。由图7可知,能耗最大的建筑类型是食品销售,餐饮店,实验室,医院且能耗差异呈阶梯状分布。
在本发明的一个实施例中,为了验证ALGBM预测EUI方法的有效性,从拟合系数R2、RMSE、MAE、迭代次数等四个方面来综合评价基于不同损失函数的EUI预测效果,平均绝对误差MAE、均方根误差RMSE和拟合系数R2。3个评估指标分别由下式(10)-(12)计算。其中,是预测值,y(t)是真实值,/>为真实值的均值,n为数据数量。
为了验证本发明提出的一种基于聚类和自适应梯度提升决策树的预测方法的预测效果,将MRGALnet即MI+RFE+GMM+ALGBM与图8所示的线性回归模型Linear、随机森林模型RF、LightGBM-RMSE损失函数、LGBM-Huber损失函数、LGBM-L2损失函数、LGBM-L1损失函数进行实验对比分析。几种基础模型能大致预测出EUI的变化趋势,同时,采用Bagging学习方式的LGBM较其他预测模型有较好的预测效果。
为了进一步验证AR损失函数具有更好的鲁棒性,分析EUI预测过程中的每轮迭代过程中不同损失函数的Loss值情况,ALGBM的Loss值起始比较小,在第34轮迭代达到最小值,且之后趋于稳定,而Huber损失函数第36轮、L1损失函数39轮、L2损失函数46轮、RMSE损失函数50轮迭代才达到最小值,这也进一步说明AR损失函数具有较好的鲁棒性和快速收敛性。
ALGBM预测效果在预测精度、鲁棒性方面均有较好的表现,较之传统的损失函数,ALGBM具有较好的自适应性,可以根据所需产生不同的表现形式,更好地适应实际需求,有助于提高模型的泛化能力,因此AR损失函数对LGBM的预测性能具有提升作用。
通过如图9所示对3个聚类及聚类汇总的模型预测结果对比,ALGBM的R2、RMSE、MAE、迭代次数均优于其他模型,说明ALGBM模型的预测精度和收敛速度均高于其他模型。
同时,本文所提的MRGALnet组合预测模型的R2较LGBM提高了4.33%,较LGBM_huber提高了2.71%,较LGBM_L2提高了3.92%,较LGBM_L1提高了3.35%,说明MRGALnet模型的预测精度最好。MRGALnet组合预测模型预测的RMSE较LGBM降低了10.83,较LGBM_huber降低了7.21,较LGBM_L2降低了10.03,较LGBM_L1降低了8.75;MRGALnet组合预测模型的MAE较LGBM降低了11.96,较LGBM_huber降低了9.38,较LGBM_L2降低了11.38,较LGBM_L1降低了10.59,模型也更加稳定。
统计几种模型11轮实验的误差指标箱线图。从中可以发现,MRGALnet的R2和RMSE明显优于其他模型。综上所述,本文模型对建筑能耗数据的预测精度和收敛速度均为最佳。
本发明提出了一种基于聚类和自适应梯度提升决策树的预测方法,通过MRGALnet模型对原始数据进行预处理,删除缺失数据、无效数据和异常数据,再进行MI+RFE两步特征选择,筛选出与建筑能耗相关性强的特征,然后对筛选之后的建筑数据利用高斯混合模型进行分类,将能耗数据相似的建筑划分到同一类;利用LGBM模型进行预测,再利用AR损失函数对预测误差进行修正,从而提高模型预测精度。
需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
Claims (9)
1.一种基于聚类和自适应梯度提升决策树的预测方法,其特征在于,具体包括:
S1,对原始建筑能耗数据进行数据预处理;
S2,基于互信息法和递归特征消除法对数据预处理后的数据进行特征选择,从而得到最优特征变量集合,并将最优特征变量集合划分为训练集和测试集;
S3,基于高斯混合聚类对训练集进行分类得到若干聚类后的能耗数据;
S4,基于自适应梯度提升决策树ALGBM对每个聚类的能耗数据进行预测,并对预测误差进行修正得到能耗最终预测结果。
2.根据权利要求1所述的一种基于聚类和自适应梯度提升决策树的预测方法,其特征在于,所述S1具体包括:分析原始建筑能耗数据中是否存在无效数据、异常数据或缺失数据,
若存在无效数据或异常数据,则舍弃原始建筑能耗数据中的无效数据或异常数据;
若原始建筑能耗数据中的缺失数据比例大于预设缺失阈值,则舍弃缺失数据,若原始建筑能耗数据中的缺失数据比例小于等于预设缺失阈值,则对原始建筑能耗数据的缺失数据补充缺失值。
3.根据权利要求1所述的一种基于聚类和自适应梯度提升决策树的预测方法,其特征在于,所述基于互信息法和递归特征消除法对数据预处理后的数据进行特征选择,从而得到最优特征变量集合,具体包括:
S21,基于互信息法对数据预处理后的能耗数据进行初次特征选择,从而得到初选特征序列;
S22,基于递归特征消除法对初选特征序列特征进行二次特征选择,从而得到最优特征变量集合。
4.根据权利要求3所述的一种基于聚类和自适应梯度提升决策树的预测方法,其特征在于,所述基于互信息法和递归特征消除法对数据预处理后的数据进行特征选择,具体包括,
S211,计算建筑能耗特征序列X与目标序列Y的互信息,进行互信息量排序;
S212,基于特征序列X和目标序列Y的互信息排序,并选择大于预设特征信息量阈值的特征数据作为初选特征序列。
5.根据权利要求4所述的一种基于聚类和自适应梯度提升决策树的预测方法,其特征在于,所述基于递归特征消除法对初选特征序列特征进行二次特征选择,从而得到最优特征变量集合,具体包括:
S221,使用初选特征序列特征训练模型;
S222,计算初选特征序列每一个特征变量的重要性,并进行排序;
S223,对于每一个特征变量子集,提取前Xi个重要特征变量构建新数据集;
S224,基于新数据集训练模型;
S225,计算新数据集中每一个特征变量的重要性并进行排序;
S226,重复上述过程,计算比较每一个特征子集的模型效果,决定并输出最优特征变量集合。
6.根据权利要求1所述的一种基于聚类和自适应梯度提升决策树的预测方法,其特征在于,所述基于高斯混合聚类对训练集进行分类得到若干聚类后的能耗数据,具体包括:
初始化高斯混合分布模型参数;
基于EM算法对高斯混合分布模型参数进行迭代更新,进行聚类分组,
对每组数据集计算轮廓系数,并基于轮廓系数确定最优的聚类个数;
基于最优聚类个数进行聚类分组,从而得到若干聚类后的能耗数据。
7.根据权利要求1所述的一种基于聚类和自适应梯度提升决策树的预测方法,其特征在于,所述S4具体包括:
S41,采用直方图分别处理聚类后的能耗数据,
S42,构建AR损失函数,并分别基于聚类后的能耗数据获取损失函数参数,并基于损失函数参数构建训练损失函数和评估损失函数,其中,训练损失函数作为LGBM的损失函数;
S43,基于遗传算法获取ALGBM模型的最优参数;
S44,将测试集输入至训练后的ALGBM并输出预测结果;
S45,基于评估损失函数对预测结果的预测误差进行修正,从而得到能耗最终预测结果。
8.根据权利要求7所述的一种基于聚类和自适应梯度提升决策树的预测方法,其特征在于,对LGBM采用单边梯度采样进行训练,具体包括
S421,将训练集按照梯度排列;
S422,对大梯度样本按比例a保存,对小梯度样本按比例b采样;
S423,将小梯度样本数据的梯度放大(1-a)/b;
S424,合并选取的大梯度数据和放大之后的新小梯度样本数据,训练弱学习器。
9.根据权利要求7所述的一种基于聚类和自适应梯度提升决策树的建筑能耗预测方法,其特征在于,所述基于损失函数参数构建训练损失函数和评估损失函数,具体包括:
基于损失函数参数和AR损失函数的一阶导数构建训练损失函数,
基于损失函数参数和AR损失函数的二阶导数构建评估损失函数。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310128582 | 2023-02-13 | ||
CN2023101285820 | 2023-02-13 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116341929A true CN116341929A (zh) | 2023-06-27 |
Family
ID=86889182
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310327926.0A Pending CN116341929A (zh) | 2023-02-13 | 2023-03-27 | 一种基于聚类和自适应梯度提升决策树的预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116341929A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117170979A (zh) * | 2023-10-26 | 2023-12-05 | 广东百德朗科技有限公司 | 一种大规模设备的能耗数据处理方法、系统、设备及介质 |
-
2023
- 2023-03-27 CN CN202310327926.0A patent/CN116341929A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117170979A (zh) * | 2023-10-26 | 2023-12-05 | 广东百德朗科技有限公司 | 一种大规模设备的能耗数据处理方法、系统、设备及介质 |
CN117170979B (zh) * | 2023-10-26 | 2024-04-05 | 广东百德朗科技有限公司 | 一种大规模设备的能耗数据处理方法、系统、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110909926A (zh) | 基于tcn-lstm的太阳能光伏发电预测方法 | |
CN109635245A (zh) | 一种鲁棒宽度学习系统 | |
CN110571792A (zh) | 一种电网调控系统运行状态的分析评估方法及系统 | |
CN106022954A (zh) | 基于灰色关联度的多重bp神经网络负荷预测方法 | |
CN114360652B (zh) | 细胞株相似性评价方法及相似细胞株培养基配方推荐方法 | |
CN116187835A (zh) | 一种基于数据驱动的台区理论线损区间估算方法及系统 | |
CN115564114A (zh) | 一种基于图神经网络的空域碳排放短期预测方法及系统 | |
CN116341929A (zh) | 一种基于聚类和自适应梯度提升决策树的预测方法 | |
CN111008726A (zh) | 一种电力负荷预测中类图片转换方法 | |
CN114022311A (zh) | 基于时序条件生成对抗网络的综合能源系统数据补偿方法 | |
CN112116002A (zh) | 一种检测模型的确定方法、验证方法和装置 | |
CN115759415A (zh) | 基于lstm-svr的用电需求预测方法 | |
CN116843080B (zh) | 一种基于机器学习的尿素生产碳元素足迹预测方法及系统 | |
CN117439053A (zh) | 一种Stacking集成模型电量预测方法、装置、存储介质 | |
CN117497038A (zh) | 一种基于核方法的快速优化培养基配方的方法 | |
CN110276478B (zh) | 基于分段蚁群算法优化svm的短期风电功率预测方法 | |
CN117114184A (zh) | 一种城市碳排放影响因素特征提取与中长期预测方法及装置 | |
CN112001436A (zh) | 一种基于改进的极限学习机的水质分类方法 | |
CN116108963A (zh) | 一种基于集成学习模块的电力碳排放预测方法及设备 | |
CN116578858A (zh) | 基于图神经网络的空压机故障预测与健康度评价方法及系统 | |
CN115759343A (zh) | 一种基于e-lstm的用户电量预测方法和装置 | |
CN115481788A (zh) | 相变储能系统负荷预测方法及系统 | |
Qin | Software reliability prediction model based on PSO and SVM | |
CN113762591A (zh) | 一种基于gru和多核svm对抗学习的短期电量预测方法及系统 | |
CN113361768A (zh) | 一种粮食库健康状况预测方法,存储设备及服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |