CN109543203B - 一种基于随机森林的建筑冷热负荷预测方法 - Google Patents
一种基于随机森林的建筑冷热负荷预测方法 Download PDFInfo
- Publication number
- CN109543203B CN109543203B CN201710866693.6A CN201710866693A CN109543203B CN 109543203 B CN109543203 B CN 109543203B CN 201710866693 A CN201710866693 A CN 201710866693A CN 109543203 B CN109543203 B CN 109543203B
- Authority
- CN
- China
- Prior art keywords
- data
- node
- training
- feature
- random forest
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/10—Geometric CAD
- G06F30/13—Architectural design, e.g. computer-aided architectural design [CAAD] related to design of buildings, bridges, landscapes, production plants or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Geometry (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Evolutionary Computation (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- General Business, Economics & Management (AREA)
- Architecture (AREA)
- Civil Engineering (AREA)
- Structural Engineering (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种基于随机森林的建筑冷热负荷预测方法,该方法通过数据分析和预处理,解决数据稀疏的问题;对于不完全符合高斯分布的数据,本方法基于随机森林建立回归模型进行冷热负荷的预测,并且嵌入了特征选择过程,降低计算成本,提高泛化能力;基于多节点的Hadoop/Spark计算平台,将随机森林的决策树训练任务平均分配到多个节点同时进行,从而缩短了训练时间。
Description
技术领域
本发明涉及一种基于随机森林的建筑冷热负荷预测方法,属于建筑节能技术领域。
背景技术
目前我国的建筑能耗占社会总能耗的比例高达40%左右,降低建筑能耗势在必行。随着物联网感知技术的成熟,产生了各种与建筑能耗相关的数据,这些数据具有大数据的规模庞大、数据稀疏等特点。通过对这些数据的分析和挖掘,对冷热负荷进行预测可为建筑节能优化方案提供决策理论依据,对推动我国城市发展向集约、智能、绿色、低碳的新型发展模式演进具有非常重要的意义。
目前对建筑冷热负荷做分析预测的方法主要有两种,一是使用强大的模拟软件,将建筑模型在计算机中整个模拟出来,然后通过设置不同参数,预测不同条件下的冷热负载;然而这个过程会相当耗时,根据建筑室内环境蕴含的流体力学和传热定律,建立一组偏微分方程,包括质量、动量、能量以及组分平衡方程,并通过离散化策略求解之,需要使用者具备专业知识;此外,在使用不同的建筑模拟软件时,得到的预测结果可能会出现较大的差异。二是利用统计学和机器学习方法来研究建筑物特征对能耗指标的影响以及冷热负荷的预测,该方法能加强对关键影响因素的定量分析与理解,其优势在于无需专业知识,而且随着机器学习能力越来越强,使得预测的准确率得以不断提高。
在已有的基于机器学习进行建筑冷热负荷预测的相关研究中,存在以下问题:针对大量存在数据稀疏或缺失的样本,为了便于计算,将其进行了筛除,造成数据的缺失;机器学习大多使用线性相关和最小平方回归简化数学假设,而实际情况要比这些常见假设要复杂的多;有的研究虽然使用了复杂的机器学习工具,但面对高维特征没能严格地测试其有效性;很多机器学习单独使用某种方法进行特征选择,没有和具体的机器学习方法相结合;当面对大数据时,传统的机器学习方法往往需要耗费大量的时间进行训练,且效率低下。
发明内容
本发明要解决的技术问题是提供一种基于随机森林的建筑冷热负荷预测方法,通过数据分析和预处理,解决数据稀疏的问题;对于不完全符合高斯分布的数据,本方法基于随机森林建立回归模型进行冷热负荷的预测,并且嵌入了特征选择过程,降低计算成本,提高泛化能力;基于多节点的Hadoop/Spark计算平台,将随机森林的决策树训练任务平均分配到多个节点同时进行,从而缩短了训练时间。
为了解决所述技术问题,本发明采用的技术方案是:
一种基于随机森林的建筑冷热负荷预测方法,包括以下步骤:S01)、对表示建筑能耗数据集进行分析和预处理,分析和预处理包括统计分析、归一化处理和稀疏处理;S02)、对经过分析和预处理的数据进行特征选择,使得系统的特定指标最优化;S03)、基于随机森林训练模型进行冷热负荷预测,随机森林包括训练阶段和测试阶段,其中训练阶段和测试阶段基于Hadoop/Spark平台,将随机森林的决策树训练任务平均分配到多个节点同时进行;S04)、模型评价与选择,输出最终预测模型。
本发明所述基于随机森林的建筑冷热负荷预测方法,数据统计分析的具体步骤为:11)、绘制输出参数与输入参数之间的频数分布直方图,12)、计算Spearman秩相关系数以获得每个输入参数和输出参数的关联强度,13)、通过互信息MI来衡量输入和输出参数之间的关系。
本发明所述基于随机森林的建筑冷热负荷预测方法,数据归一化处理采用Min_Max标准化对原始数据进行线性变换,转换函数为:,X为原始的特征值,X*为转换后的特征值,MAX为特征值的最大值,MIN为特征值的最小值。
本发明所述基于随机森林的建筑冷热负荷预测方法,数据稀疏处理时,当缺失属性值的个数小于总属性个数的50%时,采用平均值、缺失部分前后两边的数据之和再除以2的值、众数中的一种进行补充。
本发明所述基于随机森林的建筑冷热负荷预测方法,数据稀疏处理时,当缺失属性值的个数大于总属性个数的50%时,首先根据建筑特征进行聚类,根据被聚在同一个簇中的建筑物的能耗模式具有相似性的特点,将某个建筑物的完备能耗数据传递给另外一个只有稀疏数据的建筑物进行补充;具体步骤为:14)、计算对象之间的距离,一个对象用多个特征来描述,用间隔距离来量化特征,假如一个对象具有n个特征,那么m个对象就可以表示成一个m*n的矩阵,用欧式距离等来计算距离函数:,表示对象i,表示对象j,表示对象i和对象j之间的距离,表示对象i的第a个特征,表示对象j的第a个特征;15)、采用K-Means算法进行建筑物聚类,使目标函数最小化,其中
C 1 ,
C 2 ,……
C k 表示k个簇,为簇
C i 的质心,表示样本到所在簇
C i 质心的距离;16)、任意选择k个对象作为初始k个簇的簇中心,根据簇中对象的平均值,将每个对象重新赋给与它距离最近的簇,更新簇的平均值;17)、重复步骤16,直到簇中心不再发生变化,得到最终的分簇结果;18)、根据分簇的结果以及相似度进行稀疏数据的填补,通过相似性,将一个稠密数据集的相关信息传递给稀疏数据集。
本发明所述基于随机森林的建筑冷热负荷预测方法,特征选择的具体步骤为:21)、计算每个特征的重要性,并按降序排序;22)、确定要剔除的比例,依据特征重要性剔除相应比例的特征,得到一个新的特征集;23)、用新的特征集重复上述过程,直到剩下m个特征,m为提前设定的值;24)、根据上述过程中得到的各个特征集和特征集对应的袋外误差率,选择袋外误差率最低的特征集。
本发明所述基于随机森林的建筑冷热负荷预测方法,特征重要性的计算步骤为:211)、对每一棵决策树,选择相应的袋外数据计算袋外数据误差,记为errOOB1;212)、随机对袋外数据OOB所有样本的特征X加入噪声干扰,再次计算袋外数据误差,记为errOOB2;213)、假设森林中有N棵树,则特征X的重要性=∑(errOOB2-errOOB1)/N。
本发明所述基于随机森林的建筑冷热负荷预测方法,训练阶段的步骤为:31)、给定训练集S,测试集T,特征维数F;确定参数:使用到的决策树的数量t,每棵树的深度d,每个节点使用到的特征数量f,终止条件:节点上最少样本数s,节点上最少的信息增益m;32)、从S中有放回的抽取大小和S一样的训练集S(i),作为根节点的样本,从根节点开始训练;33)、如果当前节点上达到终止条件,则设置当前节点为叶子节点,预测输出为当前节点样本集各个样本值的平均值;然后继续训练其他节点;如果当前节点没有达到终止条件,则从F维特征中无放回的随机选取f维特征,利用这f维特征,寻找分类效果最好的一维特征k及其阈值θ,当前节点上样本第k维特征小于θ的样本被划分到左节点,其余的被划分到右节点;继续训练其他节点;34)、重复步骤32、33,直到所有节点都训练过了或者被标记为叶子节点;35)、重复32、33、34,直到所有决策树都被训练过;测试阶段的过程为:36)、从当前树的根节点开始,将当前节点的特征值与阈值θ进行比较,判断是进入左节点(特征值<θ)还是进入右节点(特征值>=θ),直到到达某个叶子节点,并输出预测值;37)重复执行36,直到所有t棵树都输出了预测值,对于回归预测,输出为所有树的输出的平均值。
本发明所述基于随机森林的建筑冷热负荷预测方法,基于Hadoop/Spark平台的随机森林方法的步骤为:首先将数据和模型源代码上传到 HDFS,在训练阶段,这k个节点从HDFS上下载训练数据和源代码,k个节点并行地执行训练,当k个节点训练结束后,在主节点生成随机森林模型;在测试阶段,将测试数据集发送到主节点,主节点将所有结果汇总求平均值,得到最终的预测结果。
本发明所述基于随机森林的建筑冷热负荷预测方法,采用平均绝对误差MAE、均方差MSE,平均相对误差MRE和均方根误差RMSE对预测结果进行评价, ,
,
,
;
即为在第i遍训练或测试子集中估计的输出参数,是实际的输出参数,S是训练或测试集中的样本数,Q包含了集合的类别标签。
本发明的有益效果:(1)通过相似性,一个稠密数据集的相关信息可以传递给稀疏数据集,从而帮助填补了后者的缺失值。根据不同建筑物的特征信息,对建筑物进行聚类。这样,被聚在同一个簇里的建筑物很可能具有相同的能耗模式,将有建筑能耗传感器读数的数据赋给那些没有传感器或者传感器出现故障的建筑物,以此来解决数据稀疏性问题。
(2)通过统计分析,得知有些特征分布不服从高斯分布,这使得我们有理由认为像线性回归这样的经典学习器无法精确地找到高维特征与预测值之间的映射关系。因此,需要像随机森林这样的学习器来进行处理。随机森林具有较好泛化性,Bagging方法随机有放回地抽取原数据形成多个新数据,新数据之间大体存在差异,进而促使用这些新数据生成的决策树也不相同,预测的结果也是不尽相同的,这能较大程度地发挥集成学习的优点。使用Bagging从训练集中采样,约有三分之一的样本是这棵树用不到的,这些数据就被称为袋外数据,被直接用来估计随机森林的误差和泛化性能。
(3)特征选择作为随机森林的一部分,在算法运行过程中,算法会自行选择使用哪些特征。随机森林继承了决策树的优点,随机选择使用部分特征确保了单元决策树的差异,并且能有效地解决处理高维数据的问题。
(4)随机森林中单棵决策树的构建过程是串行的,每个决策树训练样本都是独立地通过 Bagging 抽取的,而每个决策树的生长都是独立的,它们都是用自己的随机特征子空间去进行分裂。每棵决策树之间互相独立,在构建完成一棵决策树之后才能进行下一棵决策树的构建。这种机制原理为构建决策树的并行化提供了理论支持,面对大数据,将随机森林在构建决策树过程改进成并行化,以提高训练效率。
附图说明
图1为本方法的流程图;
图2为随机森林的并行化框架图;
图3为并行化随机森林对热负载的预测结果图;
图4为并行化随机森林对冷负载的预测结果图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步的说明。
如图1所示,为本方法的流程图,该方法包括以下几个步骤:
S01)、数据分析与预处理
1.1 统计分析
将相对紧密度、表面积、墙面积、屋顶面积、总高度、朝向、玻璃面积、玻璃以及冷热负荷分布绘制出频数分布直方图,获得一个经验上的非参数密度估计,发现实施例没有服从高斯分布。既然数据是非高斯分布的,计算Spearman秩相关系数来获得一个关于每个输入参数和输出参数的关联强度,输入参数是指建筑物特征,包括相对紧密度、表面积、墙面积、屋顶面积、总高度、朝向、玻璃面积,输出参数是指能耗特征,包括热负荷和冷负荷。Spearman秩相关系数能够标示大体单调的关系,并使参数值分布在-1到1之间,负号表示反比例关系,正号表示正比例关系,而数量大小表示这个关系的强弱。通过p值评估这个关系是否在统计学上有重要意义,检查尺度在0.01级别。通过互信息(MI)来衡量输入参数和输出参数之间任何任意性关系的。由于MI无上界,所以要把它标准化到[0,1]之间,MI值越大两参数间的关系强度也越大。
1.2 数据归一化
Min_Max标准化是对原始数据的线性变换,使结果值映射到[0,1]。转换函数如下:
(1)
X为原始的特征值,X*为转换后的特征值,MAX为特征值的最大值,MIN为特征值的最小值。
步骤1.3 数据稀疏的处理
对于只有较少属性存在缺失的情况,根据步骤1.1节的统计分布情况采用以下三种方法进行补充:(1)平均值补充;(2)缺失部分前后两边的数值之和再除以2的值补充;(3)众数补充。
针对较多属性的稀疏,首先根据建筑特征进行聚类,根据被聚在同一个簇中里的建筑物的能耗模式具有相似性的特点,将某个建筑物的完备能耗数据传递给另外一个只有稀疏数据的建筑物进行补充。具体步骤如下:
1.3.1 计算对象之间的距离
一个对象用多个特征来描述,用间隔尺度来量化特征,假如一个对象具有n个特征,那么m个对象就可以表示成一个m*n的矩阵,用欧式距离等来计算距离函数:
(2),
表示对象i,表示对象j,表示对象i和对象j之间的距离,表示对象i的第a个特征,表示对象j的第a个特征;
1.3.2 K-Means算法进行建筑物聚类
K-Means算法从一组随机初始化的簇质心开始,在每次迭代中将对象分配到与它距离最近的簇中去,这里的距离是指簇质心与对象的距离,直到达到最大迭代次数或质心的改变小于一个预先定义的值时迭代结束,此时就得到了聚类结果。假设样本的属性处于一个矢量空间中,K-Means算法的目标就是通过不断迭代使下面的目标函数最小化:
(3)
其中有
k个簇分别为
C 1 ,
C 2 ,……
C k ,为簇
C i 的质心,表示样本到所在簇
C i 质心的距离。
输入:簇的数目k和包含m个对象的数据集合。
输出:k个簇,使平方误差准则最小。
{
Step 1:任意选择k个对象作为初始的簇中心;
Step 2:repeat
{根据簇中对象的平均值,将每个对象(重新)赋给最类似的簇;
更新簇的平均值,即计算每个簇中对象的平均值;
} until簇中心不再发生变化
}
1.3.3 根据分簇的结果以及相似度进行稀疏数据的填补
如果两个对象(X,Y)具有相似性,当Y缺少数据时,X的信息可以部分被Y利用。通过相似性,一个稠密数据集的相关信息可以传递给稀疏数据集,从而帮助填补了后者的缺失值。根据不同建筑物的特征信息,对建筑物进行聚类,这样,被聚在同一个簇里的建筑物很可能具有相同的能耗模式,将有建筑能耗传感器读数的数据赋给那些没有传感器的建筑物,以此来解决数据稀疏性问题。
S02)、 特征选择
特征选择是从已有的n个特征中选择m个(n>>m)使得系统的特定指标最优化。随机森林采用一种隐式的方式进行特征选择,其基本思想是:当一个重要特征出现噪声时,预测的准确率应该明显减少,若此特征是不相关特征,则其出现噪声对预测准确率的影响应该不大。基于这一思想,利用袋外数据预测随机森林性能时,若想获知某特征的重要程度,仅需随机修改该特征数值,而保持其他特征不变,由此获得的袋外数据预测准确率与原始袋外数据预测准确率之差来表示该特征的重要程度。
选择步骤如下:
2.1 特征重要性度量
计算某个特征X的重要性时,具体步骤如下:
1)对每一棵决策树,选择相应的袋外数据计算袋外数据误差,记为errOOB1。袋外数据是每次建立决策树时,通过重复抽样得到一个数据用于训练决策树,这时还有大约1/3的数据没有被利用,没有参与决策树的建立。这部分数据可以用于对决策树的性能进行评估,计算模型的预测错误率,称为袋外数据误差。
2)随机对袋外数据OOB所有样本的特征X加入噪声干扰(可以随机改变样本在特征X处的值),再次计算袋外数据误差,记为errOOB2。
3)假设森林中有N棵树,则特征X的重要性=∑(errOOB2-errOOB1)/N。这个数值之所以能够说明特征的重要性是因为,如果加入随机噪声后,袋外数据准确率大幅度下降(即errOOB2上升),说明这个特征对于样本的预测结果有很大影响,进而说明重要程度比较高。
2.2 基于随机森林的特征选择
在特征重要性的基础上,特征选择的步骤如下:
1)计算每个特征的重要性,并按降序排序
2)确定要剔除的比例,依据特征重要性剔除相应比例的特征,得到一个新的特征集
3)用新的特征集重复上述过程,直到剩下m个特征(m为提前设定的值)。
4)根据上述过程中得到的各个特征集和特征集对应的袋外误差率,选择袋外误差率最低的特征集。
S03)、随机森林方法进行冷热负荷预测,分为训练阶段和预测阶段,具体步骤为:
3.1 训练过程
(1)给定训练集S,测试集T,特征维数F。确定参数:使用到的决策树的数量t,每棵树的深度d,每个节点使用到的特征数量f,终止条件:节点上最少样本数s,节点上最少的信息增益m。
(2)从S中有放回的抽取大小和S一样的训练集S(i),作为根节点的样本,从根节点开始训练。
(3)如果当前节点上达到终止条件,则设置当前节点为叶子节点,对于回归预测,预测输出为当前节点样本集各个样本值的平均值。然后继续训练其他节点。如果当前节点没有达到终止条件,则从F维特征中无放回的随机选取f维特征。利用这f维特征,寻找分类效果最好的一维特征k及其阈值θ,当前节点上样本第k维特征小于θ的样本被划分到左节点,其余的被划分到右节点。继续训练其他节点。
(4)重复(2),(3)直到所有节点都训练过了或者被标记为叶子节点。
(5)重复(2),(3),(4)直到所有决策树都被训练过。
3.2 预测过程
对于第1-t棵树,i=1-t:
(1)从当前树的根节点开始,根据当前节点的阈值θ,判断是进入左节点(<θ)还是进入右节点(>=θ),直到到达,某个叶子节点,并输出预测值。
(2)重复执行(1)直到所有t棵树都输出了预测值,对于回归预测,输出为所有树的输出的平均值。
3.3 随机森林的并行化
在大数据环境下,随机森林中决策树大量增加,最后生成的模型可能过大,导致效率较低。本专利基于Hadoop/Spark平台将决策树训练任务根据分治策略的思想平均分配到k个节点同时进行,每个节点的训练数据和决策树棵数基本均等,完成时间基本相同,从而整体上缩短了训练时间。假设一共有t棵决策树,那么每个节点需要训练t/k棵决策树。如图2所示,首先将数据和模型源代码上传到 HDFS,在训练阶段,这k个节点从HDFS上下载训练数据和源代码,k个节点并行地执行训练,当k个节点训练结束后,在主节点生成随机森林模型。在测试阶段,将测试数据集发送到主节点,主节点将所有结果汇总求平均值,得到最终的预测结果。
S04)、模型评价
评价函数如公式4-7所示,分别采用平均绝对误差(MAE),均方差(MSE),平均相对误差(MRE),和均方根误差(RMSE)。
(4)
(5)
(6)
(7)
这里即为在第i遍训练或测试子集中估计的输出参数,是实际的输出参数,S是训练或测试集中的样本数,Q包含了集合的类别标签。
预测结果如图3、图4所示:
本实施例中分别计算出KNN、决策树、AdaBoost、随机森林算法的MAE、MRE、MSE和RMSE,得到下面表1和表2所示,得出结果为,并行化随机森林对冷热负荷的预测准确率最高。
表1 四种算法的评价指标(热负载)
表2 四种算法得出的评价指标(冷负载)
以上描述的仅是本发明的基本原理和优选实施例,本领域技术人员根据本发明做出的改进和替换,属于本发明的保护范围。
Claims (6)
1.一种基于随机森林的建筑冷热负荷预测方法,其特征在于:包括以下步骤:
S01)、对建筑能耗数据集进行分析和预处理,分析和预处理包括统计分析、归一化处理和稀疏处理;S02)、对经过分析和预处理的数据进行特征选择,使得系统的特定指标最优化;S03)、基于随机森林训练模型进行冷热负荷预测,随机森林包括训练阶段和测试阶段,其中训练阶段和测试阶段基于Hadoop/Spark平台,将随机森林的决策树训练任务平均分配到多个节点同时进行;S04)、模型评价与选择,输出最终预测模型;
数据统计分析的具体步骤为:11)、绘制输出参数与输入参数之间的频数分布直方图,12)、计算Spearman秩相关系数以获得每个输入参数和输出参数的关联强度,13)、通过互信息MI来衡量输入和输出参数之间的关系;
数据稀疏处理时,当缺失属性值的个数小于总属性个数的50%时,采用平均值、缺失部分前后两边的数据之和再除以2的值、众数中的一种进行补充;数据稀疏处理时,当缺失属性值的个数大于总属性个数的50%时,首先根据建筑特征进行聚类,根据被聚在同一个簇中的建筑物的能耗模式具有相似性的特点,将某个建筑物的完备能耗数据传递给另外一个只有稀疏数据的建筑物进行补充;具体步骤为:14)、计算对象之间的距离,一个对象用多个特征来描述,用间隔距离来量化特征,假如一个对象具有n个特征,那么m个对象就可以表示成一个m×n的矩阵,用欧氏距离来计算距离函数:xi表示对象i,xj表示对象j,d(xi,xj)表示对象i和对象j之间的距离,xia表示对象i的第a个特征,xja表示对象j的第a个特征;15)、采用K-Means算法进行建筑物聚类,通过不断迭代使目标函数最小化,其中C1,C2,……Ck表示k个簇,μi为簇Ci的质心,d(xi,μi)表示样本到所在簇Ci质心μi的距离;16)、任意选择k个对象作为初始k个簇的簇中心,根据簇中对象的平均值,将每个对象重新赋给与它距离最近的簇,更新簇的平均值;17)、重复步骤16,直到簇中心不再发生变化,得到最终的分簇结果;18)、根据分簇的结果以及相似度进行稀疏数据的填补,通过相似性,将一个稠密数据集的相关信息传递给稀疏数据集。
2.根据权利要求1所述的基于随机森林的建筑冷热负荷预测方法,其特征在于:特征选择的具体步骤为:21)、计算每个特征的重要性,并按降序排序;22)、确定要剔除的比例,依据特征重要性剔除相应比例的特征,得到一个新的特征集;23)、用新的特征集重复上述过程,直到剩下m个特征,m为提前设定的值;24)、根据上述过程中得到的各个特征集和特征集对应的袋外误差率,选择袋外误差率最低的特征集。
3.根据权利要求2所述的基于随机森林的建筑冷热负荷预测方法,其特征在于:特征重要性的计算步骤为:211)、对每一棵决策树,选择相应的袋外数据计算袋外数据误差,记为errOOB1;212)、随机对袋外数据OOB所有样本的特征X加入噪声干扰,再次计算袋外数据误差,记为errOOB2;213)、假设森林中有N棵树,则特征X的重要性=∑(errOOB2-errOOB1)/N。
4.根据权利要求1所述的基于随机森林的建筑冷热负荷预测方法,其特征在于:训练阶段的步骤为:31)、给定训练集S,测试集T,特征维数F;确定参数:使用到的决策树的数量t,每棵树的深度d,每个节点使用到的特征数量f,终止条件:节点上最少样本数s,节点上最少的信息增益m;32)、从S中有放回的抽取大小和S一样的训练集S(i),作为根节点的样本,从根节点开始训练;33)、如果当前节点上达到终止条件,则设置当前节点为叶子节点,预测输出为当前节点样本集各个样本值的平均值;然后继续训练其他节点;如果当前节点没有达到终止条件,则从F维特征中无放回的随机选取f维特征,利用这f维特征,寻找分类效果最好的一维特征k及其阈值θ,当前节点上样本第k维特征小于θ的样本被划分到左节点,其余的被划分到右节点;继续训练其他节点;34)、重复步骤32、33,直到所有节点都训练过了或者被标记为叶子节点;35)、重复32、33、34,直到所有决策树都被训练过;测试阶段的过程为:36)、从当前树的根节点开始,将当前节点的特征值与阈值θ进行比较,判断是进入左节点(特征值<θ)还是进入右节点(特征值>=θ),直到到达某个叶子节点,并输出预测值;37)重复执行36,直到所有t棵树都输出了预测值,对于回归预测,输出为所有树的输出的平均值。
5.根据权利要求1所述的基于随机森林的建筑冷热负荷预测方法,其特征在于:基于Hadoop/Spark平台的随机森林并行化方法的步骤为:首先将数据和模型源代码上传到HDFS,在训练阶段,这k个节点从HDFS上下载训练数据和源代码,k个节点并行地执行训练,当k个节点训练结束后,在主节点生成随机森林模型;在测试阶段,将测试数据集发送到主节点,主节点将所有结果汇总求平均值,得到最终的预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710866693.6A CN109543203B (zh) | 2017-09-22 | 2017-09-22 | 一种基于随机森林的建筑冷热负荷预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710866693.6A CN109543203B (zh) | 2017-09-22 | 2017-09-22 | 一种基于随机森林的建筑冷热负荷预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109543203A CN109543203A (zh) | 2019-03-29 |
CN109543203B true CN109543203B (zh) | 2023-04-18 |
Family
ID=65828431
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710866693.6A Active CN109543203B (zh) | 2017-09-22 | 2017-09-22 | 一种基于随机森林的建筑冷热负荷预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109543203B (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110188919A (zh) * | 2019-04-22 | 2019-08-30 | 武汉大学 | 一种基于长短期记忆网络的负荷预测方法 |
CN110188943A (zh) * | 2019-05-28 | 2019-08-30 | 新奥数能科技有限公司 | 一种负荷预测方法及装置 |
CN110348122B (zh) * | 2019-07-11 | 2023-01-17 | 东北大学 | 基于特征选择的季节型非平稳并发量能耗分析方法 |
CN110472778A (zh) * | 2019-07-29 | 2019-11-19 | 上海电力大学 | 一种基于Blending集成学习的短期负荷预测方法 |
CN111062517A (zh) * | 2019-11-21 | 2020-04-24 | 上海航天智慧能源技术有限公司 | 一种基于GBDT的LightGBM模型的冷、热负荷预测方法 |
CN111832599B (zh) * | 2019-11-27 | 2024-02-09 | 北京中交兴路信息科技有限公司 | 一种基于机器学习随机森林的加油站预测方法 |
CN111738478A (zh) * | 2019-12-24 | 2020-10-02 | 上海海事大学 | 基于随机森林算法和Adam神经网络波浪补偿预测方法 |
CN111522644B (zh) * | 2020-04-22 | 2023-04-07 | 中国科学技术大学 | 基于历史运行数据预测并行程序运行时间的方法 |
CN111861002A (zh) * | 2020-07-22 | 2020-10-30 | 上海明华电力科技有限公司 | 基于数据驱动高斯学习技术的建筑物冷热负荷预测方法 |
CN112001439A (zh) * | 2020-08-19 | 2020-11-27 | 西安建筑科技大学 | 基于gbdt的商场建筑空调冷负荷预测方法、存储介质及设备 |
CN112381290A (zh) * | 2020-11-13 | 2021-02-19 | 辽宁工程技术大学 | 一种随机森林与灰狼优化的煤体瓦斯含量预测方法 |
CN112560327B (zh) * | 2020-11-13 | 2024-03-12 | 盐城工学院 | 一种基于深度梯度下降森林的轴承剩余寿命预测方法 |
CN112489736A (zh) * | 2020-12-09 | 2021-03-12 | 中国石油大学(北京) | 一种矿物含量分析方法、装置、设备及存储介质 |
CN112686442A (zh) * | 2020-12-29 | 2021-04-20 | 博锐尚格科技股份有限公司 | 基于运行多样性空调末端能耗预测方法和系统 |
CN113256409A (zh) * | 2021-07-12 | 2021-08-13 | 广州思迈特软件有限公司 | 基于机器学习的银行零售客户流失预测方法 |
CN113240518A (zh) * | 2021-07-12 | 2021-08-10 | 广州思迈特软件有限公司 | 基于机器学习的银行对公客户流失预测方法 |
CN113705904A (zh) * | 2021-08-31 | 2021-11-26 | 国网上海市电力公司 | 一种基于随机森林算法的化工厂区用电故障预测方法 |
CN114528948B (zh) * | 2022-03-10 | 2023-07-11 | 电子科技大学 | 一种复杂系统的序贯测试序列生成方法 |
CN114897227A (zh) * | 2022-04-26 | 2022-08-12 | 东北大学 | 基于改进随机森林算法的多钢种力学性能预报方法 |
CN117497087B (zh) * | 2023-12-20 | 2024-04-26 | 浙江大学 | 一种基于可解释的高维空间预测模型的氧化物玻璃性能预测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104392250A (zh) * | 2014-11-21 | 2015-03-04 | 浪潮电子信息产业股份有限公司 | 一种基于MapReduce的图像分类方法 |
CN105550374A (zh) * | 2016-01-29 | 2016-05-04 | 湖南大学 | Spark云服务环境下面向大数据的随机森林并行机器学习方法 |
CA2974199A1 (en) * | 2015-01-20 | 2016-07-28 | Nantomics, Llc | Systems and methods for response prediction to chemotherapy in high grade bladder cancer |
CN106056427A (zh) * | 2016-05-25 | 2016-10-26 | 中南大学 | 一种基于Spark的大数据混合模型的移动推荐方法 |
CN106407593A (zh) * | 2016-10-10 | 2017-02-15 | 哈尔滨理工大学 | 一种基于gep的高速铁路路基沉降预测系统 |
-
2017
- 2017-09-22 CN CN201710866693.6A patent/CN109543203B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104392250A (zh) * | 2014-11-21 | 2015-03-04 | 浪潮电子信息产业股份有限公司 | 一种基于MapReduce的图像分类方法 |
CA2974199A1 (en) * | 2015-01-20 | 2016-07-28 | Nantomics, Llc | Systems and methods for response prediction to chemotherapy in high grade bladder cancer |
CN105550374A (zh) * | 2016-01-29 | 2016-05-04 | 湖南大学 | Spark云服务环境下面向大数据的随机森林并行机器学习方法 |
CN106056427A (zh) * | 2016-05-25 | 2016-10-26 | 中南大学 | 一种基于Spark的大数据混合模型的移动推荐方法 |
CN106407593A (zh) * | 2016-10-10 | 2017-02-15 | 哈尔滨理工大学 | 一种基于gep的高速铁路路基沉降预测系统 |
Non-Patent Citations (1)
Title |
---|
朱奕健等.《基于随机森林模型的电信运营商外呼推荐系统》.《计算机科学》.2016,(第S2期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN109543203A (zh) | 2019-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109543203B (zh) | 一种基于随机森林的建筑冷热负荷预测方法 | |
CN110390345B (zh) | 一种基于云平台的大数据集群自适应资源调度方法 | |
CN106845717B (zh) | 一种基于多模型融合策略的能源效率评价方法 | |
CN104881706B (zh) | 一种基于大数据技术的电力系统短期负荷预测方法 | |
CN107292350A (zh) | 大规模数据的异常检测方法 | |
CN105929690B (zh) | 一种基于分解多目标进化算法的柔性车间鲁棒调度方法 | |
CN107798383B (zh) | 改进的核极限学习机定位方法 | |
CN114360652B (zh) | 细胞株相似性评价方法及相似细胞株培养基配方推荐方法 | |
CN112989711B (zh) | 基于半监督集成学习的金霉素发酵过程软测量建模方法 | |
CN110880369A (zh) | 基于径向基函数神经网络的气体标志物检测方法及应用 | |
CN109981749A (zh) | 一种基于极限梯度提升的云工作流任务执行时间预测方法 | |
CN104615722B (zh) | 基于密度搜索与快速划分的混合数据聚类方法 | |
CN113240201B (zh) | 一种基于gmm-dnn混合模型预测船舶主机功率方法 | |
CN111832839B (zh) | 基于充分增量学习的能耗预测方法 | |
CN111915022B (zh) | 滑移式岩溶危岩稳定系数快速识别的高斯过程方法及装置 | |
CN104318515A (zh) | 基于nnia进化算法的高光谱图像波段降维方法 | |
CN104966106A (zh) | 一种基于支持向量机的生物年龄分步预测方法 | |
CN111461286A (zh) | 基于进化神经网络的Spark参数自动优化系统和方法 | |
CN116468138A (zh) | 空调负荷预测方法、系统、电子设备及计算机存储介质 | |
CN114595956A (zh) | 一种基于灰度关联法模糊聚类算法的桉树土壤肥力分析方法 | |
CN109116300B (zh) | 一种基于非充分指纹信息的极限学习定位方法 | |
Wen et al. | MapReduce-based BP neural network classification of aquaculture water quality | |
Izonin et al. | Machine learning for predicting energy efficiency of buildings: A small data approach | |
CN113762591A (zh) | 一种基于gru和多核svm对抗学习的短期电量预测方法及系统 | |
CN113159220A (zh) | 基于随机森林的混凝土侵彻深度经验算法评价方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |