CN114881374A

CN114881374A - 用于建筑能耗预测的多元异构能耗数据融合方法和系统

Info

Publication number: CN114881374A
Application number: CN202210807504.9A
Authority: CN
Inventors: 周克楠; 陈斐然; 招婉媚; 朱迪; 何德卫; 戚建平; 梁永权; 郭子科
Original assignee: Foshan Power Supply Bureau of Guangdong Power Grid Corp
Current assignee: Foshan Power Supply Bureau of Guangdong Power Grid Corp
Priority date: 2022-07-11
Filing date: 2022-07-11
Publication date: 2022-08-09
Anticipated expiration: 2042-07-11
Also published as: CN114881374B

Abstract

本发明提供了一种用于建筑能耗预测的多元异构能耗数据融合方法和系统，其中本发明的方法通过从多途径获取时间颗粒度和置信度不同的能耗数据，以其中能耗监测平台的时间颗粒度较细的逐日能耗数据为基础进行数据的预处理，然后结合节能审计报告中置信度较高的月度能耗数据，得到时间颗粒度和置信度均较高的建筑能耗实测数据，以该数据为基础建立输入‑输出数据库，训练数据修正模型来拟合该数据库中输入输出数据之间的偏差，从而利用该偏差实现对模拟数据的准确修正。本发明结合多个平台的数据进行综合处理，能够获得较为精准的实测数据，从而实现对模拟能耗数据更为精确的修正。

Description

用于建筑能耗预测的多元异构能耗数据融合方法和系统

技术领域

本发明属于建筑能耗预测技术领域，具体涉及一种用于建筑能耗预测的多元异构能耗数据融合方法和系统。

背景技术

在大数据时代，建筑能耗数据可通过多个途径获取，但多个途径获取的能耗数据往往时间颗粒度和置信度存在差异，要将多源数据进行综合利用需首先进行数据融合。

现有建筑能耗实测数据与模拟数据融合算法是通过利用细颗粒度的模拟数据和实测数据的异常值和噪声进行处理，对实测数据中缺失的部分采用数据集的均值或众数进行修正，从而得到颗粒度一致的数据。

然而由于不同途径建筑能耗数据时间颗粒和置信度的差异，采用现有融合方法处理往往只是将模型数据和实测数据进行缩放和简单的修正，对于缺失值的填补往往没有经过可靠性的检验，对于数据的处理也过于简化，未能从建筑类型、用能特性等方面进行综合考虑。

发明内容

有鉴于此，本发明旨在解决现有融合算法对于模型数据和实测数据的处理过于简化，无法适应不同途径建筑能耗数据时间颗粒和置信度的差异的问题。

为了解决上述技术问题，本发明提供以下技术方案：

第一方面，本发明提供了一种用于建筑能耗预测的多元异构能耗数据融合方法，包括如下步骤：

分别从能耗监测平台获取逐日分项能耗数据、从节能审计报告中获取能耗月账单数据以及从快速模拟工具生成能耗模拟数据；

针对每日的分项能耗数据，依次进行异常值判断和异常楼宇剔除，以便从总数据中去除异常值占比和建筑能耗偏差不满足融合处理条件的建筑能耗数据，对余下的数据进行修复补全处理；

从处理后的逐日分项能耗数据中提取出典型逐日能耗曲线，利用典型逐日能耗曲线对能耗月账单数据逐月进行填充，得到时间颗粒度和置信度均满足模拟计算要求的建筑能耗实测数据；

利用建筑能耗实测数据建立输入-输出数据库，输入-输出数据库以能耗模拟数据为基础作为输出，对应的实测数据作为输出；

训练数据修正模型来拟合能耗模拟数据和对应的实测数据之间的偏差；

将待修正的建筑模拟数据为基础输入数据修正模型，得到经过偏差修正后的模拟数据。

进一步的，从处理后的逐日分项能耗数据中提取出典型逐日能耗曲线，利用典型逐日能耗曲线对基于能耗月账单数据的逐月能耗数据进行填充，具体包括：

将处理后的逐日分项能耗数据进行归一化处理；

采用K-Means聚类算法对逐日分项能耗数据在时间序列上按照月份进行聚类，其中，将DTW算法作为时间序列的距离度量指标，并采用平均轮廓系数最大的 k值作为聚类的k值；

分析聚类结果，确定每簇的用能特性并将各簇的聚类中心曲线作为典型逐日能耗曲线，将符合各簇用能特性的能耗数据用典型逐日能耗曲线进行填充。

进一步的，数据修正模型设有两层结构，第一层结构由不同算法建立的若干个一级修正模型组成，第二层结构设有一个综合修正模型，将待修正的建筑模拟数据为基础输入数据修正模型，得到经过偏差修正后的模拟数据，具体包括：

将待修正的建筑模拟数据进行预处理后输入不同的一级修正模型中，输出若干个经一次偏差修正的模拟数据；

将若干个一次修正的模拟数据进行加权算术平均处理后输入综合修正模型，输出经二次偏差修正的模拟数据。

进一步的，异常值包括离群值和异常波动值，异常值判断具体包括：

定义离群值的分布范围，利用箱形图从分项能耗数据中确定离群值的数据量；

异常波动值包括突变值和死值，从从分项能耗数据中统计突变值和死值的数据量；

针对每栋建筑，判断离群值的数据量和异常波动值数据量之和在每栋建筑的分项能耗数据中的占比是否超过设定阈值，若是，则将对应建筑的数据从所有建筑的能耗数据集合中剔除。

进一步的，异常楼宇剔除中需要剔除的异常楼宇具体包括：

在能耗时间序列的设定时间范围中，能耗监测平台中得到的建筑总能耗数据与分项能耗数据之和的误差大于第一设定值的建筑；

空调分项的最大能耗值与总能耗的最大值的比值小于第二设定值的建筑；

单位面积全年能耗强度不在设定能耗强度范围内的建筑。

第二方面，本发明提供了一种用于建筑能耗预测的多元异构能耗数据融合系统，包括：

数据采集单元，用于分别从能耗监测平台获取逐日分项能耗数据、从节能审计报告中获取能耗月账单数据以及从快速模拟工具生成能耗模拟数据；

预处理单元，用于针对每日的分项能耗数据，依次进行异常值判断和异常楼宇剔除，以便从总数据中去除异常值占比和建筑能耗偏差不满足融合处理条件的建筑能耗数据，对余下的数据进行修复补全处理；

数据填充单元，用于从处理后的逐日分项能耗数据中提取出典型逐日能耗曲线，利用典型逐日能耗曲线对能耗月账单数据逐月进行填充，得到时间颗粒度和置信度均满足模拟计算要求的建筑能耗实测数据；

数据库单元，用于利用建筑能耗实测数据建立输入-输出数据库，输入-输出数据库以能耗模拟数据为基础作为输出，对应的实测数据作为输出；

模型训练单元，用于训练数据修正模型来拟合能耗模拟数据和对应的实测数据之间的偏差；

数据修正单元，用于将待修正的建筑模拟数据为基础输入数据修正模型，得到经过偏差修正后的模拟数据。

进一步的，在数据填充单元中，从处理后的逐日分项能耗数据中提取出典型逐日能耗曲线，利用典型逐日能耗曲线对基于能耗月账单数据的逐月能耗数据进行填充，具体包括：

将处理后的逐日分项能耗数据进行归一化处理；

进一步的，在模型训练单元中，数据修正模型设有两层结构，第一层结构由不同算法建立的若干个一级修正模型组成，第二层结构设有一个综合修正模型，将待修正的建筑模拟数据为基础输入数据修正模型，得到经过偏差修正后的模拟数据，具体包括：

进一步的，在预处理单元中，异常值包括离群值和异常波动值，异常值判断具体包括：

进一步的，在预处理单元中，异常楼宇剔除中需要剔除的异常楼宇具体包括：

单位面积全年能耗强度不在设定能耗强度范围内的建筑。

综上，本发明提供了一种用于建筑能耗预测的多元异构能耗数据融合方法和系统，其中本发明的方法通过从多途径获取时间颗粒度和置信度不同的能耗数据，以其中能耗监测平台的时间颗粒度较细的逐日能耗数据为基础进行数据的预处理，然后结合节能审计报告中置信度较高的月度能耗数据，得到时间颗粒度和置信度均较高的建筑能耗实测数据，以该数据为基础建立输入-输出数据库，训练数据修正模型来拟合该数据库中输入输出数据之间的偏差，从而利用该偏差实现对模拟数据的准确修正。本发明结合多个平台的数据进行综合处理，能够获得较为精准的实测数据，从而实现对模拟能耗数据更为精确的修正。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种用于建筑能耗预测的多元异构能耗数据融合方法的流程示意图；

图2为本发明实施例提供的模拟数据的修正过程示意图；

图3为本发明实施例提供的数据修正模型的结构示意图。

具体实施方式

为使得本发明的目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

基于此，本发明提供了一种用于建筑能耗预测的多元异构能耗数据融合方法和系统。

以下对本发明的一种用于建筑能耗预测的多元异构能耗数据融合方法的实施例进行详细的介绍。

请参阅图1，本实施例提供一种用于建筑能耗预测的多元异构能耗数据融合方法，包括如下步骤：

S100：分别从能耗监测平台获取逐日分项能耗数据、从节能审计报告中获取能耗月账单数据以及从快速模拟工具生成能耗模拟数据。

可以理解的是，为了实现对建筑能耗数据进行全面的综合处理，从各个途径获取的能耗数据不仅包括建筑能耗实测和模拟数据以外，还包括节能审计报告中的建筑物理信息等信息。

S200：针对每日的分项能耗数据，依次进行异常值判断和异常楼宇剔除，以便从总数据中去除异常值占比和建筑能耗偏差不满足融合处理条件的建筑能耗数据，对余下的数据进行修复补全处理。

本步骤是对逐日能耗数据进行的预处理操作。以下对此进行详细介绍：

（1）异常值判断

异常值包括离群值和异常波动值（例如长时间的死值）。

其中，离群值的判断采用箱形图的判断方法进行异常值的识别。

箱形图可用于反映原始数据分布的特征及进行多组数据分布特征的比较。此外，还可以有效地判断数据中的异常值，是实际使用过程中较为常见的方法。在箱形图中，异常值被定义为小于

或大于

的值 (其中U、L分别为上、下四分位数，IQR 为四分位距，是上四分位数与下四分位数之差，其间包含了全部观察值的一半)。

异常波动值的判断则可以采用python开发的tsod模块进行突变值和死值的判断。当一栋建筑的异常值数据量占比超过一定阈值，如15%时，则认为该建筑异常数据过多，则将该建筑从数据中剔除。

（2）异常楼宇剔除

进行异常楼宇的剔除是由于有的建筑即使异常值较小，但单位面积能耗值和各分项能耗占比与经验值差异太大也应被视为数据异常的楼宇。

具体来说，以下三类建筑将会被视为数据异常的建筑（为方便说明，其中各具体数值为本实施例按某建筑群的数据处理确定的值，在此并不做限定使用）：

1）在能耗时间序列的1/3 以上的时间，能耗监测平台上得到的建筑总能耗数据与分项能耗数据之和的误差大于1；

2）空调分项的最大值和总能耗的最大值的比值小于25%的建筑；

3）单位面积全年能耗强度不在50~150 kWh/m2 ·a的建筑。

（3）进行异常值的修复和缺失值的补全：

这里将识别出来的异常数据去除，并与缺失值一起填补。

填补缺失值的方法是：首先寻找与待填补建筑能耗密度最相似并且缺失值处有正常数据的相似建筑，然后用待填补建筑能耗密度与相似建筑能耗密度的比值乘以相似建筑同一时间的能耗值作为填补值。

S300：从处理后的逐日分项能耗数据中提取出典型逐日能耗曲线，利用典型逐日能耗曲线对能耗月账单数据逐月进行填充，得到时间颗粒度和置信度均满足模拟计算要求的建筑能耗实测数据。

来自节能审计报告的能耗数据置信度较高，几乎不存在缺失值和异常值，但这部分数据时间颗粒度较粗，通常是逐月数据。因此对这部分数据进行的处理主要是时间颗粒度的细化。

本实施例从逐日数据中提取出典型逐日能耗曲线，再用典型逐日能耗曲线进行逐月数据的填充。由于数据量的限制，有节能审计报告的楼宇均不存在逐日分项计量数据，故本部分采用的数据均来自与能耗计量平台。具体实现步骤如下：

（1）将进行过预处理的能耗值按照下式进行最大最小归一化。

式中，

为能耗值，min为能耗最小值，max为能耗最大值。

（2）K-Means算法实现聚类：

采用K-Means算法对逐日能耗数据时间序列按照月份进行聚类，将DTW作为时间序列的距离（相似度）度量指标；对于k值的确定，采用平均轮廓系数最大的k值。

具体实现步骤如下：

第一步，初始化质心，将随机抽取 k 个样本作为初始的质心。

第二步，进行质心迭代求解。首先，将每个样本归到与其DTW距离最近的质心，生成k 个簇；然后在每个簇内，重新计算该簇的质心，再重新进行样本的归类。

第三步，多次迭代后，每个簇的质心不再发生改变时则停止迭代，完成聚类。计算得出各个样本的轮廓系数s，将各个样本的轮廓系数s加和求平均可得总体样本的平均轮廓系数

。

其中，a为样本与其所在簇中的其他样本的相似度，等于该样本与簇中其他样本的平均距离，b为样本与其他簇中样本的相似度，等于该样本与其他簇中样本的平均距离。

第四步，多次更换k值重复1至3步，取结果中平均轮廓系数

最大的k值作为理想k值。

（3）分析聚类结果，得到每簇的用能特性：

不同数据聚类出来的结果以及簇的数量都会有所不同，但一般而言，建筑能耗聚类的簇的个数不会超过3个，簇与簇之间的差异可通过建筑的用能特性表示出来，一个簇表示一种建筑类型。其种类一般分为以下几种：

a）办公建筑、综合建筑；

b）过渡季能耗密度低的建筑、过渡季能耗密度高的建筑；

c）过渡季不开空调的建筑、过渡季开空调的建筑；

d）热源不消耗电能的建筑或热负荷极低的建筑、建筑热源消耗电能且有一定热负荷的建筑。

实际情况中应当对不同簇内建筑的具体特性（如建筑功能、冷热源形式等）、运行时间进行实际考量，综合比较不同簇之间的差异后得到比较符合各簇实际的用能特性。

将符合该簇用能特性的颗粒度较大的能耗数据用该簇的聚类中心曲线（即典型能耗曲线）进行填充。

S400：利用建筑能耗实测数据建立输入-输出数据库，输入-输出数据库以能耗模拟数据为基础作为输出，对应的实测数据作为输出。

S500：训练数据修正模型来拟合能耗模拟数据和对应的实测数据之间的偏差。

S600：将待修正的建筑模拟数据为基础输入数据修正模型，得到经过偏差修正后的模拟数据。

请参阅图2，图2是模拟数据的修正流程。首先利用模拟数据、关键变量和天气及日期参数作为输入，实测数据作为输出建立输入-输出数据库。采用数据修正模型拟合数据库中模拟数据与实测数据的偏差，然后将待修正的模拟数据、关键变量和天气及日期参数作为输入，经过数据修正模型纠正后输出修正后的模拟数据。

图3为数据修正模型的结构示意图。首先基于同一数据集建立不同类型的模型进行模拟值的修正；之后结合运用装袋法和堆叠法用于集成不同模型的建模结果。同一类算法建立的模型用装袋法集成，不同类型的算法建立的模型用堆叠法集成。

本实施例中采用的堆叠法具有两层结构，并在堆叠法中嵌套了装袋法。

具体如下：

a）第一层采用Lasso回归和Ridge回归（岭回归）两种模型：

训练之前需要对输入参数进行处理。对于数值型变量，将其进行归一化处理；对于类别型变量，将进行独热编码等编码处理。

将这两个模型的输出结果（即两个模型的模拟数据修正结果）进行加权算术平均。

b）将加权平均值作为第二层模型的输入，采用XGBoost算法进行第二层模型的训练，第二层模型的输出即为最终的模拟数据修正值。

输入待修正建筑的模拟数据、关键变量和天气及时序参数，利用训练好的数据修正模型输出修正后的模拟数据。

本发明提供了一种用于建筑能耗预测的多元异构能耗数据融合方法，通过从多途径获取时间颗粒度和置信度不同的能耗数据，以其中能耗监测平台的时间颗粒度较细的逐日能耗数据为基础进行数据的预处理，然后结合节能审计报告中置信度较高的月度能耗数据，得到时间颗粒度和置信度均较高的建筑能耗实测数据，以该数据为基础建立输入-输出数据库，训练数据修正模型来拟合该数据库中输入输出数据之间的偏差，从而利用该偏差实现对模拟数据的准确修正。本发明结合多个平台的数据进行综合处理，能够获得较为精准的实测数据，从而实现对模拟能耗数据更为精确的修正。

以上是对本发明的一种用于建筑能耗预测的多元异构能耗数据融合方法的实施例进行的详细介绍，以下将对本发明的一种用于建筑能耗预测的多元异构能耗数据融合系统的实施例进行详细的介绍。

本实施例提供一种用于建筑能耗预测的多元异构能耗数据融合系统，包括：数据采集单元、预处理单元、数据填充单元、数据库单元、模型训练单元和数据修正单元。

在本实施例中，数据采集单元用于分别从能耗监测平台获取逐日分项能耗数据、从节能审计报告中获取能耗月账单数据以及从快速模拟工具生成能耗模拟数据。

在本实施例中，预处理单元用于针对每日的分项能耗数据，依次进行异常值判断和异常楼宇剔除，以便从总数据中去除异常值占比和建筑能耗偏差不满足融合处理条件的建筑能耗数据，对余下的数据进行修复补全处理。

进一步的，异常楼宇剔除中需要剔除的异常楼宇具体包括：

单位面积全年能耗强度不在设定能耗强度范围内的建筑。

在本实施例中，数据填充单元用于从处理后的逐日分项能耗数据中提取出典型逐日能耗曲线，利用典型逐日能耗曲线对能耗月账单数据逐月进行填充，得到时间颗粒度和置信度均满足模拟计算要求的建筑能耗实测数据；

将处理后的逐日分项能耗数据进行归一化处理；

在本实施例中，数据库单元用于利用建筑能耗实测数据建立输入-输出数据库，输入-输出数据库以能耗模拟数据为基础作为输出，对应的实测数据作为输出。

在本实施例中，模型训练单元用于训练数据修正模型来拟合能耗模拟数据和对应的实测数据之间的偏差。

数据修正模型设有两层结构，第一层结构由不同算法建立的若干个一级修正模型组成，第二层结构设有一个综合修正模型，将待修正的建筑模拟数据为基础输入数据修正模型，得到经过偏差修正后的模拟数据，具体包括：

在本实施例中，数据修正单元用于将待修正的建筑模拟数据为基础输入数据修正模型，得到经过偏差修正后的模拟数据。

需要说明的是，本实施例提供的融合系统用于实现前述实施例提供的融合方法，各单元的具体设置均以完整实现该方法为准，在此不再赘述。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.用于建筑能耗预测的多元异构能耗数据融合方法，其特征在于，包括如下步骤：

从处理后的所述逐日分项能耗数据中提取出典型逐日能耗曲线，利用所述典型逐日能耗曲线对所述能耗月账单数据的逐月进行填充，得到时间颗粒度和置信度均满足模拟计算要求的建筑能耗实测数据；

利用所述建筑能耗实测数据建立输入-输出数据库，所述输入-输出数据库以所述能耗模拟数据为基础作为输出，对应的实测数据作为输出；

训练数据修正模型来拟合所述能耗模拟数据和对应的所述实测数据之间的偏差；

将待修正的建筑模拟数据为基础输入所述数据修正模型，得到经过所述偏差修正后的模拟数据。

2.根据权利要求1所述的用于建筑能耗预测的多元异构能耗数据融合方法，其特征在于，从处理后的所述逐日分项能耗数据中提取出典型逐日能耗曲线，利用所述典型逐日能耗曲线对所述能耗月账单数据逐月进行填充，具体包括：

将处理后的所述逐日分项能耗数据进行归一化处理；

采用K-Means聚类算法对所述逐日分项能耗数据在时间序列上按照月份进行聚类，其中，将DTW算法作为所述时间序列的距离度量指标，并采用平均轮廓系数最大的 k值作为聚类的k值；

分析聚类结果，确定每簇的用能特性并将各簇的聚类中心曲线作为所述典型逐日能耗曲线，将符合各簇用能特性的能耗数据用所述典型逐日能耗曲线进行填充。

3.根据权利要求1所述的用于建筑能耗预测的多元异构能耗数据融合方法，其特征在于，所述数据修正模型设有两层结构，第一层结构由不同算法建立的若干个一级修正模型组成，第二层结构设有一个综合修正模型，将待修正的建筑模拟数据为基础输入所述数据修正模型，得到经过所述偏差修正后的模拟数据，具体包括：

将若干个一次修正的模拟数据进行加权算术平均处理后输入所述综合修正模型，输出经二次偏差修正的模拟数据。

4.根据权利要求1所述的用于建筑能耗预测的多元异构能耗数据融合方法，其特征在于，异常值包括离群值和异常波动值，所述异常值判断具体包括：

定义所述离群值的分布范围，利用箱形图从所述分项能耗数据中确定离群值的数据量；

所述异常波动值包括突变值和死值，从从所述分项能耗数据中统计所述突变值和死值的数据量；

针对每栋建筑，判断所述离群值的数据量和所述异常波动值数据量之和在每栋建筑的所述分项能耗数据中的占比是否超过设定阈值，若是，则将对应建筑的数据从所有建筑的能耗数据集合中剔除。

5.根据权利要求1所述的用于建筑能耗预测的多元异构能耗数据融合方法，其特征在于，所述异常楼宇剔除中需要剔除的异常楼宇具体包括：

在能耗时间序列的设定时间范围中，所述能耗监测平台中得到的建筑总能耗数据与所述分项能耗数据之和的误差大于第一设定值的建筑；

单位面积全年能耗强度不在设定能耗强度范围内的建筑。

6.用于建筑能耗预测的多元异构能耗数据融合系统，其特征在于，包括：

数据填充单元，用于从处理后的所述逐日分项能耗数据中提取出典型逐日能耗曲线，利用所述典型逐日能耗曲线对所述能耗月账单数据逐月进行填充，得到时间颗粒度和置信度均满足模拟计算要求的建筑能耗实测数据；

数据库单元，用于利用所述建筑能耗实测数据建立输入-输出数据库，所述输入-输出数据库以所述能耗模拟数据为基础作为输出，对应的实测数据作为输出；

模型训练单元，用于训练数据修正模型来拟合所述能耗模拟数据和对应的所述实测数据之间的偏差；

数据修正单元，用于将待修正的建筑模拟数据为基础输入所述数据修正模型，得到经过所述偏差修正后的模拟数据。

7.根据权利要求6所述的用于建筑能耗预测的多元异构能耗数据融合系统，其特征在于，在所述数据填充单元中，从处理后的所述逐日分项能耗数据中提取出典型逐日能耗曲线，利用所述典型逐日能耗曲线对所述能耗月账单数据逐月进行填充，具体包括：

将处理后的所述逐日分项能耗数据进行归一化处理；

8.根据权利要求6所述的用于建筑能耗预测的多元异构能耗数据融合系统，其特征在于，在所述模型训练单元中，所述数据修正模型设有两层结构，第一层结构由不同算法建立的若干个一级修正模型组成，第二层结构设有一个综合修正模型，将待修正的建筑模拟数据为基础输入所述数据修正模型，得到经过所述偏差修正后的模拟数据，具体包括：

9.根据权利要求6所述的用于建筑能耗预测的多元异构能耗数据融合系统，其特征在于，在所述预处理单元中，异常值包括离群值和异常波动值，所述异常值判断具体包括：

10.根据权利要求6所述的用于建筑能耗预测的多元异构能耗数据融合系统，其特征在于，在所述预处理单元中，所述异常楼宇剔除中需要剔除的异常楼宇具体包括：

单位面积全年能耗强度不在设定能耗强度范围内的建筑。