CN114881374A - 用于建筑能耗预测的多元异构能耗数据融合方法和系统 - Google Patents
用于建筑能耗预测的多元异构能耗数据融合方法和系统 Download PDFInfo
- Publication number
- CN114881374A CN114881374A CN202210807504.9A CN202210807504A CN114881374A CN 114881374 A CN114881374 A CN 114881374A CN 202210807504 A CN202210807504 A CN 202210807504A CN 114881374 A CN114881374 A CN 114881374A
- Authority
- CN
- China
- Prior art keywords
- data
- energy consumption
- building
- value
- day
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000005265 energy consumption Methods 0.000 title claims abstract description 313
- 238000007500 overflow downdraw method Methods 0.000 title abstract description 15
- 238000012937 correction Methods 0.000 claims abstract description 78
- 238000000034 method Methods 0.000 claims abstract description 35
- 238000012545 processing Methods 0.000 claims abstract description 23
- 238000012544 monitoring process Methods 0.000 claims abstract description 15
- 238000007781 pre-processing Methods 0.000 claims abstract description 15
- 238000012550 audit Methods 0.000 claims abstract description 12
- 230000004927 fusion Effects 0.000 claims abstract description 12
- 238000004088 simulation Methods 0.000 claims description 94
- 230000002159 abnormal effect Effects 0.000 claims description 66
- 238000004422 calculation algorithm Methods 0.000 claims description 23
- 238000012986 modification Methods 0.000 claims description 14
- 230000004048 modification Effects 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 12
- 238000010586 diagram Methods 0.000 claims description 9
- 238000005259 measurement Methods 0.000 claims description 8
- 230000008439 repair process Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000007499 fusion processing Methods 0.000 claims description 6
- 238000003064 k means clustering Methods 0.000 claims description 5
- 230000035772 mutation Effects 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 3
- 230000008030 elimination Effects 0.000 claims description 2
- 238000003379 elimination reaction Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 description 8
- 230000008859 change Effects 0.000 description 6
- 239000002245 particle Substances 0.000 description 3
- 238000007689 inspection Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Marketing (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Development Economics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Entrepreneurship & Innovation (AREA)
- Probability & Statistics with Applications (AREA)
- Game Theory and Decision Science (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种用于建筑能耗预测的多元异构能耗数据融合方法和系统,其中本发明的方法通过从多途径获取时间颗粒度和置信度不同的能耗数据,以其中能耗监测平台的时间颗粒度较细的逐日能耗数据为基础进行数据的预处理,然后结合节能审计报告中置信度较高的月度能耗数据,得到时间颗粒度和置信度均较高的建筑能耗实测数据,以该数据为基础建立输入‑输出数据库,训练数据修正模型来拟合该数据库中输入输出数据之间的偏差,从而利用该偏差实现对模拟数据的准确修正。本发明结合多个平台的数据进行综合处理,能够获得较为精准的实测数据,从而实现对模拟能耗数据更为精确的修正。
Description
技术领域
本发明属于建筑能耗预测技术领域,具体涉及一种用于建筑能耗预测的多元异构能耗数据融合方法和系统。
背景技术
在大数据时代,建筑能耗数据可通过多个途径获取,但多个途径获取的能耗数据往往时间颗粒度和置信度存在差异,要将多源数据进行综合利用需首先进行数据融合。
现有建筑能耗实测数据与模拟数据融合算法是通过利用细颗粒度的模拟数据和实测数据的异常值和噪声进行处理,对实测数据中缺失的部分采用数据集的均值或众数进行修正,从而得到颗粒度一致的数据。
然而由于不同途径建筑能耗数据时间颗粒和置信度的差异,采用现有融合方法处理往往只是将模型数据和实测数据进行缩放和简单的修正,对于缺失值的填补往往没有经过可靠性的检验,对于数据的处理也过于简化,未能从建筑类型、用能特性等方面进行综合考虑。
发明内容
有鉴于此,本发明旨在解决现有融合算法对于模型数据和实测数据的处理过于简化,无法适应不同途径建筑能耗数据时间颗粒和置信度的差异的问题。
为了解决上述技术问题,本发明提供以下技术方案:
第一方面,本发明提供了一种用于建筑能耗预测的多元异构能耗数据融合方法,包括如下步骤:
分别从能耗监测平台获取逐日分项能耗数据、从节能审计报告中获取能耗月账单数据以及从快速模拟工具生成能耗模拟数据;
针对每日的分项能耗数据,依次进行异常值判断和异常楼宇剔除,以便从总数据中去除异常值占比和建筑能耗偏差不满足融合处理条件的建筑能耗数据,对余下的数据进行修复补全处理;
从处理后的逐日分项能耗数据中提取出典型逐日能耗曲线,利用典型逐日能耗曲线对能耗月账单数据逐月进行填充,得到时间颗粒度和置信度均满足模拟计算要求的建筑能耗实测数据;
利用建筑能耗实测数据建立输入-输出数据库,输入-输出数据库以能耗模拟数据为基础作为输出,对应的实测数据作为输出;
训练数据修正模型来拟合能耗模拟数据和对应的实测数据之间的偏差;
将待修正的建筑模拟数据为基础输入数据修正模型,得到经过偏差修正后的模拟数据。
进一步的,从处理后的逐日分项能耗数据中提取出典型逐日能耗曲线,利用典型逐日能耗曲线对基于能耗月账单数据的逐月能耗数据进行填充,具体包括:
将处理后的逐日分项能耗数据进行归一化处理;
采用K-Means聚类算法对逐日分项能耗数据在时间序列上按照月份进行聚类,其中,将DTW算法作为时间序列的距离度量指标,并采用平均轮廓系数最大的 k值作为聚类的k值;
分析聚类结果,确定每簇的用能特性并将各簇的聚类中心曲线作为典型逐日能耗曲线,将符合各簇用能特性的能耗数据用典型逐日能耗曲线进行填充。
进一步的,数据修正模型设有两层结构,第一层结构由不同算法建立的若干个一级修正模型组成,第二层结构设有一个综合修正模型,将待修正的建筑模拟数据为基础输入数据修正模型,得到经过偏差修正后的模拟数据,具体包括:
将待修正的建筑模拟数据进行预处理后输入不同的一级修正模型中,输出若干个经一次偏差修正的模拟数据;
将若干个一次修正的模拟数据进行加权算术平均处理后输入综合修正模型,输出经二次偏差修正的模拟数据。
进一步的,异常值包括离群值和异常波动值,异常值判断具体包括:
定义离群值的分布范围,利用箱形图从分项能耗数据中确定离群值的数据量;
异常波动值包括突变值和死值,从从分项能耗数据中统计突变值和死值的数据量;
针对每栋建筑,判断离群值的数据量和异常波动值数据量之和在每栋建筑的分项能耗数据中的占比是否超过设定阈值,若是,则将对应建筑的数据从所有建筑的能耗数据集合中剔除。
进一步的,异常楼宇剔除中需要剔除的异常楼宇具体包括:
在能耗时间序列的设定时间范围中,能耗监测平台中得到的建筑总能耗数据与分项能耗数据之和的误差大于第一设定值的建筑;
空调分项的最大能耗值与总能耗的最大值的比值小于第二设定值的建筑;
单位面积全年能耗强度不在设定能耗强度范围内的建筑。
第二方面,本发明提供了一种用于建筑能耗预测的多元异构能耗数据融合系统,包括:
数据采集单元,用于分别从能耗监测平台获取逐日分项能耗数据、从节能审计报告中获取能耗月账单数据以及从快速模拟工具生成能耗模拟数据;
预处理单元,用于针对每日的分项能耗数据,依次进行异常值判断和异常楼宇剔除,以便从总数据中去除异常值占比和建筑能耗偏差不满足融合处理条件的建筑能耗数据,对余下的数据进行修复补全处理;
数据填充单元,用于从处理后的逐日分项能耗数据中提取出典型逐日能耗曲线,利用典型逐日能耗曲线对能耗月账单数据逐月进行填充,得到时间颗粒度和置信度均满足模拟计算要求的建筑能耗实测数据;
数据库单元,用于利用建筑能耗实测数据建立输入-输出数据库,输入-输出数据库以能耗模拟数据为基础作为输出,对应的实测数据作为输出;
模型训练单元,用于训练数据修正模型来拟合能耗模拟数据和对应的实测数据之间的偏差;
数据修正单元,用于将待修正的建筑模拟数据为基础输入数据修正模型,得到经过偏差修正后的模拟数据。
进一步的,在数据填充单元中,从处理后的逐日分项能耗数据中提取出典型逐日能耗曲线,利用典型逐日能耗曲线对基于能耗月账单数据的逐月能耗数据进行填充,具体包括:
将处理后的逐日分项能耗数据进行归一化处理;
采用K-Means聚类算法对逐日分项能耗数据在时间序列上按照月份进行聚类,其中,将DTW算法作为时间序列的距离度量指标,并采用平均轮廓系数最大的 k值作为聚类的k值;
分析聚类结果,确定每簇的用能特性并将各簇的聚类中心曲线作为典型逐日能耗曲线,将符合各簇用能特性的能耗数据用典型逐日能耗曲线进行填充。
进一步的,在模型训练单元中,数据修正模型设有两层结构,第一层结构由不同算法建立的若干个一级修正模型组成,第二层结构设有一个综合修正模型,将待修正的建筑模拟数据为基础输入数据修正模型,得到经过偏差修正后的模拟数据,具体包括:
将待修正的建筑模拟数据进行预处理后输入不同的一级修正模型中,输出若干个经一次偏差修正的模拟数据;
将若干个一次修正的模拟数据进行加权算术平均处理后输入综合修正模型,输出经二次偏差修正的模拟数据。
进一步的,在预处理单元中,异常值包括离群值和异常波动值,异常值判断具体包括:
定义离群值的分布范围,利用箱形图从分项能耗数据中确定离群值的数据量;
异常波动值包括突变值和死值,从从分项能耗数据中统计突变值和死值的数据量;
针对每栋建筑,判断离群值的数据量和异常波动值数据量之和在每栋建筑的分项能耗数据中的占比是否超过设定阈值,若是,则将对应建筑的数据从所有建筑的能耗数据集合中剔除。
进一步的,在预处理单元中,异常楼宇剔除中需要剔除的异常楼宇具体包括:
在能耗时间序列的设定时间范围中,能耗监测平台中得到的建筑总能耗数据与分项能耗数据之和的误差大于第一设定值的建筑;
空调分项的最大能耗值与总能耗的最大值的比值小于第二设定值的建筑;
单位面积全年能耗强度不在设定能耗强度范围内的建筑。
综上,本发明提供了一种用于建筑能耗预测的多元异构能耗数据融合方法和系统,其中本发明的方法通过从多途径获取时间颗粒度和置信度不同的能耗数据,以其中能耗监测平台的时间颗粒度较细的逐日能耗数据为基础进行数据的预处理,然后结合节能审计报告中置信度较高的月度能耗数据,得到时间颗粒度和置信度均较高的建筑能耗实测数据,以该数据为基础建立输入-输出数据库,训练数据修正模型来拟合该数据库中输入输出数据之间的偏差,从而利用该偏差实现对模拟数据的准确修正。本发明结合多个平台的数据进行综合处理,能够获得较为精准的实测数据,从而实现对模拟能耗数据更为精确的修正。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的一种用于建筑能耗预测的多元异构能耗数据融合方法的流程示意图;
图2为本发明实施例提供的模拟数据的修正过程示意图;
图3为本发明实施例提供的数据修正模型的结构示意图。
具体实施方式
为使得本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在大数据时代,建筑能耗数据可通过多个途径获取,但多个途径获取的能耗数据往往时间颗粒度和置信度存在差异,要将多源数据进行综合利用需首先进行数据融合。
现有建筑能耗实测数据与模拟数据融合算法是通过利用细颗粒度的模拟数据和实测数据的异常值和噪声进行处理,对实测数据中缺失的部分采用数据集的均值或众数进行修正,从而得到颗粒度一致的数据。
然而由于不同途径建筑能耗数据时间颗粒和置信度的差异,采用现有融合方法处理往往只是将模型数据和实测数据进行缩放和简单的修正,对于缺失值的填补往往没有经过可靠性的检验,对于数据的处理也过于简化,未能从建筑类型、用能特性等方面进行综合考虑。
基于此,本发明提供了一种用于建筑能耗预测的多元异构能耗数据融合方法和系统。
以下对本发明的一种用于建筑能耗预测的多元异构能耗数据融合方法的实施例进行详细的介绍。
请参阅图1,本实施例提供一种用于建筑能耗预测的多元异构能耗数据融合方法,包括如下步骤:
S100:分别从能耗监测平台获取逐日分项能耗数据、从节能审计报告中获取能耗月账单数据以及从快速模拟工具生成能耗模拟数据。
可以理解的是,为了实现对建筑能耗数据进行全面的综合处理,从各个途径获取的能耗数据不仅包括建筑能耗实测和模拟数据以外,还包括节能审计报告中的建筑物理信息等信息。
S200:针对每日的分项能耗数据,依次进行异常值判断和异常楼宇剔除,以便从总数据中去除异常值占比和建筑能耗偏差不满足融合处理条件的建筑能耗数据,对余下的数据进行修复补全处理。
本步骤是对逐日能耗数据进行的预处理操作。以下对此进行详细介绍:
(1)异常值判断
异常值包括离群值和异常波动值(例如长时间的死值)。
其中,离群值的判断采用箱形图的判断方法进行异常值的识别。
箱形图可用于反映原始数据分布的特征及进行多组数据分布特征的比较。此外,还可以有效地判断数据中的异常值,是实际使用过程中较为常见的方法。在箱形图中,异常值被定义为小于或大于的值 (其中U、L分别为上、下四分位数,IQR 为四分位距,是上四分位数与下四分位数之差,其间包含了全部观察值的一半)。
异常波动值的判断则可以采用python开发的tsod模块进行突变值和死值的判断。当一栋建筑的异常值数据量占比超过一定阈值,如15%时,则认为该建筑异常数据过多,则将该建筑从数据中剔除。
(2)异常楼宇剔除
进行异常楼宇的剔除是由于有的建筑即使异常值较小,但单位面积能耗值和各分项能耗占比与经验值差异太大也应被视为数据异常的楼宇。
具体来说,以下三类建筑将会被视为数据异常的建筑(为方便说明,其中各具体数值为本实施例按某建筑群的数据处理确定的值,在此并不做限定使用):
1)在能耗时间序列的1/3 以上的时间,能耗监测平台上得到的建筑总能耗数据与分项能耗数据之和的误差大于1;
2)空调分项的最大值和总能耗的最大值的比值小于25%的建筑;
3)单位面积全年能耗强度不在50~150 kWh/m2 ·a的建筑。
(3)进行异常值的修复和缺失值的补全:
这里将识别出来的异常数据去除,并与缺失值一起填补。
填补缺失值的方法是:首先寻找与待填补建筑能耗密度最相似并且缺失值处有正常数据的相似建筑,然后用待填补建筑能耗密度与相似建筑能耗密度的比值乘以相似建筑同一时间的能耗值作为填补值。
S300:从处理后的逐日分项能耗数据中提取出典型逐日能耗曲线,利用典型逐日能耗曲线对能耗月账单数据逐月进行填充,得到时间颗粒度和置信度均满足模拟计算要求的建筑能耗实测数据。
来自节能审计报告的能耗数据置信度较高,几乎不存在缺失值和异常值,但这部分数据时间颗粒度较粗,通常是逐月数据。因此对这部分数据进行的处理主要是时间颗粒度的细化。
本实施例从逐日数据中提取出典型逐日能耗曲线,再用典型逐日能耗曲线进行逐月数据的填充。由于数据量的限制,有节能审计报告的楼宇均不存在逐日分项计量数据,故本部分采用的数据均来自与能耗计量平台。具体实现步骤如下:
(1)将进行过预处理的能耗值按照下式进行最大最小归一化。
(2)K-Means算法实现聚类:
采用K-Means算法对逐日能耗数据时间序列按照月份进行聚类,将DTW作为时间序列的距离(相似度)度量指标;对于k值的确定,采用平均轮廓系数最大的k值。
具体实现步骤如下:
第一步,初始化质心,将随机抽取 k 个样本作为初始的质心。
第二步,进行质心迭代求解。首先,将每个样本归到与其DTW距离最近的质心,生成k 个簇;然后在每个簇内,重新计算该簇的质心,再重新进行样本的归类。
其中,a为样本与其所在簇中的其他样本的相似度,等于该样本与簇中其他样本的平均距离,b为样本与其他簇中样本的相似度,等于该样本与其他簇中样本的平均距离。
(3)分析聚类结果,得到每簇的用能特性:
不同数据聚类出来的结果以及簇的数量都会有所不同,但一般而言,建筑能耗聚类的簇的个数不会超过3个,簇与簇之间的差异可通过建筑的用能特性表示出来,一个簇表示一种建筑类型。其种类一般分为以下几种:
a)办公建筑、综合建筑;
b)过渡季能耗密度低的建筑、过渡季能耗密度高的建筑;
c)过渡季不开空调的建筑、过渡季开空调的建筑;
d)热源不消耗电能的建筑或热负荷极低的建筑、建筑热源消耗电能且有一定热负荷的建筑。
实际情况中应当对不同簇内建筑的具体特性(如建筑功能、冷热源形式等)、运行时间进行实际考量,综合比较不同簇之间的差异后得到比较符合各簇实际的用能特性。
将符合该簇用能特性的颗粒度较大的能耗数据用该簇的聚类中心曲线(即典型能耗曲线)进行填充。
S400:利用建筑能耗实测数据建立输入-输出数据库,输入-输出数据库以能耗模拟数据为基础作为输出,对应的实测数据作为输出。
S500:训练数据修正模型来拟合能耗模拟数据和对应的实测数据之间的偏差。
S600:将待修正的建筑模拟数据为基础输入数据修正模型,得到经过偏差修正后的模拟数据。
请参阅图2,图2是模拟数据的修正流程。首先利用模拟数据、关键变量和天气及日期参数作为输入,实测数据作为输出建立输入-输出数据库。采用数据修正模型拟合数据库中模拟数据与实测数据的偏差,然后将待修正的模拟数据、关键变量和天气及日期参数作为输入,经过数据修正模型纠正后输出修正后的模拟数据。
图3为数据修正模型的结构示意图。首先基于同一数据集建立不同类型的模型进行模拟值的修正;之后结合运用装袋法和堆叠法用于集成不同模型的建模结果。同一类算法建立的模型用装袋法集成,不同类型的算法建立的模型用堆叠法集成。
本实施例中采用的堆叠法具有两层结构,并在堆叠法中嵌套了装袋法。
具体如下:
a)第一层采用Lasso回归和Ridge回归(岭回归)两种模型:
训练之前需要对输入参数进行处理。对于数值型变量,将其进行归一化处理;对于类别型变量,将进行独热编码等编码处理。
将这两个模型的输出结果(即两个模型的模拟数据修正结果)进行加权算术平均。
b)将加权平均值作为第二层模型的输入,采用XGBoost算法进行第二层模型的训练,第二层模型的输出即为最终的模拟数据修正值。
输入待修正建筑的模拟数据、关键变量和天气及时序参数,利用训练好的数据修正模型输出修正后的模拟数据。
本发明提供了一种用于建筑能耗预测的多元异构能耗数据融合方法,通过从多途径获取时间颗粒度和置信度不同的能耗数据,以其中能耗监测平台的时间颗粒度较细的逐日能耗数据为基础进行数据的预处理,然后结合节能审计报告中置信度较高的月度能耗数据,得到时间颗粒度和置信度均较高的建筑能耗实测数据,以该数据为基础建立输入-输出数据库,训练数据修正模型来拟合该数据库中输入输出数据之间的偏差,从而利用该偏差实现对模拟数据的准确修正。本发明结合多个平台的数据进行综合处理,能够获得较为精准的实测数据,从而实现对模拟能耗数据更为精确的修正。
以上是对本发明的一种用于建筑能耗预测的多元异构能耗数据融合方法的实施例进行的详细介绍,以下将对本发明的一种用于建筑能耗预测的多元异构能耗数据融合系统的实施例进行详细的介绍。
本实施例提供一种用于建筑能耗预测的多元异构能耗数据融合系统,包括:数据采集单元、预处理单元、数据填充单元、数据库单元、模型训练单元和数据修正单元。
在本实施例中,数据采集单元用于分别从能耗监测平台获取逐日分项能耗数据、从节能审计报告中获取能耗月账单数据以及从快速模拟工具生成能耗模拟数据。
在本实施例中,预处理单元用于针对每日的分项能耗数据,依次进行异常值判断和异常楼宇剔除,以便从总数据中去除异常值占比和建筑能耗偏差不满足融合处理条件的建筑能耗数据,对余下的数据进行修复补全处理。
进一步的,异常值包括离群值和异常波动值,异常值判断具体包括:
定义离群值的分布范围,利用箱形图从分项能耗数据中确定离群值的数据量;
异常波动值包括突变值和死值,从从分项能耗数据中统计突变值和死值的数据量;
针对每栋建筑,判断离群值的数据量和异常波动值数据量之和在每栋建筑的分项能耗数据中的占比是否超过设定阈值,若是,则将对应建筑的数据从所有建筑的能耗数据集合中剔除。
进一步的,异常楼宇剔除中需要剔除的异常楼宇具体包括:
在能耗时间序列的设定时间范围中,能耗监测平台中得到的建筑总能耗数据与分项能耗数据之和的误差大于第一设定值的建筑;
空调分项的最大能耗值与总能耗的最大值的比值小于第二设定值的建筑;
单位面积全年能耗强度不在设定能耗强度范围内的建筑。
在本实施例中,数据填充单元用于从处理后的逐日分项能耗数据中提取出典型逐日能耗曲线,利用典型逐日能耗曲线对能耗月账单数据逐月进行填充,得到时间颗粒度和置信度均满足模拟计算要求的建筑能耗实测数据;
进一步的,从处理后的逐日分项能耗数据中提取出典型逐日能耗曲线,利用典型逐日能耗曲线对基于能耗月账单数据的逐月能耗数据进行填充,具体包括:
将处理后的逐日分项能耗数据进行归一化处理;
采用K-Means聚类算法对逐日分项能耗数据在时间序列上按照月份进行聚类,其中,将DTW算法作为时间序列的距离度量指标,并采用平均轮廓系数最大的 k值作为聚类的k值;
分析聚类结果,确定每簇的用能特性并将各簇的聚类中心曲线作为典型逐日能耗曲线,将符合各簇用能特性的能耗数据用典型逐日能耗曲线进行填充。
在本实施例中,数据库单元用于利用建筑能耗实测数据建立输入-输出数据库,输入-输出数据库以能耗模拟数据为基础作为输出,对应的实测数据作为输出。
在本实施例中,模型训练单元用于训练数据修正模型来拟合能耗模拟数据和对应的实测数据之间的偏差。
数据修正模型设有两层结构,第一层结构由不同算法建立的若干个一级修正模型组成,第二层结构设有一个综合修正模型,将待修正的建筑模拟数据为基础输入数据修正模型,得到经过偏差修正后的模拟数据,具体包括:
将待修正的建筑模拟数据进行预处理后输入不同的一级修正模型中,输出若干个经一次偏差修正的模拟数据;
将若干个一次修正的模拟数据进行加权算术平均处理后输入综合修正模型,输出经二次偏差修正的模拟数据。
在本实施例中,数据修正单元用于将待修正的建筑模拟数据为基础输入数据修正模型,得到经过偏差修正后的模拟数据。
需要说明的是,本实施例提供的融合系统用于实现前述实施例提供的融合方法,各单元的具体设置均以完整实现该方法为准,在此不再赘述。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.用于建筑能耗预测的多元异构能耗数据融合方法,其特征在于,包括如下步骤:
分别从能耗监测平台获取逐日分项能耗数据、从节能审计报告中获取能耗月账单数据以及从快速模拟工具生成能耗模拟数据;
针对每日的分项能耗数据,依次进行异常值判断和异常楼宇剔除,以便从总数据中去除异常值占比和建筑能耗偏差不满足融合处理条件的建筑能耗数据,对余下的数据进行修复补全处理;
从处理后的所述逐日分项能耗数据中提取出典型逐日能耗曲线,利用所述典型逐日能耗曲线对所述能耗月账单数据的逐月进行填充,得到时间颗粒度和置信度均满足模拟计算要求的建筑能耗实测数据;
利用所述建筑能耗实测数据建立输入-输出数据库,所述输入-输出数据库以所述能耗模拟数据为基础作为输出,对应的实测数据作为输出;
训练数据修正模型来拟合所述能耗模拟数据和对应的所述实测数据之间的偏差;
将待修正的建筑模拟数据为基础输入所述数据修正模型,得到经过所述偏差修正后的模拟数据。
2.根据权利要求1所述的用于建筑能耗预测的多元异构能耗数据融合方法,其特征在于,从处理后的所述逐日分项能耗数据中提取出典型逐日能耗曲线,利用所述典型逐日能耗曲线对所述能耗月账单数据逐月进行填充,具体包括:
将处理后的所述逐日分项能耗数据进行归一化处理;
采用K-Means聚类算法对所述逐日分项能耗数据在时间序列上按照月份进行聚类,其中,将DTW算法作为所述时间序列的距离度量指标,并采用平均轮廓系数最大的 k值作为聚类的k值;
分析聚类结果,确定每簇的用能特性并将各簇的聚类中心曲线作为所述典型逐日能耗曲线,将符合各簇用能特性的能耗数据用所述典型逐日能耗曲线进行填充。
3.根据权利要求1所述的用于建筑能耗预测的多元异构能耗数据融合方法,其特征在于,所述数据修正模型设有两层结构,第一层结构由不同算法建立的若干个一级修正模型组成,第二层结构设有一个综合修正模型,将待修正的建筑模拟数据为基础输入所述数据修正模型,得到经过所述偏差修正后的模拟数据,具体包括:
将待修正的建筑模拟数据进行预处理后输入不同的一级修正模型中,输出若干个经一次偏差修正的模拟数据;
将若干个一次修正的模拟数据进行加权算术平均处理后输入所述综合修正模型,输出经二次偏差修正的模拟数据。
4.根据权利要求1所述的用于建筑能耗预测的多元异构能耗数据融合方法,其特征在于,异常值包括离群值和异常波动值,所述异常值判断具体包括:
定义所述离群值的分布范围,利用箱形图从所述分项能耗数据中确定离群值的数据量;
所述异常波动值包括突变值和死值,从从所述分项能耗数据中统计所述突变值和死值的数据量;
针对每栋建筑,判断所述离群值的数据量和所述异常波动值数据量之和在每栋建筑的所述分项能耗数据中的占比是否超过设定阈值,若是,则将对应建筑的数据从所有建筑的能耗数据集合中剔除。
5.根据权利要求1所述的用于建筑能耗预测的多元异构能耗数据融合方法,其特征在于,所述异常楼宇剔除中需要剔除的异常楼宇具体包括:
在能耗时间序列的设定时间范围中,所述能耗监测平台中得到的建筑总能耗数据与所述分项能耗数据之和的误差大于第一设定值的建筑;
空调分项的最大能耗值与总能耗的最大值的比值小于第二设定值的建筑;
单位面积全年能耗强度不在设定能耗强度范围内的建筑。
6.用于建筑能耗预测的多元异构能耗数据融合系统,其特征在于,包括:
数据采集单元,用于分别从能耗监测平台获取逐日分项能耗数据、从节能审计报告中获取能耗月账单数据以及从快速模拟工具生成能耗模拟数据;
预处理单元,用于针对每日的分项能耗数据,依次进行异常值判断和异常楼宇剔除,以便从总数据中去除异常值占比和建筑能耗偏差不满足融合处理条件的建筑能耗数据,对余下的数据进行修复补全处理;
数据填充单元,用于从处理后的所述逐日分项能耗数据中提取出典型逐日能耗曲线,利用所述典型逐日能耗曲线对所述能耗月账单数据逐月进行填充,得到时间颗粒度和置信度均满足模拟计算要求的建筑能耗实测数据;
数据库单元,用于利用所述建筑能耗实测数据建立输入-输出数据库,所述输入-输出数据库以所述能耗模拟数据为基础作为输出,对应的实测数据作为输出;
模型训练单元,用于训练数据修正模型来拟合所述能耗模拟数据和对应的所述实测数据之间的偏差;
数据修正单元,用于将待修正的建筑模拟数据为基础输入所述数据修正模型,得到经过所述偏差修正后的模拟数据。
7.根据权利要求6所述的用于建筑能耗预测的多元异构能耗数据融合系统,其特征在于,在所述数据填充单元中,从处理后的所述逐日分项能耗数据中提取出典型逐日能耗曲线,利用所述典型逐日能耗曲线对所述能耗月账单数据逐月进行填充,具体包括:
将处理后的所述逐日分项能耗数据进行归一化处理;
采用K-Means聚类算法对所述逐日分项能耗数据在时间序列上按照月份进行聚类,其中,将DTW算法作为所述时间序列的距离度量指标,并采用平均轮廓系数最大的 k值作为聚类的k值;
分析聚类结果,确定每簇的用能特性并将各簇的聚类中心曲线作为所述典型逐日能耗曲线,将符合各簇用能特性的能耗数据用所述典型逐日能耗曲线进行填充。
8.根据权利要求6所述的用于建筑能耗预测的多元异构能耗数据融合系统,其特征在于,在所述模型训练单元中,所述数据修正模型设有两层结构,第一层结构由不同算法建立的若干个一级修正模型组成,第二层结构设有一个综合修正模型,将待修正的建筑模拟数据为基础输入所述数据修正模型,得到经过所述偏差修正后的模拟数据,具体包括:
将待修正的建筑模拟数据进行预处理后输入不同的一级修正模型中,输出若干个经一次偏差修正的模拟数据;
将若干个一次修正的模拟数据进行加权算术平均处理后输入所述综合修正模型,输出经二次偏差修正的模拟数据。
9.根据权利要求6所述的用于建筑能耗预测的多元异构能耗数据融合系统,其特征在于,在所述预处理单元中,异常值包括离群值和异常波动值,所述异常值判断具体包括:
定义所述离群值的分布范围,利用箱形图从所述分项能耗数据中确定离群值的数据量;
所述异常波动值包括突变值和死值,从从所述分项能耗数据中统计所述突变值和死值的数据量;
针对每栋建筑,判断所述离群值的数据量和所述异常波动值数据量之和在每栋建筑的所述分项能耗数据中的占比是否超过设定阈值,若是,则将对应建筑的数据从所有建筑的能耗数据集合中剔除。
10.根据权利要求6所述的用于建筑能耗预测的多元异构能耗数据融合系统,其特征在于,在所述预处理单元中,所述异常楼宇剔除中需要剔除的异常楼宇具体包括:
在能耗时间序列的设定时间范围中,所述能耗监测平台中得到的建筑总能耗数据与所述分项能耗数据之和的误差大于第一设定值的建筑;
空调分项的最大能耗值与总能耗的最大值的比值小于第二设定值的建筑;
单位面积全年能耗强度不在设定能耗强度范围内的建筑。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210807504.9A CN114881374B (zh) | 2022-07-11 | 2022-07-11 | 用于建筑能耗预测的多元异构能耗数据融合方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210807504.9A CN114881374B (zh) | 2022-07-11 | 2022-07-11 | 用于建筑能耗预测的多元异构能耗数据融合方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114881374A true CN114881374A (zh) | 2022-08-09 |
CN114881374B CN114881374B (zh) | 2022-10-04 |
Family
ID=82683636
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210807504.9A Active CN114881374B (zh) | 2022-07-11 | 2022-07-11 | 用于建筑能耗预测的多元异构能耗数据融合方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114881374B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116708560A (zh) * | 2023-05-23 | 2023-09-05 | 广州市盛通建设工程质量检测有限公司 | 基于物联网的智能建筑及能效监控系统的数据交换方法 |
CN116777305A (zh) * | 2023-08-18 | 2023-09-19 | 河北思极科技有限公司 | 电力数据质量提升方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110097205A (zh) * | 2019-03-15 | 2019-08-06 | 天津大学 | 一种建筑负荷预测用气象预报数据预处理方法 |
CN111723085A (zh) * | 2020-06-28 | 2020-09-29 | 山东建筑大学 | 公共建筑空调用电能耗数据清洗方法及系统 |
KR20200142874A (ko) * | 2019-06-13 | 2020-12-23 | 동의대학교 산학협력단 | 추출된 건물의 형상 정보에 기반하여 건물이 소모하는 에너지를 시뮬레이션하는 전자 장치 |
CN112747416A (zh) * | 2019-10-31 | 2021-05-04 | 北京国双科技有限公司 | 空调系统能耗预测方法及装置 |
CN114049236A (zh) * | 2021-09-30 | 2022-02-15 | 深圳达实智能股份有限公司 | 建筑机电设备运行能耗数据处理方法、系统及存储介质 |
-
2022
- 2022-07-11 CN CN202210807504.9A patent/CN114881374B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110097205A (zh) * | 2019-03-15 | 2019-08-06 | 天津大学 | 一种建筑负荷预测用气象预报数据预处理方法 |
KR20200142874A (ko) * | 2019-06-13 | 2020-12-23 | 동의대학교 산학협력단 | 추출된 건물의 형상 정보에 기반하여 건물이 소모하는 에너지를 시뮬레이션하는 전자 장치 |
CN112747416A (zh) * | 2019-10-31 | 2021-05-04 | 北京国双科技有限公司 | 空调系统能耗预测方法及装置 |
CN111723085A (zh) * | 2020-06-28 | 2020-09-29 | 山东建筑大学 | 公共建筑空调用电能耗数据清洗方法及系统 |
CN114049236A (zh) * | 2021-09-30 | 2022-02-15 | 深圳达实智能股份有限公司 | 建筑机电设备运行能耗数据处理方法、系统及存储介质 |
Non-Patent Citations (1)
Title |
---|
何明秀: "基于数据挖掘的公共建筑能耗预测模型构建与优化", 《中国优秀博硕士学位论文全文数据》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116708560A (zh) * | 2023-05-23 | 2023-09-05 | 广州市盛通建设工程质量检测有限公司 | 基于物联网的智能建筑及能效监控系统的数据交换方法 |
CN116708560B (zh) * | 2023-05-23 | 2024-02-13 | 广州市盛通建设工程质量检测有限公司 | 基于物联网的智能建筑及能效监控系统的数据交换方法 |
CN116777305A (zh) * | 2023-08-18 | 2023-09-19 | 河北思极科技有限公司 | 电力数据质量提升方法、装置、电子设备及存储介质 |
CN116777305B (zh) * | 2023-08-18 | 2023-11-10 | 河北思极科技有限公司 | 电力数据质量提升方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114881374B (zh) | 2022-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114881374B (zh) | 用于建筑能耗预测的多元异构能耗数据融合方法和系统 | |
CN110097297A (zh) | 一种多维度窃电态势智能感知方法、系统、设备及介质 | |
CN111369070A (zh) | 一种基于包络线聚类的多模融合光伏功率预测方法 | |
CN103793854A (zh) | 多重组合优化的架空输电线路运行风险信息化评估方法 | |
CN104021300B (zh) | 一种基于分布式电源接入对配电网影响的综合评估方法 | |
CN111539657B (zh) | 结合用户日用电量曲线的典型用电行业负荷特性分类与综合方法 | |
CN108805213B (zh) | 计及小波熵降维的电力负荷曲线双层谱聚类方法 | |
CN113627735A (zh) | 工程建设项目安全风险的预警方法及系统 | |
CN113887908A (zh) | 考虑主客观交叉融合权重的桥梁风险评估方法 | |
CN108805351A (zh) | 基于线性回归算法的房价预测方法及系统、存储介质 | |
CN111967717A (zh) | 一种基于信息熵值的数据质量评价方法 | |
CN110705859A (zh) | 基于pca-自组织神经网络的中低压配电网运行状态评估方法 | |
CN112418476A (zh) | 一种超短期电力负荷预测方法 | |
CN114021873A (zh) | 一种数据指标量化方法和智慧园区企业价值评价系统 | |
CN112884359A (zh) | 一种电力现货市场风险评估方法 | |
CN117408394B (zh) | 电力系统的碳排放因子预测方法、装置及电子设备 | |
CN114612119A (zh) | 基于层次分析法和有序加权算子的供应商风险预警系统 | |
CN112330030B (zh) | 业扩物资需求预测系统及方法 | |
CN116703657B (zh) | 一种基于bim模型的房建工程施工管理系统 | |
CN115511230B (zh) | 一种电能替代潜力分析预测方法 | |
CN116644956A (zh) | 一种基于多方案决策和模糊判断的用电异常等级划分方法 | |
CN113919610A (zh) | 低压台区线损预测用arima模型构建方法及评估方法 | |
CN116645014A (zh) | 一种基于人工智能的供应商供应数据模型构建方法 | |
CN116957534A (zh) | 一种预测智能电表更换数量的方法 | |
CN114625781A (zh) | 一种基于商品住房价值的批量评估方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |