CN116128124A - 一种基于异常用能值处理和时序分解的建筑能耗预测方法 - Google Patents
一种基于异常用能值处理和时序分解的建筑能耗预测方法 Download PDFInfo
- Publication number
- CN116128124A CN116128124A CN202310026452.6A CN202310026452A CN116128124A CN 116128124 A CN116128124 A CN 116128124A CN 202310026452 A CN202310026452 A CN 202310026452A CN 116128124 A CN116128124 A CN 116128124A
- Authority
- CN
- China
- Prior art keywords
- data
- value
- energy consumption
- building energy
- abnormal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 112
- 238000005265 energy consumption Methods 0.000 title claims abstract description 95
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 60
- 238000000354 decomposition reaction Methods 0.000 title claims abstract description 45
- 238000012545 processing Methods 0.000 title claims abstract description 24
- 238000010801 machine learning Methods 0.000 claims abstract description 12
- 238000004364 calculation method Methods 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims description 31
- 230000008569 process Effects 0.000 claims description 17
- 238000012360 testing method Methods 0.000 claims description 16
- 238000001514 detection method Methods 0.000 claims description 12
- 238000011156 evaluation Methods 0.000 claims description 12
- 238000012935 Averaging Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 4
- 238000013210 evaluation model Methods 0.000 claims description 3
- 238000005429 filling process Methods 0.000 claims 1
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 abstract description 4
- 229910052799 carbon Inorganic materials 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 9
- 238000002474 experimental method Methods 0.000 description 6
- 238000007637 random forest analysis Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 101001095088 Homo sapiens Melanoma antigen preferentially expressed in tumors Proteins 0.000 description 3
- 102100037020 Melanoma antigen preferentially expressed in tumors Human genes 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 238000004134 energy conservation Methods 0.000 description 2
- 238000002679 ablation Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012067 mathematical method Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- YHXISWVBGDMDLQ-UHFFFAOYSA-N moclobemide Chemical compound C1=CC(Cl)=CC=C1C(=O)NCCN1CCOCC1 YHXISWVBGDMDLQ-UHFFFAOYSA-N 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001373 regressive effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/08—Construction
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Tourism & Hospitality (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
本发明提供了一种基于异常用能值处理和时序分解的建筑能耗预测方法。该方法包括:使用DBSCAN方法对原始的建筑用能数据进行检测,标记出建筑用能数据中的异常用能值,删除异常用能值;通过Lagrange插值方法对删除异常用能值后的能耗数据进行计算,根据计算结果构建多项式,利用多项式填充删除异常用能值后的能耗数据;将填充处理后的建筑用能数据通过CEEMDAN方法进行分解,得到一组IMF分量和一个残余分量;使用机器学习方法对各个分量分别预测,将预测值叠加重构后得到最终的关于原始建筑用能数据的预测值。本发明方法能够有效降低建筑能耗模型的预测误差,提高模型的预测性能表现,可以有效减少能耗预测的误差,提高能源利用率,降低碳排放。
Description
技术领域
本发明涉及建筑能耗预测技术领域,尤其涉及一种基于异常用能值处理和时序分解的建筑能耗预测方法。
背景技术
建筑作为重要的能源消耗者与碳排放大户,贡献了近40%的能源与过程相关的排放。因此,建筑部门对于减缓气候变化和降低碳排放至关重要,有必要开发有效的建筑能源系统,以提高建筑能源利用效率。建筑能耗预测在建筑能源系统中起着至关重要的作用。建筑用能数据是典型的一维时间序列数据,其变化受到多方面的影响,如多变的天气状况、不可预估的用户行为和不同的建筑围护结构特性等。建筑能耗预测即预测建筑未来的能耗分布,在建筑节能评估、多能源调度和节能策略制定等方面都起着重要的作用。
在日常的工作生活中,建筑存在有异常的用能,即与大多数用能行为或习惯差距较大的情况,而这些行为使得建筑能耗数据中存在有少量的异常点。当预测模型对数据进行学习时,由于这些异常点的存在,使得预测的误差增大。因此,为了提高能耗预测的精度,需要对建筑的异常用能进行识别与处理。异常用能识别是指通过一系列方法挖掘用能数据中与其他观测数据差别很大的数据。综上,能耗数据的预测是一个复杂的过程,影响能耗的因素很多,能耗数据中存在复杂的非线性与不平稳性,且存在一些异常用能数据,给精准的能源预测造成了困扰,难以实现准确的预测。为了应对这些挑战,需要一个准确可靠而又稳定的能耗预测模型。
为实现精准的建筑能耗预测工作,多年来,研究者们提出了各种各样的方法。例如以差分自回归移动平均(Auto Regressive Integrated Moving Average,ARIMA)模型为代表的统计学方法,该类方法的基本思想是:一些时间序列是一组随机变量,它们依赖于时间t,虽然组成时间序列的个体序列值是不确定的,但是整个序列的变化具有一定的规律性,可以用相应的数学模型来近似。近年来,以机器学习为代表的数据驱动的人工智能方法为能耗预测提供了有效的方案,该方法操作简单,并且只依赖于历史数据,在发掘数据潜在的特征关联中具有较强的优势,已在建筑能耗预测领域有了广泛的应用。进一步的,神经网络的引入使得机器学习方法得到完善与优化,该类方法通过构建包含有多个神经元的人工神经网络,从数据中自行发掘有效信息,在前向传播与反向传播的反复迭代中不断优化,找到最优的模型实现精准预测,从而实现从数据到结果(“端到端”)、操作更为简洁的预测。
目前,现有技术中的建筑能耗预测方法对能耗数据有着严格的要求,如要求序列平稳、非白噪声等,这样才能做出有意义的预测,而实际应用时建筑能耗数据很难完全符合这些要求。数据驱动的方法取得的预测精度有限,难以对拥有不同用能模式的各类建筑都保持理想的预测效果。现有的建筑能耗预测方法中,很少关注到异常用能数据的检测与处理,这样会限制预测模型的整体性能水平。
发明内容
本发明的实施例提供了一种基于异常用能值处理和时序分解的建筑能耗预测方法,以有效降低建筑能耗模型的预测误差,提高能源利用率。
为了实现上述目的,本发明采取了如下技术方案。
一种基于异常用能值处理和时序分解的建筑能耗预测方法,包括:
使用DBSCAN方法对原始的建筑用能数据进行检测,标记出建筑用能数据中的异常用能值,删除所述异常用能值;
通过Lagrange插值方法对删除异常用能值后的能耗数据进行计算,根据计算结果构建多项式,利用所述多项式填充删除异常用能值后的能耗数据;
将填充处理后的建筑用能数据通过CEEMDAN方法进行分解,得到一组IMF分量和一个残余分量;
使用机器学习方法对各个分量分别预测,将预测值叠加重构后得到最终的所述原始的建筑用能数据的建筑能耗预测值。
优选地,所述的使用DBSCAN方法对原始的建筑用能数据进行检测,标记出建筑用能数据中的异常用能值,删除所述异常用能值,包括:
将原始的建筑用能数据划分为训练集和测试集,对训练集做了DBSCAN检测,指定两个超参数MinPts和eps,其中MinPts是形成簇所需的最小核心点数量,eps是同一个簇中两个样本之间的最大距离,找到eps内的所有近邻点,并识别具有超过MinPts各近邻的核心点;
对于尚未分配给簇的每个核心点,创建一个新的簇,通过递归操作确定所有近邻点,并分配与核心点相同的簇;
重复以上处理过程,直到所有的核心点都被访问完毕,将所有不属于任何簇的点标记为建筑用能数据中的异常用能值,删除所有异常用能值。
优选地,所述的通过Lagrange插值方法对删除异常用能值后的能耗数据进行计算,根据计算结果构建多项式,利用所述多项式填充删除异常用能值后的能耗数据,包括:
在原始的建筑用能数据中的各个异常用能值之前和之后各取n个取值点,所述异常用能值为空值,在每个空值附近取2n个取值点,分段构建Lagrange插值多项式Ln(x),为每个空值都构建一个相应的Lagrange插值多项式Ln(x),以分别填充这些空值;
抽象为数学问题:对于待插值点(xk,yk),在该点前取n个值,同时在其后取n个值,即取值点为(xk-n,yk-n),(xk-n+1,yk-n+1),...,(xk+n,yk+n),共有2n个取值点,使用这2n个取值点构建Lagrange插值多项式Ln(x),如公式(1)所示:
式中,Ln(x)为同时经过以上2n个取值点的多项式;
式中的Lj(x)是Lagrange插值基函数,如公式(2)所示:
将x=xk代入所述多项式Ln(x)中,计算出相应的y值,使用该值填充待插值点(xk,yk);
重复以上操作,直至所有的空值均被填充完毕。
优选地,所述的将填充处理后的建筑用能数据通过CEEMDAN方法进行分解,得到一组IMF分量和一个残余分量,包括:
对原始的建筑用能数据添加高斯正负白噪声,采用经验模态分解方法对含噪信号的建筑用能数据进行多次分解,然后集成平均,得到CEEMDAN方法的IMF分量,然后将原始信号与IMF分量做差得到残余分量,若该残余分量能够继续被经验模态分解方法分解,则对该残余分量添加白噪声后,采用经验模态分解方法继续分解和集成平均,得到IMF分量,再继续得到残余分量,判断该残余分量是否能够继续被经验模态分解方法分解,重复执行上述处理过程,直至残余分量无法被经验模态分解方法分解,输出此时的IMF分量与残余分量。
优选地,所述的使用机器学习方法对各个分量分别预测,将预测值叠加重构后得到最终的所述原始的建筑用能数据的建筑能耗预测值,包括:
对分解得到的各个分量数据,采用滑动窗口的方式,每相邻的24条数据为一个窗口,步长为1,依次向下滑动,直至整个训练集滑动完毕,每个窗口的24条数据作为训练集的一个输入样本,每个窗口下一行的能耗值数据作为训练集的标签,对测试集也按照上述训练集的处理过程,划分为输入样本与标签;
对分解后的各分量使用机器学习方法根据各自训练集的输入样本和标签进行学习,在测试集上进行预测,对预测结果进行叠加,作为最终的所述原始的建筑用能数据的建筑能耗预测值。
优选地,所述的方法还包括:
使用评估指标对所述原始的建筑用能数据的建筑能耗预测值进行评估,对比预测结果与测试集的真实标签,根据评估指标评价模型采用平均绝对误差、均方根误差和平均绝对百分比误差作为评估指标,对预测结果的误差以及预测误差对于全局的影响做出全面的评估。
由上述本发明的实施例提供的技术方案可以看出,本发明方法探索了数学方法(Lagrange插值法)与机器学习方法(CEEMDAN方法和DBSCAN检测方法)在能耗预测方面的优势,使得一些理论知识技术与建筑能耗数据方面更好地结合起来,可以有效减少能耗预测的误差,帮助相关人员提高能源利用率,降低碳排放。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于异常用能值处理和时序分解的建筑能耗预测方法的处理流程图;
图2为本发明实施例提供的一种DBSCAN聚类效果示意图,(a)原始样本点;(b)聚类后的分簇情况以及被孤立的异常用能值;
图3为本发明实施例提供的一种采用Lagrange插值法对聚类检测后标记的异常数据进行填充替换的处理流程图;
图4为本发明实施例提供的一种采用CEEMDAN方法对处理后的建筑能耗数据进行分解的处理流程图。
图5为本发明实施例提供的一种UnivDorm建筑能耗数据分解信号图;
图6为本发明实施例提供的一种在Office建筑数据集上,以RF模型为例,关于是否使用本发明进行预测的对比示意图;
图7为本发明实施例提供的一种RF模型在不同数据集上,使用不同插值方法的预测误差示意图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
针对能耗数据中存在的异常用能数据,本发明采用基于密度的带有噪声的空间聚类(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)方法,检测并标记能耗数据中的异常用能;随后,使用拉格朗日(Lagrange)插值法,利用位于标记点之前和之后的真实用能数据构建多项式,对这些标记点进行填充,从而处理异常用能数据,降低异常点对于全局模型的影响,提升建筑能耗预测的精度。针对能耗数据中的非线性与不平稳性问题,本发明采用了一种基于时序分解的方法,采用具有自适应噪声的完整集成经验模式分解(Complete Ensemble Empirical Mode Decomposition with AdaptiveNoise,CEEMDAN)方法,对原始的能耗序列数据进行分解,以减小该问题对于预测的影响。
本发明实施例提供的一种基于异常用能值处理和时序分解的建筑能耗预测方法的处理流程如图1所示,包括如下的处理步骤:
步骤S10、使用DBSCAN方法对原始的建筑用能数据进行检测,聚类完毕后,标记出被孤立的一些值作为异常用能值,删除这些异常用能值。
步骤S20、通过Lagrange插值方法对异常用能值前后的能耗数据进行计算后,构建多项式以填充这些空值。
步骤S30、将处理后的能耗数据通过CEEMDAN方法进行分解,得到一组IMF分量和一个残余分量。使数据平稳化,有效降低了原始数据信号的非线性和非平稳性对预测精度的影响。
步骤S40、使用机器学习方法对各个分量分别预测,将预测值叠加重构后得到最终的所述原始的建筑用能数据的建筑能耗预测值,使用评估指标根据真实的能耗数据对原始的建筑用能数据的建筑能耗预测值进行评估。
上述步骤S10具体包括:对原始的能耗数据集划分为训练集和测试集,对训练集做了DBSCAN检测,检测出之所以进行建筑能耗数据的异常用能值检测,是为了避免少部分异常用能值对于模型整体性能的影响,提高预测精度。本发明使用DBSCAN作为异常用能值检测的方法。DBSCAN是一种用于把数据聚成簇的基于密度的聚类方法,它可以识别任意形状的簇类,它同样也被用于单维或多维数据的基于密度的异常检测,该方法无须提前了解预期的聚类数量,仅需指定两个超参数——MinPts和eps,其中MinPts是形成簇所需的最小核心点数量,eps是同一个簇中两个样本之间的最大距离。接着以参数为限制,在样本点域内不断地画圆域以分簇,同时舍弃不在簇中的样本点以减少噪声,提升模型表现。
DBSCAN通过检查数据中每个点的邻域来搜索簇和检测离群点。DBSCAN检测方法的过程如下:
①找到eps内的所有近邻点,并识别具有超过MinPts各近邻的核心点;
②对于尚未分配给簇的每个核心点,创建一个新的簇;
③进一步的,递归操作以确定所有近邻点并分配与核心点相同的簇;
④重复以上步骤,直到所有的核心点都被访问完毕,则那些不属于任何簇的点即异常用能值。
图2为本发明实施例提供一种DBSCAN聚类效果示意图,图2将DBSCAN方法聚类的过程进行了可视化。在图2中,原始样本点如图2(a)所示,MinPts和eps分别被设置为4和1。经过DBSCAN检测后,它们变成了簇,如图2(b)所示。可以看出,样本点被归类为阴影区域的簇,还有少量未被归类到簇中的点被标记为异常用能值。
上述步骤S20具体包括:插值法是一种构建多项式估计精确数据之间的中间值的方法,Lagrange多项式是用于插值的多项式之一。其对于总体样本数较多的数据,在插值点的附近选取若干个合适的节点用于Lagrange插值多项式的构建。
本发明实施例提供的一种采用Lagrange插值法对聚类检测后标记的异常数据进行填充替换的处理流程如图3所示,包括如下的处理过程:
根据“满足插值条件的、次数不超过的多项式是存在而且是唯一的”定理,Lagrange插值法构建多项式和插值的步骤如下:
①根据给定的n个取值点计算各取值点对应的Lagrange插值基函数Lj(x),如公式(1)所示;
②使用步骤(1)得到的Lj(x)求已知点对应的Lagrange插值多项式Ln(x),如公式(2)所示;
③使用步骤(2)得到的Lagrange插值多项式Ln(x)进行插值。
上述步骤S30具体包括:对原始数据分解后的各组件使用数据驱动的方法,仅需历史的能耗数据,即可自动学习和提取数据中的有效信息建立能耗预测模型并进行预测,利用CEEMDAN方法优秀的重构性,对各预测结果进行叠加重构作为最终的预测值,“分而治之”以减小预测误差,更好地发挥模型的价值。
CEEMDAN方法基于经验模态分解(Empirical Mode Decomposition,EMD)方法改进,同时借鉴了集合经验模态分解(Ensemble Empirical Mode Decomposition,EEMD)方法中加入高斯噪声和通过多次叠加并平均以抵消噪声的思想。相较于EEMD,CEEMDAN分解后的各分量相加更能够获得原信号的性质,即具备更好的重构性,也有效解决了EMD分解模态混叠的问题。
对原始的建筑用能数据添加高斯正负白噪声,采用经验模态分解方法对含噪信号的建筑用能数据进行多次分解,然后集成平均,得到CEEMDAN方法的IMF分量,然后将原始信号与IMF分量做差得到残余分量,若该残余分量能够继续被经验模态分解方法分解,则对该残余分量添加白噪声后,采用经验模态分解方法继续分解和集成平均,得到IMF分量,再继续得到残余分量,判断该残余分量是否能够继续被经验模态分解方法分解,重复执行上述处理过程,直至残余分量无法被经验模态分解方法分解,输出此时的IMF分量与残余分量。
本发明实施例提供的一种采用CEEMDAN方法对处理后的建筑能耗数据进行分解的处理流程如图4所示。以美国某大学的学生宿舍的能耗数据集——UnivDorm为例,图5为本发明实施例提供的一种UnivDorm建筑能耗数据分解信号图,经过CEEMDAN分解后,原始的复杂序列被分解为了8个IMF分量(IMF1~IMF8)和1个残余分量(IMF9),从图5中可以初步看出,该分解大大降低了序列的非线性与不平稳性。
采用CEEMDAN方法对处理后的建筑能耗数据进行分解的具体实现过程包括:
第一步:对原始的公用建筑能耗数据集(每小时能耗的导出数据)作初步处理,去掉与本实验无关的列,仅保留时间戳和能耗值的列,取出“时间戳列中属于3、4、5这三个月”的行数据。
第二步:将处理后的数据集另存为csv文件,作为本实验所用数据集。
第三步:在这一阶段,将数据分为训练数据和测试数据,以前80%的数据作为训练集,后20%为测试集。
第四步:实验建筑Pycharm工具在Python 3.8环境下进行。将训练集数据通过DBSCAN检测,将检测标记为-1簇类的值标记为异常用能值,该异常用能值为空值,输出含有空值的训练集。
第五步:对含空值的训练集构建Lagrange多项式,删除训练集数据中的空值,使用Lagrange多项式填充删除的空值,然后输出完整的非空训练集。
第六步:使用CEEMDAN方法对完整的非空训练集的能耗序列数据进行分解,得到一系列IMF分量和一个残余分量,以减小原始序列的非线性与不平稳性。
第七步:对分解得到的各个分量数据,采用滑动窗口的方式,每相邻的24条数据为一个“窗口”,步长为1,依次向下滑动,直至整个训练集滑动完毕。则每个“窗口”的24条数据作为训练集的一个输入样本,每个窗口下一行的能耗值数据作为训练集的标签。测试集同以上处理,划分为输入样本与标签。
第八步:初始化两个缩放器,分别用于缩放输入样本数据和标签数据。使用训练集数据准备缩放器以后,缩放训练集数据和测试集数据,以防止数据泄露。(数据泄露指预知了测试集信息,从而得到不正确的结论的问题)
第九步:对分解后的各分量使用机器学习、神经网络等模型根据各自训练集的输入样本和标签进行学习和训练,然后在测试集上进行预测。
第九步:将每个分量的预测模型的预测值使用之前用到的缩放器进行反缩放,记录各个反缩放的值作为模型的预测结果。
第十步:对记录的预测结果进行叠加(因为CEEMDAN方法本质上是对原始序列做的加性分解),作为最终的预测结果。
第十一步:对比预测结果与测试集的真实标签,根据评估指标评价模型,做出预测值与真实值的波形,观察预测情况,至此所有工作已结束。
上述步骤S40具体包括:评估指标的选取。在本发明中,采用平均绝对误差、均方根误差和平均绝对百分比误差作为评估指标,以对预测结果的误差以及预测误差对于全局的影响做出全面的评估。其中,平均绝对误差(Mean Absolute Error,MAE)是所有单个预测值和实际值之间偏差绝对值和的平均,均方根误差(Root Mean Squared Error,RMSE)是预测值与实际值偏差的平方与观测次数比值的平方根,平均绝对百分比误差(Mean AbsolutePercentage Error,MAPE)通过实际值和预测值的残差与实际值的比值来描述预测的准确性,MAE、RMSE、MAPE的计算公式如下。式中,ym指原始能耗数据的值,时预测的能耗数据值,M是预测的样本总数。
为验证本发明的有效性,以下实验在Office建筑数据集上以随机森林(RandomForest,RF)模型为例,关于是否使用本发明进行预测,做了对比实验,图5展示了预测结果的信号波形。可以看到,本发明的预测线更接近实际线,预测的RMSE更低,因此本发明有效地降低了预测误差,从而提高了预测精度,使预测偏差更小。
此外,以下进一步的消融实验验证了本发明各个模块的有效性:
(1)图6为本发明实施例提供的一种在Office建筑数据集上,以RF模型为例,关于是否使用本发明进行预测的对比示意图。
(2)图7为RF模型在不同数据集上,使用不同插值方法的预测误差示意图,表1为是否使用CEEMDAN分解的模型预测效果对比(括号中的值表示CEEMDAN方法的加入使得相应模型预测误差降低的百分比)
可见本发明提出的方法有效提高了模型对于能耗序列的拟合能力,证明了本发明能够有效降低建筑能耗预测的误差,实现精准预测。
综上所述,本发明实施例通过在三个数据集上的广泛实验证明了本发明能够仅需历史的能耗数据,即可在MAPE、RMSE、MAE的三个指标中均能够提供出色的泛化能力和预测性能。本发明提出的基于异常值处理和时序分解的方法能够有效降低建筑能耗模型的预测误差,提高模型的预测性能表现。
经过DBSCAN检测和Lagrange插值处理后,预测模型的预测误差明显减小。CEEMDAN方法的引入有效地降低了原始序列地非线性和不平稳性,且其优秀的重构性使得预测模型的误差明显降低。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (6)
1.一种基于异常用能值处理和时序分解的建筑能耗预测方法,其特征在于,包括:
使用DBSCAN方法对原始的建筑用能数据进行检测,标记出建筑用能数据中的异常用能值,删除所述异常用能值;
通过Lagrange插值方法对删除异常用能值后的能耗数据进行计算,根据计算结果构建多项式,利用所述多项式填充删除异常用能值后的能耗数据;
将填充处理后的建筑用能数据通过CEEMDAN方法进行分解,得到一组IMF分量和一个残余分量;
使用机器学习方法对各个分量分别预测,将预测值叠加重构后得到最终的所述原始的建筑用能数据的建筑能耗预测值。
2.根据权利要求1所述的方法,其特征在于,所述的使用DBSCAN方法对原始的建筑用能数据进行检测,标记出建筑用能数据中的异常用能值,删除所述异常用能值,包括:
将原始的建筑用能数据划分为训练集和测试集,对训练集做了DBSCAN检测,指定两个超参数MinPts和eps,其中MinPts是形成簇所需的最小核心点数量,eps是同一个簇中两个样本之间的最大距离,找到eps内的所有近邻点,并识别具有超过MinPts各近邻的核心点;
对于尚未分配给簇的每个核心点,创建一个新的簇,通过递归操作确定所有近邻点,并分配与核心点相同的簇;
重复以上处理过程,直到所有的核心点都被访问完毕,将所有不属于任何簇的点标记为建筑用能数据中的异常用能值,删除所有异常用能值。
3.根据权利要求2所述的方法,其特征在于,所述的通过Lagrange插值方法对删除异常用能值后的能耗数据进行计算,根据计算结果构建多项式,利用所述多项式填充删除异常用能值后的能耗数据,包括:
在原始的建筑用能数据中的各个异常用能值之前和之后各取n个取值点,所述异常用能值为空值,在每个空值附近取2n个取值点,分段构建Lagrange插值多项式Ln(x),为每个空值都构建一个相应的Lagrange插值多项式Ln(x),以分别填充这些空值;
抽象为数学问题:对于待插值点(xk,yk),在该点前取n个值,同时在其后取n个值,即取值点为(xk-n,yk-n),(xk-n+1,yk-n+1),…,(xk+n,yk+n),共有2n个取值点,使用这2n个取值点构建Lagrange插值多项式Ln(x),如公式(1)所示:
式中,Ln(x)为同时经过以上2n个取值点的多项式;
式中的Lj(x)是Lagrange插值基函数,如公式(2)所示:
将x=xk代入所述多项式Ln(x)中,计算出相应的y值,使用该值填充待插值点(xk,yk);
重复以上操作,直至所有的空值均被填充完毕。
4.根据权利要求3所述的方法,其特征在于,所述的将填充处理后的建筑用能数据通过CEEMDAN方法进行分解,得到一组IMF分量和一个残余分量,包括:
对原始的建筑用能数据添加高斯正负白噪声,采用经验模态分解方法对含噪信号的建筑用能数据进行多次分解,然后集成平均,得到CEEMDAN方法的IMF分量,然后将原始信号与IMF分量做差得到残余分量,若该残余分量能够继续被经验模态分解方法分解,则对该残余分量添加白噪声后,采用经验模态分解方法继续分解和集成平均,得到IMF分量,再继续得到残余分量,判断该残余分量是否能够继续被经验模态分解方法分解,重复执行上述处理过程,直至残余分量无法被经验模态分解方法分解,输出此时的IMF分量与残余分量。
5.根据权利要求4所述的方法,其特征在于,所述的使用机器学习方法对各个分量分别预测,将预测值叠加重构后得到最终的所述原始的建筑用能数据的建筑能耗预测值,包括:
对分解得到的各个分量数据,采用滑动窗口的方式,每相邻的24条数据为一个窗口,步长为1,依次向下滑动,直至整个训练集滑动完毕,每个窗口的24条数据作为训练集的一个输入样本,每个窗口下一行的能耗值数据作为训练集的标签,对测试集也按照上述训练集的处理过程,划分为输入样本与标签;
对分解后的各分量使用机器学习方法根据各自训练集的输入样本和标签进行学习,在测试集上进行预测,对预测结果进行叠加,作为最终的所述原始的建筑用能数据的建筑能耗预测值。
6.根据权利要求5所述的方法,其特征在于,所述的方法还包括:
使用评估指标对所述原始的建筑用能数据的建筑能耗预测值进行评估,对比预测结果与测试集的真实标签,根据评估指标评价模型采用平均绝对误差、均方根误差和平均绝对百分比误差作为评估指标,对预测结果的误差以及预测误差对于全局的影响做出全面的评估。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310026452.6A CN116128124A (zh) | 2023-01-09 | 2023-01-09 | 一种基于异常用能值处理和时序分解的建筑能耗预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310026452.6A CN116128124A (zh) | 2023-01-09 | 2023-01-09 | 一种基于异常用能值处理和时序分解的建筑能耗预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116128124A true CN116128124A (zh) | 2023-05-16 |
Family
ID=86311246
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310026452.6A Pending CN116128124A (zh) | 2023-01-09 | 2023-01-09 | 一种基于异常用能值处理和时序分解的建筑能耗预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116128124A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117350441A (zh) * | 2023-12-06 | 2024-01-05 | 国网山东省电力公司烟台供电公司 | 公共建筑提效降碳运行优化系统及方法 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106250905A (zh) * | 2016-07-08 | 2016-12-21 | 复旦大学 | 一种结合高校建筑结构特征的实时能耗异常检测方法 |
CN109299430A (zh) * | 2018-09-30 | 2019-02-01 | 淮阴工学院 | 基于两阶段分解与极限学习机的短期风速预测方法 |
US20190212378A1 (en) * | 2016-09-19 | 2019-07-11 | The University Of New Hampshire | Techniques for Empirical Mode Decomposition (EMD)-Based Noise Estimation |
CN110046743A (zh) * | 2019-03-06 | 2019-07-23 | 上海交通大学 | 基于ga-ann的公共建筑能耗预测方法和系统 |
CN111080002A (zh) * | 2019-12-10 | 2020-04-28 | 华南理工大学 | 基于深度学习的建筑用电负荷多步预测方法及系统 |
CN112001559A (zh) * | 2020-08-31 | 2020-11-27 | 华东交通大学 | 一种变形监测预报方法 |
CN112257894A (zh) * | 2020-09-08 | 2021-01-22 | 山东师范大学 | 基于数据驱动的混合建筑电耗预测方法及系统 |
US20210398048A1 (en) * | 2020-06-19 | 2021-12-23 | Shandong University | Method and system for predicting building energy consumption based on holt-winters and extreme learning machine |
CN113962364A (zh) * | 2021-10-22 | 2022-01-21 | 四川大学 | 一种基于深度学习的多因素用电负荷预测方法 |
CN114169254A (zh) * | 2021-12-29 | 2022-03-11 | 西安建筑科技大学 | 基于短期建筑能耗预测模型的异常能耗诊断方法及系统 |
CN114298397A (zh) * | 2021-12-24 | 2022-04-08 | 苏州科技大学 | 一种运用时序数据的深度强化学习建筑能耗预测方法 |
CN114861788A (zh) * | 2022-04-28 | 2022-08-05 | 国网江苏省电力有限公司营销服务中心 | 一种基于dbscan聚类的负荷异常检测方法及系统 |
CN115034457A (zh) * | 2022-05-30 | 2022-09-09 | 江西理工大学 | 一种基于ceemdan-lstm的城市轨道交通短时客流预测方法 |
CN115372550A (zh) * | 2022-07-20 | 2022-11-22 | 淮阴工学院 | 基于二次eemd分解结合gafsa-lstm的空气质量预测方法 |
-
2023
- 2023-01-09 CN CN202310026452.6A patent/CN116128124A/zh active Pending
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106250905A (zh) * | 2016-07-08 | 2016-12-21 | 复旦大学 | 一种结合高校建筑结构特征的实时能耗异常检测方法 |
US20190212378A1 (en) * | 2016-09-19 | 2019-07-11 | The University Of New Hampshire | Techniques for Empirical Mode Decomposition (EMD)-Based Noise Estimation |
CN109299430A (zh) * | 2018-09-30 | 2019-02-01 | 淮阴工学院 | 基于两阶段分解与极限学习机的短期风速预测方法 |
CN110046743A (zh) * | 2019-03-06 | 2019-07-23 | 上海交通大学 | 基于ga-ann的公共建筑能耗预测方法和系统 |
CN111080002A (zh) * | 2019-12-10 | 2020-04-28 | 华南理工大学 | 基于深度学习的建筑用电负荷多步预测方法及系统 |
US20210398048A1 (en) * | 2020-06-19 | 2021-12-23 | Shandong University | Method and system for predicting building energy consumption based on holt-winters and extreme learning machine |
CN112001559A (zh) * | 2020-08-31 | 2020-11-27 | 华东交通大学 | 一种变形监测预报方法 |
CN112257894A (zh) * | 2020-09-08 | 2021-01-22 | 山东师范大学 | 基于数据驱动的混合建筑电耗预测方法及系统 |
CN113962364A (zh) * | 2021-10-22 | 2022-01-21 | 四川大学 | 一种基于深度学习的多因素用电负荷预测方法 |
CN114298397A (zh) * | 2021-12-24 | 2022-04-08 | 苏州科技大学 | 一种运用时序数据的深度强化学习建筑能耗预测方法 |
CN114169254A (zh) * | 2021-12-29 | 2022-03-11 | 西安建筑科技大学 | 基于短期建筑能耗预测模型的异常能耗诊断方法及系统 |
CN114861788A (zh) * | 2022-04-28 | 2022-08-05 | 国网江苏省电力有限公司营销服务中心 | 一种基于dbscan聚类的负荷异常检测方法及系统 |
CN115034457A (zh) * | 2022-05-30 | 2022-09-09 | 江西理工大学 | 一种基于ceemdan-lstm的城市轨道交通短时客流预测方法 |
CN115372550A (zh) * | 2022-07-20 | 2022-11-22 | 淮阴工学院 | 基于二次eemd分解结合gafsa-lstm的空气质量预测方法 |
Non-Patent Citations (2)
Title |
---|
刘春艳,郭涛: "水库大坝信息化系统的开发与实践", 黄河水利出版社, pages: 79 - 80 * |
高英博;顾中煊;罗淑湘;李德英;: "能耗预测导向的建筑能耗异常数据识别与修复", 科学技术与工程, no. 35 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117350441A (zh) * | 2023-12-06 | 2024-01-05 | 国网山东省电力公司烟台供电公司 | 公共建筑提效降碳运行优化系统及方法 |
CN117350441B (zh) * | 2023-12-06 | 2024-03-01 | 国网山东省电力公司烟台供电公司 | 公共建筑提效降碳运行优化系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gruver et al. | Large language models are zero-shot time series forecasters | |
Feng et al. | A data-driven multi-model methodology with deep feature selection for short-term wind forecasting | |
Grzegorczyk et al. | Non-homogeneous dynamic Bayesian networks for continuous data | |
Tang et al. | A novel data-characteristic-driven modeling methodology for nuclear energy consumption forecasting | |
Wang et al. | A compound framework for wind speed forecasting based on comprehensive feature selection, quantile regression incorporated into convolutional simplified long short-term memory network and residual error correction | |
Di et al. | A four-stage hybrid model for hydrological time series forecasting | |
Becker et al. | Completion of wind turbine data sets for wind integration studies applying random forests and k-nearest neighbors | |
Konstantelos et al. | Using vine copulas to generate representative system states for machine learning | |
Ahmadi et al. | A new false data injection attack detection model for cyberattack resilient energy forecasting | |
Richman et al. | Missing data imputation through machine learning algorithms | |
CN107622322B (zh) | 中长期径流的预报因子识别方法、中长期径流的预测方法 | |
CN114169434A (zh) | 一种负荷预测方法 | |
Fukuda et al. | Data prevalence matters when assessing species' responses using data-driven species distribution models | |
Kutty et al. | Ridge Penalization-based weighting approach for Eco-Efficiency assessment: The case in the food industry in the United States | |
CN116128124A (zh) | 一种基于异常用能值处理和时序分解的建筑能耗预测方法 | |
CN115658672A (zh) | 一种基于改进Transformer和掩蔽训练的KPIs缺失值插补方法 | |
Li et al. | Robust and flexible strategy for missing data imputation in intelligent transportation system | |
CN115952915A (zh) | 一种使用模糊熵分类的能耗预测优化方法 | |
Papadopoulos et al. | Handling complete short-term data logging failure in smart buildings: Machine learning based forecasting pipelines with sliding-window training scheme | |
Jiao et al. | Short-term building energy consumption prediction strategy based on modal decomposition and reconstruction algorithm | |
Mallick et al. | Deep-ensemble-based uncertainty quantification in spatiotemporal graph neural networks for traffic forecasting | |
Rajeswari et al. | Developing an agricultural product price prediction model using HADT algorithm | |
Zhang et al. | Generic visual data mining-based framework for revealing abnormal operation patterns in building energy systems | |
Bonneau et al. | Reinforcement learning-based design of sampling policies under cost constraints in Markov random fields: Application to weed map reconstruction | |
Xiao et al. | Fuzzy community detection based on elite symbiotic organisms search and node neighborhood information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20230516 |