CN112686286B - 建筑运行能耗异常识别方法、系统、计算机可读存储介质 - Google Patents
建筑运行能耗异常识别方法、系统、计算机可读存储介质 Download PDFInfo
- Publication number
- CN112686286B CN112686286B CN202011505948.4A CN202011505948A CN112686286B CN 112686286 B CN112686286 B CN 112686286B CN 202011505948 A CN202011505948 A CN 202011505948A CN 112686286 B CN112686286 B CN 112686286B
- Authority
- CN
- China
- Prior art keywords
- energy consumption
- abnormal
- data
- daily energy
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000005265 energy consumption Methods 0.000 title claims abstract description 235
- 238000000034 method Methods 0.000 title claims abstract description 65
- 230000005856 abnormality Effects 0.000 title claims abstract description 49
- 238000003860 storage Methods 0.000 title claims abstract description 10
- 230000002159 abnormal effect Effects 0.000 claims abstract description 187
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 35
- 238000007637 random forest analysis Methods 0.000 claims abstract description 22
- 238000007781 pre-processing Methods 0.000 claims abstract description 20
- 238000004458 analytical method Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 10
- 238000012098 association analyses Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 7
- 238000007619 statistical method Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 6
- 230000035772 mutation Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 238000005065 mining Methods 0.000 abstract description 8
- 230000007547 defect Effects 0.000 abstract description 6
- 238000012544 monitoring process Methods 0.000 abstract description 6
- 239000000463 material Substances 0.000 abstract description 4
- 239000000203 mixture Substances 0.000 description 11
- 230000008859 change Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000013486 operation strategy Methods 0.000 description 7
- 238000003745 diagnosis Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 5
- 238000007405 data analysis Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 235000017060 Arachis glabrata Nutrition 0.000 description 1
- 241001553178 Arachis glabrata Species 0.000 description 1
- 235000010777 Arachis hypogaea Nutrition 0.000 description 1
- 235000018262 Arachis monticola Nutrition 0.000 description 1
- 206010035148 Plague Diseases 0.000 description 1
- 241000607479 Yersinia pestis Species 0.000 description 1
- 235000013405 beer Nutrition 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 235000013336 milk Nutrition 0.000 description 1
- 239000008267 milk Substances 0.000 description 1
- 210000004080 milk Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 235000020232 peanut Nutrition 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Testing Or Calibration Of Command Recording Devices (AREA)
Abstract
本发明实施例提供一种建筑运行能耗异常识别方法、系统及计算机可读存储介质,包括获取历史年建筑能耗数据,并对其进行预处理,得到日能耗曲线;对所述日能耗曲线进行特征提取,得到表示所述日能耗曲线的特征向量;以所述特征向量为样本,采用自动寻优的无监督式随机森林模型对所述样本进行异常识别,得到异常日能耗数据。本发明将历史年建筑能耗数据细分到每日的能耗,然后获取表征该日能耗曲线的特征向量,最后采用分布式孤立森林算法对所述特征向量进行异常挖掘,找出异常的日能耗曲线,智能化的实现了对能耗异常的识别,解决了定阈值监测的弊端,提高了识别的准确性的同时,还提高了智能化水平,减少了人力、物力的投入。
Description
技术领域
本发明涉及建筑运行技术领域,具体涉及一种建筑运行能耗异常识别方法、系统、计算机可读存储介质。
背景技术
随着社会的进步,科学技术的不断发展,建筑作为智慧城市战略落地实施的重要载体,通信设备发展带来了大量的信息化建设。机电系统用能设备的不断更新,在实际运行的过程中,由于设备量大,存在诸多隐蔽性异常,设备故障层出不穷。其中,设备的异常运行是困扰机电系统故障的主要问题。
对于机电设备的运行,运行过程中出现故障异常或运行策略异常,其运行能耗会出现偏差,通过从能耗视角去判断是否异常运行是可行的。从正向理论分析角度,更多是判断设备运行能耗是否按照计划运行,是否按照历史规律正常运行。工程应用上通常是监测能耗时刻点是否超过阈值去判断是否异常。然而如今大部分用能设备不仅仅是设备的故障,更多是运行策略的异常,需要从日能耗去观察是否异常。由于建筑本体、机电系统的实际运行特性千差万别,制定阈值去识别机电设备异常依然是一个难题。
如今大量的建筑信息化建设,提供了丰富的运行数据,这些数据是运行经验很好的载体。通过大量数据挖掘技术从实际数据中分离出离群簇,去识别机电设备异常无疑是一条可行的道路。
发明内容
本发明的目的是为了克服现有技术中的不足,提供一种建筑机电设备通用的运行能耗异常识别方法,通过在建筑机电系统领域融入孤立森林异常识别和高斯混合模型聚类大数据技术,该方法适用于建筑机电系统用能设备运行异常识别技术领域,并为建筑机电系统的运行诊断、节能评估提供可靠的参考。能够为建筑机电系统用能设备异常识别、节能改造提供可靠的经验借鉴。其具体技术方案如下:
为实现上述目的,本发明实施例提供一种建筑运行能耗异常识别方法,包括步骤:
获取历史年建筑能耗数据,并对其进行预处理,得到日能耗曲线;
对所述日能耗曲线进行特征提取,得到表示所述日能耗曲线的特征向量;其中,所述特征向量的特征包括:最大值、75%分位数、中位数、25%分位数、最小值、均值、方差;
以所述特征向量为样本,采用自动寻优的无监督式随机森林算法对所述样本进行异常识别,得到异常日能耗数据。
进一步的,所述采用自动寻优的无监督式随机森林模型对所述样本进行异常识别,具体为:
步骤1采用随机森林模型,对所述特征数据进行异常识别,计算剔除异常特征数据后,特征数据样本之间的差异系数;
步骤2判断本次所述差异系数与前一次的差异系数之间的差值是否大于预设的差值;
步骤3若大于所述差值,则按照预设步长,自动调整所述随机森林模型的异常比例参数,重复步骤1-步骤2;
步骤4若不大于所述差值,统计符合要求的异常比例参数及计算的差异系数值;根据差异系数随异常比例参数变化而变化的曲线,选择差异系数变化率(一阶差分)最小值对应的异常比例参数,即异常比例参数为最优参数,进而得到最终的样本异常识别结果。
进一步的,还包括采用聚类算法对所述异常日能耗数据进行分类,将聚类类别信息应用于时间轴,得到异常日能耗数据的异常分类标签。
进一步的,还包括采用apriori关联规则,对异常日能耗数据对应的室外气象分类信息、日期信息以及异常分类标签进行关联分析,得到异常日能耗数据产生的原因;其中,通过四分位统计法对异常日能耗数据对应的室外气象数据进行离散分类,得到室外气象分类信息。
进一步的,所述获取历史年建筑能耗数据,并对其进行预处理,得到日能耗曲线,具体包括:
获取历史一年的日能耗实时数据;
每隔预设时间段对所述日能耗实时数据进行数据采样,得到采样点;并根据所述采样点绘制日能耗曲线;
对所述日能耗曲线进行处理包括:去除存在空缺值和存在突变能耗的日能耗曲线,和/或取置信度95%的所有日能耗数据。
进一步的,采用孤立森林算法对所述样本进行异常识别,得到异常日能耗数据,包括步骤:
给定n个样本数据X=[X1,X2,...,Xn]T,根据下式计算每隔样本的异常得分:
根据样本的异常得分与孤立树的期望值的关系,判断所述样本是否为异常样本;
式中,n表示数组维数;h(x)为样本点的x的路径长度;H(i),i=(1,2,...,n-1)为调和数,为预估的常数;c(n)为给定样本数n时,路径长度的平均值;E(h(x))为样本x在一批孤立树中的路径长度的期望;s(x,n)为样本x的异常得分。
进一步的,根据样本的异常得分和孤立树的期望值、零值的关系,判断所述样本是否为异常样本,包括:
当所述E(h(x))与所述c(n)的差值小于预设值时,异常得分为0.5,样本数据的路径平均长度与树的平均路径长度无法区分;
当所述E(h(x))与0的差值小于预设值时,异常得分为1,所述样本数据为异常数据;
当所述E(h(x))与n-1的差值小于预设值时,异常得分为0,所述样本数据为正常数据。
进一步的,所述聚类算法采用高斯混合模型算法。
本发明的另一方面提供一种建筑运行能耗异常识别系统,包括获取模块、特征提取模块、和异常识别模块;其中,所述获取模块,用于获取历史年建筑能耗数据,并对其进行预处理,得到日能耗曲线;
所述特征提取模块,用于对所述日能耗曲线进行特征提取,得到表示所述日能耗曲线的特征向量;其中,所述特征向量的特征包括:最大值、75%分位数、中位数、25%分位数、最小值、均值、方差;
所述异常识别模块,用于以所述特征向量为样本,采用自动寻优的无监督式随机森林算法对所述样本进行异常识别,得到异常日能耗数据。
进一步的,还包括异常分类模块和异常原因分析模块;所述异常分类用于采用聚类算法对所述异常日能耗数据进行分类,将聚类类别信息应用于时间轴,得到异常日能耗数据的异常分类标签;所述异常原因分析模块用于采用apriori关联规则,对异常日能耗数对应的室外气象分类信息、日期信息以及异常分类标签进行关联分析,得到异常日能耗数据产生的原因;其中,通过四分位统计法对异常日能耗数据对应的室外气象参数进行离散分类,得到室外气象分类信息。
本发明的第三方面还提供一种电子设备,其中,该电子设备包括:
处理器;以及,
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行上述建筑运行能耗异常识别方法。
本发明实施例的第四方面还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器处理上述任一所述方法步骤。
本发明实施例提供一种建筑运行能耗异常识别方法、系统及计算机可读存储介质,包括获取历史年建筑能耗数据,并对其进行预处理,得到日能耗曲线;对所述日能耗曲线进行特征提取,得到表示所述日能耗曲线的特征向量;以所述特征向量为样本,采用自动寻优的无监督式随机森林算法对所述样本进行异常识别,得到异常日能耗数据。本发明将历史年建筑能耗数据细分到每日的能耗,然后获取表征该日能耗曲线的特征向量,最后采用自动寻优的分布式孤立森林算法对所述特征向量进行异常挖掘,更加准确的找出异常的日能耗曲线,智能化的实现了对能耗异常的识别,解决了定阈值监测的弊端,提高了识别的准确性的同时,提高了智能化水平,减少了人力、物力的投入。
进一步的,本发明实施例采用聚类算法对所述异常日能耗数据进行分类,将聚类类别信息应用于时间轴,得到异常日能耗数据的异常分类标签;且采用apriori关联规则,对异常日能耗数据对应的室外气象分类信息、日期信息以及异常分类标签进行关联分析,得到异常日能耗数据产生的原因,智能化的对识别出的异常曲线进行分类和关联分析,解决了传统监测设备故障的弊端,能实现设备运行策略的故障诊断。
附图说明
图1是本发明实施例1提供的一种建筑运行能耗异常识别方法的流程图;
图2是本发明实施例2提供的一种建筑运行能耗异常识别方法的优选实施方式的流程图;
图3为本发明实施例提供的一种建筑运行能耗异常识别方法的预处理流程图;
图4a为预处理前2019年逐日能耗时间序列散点图。
图4b为预处理后2019年逐日能耗时间序列散点图。
图5为差异系数随异常比例参数变化而变化的曲线。
图6为类别信息的时间轴分布图。
图7为剔除异常后逐日能耗时间序列。
图8为剔除异常前后逐日样本数据差异系数对比。
图9为异常样本数据聚类类别信息的时间轴分布图。
图10为异常诊断树。
表1为聚类结果。
表2为异常样本的条件规则结果。
图中:0:全年用能;1:第一阶段:2019年3月21日~2019年7月10日;第二阶段:2019年7月15日~2019年12月31日。
具体实施方式
为了使得本发明技术方案能够清楚、详尽的展现出来,以下结合附图对本发明进行说明,但不用来限制本发明的范围。
参见图1为本发明实施例1提供的一种建筑运行能耗异常识别的方法流程图,包括步骤:
获取历史年建筑能耗数据,并对其进行预处理,得到日能耗曲线;
对所述日能耗曲线进行特征提取,得到表示所述日能耗曲线的特征向量;
以所述特征向量为样本,采用自动寻优的无监督式随机森林算法对所述样本进行异常识别,得到异常日能耗数据。
上述历史年建筑能耗数据是指过去某一年的建筑能耗数据;上述日能耗曲线是指历史年能耗数据中某一天的能耗曲线;特征向量是指用以表示日能耗曲线的特征值组成的向量。
本方法主要运用于建筑机电设备运行能耗异常识别过程中,例如:建筑机电系统中制冷主机设备,获取制冷主机一年的历史能耗数据,进行识别制冷主机的异常日能耗曲线,并实现异常曲线的分类关联,实现设备运行的故障诊断。但本发明方法不限于建筑机电设备,也可适用于建筑其他系统运行能耗识别,具有一定的通用性。
在本发明实施例1中,为了使随机森林算法识别的效果更加准确,还包括对所述随机森林的参数进行调优。
本发明实施例提供一种建筑运行能耗异常识别方法、系统及计算机可读存储介质,包括获取历史年建筑能耗数据,并对其进行预处理,得到日能耗曲线;对所述日能耗曲线进行特征提取,得到表示所述日能耗曲线的特征向量;以所述特征向量为样本,采用自动寻优的无监督式随机森林算法对所述样本进行异常识别,得到异常日能耗数据。本发明将历史年建筑能耗数据细分到每日的能耗,然后获取表征该日能耗曲线的特征向量,最后采用分布式自动寻优的孤立森林算法对所述特征向量进行异常挖掘,更加准确的找出异常的日能耗曲线,智能化的实现了对能耗异常的识别,解决了定阈值监测的弊端,提高了识别的准确性的同时,提高了智能化水平,减少了人力、物力的投入。
参见图2,为本发明实施例2提供的一种建筑运行能耗异常识别方法的优选实施方式的流程图,在本发明实施例的可选实施方式中,所述获取历史年建筑能耗数据,并对其进行预处理,得到日能耗曲线,具体包括:
获取历史一年的日能耗实时数据;其中,该日能耗实时数据包括365天中每天的日能耗数据。首先对获取的数据进行预处理,参见图3为本发明实施例2提供的一种建筑运行能耗异常识别方法的预处理流程图,图中,获取日能耗数据后,对所述日能耗曲线进行处理包括:去除存在空缺值和存在突变能耗的日能耗曲线,和/或取置信度95%的所有日能耗数据。上述置信度的设置依照统计学方法确定。
上述突变可理解为:当前时刻点能耗值与前后时刻点能耗值都相差10倍;或是当前时刻点能耗与前后时刻点能耗偏差值都大于额定值(额定值即逐时刻点能耗量所能达到的最大值)的日能耗数据样本。
本实施例具体操作实施的方法都在python平台上实现,Python是一种面向对象、解释型计算机程序设计语言,它拥有高效的高级数据结构,并能够用简单高效的方式进行面向对象编程。其语法简单、优雅,强大的解释性,使其在很多领域都成为一门理想语言,但python并不提供一个专门的数据分析环境,在数据分析领域,它需要依靠众多的扩展库,来为python提供快速的数组处理、数值运算以绘图功能以及强大的机器学习的工具。
数据预处理的实施模型具体代码如下所示:
对预处理后的日能耗数据,每隔预设时间段对所述日能耗实时数据进行数据采样,得到采样点;并根据所述采样点绘制日能耗曲线;优选的,在本发明实施例中,每15分钟采样一次能耗值,以采样的能耗值绘制日能耗曲线。通过计算逐15分钟日能耗中的最大值、75%分位数、中位数、25%分位数、最小值、均值、方差7个统计值,去表征一条日能耗曲线,即每日能耗曲线为7个统计值特征表示的多维散点。
日能耗数据特征表示的实施模型具体代码如下所示:
在本发明实施例中,采用自动寻优的孤立森林算法,对其散点数据应用孤立森林无监督异常识别方法,将含异常类的类别信息应用于时间轴,从而获取异常类对应的时间标签,分离出异常的日能耗数据。
上述无监督式随机森林算法的数学算法概述为,假设Tl是孤立树的一个节点,它要么是没有子节点的叶子节点,要么是只有两个子节点(Tl,Tr)的内部节点。每一步分割,都包含特征q和分割值p,将q<p的数据分到Tl,将q≥p的数据分到Tr。
在本发明实施例中,应用孤立森林算法,并对其模型参数进行自动寻优,分离出更为准确的异常日能耗数据。具体步骤如下:
给定n个样本数据X=[X1,X2,...,Xn]T,计算每一个样本x的异常得分定义:
X=[X1,X2,...,Xn]T,其中n表示数组维数;h(x)为样本点的x的路径长度,即从iTree的根节点到叶子节点所经过的边的数量;其中H(i),i=(1,2,...,n-1)为调和数,该值可以被估计为ln(i)+0.5772156649;c(n)为给定样本数n时,路径长度的平均值,用来标准化样本x的路径长度h(x);E(h(x))为样本x在一批孤立树中的路径长度的期望;s(x,n)为样本x的异常得分。
根据s(x,n)和E(h(x))的关系可以得到一些结论:
当E(h(x))→c(n)时,s→0.5,即样本x的路径平均长度与树的平均路径长度相近时,无法区分;换句话说,即,当所述E(h(x))与所述c(n)的差值小于预设值时,异常得分为0.5,样本数据的路径平均长度与树的平均路径长度无法区分;
当E(h(x))→0时,s→1,即x的异常分数接近1时,被判定为异常;即,当所述E(h(x))与0的差值小于预设值时,异常得分为1,所述样本数据为异常数据;
当E(h(x))→n-1时,s→0,被判定为正常;即,当所述E(h(x))与n-1的差值小于预设值时,异常得分为0,所述样本数据为正常数据。
在本发明实施例中,为了能够对异常的特征样本进行准确的识别,本发明还采用自动寻优的孤立森林模型,识别特征数据样本中的异常样本。其自动寻优包括如下步骤:
步骤1采用随机森林模型,对所述特征数据进行异常识别,计算剔除异常特征数据后,特征数据样本之间的差异系数;
步骤2判断本次所述差异系数与前一次的差异系数之间的差值是否大于预设的差值;
步骤3若大于所述差值,则按照预设步长,自动调整所述随机森林模型的异常比例参数,重复步骤1-步骤2;
步骤4若不大于所述差值,统计符合要求的异常比例参数及计算的差异系数值。根据差异系数随异常比例参数变化而变化的曲线,选择差异系数变化率(或者称为一阶差分)最小值对应的异常比例参数,即异常比例参数为最优参数,进而得到最终的样本异常识别结果。
上述异常比例是随机森林模型的一个参数;其计算公式为以标准差去除平均数再乘以100%,化成百分比的形式。其计算公式(3)为:
其中S为样本标准差,M为样本平均数,CV为样本差异系数。差异系数大,代表其数据的差异程度大,反之亦然。
为了使识别正确度越高,上述预设的差值为0.1。
实例化上述寻优过程,异常比例(contamination)参数依次从0.00-0.45逐渐递增0.05不断更新模型共10次,每一次计算一个差异系数(coefficientofvariation),当计算得到的相邻两次差异系数差值在0.1即符合要求,统计其差异系数随异常比例参数变化而变化的曲线,选择差异系数变化率(一阶差分)最小值对应的异常比例参数,可认为异常识别趋于稳定,即异常比例参数为最优参数。
综上本发明选择表征日能耗数据的最大值、75%分位值、中位数、25%分位数、最小值、均值、方差7个特征的预处理日能耗数据,探讨孤立森林无监督异常识别方法在最大值、75%分位值、中位数、25%分位数、最小值、均值、方差7个特征表示的逐日样本数据上的应用,建立多维散点的孤立森林模型,分离出异常的日能耗数据。
日能耗数据应用自动寻优的孤立森林算法的实施模型具体代码如下所示:
在本发明实施例的可选实施方式中,还包括采用聚类算法对所述异常日能耗数据进行分类,将聚类类别信息应用于时间轴,得到异常日能耗数据的异常分类标签。为了能够更准确的对异常进行分类,优选的,本发明采用高斯混合模型(GMM)算法,获取异常的日能耗曲线分类标签,具体步骤如下:
1)高斯混合模式(GMM)聚类的数学算法概述如下,数据矩阵定义为X=[X1,X2,...,Xd]T,计算联合概率分布:
其中:X=[X1,X2,...,Xd]T,其中d表示数组维数,K为混合高斯模型的个数,αk为高斯成分的权重系数,0<αk<1,φk(xi|μk,∑k)为第k个高斯模型,μk和∑k分别为高斯模型的均值和方差,p(X|θ)为数组X在混合高斯模型下的似然概率;γjk根据{αk,μk,∑k}确定一组{αk,μk,∑k}高斯模型参数值计算的后验概率,L(θ|X)为最大似然概率值;高斯混合模型的训练过程即为求解参数集{αk,μk,∑k};采用的优化求解方法为ExpectationMaximization(EM)算法,分为两步:
E步:通过给定的一组{αk,μk,∑k}值,计算后验概率γjk;
M步:通过E步计算得到后验概率γjk,计算一组新{αk,μk,∑k}值;
反复迭代E步和M步,直到得到最大似然值L(θ|X),终止得到最终结果,
2)选择表征日能耗数据的最大值、75%分位值、中位数、25%分位数、最小值、均值、方差7个特征的异常日能耗数据样本,对其样本数据应用多维高斯混合模型聚类;将聚类类别信息应用于时间轴,从而获取异常日能耗数据的分类标签。
异常的日能耗数据高斯混合模型聚类的实施模型具体代码如下所示:
进一步的,本发明实施例的可选实施方式中,还包括采用apriori关联规则,对异常日能耗数据对应的室外气象分类信息、日期信息以及异常分类标签进行关联分析,得到异常日能耗数据产生的原因;其中,通过四分位统计法对异常日能耗数据对应的室外气象参数进行离散分类,得到室外气象分类信息。
优选的,上述室外气象分类信息包括温度信息、湿度信息;上述日期信息包括:季度信息、月份信息、工作日和节假日信息。
上述apriori关联规则方法理论概述为一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。具体步骤如下:
项集:在关联分析中,包含0个或多个项的集合被称为项集(itemset)。如果一个项集包含k个项,则称它为k-项集。例如:{啤酒,尿布,牛奶,花生}是一个4-项集。空集是指不包含任何项的项集。
关联规则(associationrule):是形如X→Y的蕴含表达式,其中X和Y是不相交的项集,即:关联规则的强度可以用它的支持度(support)和置信度(confidence)和提升度(lift)来度量,在关联规则挖掘中,满足一定最小置信度以及支持度的集合成为频繁集(frequentitemset),或者强关联。关联规则挖掘则是一个寻找频繁集的过程。
支持度(support):一个项集或者规则在所有事物中出现的频率,确定规则可以用于给定数据集的频繁程度,支持度就是指物品集X和物品集Y同时出现的概率,是对关联规则重要性的衡;规则X→Y的支持度:s(X→Y)=σ(X∪Y)/N。
置信度(confidence):确定Y在包含X的事务中出现的频繁程度,置信度就是指出现了物品集X前提下,物品集Y出现的概率有多大,是对关联规则的准确度的衡量;规则X→Y的置信度:c(X→Y)=σ(X∪Y)/σ(X)。
提升度(lift):是可信度与期望可信度的比值,提升度反映了物品集X的出现对物品集Y的出现概率发生了多大的变化;规则X→Y的提升度:l(X→Y)=c(X→Y)/s(X→Y)。
对异常日样本数据信息定义{室外温度信息,季度信息,节假日信息,异常类别信息}为一个4-项集,物品集X={室外温度信息,季度信息,节假日信息},Y={异常类别信息},设置最小的支持度0.1和最小置信度0.8,保证提升度大于1的条件下搜索关联规则。获取室外温度、季度、是否节假日三个影响因子对应下的异常分类标签条件规则,从而知道异常日能耗数据产生的原因。
对异常日信息应用apriori关联规则的实施模型具体代码如下所示:
下面以一个具体的实例对本发明提供的一种建筑运行能耗异常识别方法进行说明。
深圳市某公司运行监测平台中的某用能设备,获取到2019年的逐15分钟的日能耗数据,经过必要的数据预处理,即空缺值处理,突变数据处理,取置信度95%数据作为本次数据分析的基准数据,提升数据质量是为了做后续数据分析的重要基础工作,预处理前后数据展示见图4a-图4b,图4a为预处理前2019年逐日能耗时间序列散点图,图4b为预处理后2019年逐日能耗时间序列散点图。
为了实现对日能耗曲线进行异常识别和提取,首先通过计算逐15分钟日能耗中的最大值、75%分位数、中位数、25%分位数、最小值、均值、方差7个统计值表征预处理后的日能耗数据,即每日能耗曲线为7个统计值特征表示的多维散点。
选择表征日能耗数据的最大值、75%分位值、中位数、25%分位数、最小值、均值、方差7个特征的预处理日能耗数据,探讨自动寻优的孤立森林无监督异常识别方法在最大值、75%分位值、中位数、25%分位数、最小值、均值、方差7个特征表示的逐日样本数据上的应用,建立多维散点的孤立森林模型,分离出异常的日样本数据。根据模型不断更新迭代,基于差异系数信息结果异常比例参数为0.20为最优参数,差异系数即剔除异常日后的逐日样本数据之间的差异表征数据指标,发现异常占比为0.20时差异系数变化率最小,即剔除异常日后的样本数据差异性趋于稳定,图5为差异系数随异常比例参数变化而变化的曲线。将含异常类的类别信息应用于时间轴,从而获取异常类对应时间标签。图6为类别信息的时间轴分布图。
通过上述异常识别方法,异常的日能耗数据样本能有效地被提取出来,从提取出的异常样本数据进行分析。从剔除异常前后逐日样本数据可以看出,剔除异常前逐日能耗时间序列图4b所示,全年用能主要分成两个阶段即2019年3月21日~2019年7月10日(日均能耗217.12KWh),2019年7月15日~2019年12月31日(日均能耗758.79KWh),第一阶段和第二阶段都出现了明显偏离均值的异常日;剔除异常后逐日能耗时间序列图7所示,第一阶段和第二阶段无明显偏离均值的异常日,说明有效的提取出了异常的日能耗数据样本数据。剔除异常前后逐日样本数据差异系数对比如图8所示。
选择表征日能耗数据的最大值、75%分位值、中位数、25%分位数、最小值、均值、方差7个特征的异常日能耗样本数据,探讨高斯混合模型聚类方法在最大值、75%分位值、中位数、25%分位数、最小值、均值、方差7个特征表示的逐日样本数据上的应用,建立多维散点的高斯混合模型,对异常的日样本数据进行分类。根据模型不断更新迭代,基于BIC信息准则绝对值最小得到聚类成2类为最优结果,即得到类别1、2,聚类结果表1所示。将聚类类别信息附加在异常日样本时间轴上,从而获取异常类对应时间标签。图9为异常样本数据聚类类别信息的时间轴分布图。
表1
通过对上述聚类结果分析,异常的日样本数据运行规律能有效地被挖掘出来。从分类的结果来看,类别1的样本数据主要发生在2019年3月21日-2019年6月26日(异常1类日均能耗268.83KWh),其中2019年4月24日-2019年5月5日出现阶段性运行异常,该阶段日均能耗有所增加;类别2的样本数据主要发生在2019年7月13日-2019年12月31日(异常2类日均能耗655.56KWh),其中2019年12月12日-2019年12月31日出现阶段性运行异常,该阶段日均能耗有所降低。从图4b剔除异常前逐日能耗时间序列图可以看出第一阶段和第二阶段都存在明显偏离均值的异常,这进一步佐证采用高斯混合模型聚类对异常样本进行分类是可靠的。
对异常日信息应用apriori关联规则
选择异常日对应的室外温度,采用四分位统计法对室外温度离散分成四类;对异常日室外温度分类信息、季度信息、节假日信息、异常分类标签应用apriori关联规则;获取室外气象分类信息的温度信息、季度信息、是否节假日三个影响因子对应下的异常分类标签条件规则,从而知道异常日能耗数据产生的原因。异常日信息条件规则库如表2所示,从表结果可以定量知道设备运行过程中室外温度特征、日期特征去挖掘用能设备产生异常能耗数据的变化规律。
通过对上述apriori关联规则分析结果,获取到了室外温度、季度、是否节假日三个影响因子对应下的异常分类标签条件规则,取置信度大于0.8且支持度大于0.1的条件规则,异常样本的条件规则结果如表2所示。
表2
可以发现:当日期在2季度,室外温度处于19.54℃-22.22℃,时间处于2019年4月24日-2019年5月5日时,主要发生的异常是类别1,分析原因可能是运行策略有异常或是设备出现故障;当日期在3季度,室外温度处于27.99-29.59℃,节假日,时间处于2019年7月13日-2019年8月13日,主要发生异常是类别2,分析原因可能是节假日运行策略有调整导致的异常;当日期是4季度,室外温度处于13.60℃-22.22℃,时间处于2019年12月12日-2019年12月31日,主要发生异常为类别2,分析原因可能是年末运行策略有调整导致的异常,其异常诊断树如图10所示。
本发明实施例提供的一种建筑运行能耗异常识别方法,包括获取历史年建筑能耗数据,并对其进行预处理,得到日能耗曲线;对所述日能耗曲线进行特征提取,得到表示所述日能耗曲线的特征向量;以所述特征向量为样本,采用自动寻优的无监督式随机森林算法对所述样本进行异常识别,得到异常日能耗数据。本发明将历史年建筑能耗数据细分到每日的能耗,然后获取表征该日能耗曲线的特征向量,最后采用分布式孤立森林算法对所述特征向量进行异常挖掘,找出异常的日能耗曲线,智能化的实现了对能耗异常的识别,解决了定阈值监测的弊端,提高了识别的准确性的同时,提高了智能化水平,减少了人力、物力的投入。
进一步的,与现有用能设备阈值异常检测方法相比,本发明采用算法识别的智能化异常识别方法,且对历史年数据进行日到分钟的细化,更适用于用能设备运行策略异常的检测,更具工程应用性,适用范围更广。本发明还通过采用聚类算法对异常进行聚类,能够识别出用能设备运行异常日能耗曲线的同时,还实现了异常曲线的分类形成异常曲线库,不仅能够定位设备故障也能定位设备运行策略故障,为设备的异常诊断、节能改造、故障树建立提供了可靠的经验借鉴。
更进一步的,本发明通用性强,工程应用性广。本发明适用于设备层级的异常识别,不仅仅适用于单功能的用能设备,建筑机电系统中不同功能的用能设备都适用。此外本发明也适用于项目层级所有用能设备的异常识别,不仅仅单体建筑机电系统所有用电设备的异常识别,也适用于多建筑多业态项目层级所有用电设备的异常识别。
本发明的另一方面提供一种建筑运行能耗异常识别系统,包括获取模块、特征提取模块、和异常识别模块;其中,所述获取模块,用于获取历史年建筑能耗数据,并对其进行预处理,得到日能耗曲线;
所述特征提取模块,用于对所述日能耗曲线进行特征提取,得到表示所述日能耗曲线的特征向量;其中,所述特征向量的特征包括:最大值、75%分位数、中位数、25%分位数、最小值、均值、方差;
所述异常识别模块,用于以所述特征向量为样本,采用无监督式随机森林算法对所述样本进行异常识别,得到异常日能耗数据。
进一步的,还包括异常分类模块和异常原因分析模块;所述异常分类用于采用聚类算法对所述异常日能耗数据进行分类,将聚类类别信息应用于时间轴,得到异常日能耗数据的异常分类标签;所述异常原因分析模块用于采用apriori关联规则,对异常日能耗数据对应的室外气象分类信息、日期信息以及异常分类标签进行关联分析,得到异常日能耗数据产生的原因;其中,通过四分位统计法对异常日能耗数据对应的室外气象数据进行离散分类,得到室外气象分类信息。
本发明的第三方面还提供一种电子设备,其中,该电子设备包括:
处理器;以及,
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行上述建筑运行能耗异常识别方法。
本发明实施例的第四方面还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器处理上述任一所述方法步骤。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
Claims (8)
1.一种建筑运行能耗异常识别方法,其特征在于,包括步骤:
获取历史年建筑能耗数据,并对其进行预处理,得到日能耗曲线;
对所述日能耗曲线进行特征提取,得到表示所述日能耗曲线的特征向量;
以所述特征向量为样本,采用自动寻优的无监督式随机森林模型对所述样本进行异常识别,得到异常日能耗数据;
采用聚类算法对所述异常日能耗数据进行分类,将聚类类别信息应用于时间轴,得到异常日能耗数据的异常分类标签;
采用apriori关联规则,对异常日能耗数据对应的室外气象分类信息、日期信息以及异常分类标签进行关联分析,得到异常日能耗数据产生的原因;其中,通过四分位统计法对异常日能耗数据对应的室外气象数据进行离散分类,得到室外气象分类信息。
2.根据权利要求1所述的建筑运行能耗异常识别方法,其特征在于,所述采用自动寻优的无监督式随机森林模型对所述样本进行异常识别,具体为:
步骤1采用随机森林模型,对特征数据进行异常识别,计算剔除异常特征数据后,特征数据样本之间的差异系数;
步骤2判断本次所述差异系数与前一次的差异系数之间的差值是否大于预设的差值;
步骤3若大于所述差值,则按照预设步长,自动调整所述随机森林模型的异常比例参数,重复步骤1-步骤2;
步骤4若不大于所述差值,统计符合要求的异常比例参数及计算的差异系数值;根据差异系数随异常比例参数变化而变化的曲线,选择差异系数变化率最小值对应的异常比例参数,作为异常比例参数的最优参数,进而得到最终的样本异常识别结果。
3.根据权利要求1所述的建筑运行能耗异常识别方法,其特征在于,所述获取历史年建筑能耗数据,并对其进行预处理,得到日能耗曲线,具体包括:
获取历史一年的日能耗实时数据;
每隔预设时间段对所述日能耗实时数据进行数据采样,得到采样点;并根据所述采样点绘制日能耗曲线;
对所述日能耗曲线进行处理包括:去除存在空缺值和存在突变能耗的日能耗曲线,和/或取置信度95%的所有日能耗数据。
4.根据权利要求1所述的建筑运行能耗异常识别方法,其特征在于,采用孤立森林模型对所述样本进行异常识别,得到异常日能耗数据,包括步骤:
给定n个样本数据X=[X 1 ,X 2 ,...,X n ] T ,根据下式计算每个样本的异常得分:
根据样本的异常得分与孤立树的期望值的关系,判断所述样本是否为异常样本;
;
式中,n表示数组维数;h(x)为样本点的x的路径长度;H(i),i=(1,2,...,n-1)为调和数;c(n)为给定样本数n时,路径长度的平均值;E(h(x))为样本x在一批孤立树中的路径长度的期望;s(x,n)为样本x的异常得分。
5.根据权利要求4所述的建筑运行能耗异常识别方法,其特征在于,根据样本的异常得分和孤立树的期望值、零值的关系,判断所述样本是否为异常样本,包括:
当所述E(h(x))与所述c(n)的差值小于预设值时,异常得分为0.5,样本数据的路径平均长度与树的平均路径长度无法区分;
当所述E(h(x))与0的差值小于预设值时,异常得分为1,所述样本数据为异常数据;
当所述E(h(x))与n-1的差值小于预设值时,异常得分为0,所述样本数据为正常数据。
6.一种建筑运行能耗异常识别系统,其特征在于,包括获取模块、特征提取模块、和异常识别模块;其中,所述获取模块,用于获取历史年建筑能耗数据,并对其进行预处理,得到日能耗曲线;
所述特征提取模块,用于对所述日能耗曲线进行特征提取,得到表示所述日能耗曲线的特征向量;其中,所述特征向量的特征包括:最大值、75%分位数、中位数、25%分位数、最小值、均值、方差;
所述异常识别模块,用于以所述特征向量为样本,采用自动寻优的无监督式随机森林算法对所述样本进行异常识别,得到异常日能耗数据;
还包括异常分类模块和异常原因分析模块;所述异常分类模块采用聚类算法对所述异常日能耗数据进行分类,将聚类类别信息应用于时间轴,得到异常日能耗数据的异常分类标签;所述异常原因分析模块采用apriori关联规则,对异常日能耗数据对应的室外气象分类信息、日期信息以及异常分类标签进行关联分析,得到异常日能耗数据产生的原因;其中,通过四分位统计法对异常日能耗数据对应的室外气象数据进行离散分类,得到室外气象分类信息。
7.一种电子设备,其特征在于,该电子设备包括:
处理器;以及,
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行上述权利要求1-5任一项建筑运行能耗异常识别方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器处理上述权利要求1-5任一所述方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011505948.4A CN112686286B (zh) | 2020-12-18 | 2020-12-18 | 建筑运行能耗异常识别方法、系统、计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011505948.4A CN112686286B (zh) | 2020-12-18 | 2020-12-18 | 建筑运行能耗异常识别方法、系统、计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112686286A CN112686286A (zh) | 2021-04-20 |
CN112686286B true CN112686286B (zh) | 2024-05-28 |
Family
ID=75449821
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011505948.4A Active CN112686286B (zh) | 2020-12-18 | 2020-12-18 | 建筑运行能耗异常识别方法、系统、计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112686286B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113326585B (zh) * | 2021-06-15 | 2023-10-03 | 新奥数能科技有限公司 | 燃气锅炉的能效异常预警方法、装置和计算机设备 |
CN113792477B (zh) * | 2021-08-18 | 2024-06-07 | 珠海派诺科技股份有限公司 | 一种用电异常识别方法、系统、装置和火灾预警系统 |
CN113761048B (zh) * | 2021-11-10 | 2022-03-25 | 中大检测(湖南)股份有限公司 | 地质灾害异常数据可视化处理方法及系统 |
CN113983729B (zh) * | 2021-12-02 | 2023-06-09 | 博锐尚格科技股份有限公司 | 一种冷水机组旁通运行的判断方法及装置 |
CN117057821A (zh) * | 2023-08-22 | 2023-11-14 | 江苏省家禽科学研究所 | 一种肉鸡质量溯源的管理系统 |
CN117692196A (zh) * | 2023-12-11 | 2024-03-12 | 国网河南省电力公司经济技术研究院 | 一种基于随机森林的用户状态画像异常监测方法 |
CN117411811B (zh) * | 2023-12-15 | 2024-02-23 | 山西思极科技有限公司 | 一种电力通信设备的故障智能监测方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102289585A (zh) * | 2011-08-15 | 2011-12-21 | 重庆大学 | 基于数据挖掘的公共建筑能耗实时监测方法 |
CN103839197A (zh) * | 2014-03-19 | 2014-06-04 | 国家电网公司 | 一种基于eemd方法的用户用电行为异常的判定方法 |
CN106249681A (zh) * | 2016-09-18 | 2016-12-21 | 北京博锐尚格节能技术股份有限公司 | 建筑能耗异常监控方法和装置 |
JP2018116665A (ja) * | 2017-01-20 | 2018-07-26 | 株式会社環境エネルギー総合研究所 | エネルギー消費量データ処理システム |
CN109035067A (zh) * | 2018-07-19 | 2018-12-18 | 北京泰豪智能工程有限公司 | 基于rf和arma算法的建筑能耗处理方法及装置 |
CN109214948A (zh) * | 2018-09-25 | 2019-01-15 | 新智数字科技有限公司 | 一种电力系统热负荷预测的方法和装置 |
CN109359134A (zh) * | 2018-08-30 | 2019-02-19 | 大连理工大学 | 一种基于数据挖掘的照明插座能耗隐性异常数据的识别方法 |
CN111798312A (zh) * | 2019-08-02 | 2020-10-20 | 深圳索信达数据技术有限公司 | 一种基于孤立森林算法的金融交易系统异常识别方法 |
-
2020
- 2020-12-18 CN CN202011505948.4A patent/CN112686286B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102289585A (zh) * | 2011-08-15 | 2011-12-21 | 重庆大学 | 基于数据挖掘的公共建筑能耗实时监测方法 |
CN103839197A (zh) * | 2014-03-19 | 2014-06-04 | 国家电网公司 | 一种基于eemd方法的用户用电行为异常的判定方法 |
CN106249681A (zh) * | 2016-09-18 | 2016-12-21 | 北京博锐尚格节能技术股份有限公司 | 建筑能耗异常监控方法和装置 |
JP2018116665A (ja) * | 2017-01-20 | 2018-07-26 | 株式会社環境エネルギー総合研究所 | エネルギー消費量データ処理システム |
CN109035067A (zh) * | 2018-07-19 | 2018-12-18 | 北京泰豪智能工程有限公司 | 基于rf和arma算法的建筑能耗处理方法及装置 |
CN109359134A (zh) * | 2018-08-30 | 2019-02-19 | 大连理工大学 | 一种基于数据挖掘的照明插座能耗隐性异常数据的识别方法 |
CN109214948A (zh) * | 2018-09-25 | 2019-01-15 | 新智数字科技有限公司 | 一种电力系统热负荷预测的方法和装置 |
CN111798312A (zh) * | 2019-08-02 | 2020-10-20 | 深圳索信达数据技术有限公司 | 一种基于孤立森林算法的金融交易系统异常识别方法 |
Non-Patent Citations (5)
Title |
---|
A data mining-based framework for the identification of daily electricity usage patterns and anomaly detection in building electricity consumption data;Xue Liu等;《Energy and Buildings》;20201105;第231卷;1-22 * |
An ensemble learning framework for anomaly detection in building energy consumption;Daniel B. Araya等;《Energy and Buildings》;20170601;第144卷;191-206 * |
商业建筑机电设备运行规律识别研究与实证;戴吉平等;《建筑热能通风空调》;20220125;第41卷(第1期);91-94 * |
大型办公建筑房间日用能模式挖掘与用能评价方法研究;凡祖兵;《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》;20190115(第01期);C038-247 * |
异常用电的检测方法:评述与展望;陈启鑫等;《电力系统自动化》;20180910;第42卷(第17期);189-199 * |
Also Published As
Publication number | Publication date |
---|---|
CN112686286A (zh) | 2021-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112686286B (zh) | 建筑运行能耗异常识别方法、系统、计算机可读存储介质 | |
CN110223196B (zh) | 基于典型行业特征库和反窃电样本库的反窃电分析方法 | |
CN113887616B (zh) | 一种epg连接数的实时异常检测方法 | |
WO2018045642A1 (zh) | 一种母线负荷预测方法 | |
CN111667135B (zh) | 一种基于典型特征提取的负荷结构解析方法 | |
CN105426441B (zh) | 一种时间序列自动预处理方法 | |
CN111860624A (zh) | 一种基于决策树的电网故障信息分类方法 | |
CN109063983B (zh) | 一种基于社交媒体数据的自然灾害损失实时评估方法 | |
CN115800245A (zh) | 基于sarima-随机森林组合模型的短期负荷预测方法 | |
CN115794803B (zh) | 一种基于大数据ai技术的工程审计问题监测方法与系统 | |
CN113408659A (zh) | 一种基于数据挖掘的建筑能耗集成分析方法 | |
CN113139570A (zh) | 一种基于最优混合估值的大坝安全监测数据补全方法 | |
CN115576981A (zh) | 一种基于有监督算法与无监督算法相结合的异常检测方法 | |
CN112836720A (zh) | 建筑运维设备异常诊断方法、系统及计算机可读存储介质 | |
Zhang | Decision Trees for Objective House Price Prediction | |
CN113127464A (zh) | 农业大数据环境特征处理方法、装置及电子设备 | |
CN112329868A (zh) | 基于clara聚类的制造加工设备群能效状态评价方法 | |
CN116470491A (zh) | 基于copula函数的光伏功率概率预测方法及系统 | |
CN111079809A (zh) | 电连接器智能统型方法 | |
CN115201394A (zh) | 一种多组分变压器油色谱在线监测方法及相关装置 | |
CN114757495A (zh) | 一种基于逻辑回归的会员价值量化评估方法 | |
CN111680572B (zh) | 一种电网运行场景动态判定方法及系统 | |
CN113191569A (zh) | 一种基于大数据的企业管理方法及系统 | |
CN113487080B (zh) | 一种基于风速分类的风速动态场景生成方法、系统及终端 | |
CN117493918A (zh) | 一种基于区间聚类模型的物联网设备告警集成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |