CN108228862A - 一种能耗监测平台的异常数据处理方法及系统 - Google Patents
一种能耗监测平台的异常数据处理方法及系统 Download PDFInfo
- Publication number
- CN108228862A CN108228862A CN201810030170.2A CN201810030170A CN108228862A CN 108228862 A CN108228862 A CN 108228862A CN 201810030170 A CN201810030170 A CN 201810030170A CN 108228862 A CN108228862 A CN 108228862A
- Authority
- CN
- China
- Prior art keywords
- data
- day
- target
- energy consumption
- abnormal data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 95
- 238000005265 energy consumption Methods 0.000 title claims abstract description 62
- 238000012544 monitoring process Methods 0.000 title claims abstract description 49
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012545 processing Methods 0.000 title claims abstract description 32
- HUTDUHSNJYTCAR-UHFFFAOYSA-N ancymidol Chemical compound C1=CC(OC)=CC=C1C(O)(C=1C=NC=NC=1)C1CC1 HUTDUHSNJYTCAR-UHFFFAOYSA-N 0.000 claims abstract description 42
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 24
- 230000008439 repair process Effects 0.000 claims abstract description 21
- 238000004088 simulation Methods 0.000 claims description 21
- 238000003672 processing method Methods 0.000 claims description 2
- 241001269238 Data Species 0.000 description 5
- 239000012141 concentrate Substances 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 239000003550 marker Substances 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000000714 time series forecasting Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005067 remediation Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Primary Health Care (AREA)
- Quality & Reliability (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- Water Supply & Treatment (AREA)
- Public Health (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种能耗监测平台的异常数据处理方法及系统,目的在于寻找更为有效的能耗监测平台的异常数据处理的方案,该能耗监测平台的异常数据处理方法包括构建目标数据集;按照预设条件识别目标数据集中的异常数据,判断异常数据的个数是否不小于预置个数;若异常数据的个数小于预置个数,则使用硬聚类算法二次识别目标日中的异常数据;选取与目标日的日逐时数据对应的最近邻的K日的日逐时数据,K为大于0的自然数,且K不大于M;根据最近邻的K日的日逐时数据修复目标日的日逐时数据。本发明通过有限的K日的日逐时数据修复目标日的日逐时数据,更为有效地处理能耗监测平台的异常数据。
Description
技术领域
本发明涉及数据分析领域,具体而言,本发明涉及一种能耗监测平台的异常数据处理方法及系统。
背景技术
目前运行的能耗监测逐时数据对于异常数据的修复,理论上有提出了一阶差分法、时间序列预测方法等,一阶差分法适用于曲线平缓上升的逐时数据处理,但大量的公共建筑逐时能耗在主要设备打开后会有一个很大的跃变,且当连续缺失多个小时数据时,一阶差分法并不适用;时间序列预测非常适用于具有周期性的公共建筑逐时能耗数据,但其使用条件苛刻,需要有完备的历史数据,如果历史数据有缺失,还是需要采用其它方法去填补,而填补的准确性将影响到时间序列预测的结果。
发明内容
为了寻找更为有效的能耗监测平台的异常数据处理的方案,本发明一个实施例提供了一种能耗监测平台的异常数据处理方法,该能耗监测平台的异常数据处理方法包括如下步骤:
步骤S1:构建目标数据集,所述目标数据集合包括目标日的日逐时数据以及已修复的M日的日逐时数据,所述M为大于0的自然数;
步骤S3:按照预设条件识别所述目标数据集中的异常数据,判断所述异常数据的个数是否不小于预置个数;
步骤S5:若所述异常数据的个数小于所述预置个数,则使用硬聚类算法二次识别所述目标日中的异常数据;
步骤S7:选取与所述目标日的日逐时数据对应的最近邻的K日的日逐时数据,所述K为大于0的自然数,且所述K不大于所述M;
步骤S9:根据所述最近邻的K日的日逐时数据修复所述目标日的日逐时数据。
本发明中,所述步骤S3之后包括:
步骤S4:若所述异常数据的个数不小于所述预置个数,则直接执行步骤S7。
本发明中,所述步骤S3包括:
若所述目标数据集中的日逐时数据符合所述预设条件,则标记所述日逐时数据为异常数据;所述预设条件包括以下条件之一:
所述日逐时数据的能耗值大于第一预设阈值;
所述日逐时数据的能耗数据小于第二预设阈值。
本发明中,所述步骤S7包括:
通过邻近算法选取与所述目标日的日逐时数据最近邻的K日的日逐时数据。
本发明中,所述步骤S9之前包括如下步骤:
确认最近邻的K日的日逐时数据的加权系数;
通过所述加权系数和所述最近邻的K日的日逐时数据获取所述目标日的日逐时模拟数据。
本发明中,所述通过所述加权系数和所述最近邻的K日的日逐时数据获取所述目标日的日逐时模拟数据之前包括:
判断与所述目标日的日逐时数据对应的最近邻的K日的日逐时数据是否为异常数据,若否,则通过所述加权系数和所述最近邻的K日的日逐时数据获取所述目标日的日逐时模拟数据。
本发明中,所述步骤S9包括:
判断所述目标日的日逐时数据是否为异常数据,若是,则用所述目标日的日逐时模拟数据替换所述目标日的日逐时数据。
本发明中,所述步骤S9包括:
判断所述目标日的日逐时模拟数据与所述目标日的日逐时数据的相差是否超过预设比例,若是,则用所述目标日的日逐时模拟数据替换所述目标日的日逐时数据。
本发明还提供一种能耗监测平台的异常数据处理系统,该能耗监测平台的异常数据处理系统包括:
构建模块,用于构建目标数据集,所述目标数据集合包括目标日的日逐时数据以及已修复的M日的日逐时数据,所述M为大于0的自然数;
识别判断模块,用于按照预设条件识别所述目标数据集中的异常数据,判断所述异常数据的个数是否不小于预置个数;
二次识别模块,用于在所述异常数据的个数小于所述预置个数,则使用硬聚类算法二次识别所述目标日中的异常数据;
选取模块,用于选取与所述目标日的日逐时数据对应的最近邻的K日的日逐时数据,所述K为大于0的自然数,且所述K不大于所述M;
修复模块,用于根据所述最近邻的K日的日逐时数据修复所述目标日的日逐时数据。
本发明中,该能耗监测平台的异常数据处理系统包括:
直接执行模块,用于在异常数据的个数不小于所述预置个数,直接执行所述选取模块。
与现有技术相比,本发明一种能耗监测平台的异常数据处理方法及系统具有如下有益效果:
本发明一种能耗监测平台的异常数据处理方法及系统通过有限的最近邻的K日的日逐时数据修复目标日的日逐时数据,解决了在缺失多个小时数据时一阶差分法不适用的问题,提高了能耗监测平台对于短期内能耗跃变的抗干扰能力,同时由于仅仅需要有限的M日的日逐时数据,且M日数据可以不完备,降低了对历史数据的要求,在一定程度上解决了时间序列需要有完备的历史数据才能填补的问题,具有较好的普适性。
本发明一种能耗监测平台的异常数据处理方法及系统采用硬聚类算法、邻近算法等多种方法以及根据异常数据的数目进行数据处理时的繁简分流,简化了计算过程,提高了修复效率。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明一个实施例一种能耗监测平台的异常数据处理方法的方法流程示意图;
图2为本发明一个实施例一种能耗监测平台的异常数据处理系统的模块结构示意图。
图中标识说明:
2001、构建模块;2003、识别判断模块;2005、二次识别模块;2007、选取模块;2009、修复模块。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
请参阅图1,本发明实施例提供一种能耗监测平台的异常数据处理方法,该能耗监测平台的异常数据处理方法包括如下步骤:
步骤S1:构建目标数据集,所述目标数据集合包括目标日的日逐时数据以及已修复的M日的日逐时数据,所述M为大于0的自然数,其中目标数据集优选为数据矩阵。
在一些实施方式中,考虑到公共建筑能耗特点,可以以14天逐时能耗数据为一目标数据集,即若定义异常过滤与修复目标日为2017年1月14日,则目标数据集为2017年1月1日至2017年1月14日共计336个小时的能耗数据。
示例地,该目标数据集为14*24数据矩阵,其如下所示,其中最后一行为目标日逐时数据,即需要进行修复的原始数据,其余为已经过处理的13日的日逐时数据:
步骤S3:按照预设条件识别所述目标数据集中的异常数据,判断所述异常数据的个数是否不小于预置个数。
具体地,步骤S3包括如下步骤:
若目标数据集中的日逐时数据符合预设条件,则标记日逐时数据为异常数据;其中,预设条件包括以下条件之一:
日逐时数据的能耗值大于第一预设阈值;
日逐时数据的能耗数据小于第二预设阈值。
示例地,在14*24数据矩阵的目标数据集中,第一预设阈值优选为0.35,也即其对应的每小时单位面积能耗值为0.35千瓦时每平方米。考虑到能耗值一般不会有负数出现,因此第二预设阈值优选为零。
为了便于识别异常数据,可以将通过步骤S3识别出的异常数据对应的日逐时数据直接置为零,以等待修复。
步骤S5:若所述异常数据的个数小于预置个数,则使用硬聚类算法二次识别所述目标日中的异常数据;其中预置个数可根据不同的建筑进行选定。
示例地,在14*24数据矩阵的目标数据集中,预置个数为286,也即目标数据集中不为零的日逐时数据个数应多于50。之所以进行这样的设置,也是考虑到硬聚类算法本身的应用条件。应当理解地是,本发明实施例还包括步骤S4,即若异常数据的个数不小于预置个数,则直接执行步骤S7。因为过少的日逐时数据点会影响硬聚类算法的适用。这样本发明实施例就实现了处理上的繁简分流,提高了计算效率。
硬聚类算法是聚类算法的一种,聚类就是按照某个特定标准把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。即聚类后同一类的数据尽可能聚集到一起,不同数据尽量分离,其中,聚类算法还包括模糊聚类算法、自组织映射神经网络以及层次聚类算法,其具体运算原理为现有的技术,本发明实施例在此不过多解释,仅示例出硬聚类算法的二次识别过程,其步骤如下:
(1)在目标数据集中,设定6个聚类质心(k1,k2,k3,k4,k5,k6);
(2)计算每个点到每个质心的距离:
di,j,m=|xi,j–km|
其中,i=1,2,…,14;j=1,2,…,24;m=1,2,…,6);
示例地,如果x1,1距离k1最近,则其标记为第1类,以此类推,将目标数据集中336个点进行分类标记;
(3)计算每类的平均值,作为新的聚类质心(k1’,k2’,k3’,k4’,k5’,k6’),计算每个点到新质心的距离,并重新进行分类标记;
(4)反复步骤(3)直到各个点分类标记不再变化;
(5)计算每类数据点个数占总个数的比例,如果某类的占比小于阈值比例,则认为该类数据明显偏离,判定为异常,将该类的日逐时数据均置为0,等待后续修复。
步骤S7:选取与所述目标日的日逐时数据对应的最近邻的K日的日逐时数据,所述K为大于0的自然数,且所述K不大于所述M。
具体地,步骤S7包括如下步骤:
通过邻近算法选取与目标日的日逐时数据最近邻的K日的日逐时数据。
其中,邻近算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。
示例地,在14*24数据矩阵的目标数据集中,邻近算法具体应用如下,其中K设定为3:
计算目标数据集中每行与目标日行的欧氏距离,即:
选取最小的三个di对应的数据行作为目标日行的最相似行,也即选取到了最近邻的3日的日逐时数据。
步骤S9:根据所述最近邻的K日的日逐时数据修复所述目标日的日逐时数据。
在一些实施方式中,步骤S9之前还包括如下步骤:
确认最近邻的K日的日逐时数据的加权系数;
通过加权系数和所述最近邻的K日的日逐时数据获取目标日的日逐时模拟数据。
其中,加权系数的确认主要依据相似性与欧式距离成反比的特性,其具体计算公式如下:
其中,i=1,2,…,13;K为最近邻的K日。
示例地,假设14*24数据矩阵的目标数据集中的第1行、第3行和第4行为最近邻的三日,则目标日的日逐时模拟数据的计算公式如下:
其中,j=1,2,…,24。
为了进一步提高数据修复的准确性,本发明实施例在通过加权系数和最近邻的K日的日逐时数据获取目标日的日逐时模拟数据之前还设置了如下步骤:
判断与目标日的日逐时数据对应的最近邻的K日的日逐时数据是否为异常数据,若否,则通过加权系数和所述最近邻的K日的日逐时数据获取目标日的日逐时模拟数据。
简而言之,就是当某日的日逐时数据为零时,其不参与目标日的日逐时模拟数据的任何计算,也即与目标日的某逐时数据x14,j对应的所有最相似日的该逐时有一个或者两个不为零,则就这一个或者两个点参与目标日的日逐时模拟数据的计算。值得注意的是,如果目标日的日逐时数据对应的所有最相似日的日逐时数据都为零时,则该点无法修复,仍保持为零或者转人工处理。
当然,当目标日的日逐时数据不为零的个数不满预定个数,假设六个,则可以用最相邻的三天平均值替代该目标日的日逐时数据,譬如,如果目标日是工作日,则选取与其最相近的三个工作日平均值作为修复结果,这样也为后续修复提供了基础。之所以这样做,也是考虑到如果某一天日逐时数据点过少,尤其如果缺失高峰时期的数据点,则会造成最相似日选取出现偏差,因此,为了修复的可持续性,加入了人为干预。
在一些实施方式中,步骤S9包括如下步骤:
判断目标日的日逐时数据是否为异常数据,若是,则用目标日的日逐时模拟数据替换目标日的日逐时数据。
在一些实施方式中,步骤S9包括如下步骤:
判断目标日的日逐时模拟数据与目标日的日逐时数据的相差是否超过预设比例,若是,则用目标日的日逐时模拟数据替换目标日的日逐时数据。
示例地,如目标日的日逐时数据x14,j的值与目标日的日逐时模拟数据x’14,j相差大于60%,则用x’14,j的值替换x14,j。
在实际中,该能耗监测平台的异常数据处理方法可以采用Spark平台实现,根据服务器情况设定分组,如采用服务器为四核八线程,可以八栋楼为一组,进行并行计算,大大提高了计算效率。同时考虑到大多能耗监测平台采用SQL数据库,因此Spark平台可采用LINUX下采用FreeTDS程序库访问SQL数据库的方式连接提取目标数据集,然后按上述步骤进行处理。与现有技术相比,本发明实施例一种能耗监测平台的异常数据处理方法具有如下有益效果:
本发明实施例一种能耗监测平台的异常数据处理方法通过有限的最近邻的K日的日逐时数据修复目标日的日逐时数据,解决了在缺失多个小时数据时一阶差分法不适用的问题,提高了能耗监测平台对于短期内能耗跃变的抗干扰能力,同时由于仅仅需要有限的M日的日逐时数据,且M日数据可以不完备,降低了对历史数据的要求,在一定程度上解决了时间序列需要有完备的历史数据才能填补的问题,具有较好的普适性。
本发明实施例一种能耗监测平台的异常数据处理方法采用硬聚类算法、邻近算法等多种方法以及根据异常数据的数目进行数据处理时的繁简分流,简化了计算过程,提高了修复效率。
请参阅图2,基于同一种能耗监测平台的异常数据处理方法相同的发明构思,本发明实施例还提供一种能耗监测平台的异常数据处理系统,该能耗监测平台的异常数据处理系统包括:
构建模块2001,用于构建目标数据集,目标数据集合包括目标日的日逐时数据以及已修复的M日的日逐时数据,M为大于0的自然数;
识别判断模块2003,用于按照预设条件识别目标数据集中的异常数据,判断异常数据的个数是否不小于预置个数;
二次识别模块2005,用于在异常数据的个数小于预置个数,则使用硬聚类算法二次识别目标日中的异常数据;
选取模块2007,用于选取与目标日的日逐时数据对应的最近邻的K日的日逐时数据,K为大于0的自然数,且K不大于M;
修复模块2009,用于根据最近邻的K日的日逐时数据修复目标日的日逐时数据。
在一些实施方式中,该能耗监测平台的异常数据处理系统包括直接执行模块,用于在异常数据的个数不小于预置个数时则直接执行选取模块2007。
具体地,识别判断模块2003包括识别判断单元:用于判断目标数据集中的日逐时数据符合预设条件,若是,则标记日逐时数据为异常数据。其中,预设条件包括以下条件之一:日逐时数据的能耗值大于第一预设阈值;日逐时数据的能耗数据小于第二预设阈值。
优选地,第二预设阈值为零。
选取模块2007包括选取单元,用于通过邻近算法选取与目标日的日逐时数据最近邻的K日的日逐时数据。
在一些实施方式中,该能耗监测平台的异常数据处理系统包括:
确认模块,用于确认最近邻的K日的日逐时数据的加权系数;
获取模块,用于通过加权系数和最近邻的K日的日逐时数据获取目标日的日逐时模拟数据。
在一些实施方式中,该能耗监测平台的异常数据处理系统还包括:判断模块,用于在通过加权系数和最近邻的K日的日逐时数据获取目标日的日逐时模拟数据之前,判断与目标日的日逐时数据对应的最近邻的K日的日逐时数据是否为异常数据,若否,则通过加权系数和最近邻的K日的日逐时数据获取目标日的日逐时模拟数据。
在一些实施方式中,修复模块2009包括第一修复单元,用于判断目标日的日逐时数据是否为异常数据,若是,则用目标日的日逐时模拟数据替换目标日的日逐时数据。
在一些实施方式中,修复模块2009包括第二修复单元,用于判断目标日的日逐时模拟数据与目标日的日逐时数据的相差是否超过预设比例,若是,则用目标日的日逐时模拟数据替换目标日的日逐时数据。
与现有技术相比,本发明实施例一种能耗监测平台的异常数据处理系统具有如下有益效果:
本发明实施例一种能耗监测平台的异常数据处理系统通过构建模块2001、识别判断模块2003、二次识别模块2005、选取模块2007以及修复模块2009来修复目标日的日逐时数据,解决了一阶差分法不适用连续缺失多个小时数据以及时间序列需要有完备的历史数据才能填补的问题,同时还提高了能耗监测平台对于短期内能耗跃变的抗干扰能力,具有较好的普适性。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种能耗监测平台的异常数据处理方法,其特征在于,该能耗监测平台的异常数据处理方法包括如下步骤:
步骤S1:构建目标数据集,所述目标数据集合包括目标日的日逐时数据以及已修复的M日的日逐时数据,所述M为大于0的自然数;
步骤S3:按照预设条件识别所述目标数据集中的异常数据,判断所述异常数据的个数是否不小于预置个数;
步骤S5:若所述异常数据的个数小于所述预置个数,则使用硬聚类算法二次识别所述目标日中的异常数据;
步骤S7:选取与所述目标日的日逐时数据对应的最近邻的K日的日逐时数据,所述K为大于0的自然数,且所述K不大于所述M;
步骤S9:根据所述最近邻的K日的日逐时数据修复所述目标日的日逐时数据。
2.如权利要求1所述的能耗监测平台的异常数据处理方法,其特征在于,所述步骤S3之后包括:
步骤S4:若所述异常数据的个数不小于预置个数,则直接执行步骤S7。
3.如权利要求1所述的能耗监测平台的异常数据处理方法,其特征在于,所述步骤S3包括:
若所述目标数据集中的日逐时数据符合所述预设条件,则标记所述日逐时数据为异常数据;所述预设条件包括以下条件之一:
所述日逐时数据的能耗值大于第一预设阈值;
所述日逐时数据的能耗数据小于第二预设阈值。
4.如权利要求1所述的能耗监测平台的异常数据处理方法,其特征在于,所述步骤S7包括:
通过邻近算法选取与所述目标日的日逐时数据最近邻的K日的日逐时数据。
5.如权利要求1所述的能耗监测平台的异常数据处理方法,其特征在于,所述步骤S9之前包括如下步骤:
确认最近邻的K日的日逐时数据的加权系数;
通过所述加权系数和所述最近邻的K日的日逐时数据获取所述目标日的日逐时模拟数据。
6.如权利要求5所述的能耗监测平台的异常数据处理方法,其特征在于,所述通过所述加权系数和所述最近邻的K日的日逐时数据获取所述目标日的日逐时模拟数据之前包括:
判断与所述目标日的日逐时数据对应的最近邻的K日的日逐时数据是否为异常数据,若否,则通过所述加权系数和所述最近邻的K日的日逐时数据获取所述目标日的日逐时模拟数据。
7.如权利要求5所述的能耗监测平台的异常数据处理方法,其特征在于,所述步骤S9包括:
判断所述目标日的日逐时数据是否为异常数据,若是,则用所述目标日的日逐时模拟数据替换所述目标日的日逐时数据。
8.如权利要求5述的能耗监测平台的异常数据处理方法,其特征在于,所述步骤S9包括:
判断所述目标日的日逐时模拟数据与所述目标日的日逐时数据的相差是否超过预设比例,若是,则用所述目标日的日逐时模拟数据替换所述目标日的日逐时数据。
9.一种能耗监测平台的异常数据处理系统,其特征在于,该能耗监测平台的异常数据处理系统包括:
构建模块,用于构建目标数据集,所述目标数据集合包括目标日的日逐时数据以及已修复的M日的日逐时数据,所述M为大于0的自然数;
识别判断模块,用于按照预设条件识别所述目标数据集中的异常数据,判断所述异常数据的个数是否不小于预置个数;
二次识别模块,用于在所述异常数据的个数小于预置个数,则使用硬聚类算法二次识别所述目标日中的异常数据;
选取模块,用于选取与所述目标日的日逐时数据对应的最近邻的K日的日逐时数据,所述K为大于0的自然数,且K不大于M;
修复模块,用于根据所述最近邻的K日的日逐时数据修复所述目标日的日逐时数据。
10.如权利要求9所述的能耗监测平台的异常数据处理系统,其特征在于,该能耗监测平台的异常数据处理系统包括:
直接执行模块,用于在异常数据的个数不小于预置个数,直接执行所述选取模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810030170.2A CN108228862A (zh) | 2018-01-12 | 2018-01-12 | 一种能耗监测平台的异常数据处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810030170.2A CN108228862A (zh) | 2018-01-12 | 2018-01-12 | 一种能耗监测平台的异常数据处理方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108228862A true CN108228862A (zh) | 2018-06-29 |
Family
ID=62640317
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810030170.2A Pending CN108228862A (zh) | 2018-01-12 | 2018-01-12 | 一种能耗监测平台的异常数据处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108228862A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108984798A (zh) * | 2018-08-21 | 2018-12-11 | 北京睦合达信息技术股份有限公司 | 一种数据处理方法及装置 |
CN109239265A (zh) * | 2018-09-11 | 2019-01-18 | 清华大学合肥公共安全研究院 | 监测设备故障检测方法及装置 |
CN109376478A (zh) * | 2018-11-28 | 2019-02-22 | 中铁大桥(南京)桥隧诊治有限公司 | 桥梁健康监测故障数据修复方法及系统 |
CN109508743A (zh) * | 2018-11-13 | 2019-03-22 | 大连理工大学 | 一种基于knn改进算法的建筑能耗监测异常数据的修复方法 |
CN109800217A (zh) * | 2018-12-28 | 2019-05-24 | 南京天溯自动化控制系统有限公司 | 一种连续异常能耗数据的修复方法、装置及电子设备 |
CN110209260A (zh) * | 2019-04-26 | 2019-09-06 | 平安科技(深圳)有限公司 | 耗电量异常检测方法、装置、设备及计算机可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104992238A (zh) * | 2015-06-24 | 2015-10-21 | 国网山东省电力公司电力科学研究院 | 一种基于典型日负荷特性的电力负荷预测方法 |
CN106203743A (zh) * | 2016-07-15 | 2016-12-07 | 山东建筑大学 | 一种基于改进的ihcmac神经网络的光伏发电功率预测方法 |
-
2018
- 2018-01-12 CN CN201810030170.2A patent/CN108228862A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104992238A (zh) * | 2015-06-24 | 2015-10-21 | 国网山东省电力公司电力科学研究院 | 一种基于典型日负荷特性的电力负荷预测方法 |
CN106203743A (zh) * | 2016-07-15 | 2016-12-07 | 山东建筑大学 | 一种基于改进的ihcmac神经网络的光伏发电功率预测方法 |
Non-Patent Citations (1)
Title |
---|
吴蔚沁: ""基于机器学习算法的建筑能耗监测数据异常识别及修复方法"", 《建筑节能与绿色建筑》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108984798A (zh) * | 2018-08-21 | 2018-12-11 | 北京睦合达信息技术股份有限公司 | 一种数据处理方法及装置 |
CN109239265A (zh) * | 2018-09-11 | 2019-01-18 | 清华大学合肥公共安全研究院 | 监测设备故障检测方法及装置 |
CN109239265B (zh) * | 2018-09-11 | 2021-01-22 | 清华大学合肥公共安全研究院 | 监测设备故障检测方法及装置 |
US11385122B2 (en) | 2018-09-11 | 2022-07-12 | Hefei Institute For Public Safety Research, Tsinghua University | Method and device for detecting fault of monitoring device |
CN109508743A (zh) * | 2018-11-13 | 2019-03-22 | 大连理工大学 | 一种基于knn改进算法的建筑能耗监测异常数据的修复方法 |
CN109376478A (zh) * | 2018-11-28 | 2019-02-22 | 中铁大桥(南京)桥隧诊治有限公司 | 桥梁健康监测故障数据修复方法及系统 |
CN109800217A (zh) * | 2018-12-28 | 2019-05-24 | 南京天溯自动化控制系统有限公司 | 一种连续异常能耗数据的修复方法、装置及电子设备 |
CN109800217B (zh) * | 2018-12-28 | 2023-06-06 | 南京天溯自动化控制系统有限公司 | 一种连续异常能耗数据的修复方法、装置及电子设备 |
CN110209260A (zh) * | 2019-04-26 | 2019-09-06 | 平安科技(深圳)有限公司 | 耗电量异常检测方法、装置、设备及计算机可读存储介质 |
CN110209260B (zh) * | 2019-04-26 | 2024-02-23 | 平安科技(深圳)有限公司 | 耗电量异常检测方法、装置、设备及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108228862A (zh) | 一种能耗监测平台的异常数据处理方法及系统 | |
CN107563396A (zh) | 一种电力巡检中保护屏智能识别系统的构建方法 | |
CN107067020A (zh) | 图片识别方法及装置 | |
CN104318268B (zh) | 一种基于局部距离度量学习的多交易账户识别方法 | |
CN114868640B (zh) | 基于物联网的智慧城市绿地灌溉用水分配方法和系统 | |
CN106855958A (zh) | 机台零件剩余寿命预测系统与方法 | |
CN108319649A (zh) | 一种提高水情水调数据质量的系统和方法 | |
CN112819306A (zh) | 基于计算机视觉的工作效率评价方法、系统、设备及介质 | |
CN115879915B (zh) | 一种用于发电厂的跨平台标准化检修方法 | |
CN113919704A (zh) | 一种基于大数据的人员风险防控方法及装置 | |
CN110992507B (zh) | 一种多人多站点巡检任务规划和路径设计方法 | |
CN109145431A (zh) | 一种监控电力二次系统运行状态的建模方法及装置 | |
CN104778564A (zh) | 一种基于信息编码的预制构件施工管理方法 | |
CN110807174B (zh) | 一种基于统计分布的污水厂厂群出水分析及异常识别方法 | |
CN116344378B (zh) | 一种光伏板生产用智能检测系统及其检测方法 | |
CN115294411B (zh) | 基于神经网络的电网输变电图像数据处理方法 | |
CN114187012B (zh) | 基于区块链的通信建设监管服务系统及方法 | |
CN101937512B (zh) | 基于网格区域的昆虫翅脉识别的方法和系统 | |
CN110083804A (zh) | 基于条件分布回归的风电场scada数据缺失的智能修复方法 | |
CN115564180A (zh) | 一种基于大数据分析的电力网络可靠性评估方法 | |
CN115592687A (zh) | 一种应用于泳池机器人故障报警及排除系统及方法 | |
CN115577897A (zh) | 一种基于智慧云平台的人才评选方法及装置 | |
CN114429247A (zh) | 车间规划及检验监督方法、装置、设备和存储介质 | |
CN113450347A (zh) | 输电铁塔的组塔进度识别方法 | |
CN107506922B (zh) | 基于茶叶品种的茶区临时变压器转接负荷切换模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180629 |