CN107305563A - 一种基于距离的异常数据检测方法及系统 - Google Patents
一种基于距离的异常数据检测方法及系统 Download PDFInfo
- Publication number
- CN107305563A CN107305563A CN201610251384.3A CN201610251384A CN107305563A CN 107305563 A CN107305563 A CN 107305563A CN 201610251384 A CN201610251384 A CN 201610251384A CN 107305563 A CN107305563 A CN 107305563A
- Authority
- CN
- China
- Prior art keywords
- interval
- data
- mrow
- normal
- abnormity point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/907—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Library & Information Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Alarm Systems (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明涉及一种基于距离的异常数据检测方法,具体通过设置若干数据区间,并判断每个区间内的数据数量来判断所设置的区间是正常区间还是异常区间,从而检测出异常数据的方法。本发明还涉及一种使用该方法来进行异常数据检测的系统,其包括数据采集模块、中央服务器和内置于中央服务器内的数据检测模块构成,采集模块用来采集数据,上传至中央服务器,中央服务器通过内置的数据检测模块按照本发明提供的方法进行异常数据检测和剔除。
Description
技术领域
本发明属于市政、信息处理及智能楼宇领域,具体涉及一种基于距离的异常数据检测方法,本发明还涉及实现该方法的系统。
背景技术
随着物联网和互联网技术的发展,在供热、空调、给水、排水等市政以及智能楼宇领域,市政系统中诸如压力、温度、流量、智能楼宇领域的诸如能源消耗、室内温度、湿度等参数的测量和采集都采用自动化仪表,测量数据自动采集,并实现数据远程传输。这种方式一方面使得数据能够实时采集,是系统实现自控的必要环节,另一方面实现了高频率的电子化数据,方便管理人员运行管理和故障的诊断、处理等功能,提高服务品质的同时大大降低了能源消耗。然而随着数据采集种类的越来越多,采集的频次越来越高,数据数量越来越大,异常数据的产生难以避免,从而影响服务质量、浪费能源甚至引起安全事故,因此在使用数据前必须进行异常数据的检测和剔除。
可以看到,这些数据具有如下特征:
(1)多数情况下,这些数据为时间序列数据,呈一维性特征,正常的时间序列数据具有时间自相关性,即如果两个测量的时间很接近,则这些测量的值通常非常相似。
(2)这些数据随着时间具有一定的变化规律,比如累积热量会随着时间递增,室外温度在24小时内呈现一定的周期性等等,考察不同变量的变化规律,以此对变量进行处理,可以得到一个在正常情况下数值比较稳定的新变量,比如可以将累积热量数据处理为日耗热量。
(3)在得到的新变量中,异常点将会明显地远离其他正常点,即异常点与正常点之间的差值将远大于正常点之间的差值。并且在新变量所有对象的取值区间内,异常点将位于区间的两端(或其中一端)。
目前已经提出的异常检测方法有很多种,主要有基于分布、距离、密度、聚类和分类的方法,但要么涉及的边界阈值选取存在一定困难,要么计算极其复杂,又或者人为限制了某个数据集中可能存在的异常点的数量,缺乏灵活性。
本发明基于上述数据特征,提出一种简单而又高效的异常数据检测方法以及实现该方法的系统。
发明内容
本发明提出一种基于距离的异常数据检测方法,其解决所述技术问题采用的技术方案包括如下步骤:
(1)确定需要处理的数据集合S,S中的元素数量大于1;
(2)提取需要处理的数据集合中的最小数据minValue和最大数据maxValue;
(3)将取值范围(minValue,maxValue)等分成N个区间,定义区间间隔minD为异常点与正常点的距离阈值,minD按照式(1)计算:
则第i个分隔区间为:
Di=[minValue+(i-1)*minD,minValue+i*minD)
其中i=1,……,N;N通过观察确定的任意整数,N大于1;
(4)统计落在每个区间Di范围上数据的数量;
(5)给出数量阈值k,对各个区间进行分类。若区间内数据数量≤k,将该区间分类为异常点候选区间;若区间内数据数量>k,将该区间分类为正常区间,k通过观察确定的任意整数,但k应小于数据集合S中的元素数量;
(6)对异常点候选区间进行判定,判断规则为:
对于任意一个p∈S(k),满足:
式中
distance(p,q)—p与q之间的距离;
value(p)——p的值;
value(q)—q的值;
S(normal)——包含所有最初被标定为正常区间中的数据的集合;
S(k)——异常点区间内所有数据的集合;
(7)基于第(6)步的规则,则可以按照下述方式进行操作:第一,若某异常点候选区间在两个正常区间之间,将其重新划分为正常区间;第二,若某异常点候选区间与正常区间紧邻,将其重新划分为正常区间。剩余的异常点候选区间将作为异常点区间,包含在这些区间内的点即为异常点。需要注意的是,若一个异常点候选区间在判定后被重新划分为正常区间,那么该正常区间不参与其他异常点候选区间的判定。
其特征还在于:检测出的异常数据可以进行剔除处理,也可以采用修正、替换等其他方式处理;
其特征还在于:用于检测的数据可以是数据库系统里的已经存在的数据,也可以是实时采集上传的数据;
其特征还在于:可以在线实时对采集上来的数据进行异常数据检测,也可以将采集上来的数据先存储到数据库,然后在某个时间调出需要处理的数据集中进行异常数据检测;
本发明为解决所述技术问题,还提供了一种基于距离的异常数据检测系统,其特征在于:该系统由数据采集模块、中央服务器和数据检测模块构成,其中采集模块用来采集数据,上传至中央服务器,内置在中央服务器里的数据检测模块根据本发明提供的方法进行异常数据检测和剔除或修正处理。
如前所述,本发明方法和基于该方法的系统可以有效识别并剔除数据中存在的异常点,对于数据的有效利用具有重要的实际意义。
附图说明
图1是基于距离的异常数据检测系统原理架构图。
具体实施方式
下面结合附图及实例对本发明的技术方案做进一步说明,但它不构成对本发明权利要求的限制:
实施例1:
在供热系统进行运行调节或者热费分摊计算时,楼栋热量表采集的“累计耗热量”Qc非常重要。如图1所示,热量表作为数据采集模块,将实时采集的数据上传至中心服务器,中心服务器收到数据后,首先计算“日耗热量”Qdh,再采用本专利提供的方法对“日耗热量”进行异常点检测识别,进而识别出“累计耗热量”的故障数据,具体按照如下步骤进行处理:
(1)每个“累计耗热量”Qc,i对应的记录均有一个采样时间τi数据,根据式(3),可得楼栋日耗热量Qdh,确定楼栋日耗热量为处理数据的集合S
式中Qdh,i——τi时刻的日耗热量,kWh/d;
Qc,i——时刻的累计耗热量,kWh;
τi——采样时间,d。
(2)提取需要处理的数据集合中的最小日耗热量min Qdh和最大日耗热量数据maxQdh;
(3)将取值范围(minQdh,maxQdh)等分成N个区间,N取40,定义区间间隔minD为异常点与正常点的距离阈值,minD按照式(3)计算:
则第i个分隔区间为
Di=[minQdh+(i-1)*minD,minQdh+i*minD)
其中i=1,……,N;
(4)统计落在每个区间Di范围上数据的数量;
(5)给出数量阈值k,k取2;对各个区间进行分类。若区间内数据数量≤k,将该区间分类为异常点候选区间;若区间内数据数量>k,将该区间分类为正常区间;
(6)对异常点候选区间进行判定,判断规则为:
对于任意一个p∈S(k),满足:
式中S(normal)——包含所有最初被标定为正常区间中的数据的集合;
S(k)——异常点区间内所有数据的集合
(7)基于上述规则,按照下述方式进行操作:第一,若某异常点候选区间在两个正常区间之间,将其重新划分为正常区间;第二,若某异常点候选区间与正常区间紧邻,将其重新划分为正常区间。剩余的异常点候选区间将作为异常点区间,包含在这些区间内的点即为异常点。需要注意的是,若一个异常点候选区间在判定后被重新划分为正常区间,那么该正常区间不参与其他异常点候选区间的判定。
实施例2:
在获取了某个用户间隔30分钟的大量室温数据后,对室温进行异常点检测,具体按照如下步骤进行处理:
(1)确定用户室温数据为处理数据的集合S;
(2)提取需要处理的数据集合中的最低温度minT和最高温度maxT;
(3)将取值范围(minT,maxT)等分成N个区间,定义区间间隔minD为异常点与正常点的距离阈值,minD按照式(3)计算:
则第i个分隔区间为
Di=[minT+(i-1)*minD,minT+i*minD)
其中i=1,……,N;N取10;
(4)统计落在每个区间Di范围上数据的数量;
(5)给出数量阈值k,对各个区间进行分类。若区间内数据数量≤k,将该区间分类为异常点候选区间;若区间内数据数量>k,将该区间分类为正常区间,k取5;
(6)对异常点候选区间进行判定,判断规则为:
对于任意一个p∈S(k),满足:
式中S(normal)——包含所有最初被标定为正常区间中的数据的集合;
S(k)——异常点区间内所有数据的集合
(7)基于上述规则,按照下述方式进行操作:第一,若某异常点候选区间在两个正常区间之间,将其重新划分为正常区间;第二,若某异常点候选区间与正常区间紧邻,将其重新划分为正常区间。剩余的异常点候选区间将作为异常点区间,包含在这些区间内的点即为异常点。需要注意的是,若一个异常点候选区间在判定后被重新划分为正常区间,那么该正常区间不参与其他异常点候选区间的判定。
应当理解,上述实施方式仅为本发明的较佳实施例而已,用来描述本发明原理的应用,在不背离本发明的精神或本质特性的情况下,本发明可以实施为其他的具体形式。所述实施方式无论从哪一方面来看都应当认为仅是作为说明性的,而不应认为是限制性的。因此,本发明的范围应当以所附权利要求为准,而不是以前述发明为准,根据权利要求的实质精神和等效手段所做的变型都落入其范围之内。
尽管已经利用与目前认为是本发明的最实用以及优选的实施方式相关的特性和细节全面地描述了本发明,但对于本领域技术人员来说显而易见的各种变化和/或改善,包括但不限制于大小,材料,形状,接口形式,接口位置、功能和操作方式,组装和做出的使用上的改变,这些都不背离在权利要求中阐述的本发明的原理和概念。
Claims (5)
1.一种异常数据检测方法,其特征在于:包括以下步骤:
(1)确定需要处理的数据集合S,S中的元素数量大于1;
(2)提取需要处理的数据集合中的最小数据minValue和最大数据maxValue;
(3)将取值范围(minValue,maxValue)等分成N个区间,定义区间间隔minD为异常点与正常点的距离阈值,minD按照式(1)计算:
<mrow>
<mi>min</mi>
<mi>D</mi>
<mo>=</mo>
<mfrac>
<mrow>
<mi>max</mi>
<mi>V</mi>
<mi>a</mi>
<mi>l</mi>
<mi>u</mi>
<mi>e</mi>
<mo>-</mo>
<mi>min</mi>
<mi>V</mi>
<mi>a</mi>
<mi>l</mi>
<mi>u</mi>
<mi>e</mi>
</mrow>
<mi>N</mi>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
则第i个分隔区间为
Di=[minValue+(i-1)*minD,minValue+i*minD)
其中i=1,……,N;N通过观察确定的任意整数,N大于1;
(4)统计落在每个区间Di范围上数据的数量;
(5)给出数量阈值k,对各个区间进行分类。若区间内数据数量≤k,将该区间分类为异常点候选区间;若区间内数据数量>k,将该区间分类为正常区间,k通过观察确定的任意整数,但k应小于数据集合S中的元素数量;
(6)对异常点候选区间进行判定,判断规则为:
对于任意一个p∈S(k),满足:
<mrow>
<mtable>
<mtr>
<mtd>
<mrow>
<mi>d</mi>
<mi>i</mi>
<mi>s</mi>
<mi>tan</mi>
<mi>c</mi>
<mi>e</mi>
<mrow>
<mo>(</mo>
<mi>p</mi>
<mo>,</mo>
<mi>q</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>v</mi>
<mi>a</mi>
<mi>l</mi>
<mi>u</mi>
<mi>e</mi>
<mrow>
<mo>(</mo>
<mi>p</mi>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mi>v</mi>
<mi>a</mi>
<mi>l</mi>
<mi>u</mi>
<mi>e</mi>
<mrow>
<mo>(</mo>
<mi>q</mi>
<mo>)</mo>
</mrow>
<mo>></mo>
<mi>min</mi>
<mi>D</mi>
<mo>,</mo>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mi>q</mi>
<mo>&Element;</mo>
<mi>S</mi>
<mrow>
<mo>(</mo>
<mi>n</mi>
<mi>o</mi>
<mi>r</mi>
<mi>m</mi>
<mi>a</mi>
<mi>l</mi>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
</mtable>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
</mrow>
式中distance(p,q)—p与q之间的距离;
value(p)——p的值;
value(q)—q的值;
S(normal)——包含所有最初被标定为正常区间中的数据的集合;
S(k)——异常点区间内所有数据的集合;
(7)依据第(6)步规则,按照下述方式进行操作:第一,若某异常点候选区间在两个正常区间之间,将其重新划分为正常区间;第二,若某异常点候选区间与正常区间紧邻,将其重新划分为正常区间。剩余的异常点候选区间将作为异常点区间,包含在这些区间内的点即为异常点。需要注意的是,若一个异常点候选区间在判定后被重新划分为正常区间,那么该正常区间不参与其他异常点候选区间的判定。
2.根据权利要求1所述的方法,其特征还在于:检测出的异常数据可以进行剔除处理,也可以采用修正或替换处理。
3.根据权利要求1或2所述的方法,其特征在于:用于检测的数据可以是数据库系统里已经存在的数据,也可以是实时采集上传的数据。
4.根据权利要求1或2所述的方法,其特征在于:可以在线实时对采集上来的数据进行异常数据检测,也可以将采集上来的数据先存储到数据库,然后在某个时间调出需要处理的数据集中进行异常数据检测。
5.一种根据权利要求1-4所述的一种异常数据检测方法来进行异常数据检测的系统,其特征在于:该系统由数据采集模块、中央服务器和数据检测模块构成,其中采集模块用来采集数据,上传至中央服务器,内置在中央服务器里的数据检测模块根据权利要求1-4中所述的方法进行异常数据检测和处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610251384.3A CN107305563B (zh) | 2016-04-21 | 2016-04-21 | 一种基于距离的异常数据检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610251384.3A CN107305563B (zh) | 2016-04-21 | 2016-04-21 | 一种基于距离的异常数据检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107305563A true CN107305563A (zh) | 2017-10-31 |
CN107305563B CN107305563B (zh) | 2021-04-13 |
Family
ID=60151687
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610251384.3A Active CN107305563B (zh) | 2016-04-21 | 2016-04-21 | 一种基于距离的异常数据检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107305563B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109900366A (zh) * | 2019-03-22 | 2019-06-18 | 国网重庆市电力公司电力科学研究院 | 一种检测避雷器温度异常点的方法及装置 |
CN109918220A (zh) * | 2019-02-13 | 2019-06-21 | 北京科技大学 | 一种异常数据检测参数的确定方法及确定装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7298869B1 (en) * | 2003-07-21 | 2007-11-20 | Abernathy Donald A | Multispectral data acquisition system and method |
CN102721924A (zh) * | 2012-06-26 | 2012-10-10 | 新疆金风科技股份有限公司 | 风力发电机组的故障预警方法 |
CN104034796A (zh) * | 2014-06-16 | 2014-09-10 | 东北大学 | 一种管道漏磁内检测数据实时处理装置及方法 |
CN105468662A (zh) * | 2014-12-31 | 2016-04-06 | 深圳市中电电力技术股份有限公司 | 一种基于表码值的能耗数据处理方法和系统 |
-
2016
- 2016-04-21 CN CN201610251384.3A patent/CN107305563B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7298869B1 (en) * | 2003-07-21 | 2007-11-20 | Abernathy Donald A | Multispectral data acquisition system and method |
CN102721924A (zh) * | 2012-06-26 | 2012-10-10 | 新疆金风科技股份有限公司 | 风力发电机组的故障预警方法 |
CN104034796A (zh) * | 2014-06-16 | 2014-09-10 | 东北大学 | 一种管道漏磁内检测数据实时处理装置及方法 |
CN105468662A (zh) * | 2014-12-31 | 2016-04-06 | 深圳市中电电力技术股份有限公司 | 一种基于表码值的能耗数据处理方法和系统 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109918220A (zh) * | 2019-02-13 | 2019-06-21 | 北京科技大学 | 一种异常数据检测参数的确定方法及确定装置 |
CN109918220B (zh) * | 2019-02-13 | 2020-07-10 | 北京科技大学 | 一种异常数据检测参数的确定方法及确定装置 |
CN109900366A (zh) * | 2019-03-22 | 2019-06-18 | 国网重庆市电力公司电力科学研究院 | 一种检测避雷器温度异常点的方法及装置 |
CN109900366B (zh) * | 2019-03-22 | 2021-05-07 | 国网重庆市电力公司电力科学研究院 | 一种检测避雷器温度异常点的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107305563B (zh) | 2021-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110634080B (zh) | 异常用电检测方法、装置、设备及计算机可读存储介质 | |
Gallagher et al. | Development and application of a machine learning supported methodology for measurement and verification (M&V) 2.0 | |
US8670874B2 (en) | Method and apparatus for energy and emission reduction | |
CN112381476B (zh) | 用于确定状态异常的电能表的方法及装置 | |
JP2003242212A (ja) | ユーティリティの消費特性が類似する曜日を決定する装置および方法 | |
CN105139585A (zh) | 一种土质边坡险情智能预警预报方法 | |
CN103494316B (zh) | 一种按重量划分复烤烟叶批次的方法 | |
CN109426225A (zh) | 一种烟草制丝生产的质量控制方法 | |
CN110298765B (zh) | 一种基于客观关联因素的配电网用电功率异常检测方法 | |
US20160282400A1 (en) | Equipment failure prediction system, equipment failure prediction device and equipment failure prediction method | |
CN104915894A (zh) | 计量自动化终端运行风险预警系统 | |
CN110177005A (zh) | 公用设施分配网络分析 | |
Abdel-Jaber et al. | Systematic method for the validation of long-term temperature measurements | |
CN117556366B (zh) | 基于数据筛选的数据异常检测系统及方法 | |
CN111984705A (zh) | 一种电能质量监测装置的精度评估管理方法和装置 | |
CN115375202A (zh) | 一种铁路隧道工程安全检测方法及系统 | |
CN107305563A (zh) | 一种基于距离的异常数据检测方法及系统 | |
RU2654167C2 (ru) | Способ обнаружения скрытых взаимосвязей в Интернете Вещей | |
CN117607019B (zh) | 电力金具表面智能检测方法和检测系统 | |
CN105260944A (zh) | 一种基于lssvm算法与关联规则挖掘的统计线损计算方法 | |
CN117495106A (zh) | 一种智能电表实时风险筛查、预测方法及系统 | |
CN109979033B (zh) | 一种基于宽度学习算法的工业生产产量监测方法 | |
CN108491995B (zh) | 一种用于饮用水风险因子识别的关键控制因素筛选方法 | |
KR101063202B1 (ko) | 단계별 필터링 기법을 활용한 상수도 계측데이터 수집방법 및 그 시스템 | |
JP6777228B2 (ja) | 制御装置、通信システム、および制御方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |