CN109727446B - 一种用电数据异常值的识别与处理方法 - Google Patents

一种用电数据异常值的识别与处理方法 Download PDF

Info

Publication number
CN109727446B
CN109727446B CN201910037480.1A CN201910037480A CN109727446B CN 109727446 B CN109727446 B CN 109727446B CN 201910037480 A CN201910037480 A CN 201910037480A CN 109727446 B CN109727446 B CN 109727446B
Authority
CN
China
Prior art keywords
data
value
sliding window
outlier
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910037480.1A
Other languages
English (en)
Other versions
CN109727446A (zh
Inventor
赵文清
张诗满
李刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Topsky Information Technology Co ltd
Original Assignee
North China Electric Power University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North China Electric Power University filed Critical North China Electric Power University
Priority to CN201910037480.1A priority Critical patent/CN109727446B/zh
Publication of CN109727446A publication Critical patent/CN109727446A/zh
Application granted granted Critical
Publication of CN109727446B publication Critical patent/CN109727446B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

一种用电数据异常值的识别与处理方法,用于提高电能计量的准确性,所述方法包括以下步骤:a.设置滑动窗口;b.计算当前滑动窗口中数据的离群距离;c.计算当前滑动窗口中各个数据的离群系数;d.异常值的判定和更正;e.将滑动窗口向后移动一个数据,重复步骤b~步骤d,直至遍历整个数据集,完成异常值的处理。本发明根据滑动窗口中用电数据的离群系数判定其是否异常,并对异常数据进行更正,该方法可使数据更为准确地反映用户的真实用电情况,减少某些异常值、缺失数据对电能计量造成的不良影响,确保后续工作顺利进行并提高电能计量的准确性。

Description

一种用电数据异常值的识别与处理方法
技术领域
本发明涉及一种适用于智能电表采集的基于时间序列的离散数据的异常值识别与处理方法,属于数据处理技术领域。
背景技术
随着社会的发展和科技的创新,各行各业信息化程度越来越高,数据不再仅仅是结果的体现,而是各种系统运行状态的反映。二十一世纪的今天,数据的价值已经引起了社会各界的充分重视,因为数据是一种历史状态的记录,通过对历史数据的分析,可以找寻造成当前结果的原因,也可以预测未来将要发生的事情,甚至可以造就一个美好的未来。当前各种复杂的信息系统构成了我们依赖的数字世界,从数据流向的角度来看,可将信息系统分为数据产生、数据采集、数据处理和数据分析四个主要步骤。传感技术的发展和信息系统的增多为数据的产生提供了更多的数据源,同时也推动促进了数据采集技术的进步,数据体量的剧增让我们无法在单个服务器上实时处理海量数据,因此“大数据”和“云计算”等技术一出现便得到了快速发展和广泛应用,另外,基于大数据和云计算的人工智能也在如火如荼地发展,革新甚至取代了众多机械性的行业。
面对种类多、体量大的结构化、半结构化和非结构化数据,数据质量往往并不理想,存在不同程度的缺失和异常数据。实际项目经验也告诉我们,数据预处理是项目开发过程中不可或缺的一个环节和工作,而且处理质量直接关系到数据分析结果,与项目的成败有直接关系。工业现场采集的原始数据通常存在噪声和异常值,这些原始数据的问题主要集中在以下几个方面:一是对于同一设备,不同测量装置的测量结果是不同的;二是传感器在压缩或传输数据时存在不确定性影响,造成数据丢失等,这为后续分析处理带来了很大的困难。因此,对采集到的原始数据进行预处理是一项非常必要的工作,需要着重进行缺失值补全、异常值处理和指标筛选等。数据预处理主要包括数据清洗、数据集成、数据变换和数据规约等步骤。数据清洗主要是对缺失值和异常值进行处理,根据缺失值的重要程度,可将其删除或插补,数据的插补根据实际情况可选用固定值法、最近值法、均值法、中位数法、众数法,以及回归法、拉格朗日插值法和牛顿插值法;对异常值的处理有识别和处理两个步骤,都需结合数据特点进行分析处理,且以数据最小失真为目标。数据集成是将多个数据源的数据整合到一起,形成一个统一且相对完整的数据集合,其主要技术难点是处理冗余和冲突数据。数据变换需要将数据转换成适合方法分析和挖掘的形式,筛选出特征指标,涉及到数据的规范化、聚集和属性构造等方面的技术。随着信息化程度的加深,数据不仅是结果的呈现,更是社会发展过程的记录,面对大数据分析和挖掘存在效率不高问题,数据规约技术可得到数据集的规约表示,在缩减数据量的同时,保持原数据的完整性。
智能电表对电能使用情况的记录是基于时间序列的离散采样数据,在实际应用过程中,由于电表质量、通信故障等多种客观因素的影响,导致记录数据出现缺失和异常,因此必须进行识别和处理。
现有的数据异常值处理方法很多,主要分两步进行。第一步是识别异常值,即根据数据的实际物理意义和异常情况,设计一种方法选出异常数据;第二步是处理方式,即如何处理异常值,其目标是保证对数据的失真度最小,尽量反应数据的真实特性,并减小对结果的影响。异常值的识别根据数据的维度不同而具有不同的复杂度,同时还需要考虑数据的属性和数据间的相关性,例如,对年龄数据的异常值可以采用统计分析的方法,将年龄的区间规约在0到200之间,不在此区间的数据就是判断为异常值。当数据服从正态分布时,可以利用3δ原则,将距离平均值3δ之外的数据视为异常值,因为这样的值属于极小概率值。还有一种常见的异常值识别方法——箱型图,将大于或小于箱型图设定的上下界的数值判定为异常值,箱型图如图1所示,上四分位设定为U,则表示所有样本中只有1/4的数值大于U,同理,下四分位设定为L,表示所有样本中只有1/4的数值小于L,设上下四分位的差值为IQR,即IQR=U-L,则上界为U+1.5IQR,下界为L-1.5IQR。异常值的处理相对比较简单,可以直接删除,视为缺失值,并按缺失值处理方法来处理,也可以用平均值来修正,总之,需要结合实际情况处理。
数据异常值的识别和处理方法是基于数据类型和实际情况的一种数据预处理方法,其处理效果也因处理目标的不同而不同,由于将现有的数据异常值处理方法应用于智能电表采集的基于时间序列的离散数据时并不能获得满意的处理效果,因此,寻求一种适用于用电数据的异常值识别与处理方法是十分必要的。
发明内容
本发明的目的在于针对现有技术之弊端,提供一种用电数据异常值的识别与处理方法,使用电数据能够更为准确地反映用户的真实用电情况,提高电能计量的准确性。
本发明所述问题是以下述技术方案解决的:
一种用电数据异常值的识别与处理方法,所述方法包括以下步骤:
a.设置滑动窗口
对于智能电表采集的基于时间序列的离散数据集,设置一个滑动窗口,滑动窗口包含的数值个数为n,n为奇数,滑动窗口的初始位置位于时间序列的起始端;
b.计算当前滑动窗口中数据的离群距离
Figure GDA0002795835940000031
式中a表示离群距离约束值,Maxt表示当前滑动窗口中数据的最大值,Mint表示当前滑动窗口中数据的最小值,S表示离群距离值;
c.计算当前滑动窗口中各个数据的离群系数
Figure GDA0002795835940000032
式中n表示当前滑动窗口包含的数值个数,j表示数据序号,mi和mj分别表示第i个数值和第j个数值,si表示当前滑动窗口中第i个数据的离群系数;
d.异常值的判定和更正
设置一个离群系数的阈值,若位于滑动窗口中间点的数据的离群系数小于该阈值,则判定其数值为异常值并将其更正;否则判定其数值为正常值,无需更正;
e.将滑动窗口向后移动一个数据,重复步骤b~步骤e,直至遍历整个数据集,完成异常值的处理。
上述用电数据异常值的识别与处理方法,对滑动窗口中数据异常值进行更正的具体方法为:若当前滑动窗口中离群系数最大的数据只有一个,则将异常值更正为离群系数最大的数据,若当前滑动窗口中离群系数最大的数据有多个,则将它们的平均值作为更正后的数值。
上述用电数据异常值的识别与处理方法,所述离群距离约束值a的取值为a=2,3,…,10。
上述用电数据异常值的识别与处理方法,所述滑动窗口包含的数值个数n=7、9、11。
上述用电数据异常值的识别与处理方法,所述离群系数的阈值设置为2或3。
本发明根据滑动窗口中用电数据的离群系数判定其是否异常,并对异常数据进行更正,该方法可使数据更为准确地反映用户的真实用电情况,减少某些异常值、缺失数据对电能计量造成的不良影响,确保后续工作顺利进行并提高电能计量的准确性。
附图说明
下面结合附图对本发明作进一步详述。
图1为箱型图示意图;
图2为异常值识别与处理方法流程图;
图3为实施例1中的原始数据集图示;
图4为实施例1中处理后数据集图示;
图5为实施例2中处理前电表数据集图示;
图6为实施例2中处理后电表数据集图示。
文中所用符号为:n为滑动窗口包含的数值个数,a表示离群距离约束值,Maxt表示当前滑动窗口中数据的最大值,Mint表示当前滑动窗口中数据的最小值,S表示离群距离值,j表示数据序号,mi和mj分别表示第i个数值和第j个数值,si表示当前滑动窗口中第i个数据的离群系数。
具体实施方式
本发明提出的异常值处理方法主要针对基于时间序列的离散采样数据,其物理意义决定了数值不可能极大地偏离众数,因此,按照一定的规则将极大偏离众数的异常值替换为预期正常值。此过程分两个步骤进行:首先,识别异常值,在滑动窗口所选数据集合中,采用离群方法识别异常值;然后,处理异常值,将异常值修改成当前滑动窗口中离群系数最大的那个点的数值或多个点的平均值。算法流程如图2所示。
主要流程说明如下:
(1)滑动窗口的长度需设定为奇数值,且大于1;
(2)计算当前滑动窗口中数据的离群距离:
Figure GDA0002795835940000041
式中a表示离群距离约束值,Maxt表示当前滑动窗口中数据的最大值,Mint表示当前滑动窗口中数据的最小值,S表示离群距离值,S表示离群距离值。
(3)计算当前滑动窗口中各个数据的离群系数
Figure GDA0002795835940000051
式中n表示当前滑动窗口包含的数值个数,j表示数据序号,mi和mj分别表示第i个数值和第j个数值,si表示当前滑动窗口中第i个数据的离群系数。
(3)异常值的判定和更正
异常值更正是判断滑动窗口中间数据(点)的离群系数是否小于设定的阈值,若小于阈值,则将其数值更正为离群系数最大的那个点的数值或多个点的平均值。
下面给出两个实施例:
实施例1
随机生成100个众数在45到55之间的一组数据,其中小部分数据小于45或大于55,也存在极大偏离众数的异常值。生成的数据集如下(参看图4):
46 55 51 48 49 54 50 46 52 49 46 53 50 46 65 54 46 51 54 65 52 50 4945 54 54 50 51 55 75 47 54 52 47 45 47 47 54 52 85 49 52 48 51 47 47 47 52 4895 50 47 49 51 52 50 51 48 48 5 53 48 54 46 51 48 50 50 46 15 47 54 52 46 4948 48 51 53 25 53 49 52 49 54 53 45 53 54 35 46 54 46 50 54 50 46 49 52 48
(1)设置滑动窗口长度为9个数据点;
(2)第一个滑动窗口的位置包含前9个数据,即46 55 51 48 49 54 50 46 52;
(3)离群距离约束值设置为2,根据公式1得到离群距离值为4.5;
(4)分别计算9个点的离群系数,得到:5 4 7 7 7 5 8 5 7;
(5)此窗口中间数值的离群系数是7,判定不是异常值,如果离群系数为1,则判定为异常值,需要更正为离群系数最大的那个点的数值或多个点的平均值。(此例中离群系数的阈值设置为2)
(6)以1为步长向后移动滑动窗口,得到下一组数据点,重复以上的步骤(3)-步骤(6),完成后续数据的处理。
处理后的数据集如下(参看图4):
46 55 51 48 49 54 50 46 52 49 46 53 50 46 50 54 46 51 54 50 52 50 4945 54 54 50 51 55 51 47 54 52 47 45 47 47 54 52 50 49 52 48 51 47 47 47 52 4849 50 47 49 51 52 50 51 48 48 50 53 48 54 46 51 48 50 50 46 49 47 54 52 46 4948 48 51 53 50 53 49 52 49 54 53 45 53 54 50 46 54 46 50 54 50 46 49 52 48
实施例2
现有一批工业电能用户用电数据,是基于时间序列的离散采样值,图5所示的数据集是某钢铁厂的01000*****82号电表在某年1月6日记录的功率数据,第63个数据值是1.7488,怀疑是异常数据。此处采用离群算法来处理异常值,滑动窗口的长度设定为9,离群距离约束值设定为2,离群系数的阈值设置为2,处理流程同实施例1,先确定第一个滑动窗口包含的9个数据,求得其离群距离值,分别计算9个数据点的离群系数,判断离群系数是否小于设定的阈值,小于则更正,否则判定为正常值,然后以1为步长后移滑动窗口得到下一组数据,重复之前的处理步骤,直到所有数据处理完毕。处理后的数据集如图6所示,第63个数据被判定为异常值并进行了更正。
根据本发明所提的方法可知:第一,离群距离约束值a决定了异常值离群的倍数关系,离群距离约束值a越大,离群距离值S越小,能识别的异常值离众数越近,处理后的数据越平滑;第二,滑动窗口的长度L越短,其包含的数据点越少,异常值的识别率越高,同时,处理后的数据越平滑。这些特性决定了该方法具有很强的适应性、可调性,尤其是处理基于时间序列的离散采样数据,符合实际情况。
采用上述方法对初始数据进行异常值处理,使数据能够更为准确地反映用户的真实用电情况,减少某些异常值、缺失数据造成的影响,有助于后续工作的顺利进行。
本发明虽然以智能电表为例对数据处理进行了说明,但其所涉及的处理原则则可适用于各行业类似数据的采集与处理,比如对这些数据中的噪声、各种干扰引起的数据异常、叠加等,都可参照处理。

Claims (5)

1.一种用电数据异常值的识别与处理方法,其特征是,所述方法包括以下步骤:
a.设置滑动窗口
对于智能电表采集的基于时间序列的离散数据集,设置一个滑动窗口,滑动窗口包含的数值个数为n,n为奇数,滑动窗口的初始位置位于时间序列的起始端;
b.计算当前滑动窗口中数据的离群距离
Figure FDA0002795835930000011
式中a表示离群距离约束值,Maxt表示当前滑动窗口中数据的最大值,Mint表示当前滑动窗口中数据的最小值,S表示离群距离值;
c.计算当前滑动窗口中各个数据的离群系数
Figure FDA0002795835930000012
式中n表示当前滑动窗口包含的数值个数,j表示数据序号,mi和mj分别表示第i个数值和第j个数值,si表示当前滑动窗口中第i个数据的离群系数;
d.异常值的判定和更正
设置一个离群系数的阈值,若位于滑动窗口中间点的数据的离群系数小于该阈值,则判定其数值为异常值并将其更正;否则判定其数值为正常值,无需更正;
e.将滑动窗口向后移动一个数据,重复步骤b~步骤e,直至遍历整个数据集,完成异常值的处理。
2.根据权利要求1所述的用电数据异常值的识别与处理方法,其特征是,对滑动窗口中数据异常值进行更正的具体方法为:若当前滑动窗口中离群系数最大的数据只有一个,则将异常值更正为离群系数最大的数据,若当前滑动窗口中离群系数最大的数据有多个,则将它们的平均值作为更正后的数值。
3.根据权利要求1或2所述的用电数据异常值的识别与处理方法,其特征是,所述离群距离约束值a的取值为a=2,3,…,10。
4.根据权利要求3所述的用电数据异常值的识别与处理方法,其特征是,所述滑动窗口包含的数值个数n=7、9、11。
5.根据权利要求4所述的用电数据异常值的识别与处理方法,其特征是,所述离群系数的阈值设置为2或3。
CN201910037480.1A 2019-01-15 2019-01-15 一种用电数据异常值的识别与处理方法 Active CN109727446B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910037480.1A CN109727446B (zh) 2019-01-15 2019-01-15 一种用电数据异常值的识别与处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910037480.1A CN109727446B (zh) 2019-01-15 2019-01-15 一种用电数据异常值的识别与处理方法

Publications (2)

Publication Number Publication Date
CN109727446A CN109727446A (zh) 2019-05-07
CN109727446B true CN109727446B (zh) 2021-03-05

Family

ID=66298339

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910037480.1A Active CN109727446B (zh) 2019-01-15 2019-01-15 一种用电数据异常值的识别与处理方法

Country Status (1)

Country Link
CN (1) CN109727446B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457367B (zh) * 2019-07-25 2023-10-27 创新先进技术有限公司 发现数据异动的方法和系统
CN110942137A (zh) * 2019-10-18 2020-03-31 云南电网有限责任公司信息中心 一种基于深度学习的电网信息运维监控方法
CN110736888A (zh) * 2019-10-24 2020-01-31 国网上海市电力公司 一种用户用电行为异常的监测方法
CN112748336A (zh) * 2019-10-29 2021-05-04 杭州壬辰科技有限公司 一种电动机生产检测工位防错报警系统及方法
CN110781176A (zh) * 2019-11-06 2020-02-11 国网山东省电力公司威海供电公司 一种基于数据相关性的电网数据质量提升方法
CN111141950B (zh) * 2019-12-03 2022-06-14 深圳供电局有限公司 一种计量自动化系统电表分时表码异常判断与修复方法
CN111813766A (zh) * 2020-06-27 2020-10-23 上海电力大学 一种燃气气量异常数据的检测及处理方法
CN112101969B (zh) * 2020-09-27 2024-04-02 西安交通大学 一种基于时序滑动窗口离散系数的环保数据造假检测方法
CN112990372B (zh) * 2021-04-27 2021-08-06 北京瑞莱智慧科技有限公司 一种数据处理方法、模型训练方法、装置及电子设备
CN113486003B (zh) * 2021-06-02 2024-03-19 广州数说故事信息科技有限公司 数据可视化时考虑异常值的企业数据集处理方法及系统
CN117056848B (zh) * 2023-10-10 2023-12-29 湖北华中电力科技开发有限责任公司 一种用于提升电力系统决策的监测数据质量分析方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2502120C2 (ru) * 2007-12-17 2013-12-20 Лэндмарк Грэфикс Корпорейшн, Э Хэллибертон Кампани Системы и способы оптимизации операций добычи в реальном времени
KR101906859B1 (ko) * 2012-03-23 2018-10-11 삼성전자 주식회사 이상 서브시퀀스 검출 장치 및 방법
JP6148150B2 (ja) * 2013-10-23 2017-06-14 日本電信電話株式会社 音響分析フレーム信頼度計算装置と音響モデル適応装置と音声認識装置とそれらのプログラムと、音響分析フレーム信頼度計算方法
CN103617568B (zh) * 2013-12-06 2017-02-15 国家电网公司 稳态电能质量预警机制中的异常数据判定阈值设定方法
CN103916860B (zh) * 2014-04-16 2017-12-22 东南大学 无线传感器簇形网络中基于时空关联的离群数据检测方法
CN104700434B (zh) * 2015-03-27 2017-10-31 北京交通大学 一种用于复杂结构化场景的人群运动轨迹异常检测方法
CN105868266A (zh) * 2016-01-27 2016-08-17 电子科技大学 一种基于聚类模型的高维数据流离群点检测方法
CN105863970B (zh) * 2016-05-06 2018-09-07 华北电力大学(保定) 一种风机故障识别方法及装置
US10257211B2 (en) * 2016-05-20 2019-04-09 Informatica Llc Method, apparatus, and computer-readable medium for detecting anomalous user behavior
CN107025301A (zh) * 2017-04-25 2017-08-08 西安理工大学 航班保障数据的清理方法
CN108038044B (zh) * 2017-12-26 2021-01-08 北京航空航天大学 一种面向连续被监测对象的异常检测方法
CN108108253A (zh) * 2017-12-26 2018-06-01 北京航空航天大学 一种面向多数据流的异常状态检测方法
CN108590982B (zh) * 2018-03-26 2020-08-11 华北电力大学 一种风电机组限功率运行的异常数据处理方法
CN108710796B (zh) * 2018-05-15 2021-07-06 广东工业大学 入侵操作检测方法、装置、设备及计算机可读存储介质
CN108805747A (zh) * 2018-06-13 2018-11-13 山东科技大学 一种基于半监督学习的异常用电用户检测方法

Also Published As

Publication number Publication date
CN109727446A (zh) 2019-05-07

Similar Documents

Publication Publication Date Title
CN109727446B (zh) 一种用电数据异常值的识别与处理方法
CN111046564B (zh) 两阶段退化产品的剩余寿命预测方法
CN112365029B (zh) 用于空调负荷预测的缺失值处理方法及空调负荷预测系统
CN115861011B (zh) 一种基于多源数据融合的智慧城市优化管理方法和系统
CN112148557B (zh) 一种性能指标实时预测方法、计算机设备及存储介质
CN111428201B (zh) 基于经验模态分解和前馈神经网络对时序数据的预测方法
CN110852476A (zh) 客流预测方法、装置、计算机设备和存储介质
US20210065021A1 (en) Working condition state modeling and model correcting method
CN110222313B (zh) 反映非一致性干旱特征变量的干旱预警方法和装置
CN105468850A (zh) 基于多残差回归预测算法的电子产品退化趋势预测方法
Hallmann et al. Comparison of different methods for scrap rate estimation in sampling-based tolerance-cost-optimization
JP2022535442A (ja) 産業オートメーション制御システムまたは電力システムからのデータの保存を促進するための方法および装置
CN114626487A (zh) 基于随机森林分类算法的线变关系校核方法
CN114594398A (zh) 储能锂离子电池数据预处理方法
CN108984851B (zh) 一种带时延估计的加权高斯模型软测量建模方法
Rafi et al. Enhancing cryptocurrency price forecasting accuracy: A feature selection and weighting approach with bi-directional LSTM and trend-preserving model bias correction
Duvignau et al. Piecewise linear approximation in data streaming: Algorithmic implementations and experimental analysis
CN116089777B (zh) 一种基于信息智能匹配的新能源智能结算方法及系统
CN113312587B (zh) 基于arima预测和回归预测的传感器采集数据缺失值处理方法
CN113742929B (zh) 一种针对格点气象实况的数据质量评价方法
CN110083804B (zh) 基于条件分布回归的风电场scada数据缺失的智能修复方法
KR101484761B1 (ko) 위기 경보 신호를 이용하여 산업 위기를 예측하는 방법 및 그 장치
CN117235651B (zh) 基于物联网的企业信息数据优化管理系统
CN113487080B (zh) 一种基于风速分类的风速动态场景生成方法、系统及终端
WO2022156743A1 (zh) 特征构建方法和装置、模型训练方法和装置、设备、介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220803

Address after: Building 17, Yard 12, Zhuyuan Road, Shunyi District, Beijing 101300

Patentee after: BEIJING TOPSKY INFORMATION TECHNOLOGY CO.,LTD.

Address before: 071003 Hebei province Baoding Yonghua No. 619 North Street

Patentee before: NORTH CHINA ELECTRIC POWER University (BAODING)