CN109977107A - 一种用电采集数据清洗方法 - Google Patents
一种用电采集数据清洗方法 Download PDFInfo
- Publication number
- CN109977107A CN109977107A CN201910261757.9A CN201910261757A CN109977107A CN 109977107 A CN109977107 A CN 109977107A CN 201910261757 A CN201910261757 A CN 201910261757A CN 109977107 A CN109977107 A CN 109977107A
- Authority
- CN
- China
- Prior art keywords
- data
- library
- queue
- noise
- cleaning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Testing And Monitoring For Control Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于用能监测系统数据处理技术领域,具体来说是一种用电采集数据清洗方法。本发明的方法主要为,根据表计连续采集的5次变化的采集值,通过5个值同时比较的方式,判断出噪点进行清洗。因噪点往往是因为传输采集过程中的某种异常单个出现,并不会连续发生。如连续发生,即保存的5个变化数值队列无任何规律,则判定为智能表计出现故障,需要人工进行核实和修复。该方案最大程度的保证了数据结算时间的及时性和准确性,当噪点出现时,会将结算结果进行修正,并且减少了人工参与的过程,极大了降低了系统维护人员的工作量。
Description
技术领域
本发明属于用能监测系统数据处理技术领域,具体来说是一种用电采集数据清洗方法。
背景技术
物联网和通信技术的迅猛发展,大型建筑、工厂、智能园区的用能数据逐步采用远程数据采集的方式。将智能表计的读数按时间周期采集后,汇集到用能监测服务器中进行统计和分析。用能数据中,用电数据的地位举足轻重。智能电表的采集数据中,电流、电压、线电压等数据可以用来分析电力质量,但最为关心的数据为有功电量。
有功电量的数据采集为以固定的时间周期读取电表读数,并将读数通过网络上传到服务器中。数据的采集过程中,会因为各种各样的原因产生脏数据。脏数据如果不为正浮点数,可以轻易的将其去除。如果是正浮点数,但是是错误的数据,将这样的采集数据称为噪点。只有去除了噪点,统计和分析的结果才有意义。
发明内容
针对上述问题,本发明提供一种用电采集数据清洗的方法,能有效的通过全自动化的手段将噪点去除,再将清洗后的数据用于用能统计结算。
本发明的技术方案是:
如图1所示,首先根据用能监测系统数据的存储过程,将系统数据库在逻辑上划分为基础库、流水库、清洗库、冻结库和结算库。
基础库存放表计基础信息,将智能电表进行唯一化标识。该过程可以采用关系型数据库的表主键或者智能电表的出厂号区分每一只智能表计。
流水库的作用为完整的存放每次采集数据,清洗库的作用为保存参与计算的采集数据。智能电表的每次的采集数据都同时存放在流水库和清洗库中。如采集的数据为非正浮点数,可直接丢弃。保存入流水库和清洗库的数据经过数据预处理,已最低程度的保证了其数据正确性。保存的信息包含了表计的编号、读数、采集的时间点(精确到秒)。采集周期应小于统计结算周期,采集的周期越密,统计分析越精确。如系统需求最小的统计结算周期为1小时,即需要统计某表计测量的线路每小时的电耗,则采集周期可以设置为每5分钟或10分钟一次。
通过数据清洗,将清洗库中的噪点去除。根据清洗库中的数据,将每小时表计的读数,存放于冻结库中,参与用电量计算。每个计算周期的结算值,存放于结算库中。因清洗库噪点判定时,可能该部分数据已经参与了冻结和结算,所以去除噪点后,还需修正冻结数据和结算数据。
所述数据清洗方法为:
假设某智能表计E,第n次数据采集的时间点为tn,表计读数为vn。那么如智能表计运行正常,且采集过程未出现任何异常现象,则vn>=v1(n∈Z∩n>=2)。如图2所示,采集值随着时间的推移,是逐步上升的过程。
S1、数据清洗算法将表计E的最新的5次变化的采集值保存在队列中,即若出现vn=vn+1保留vn,vn+1不参与运算。保存在队列中的5次变化采集值记为vm1、vm2、vm3、vm4、vm5。vm1≠vm2≠vm3≠vm4≠vm5。
S2、假设vm1和vm2是正常数据,已保留在清洗库中(该假设成立的依据为智能表计初始化的过程中,是有技术人员的人工安装调试,所以开始采集的v1和v2认定为正常数据)。若vm1<vm2<vm3<vm4<vm5,则判定vm3为正常采集数据,vm4、vm5只参与判断,并不做任何处理。
S3、有最新的变化采集值vm6产生时,队列中vm1出队vm6入队。此时队列中保存的5个变化值为vm2-vm6。若vm6>vm5,则判定vm4为正常采集值,以此类推,等待新的数据入队。
S4、若vm6<vm5,则说明vm5或vm6中其中一点是噪点,如图3所示,噪点有可能是高点,也有可能是低点,所以并不能确认噪点的位置。等待新的变化采集值vm7产生,将vm2出队vm7入队,此时队列中保存的5个变化值为vm3-vm7,若vm7>vm5,则说明vm6为噪点,将其从队列中和清洗库中去除。若vm7<vm5且vm7>vm6且vm6>vm4,判断vm5为噪点,将其从队列中和清洗库去除。去除噪点后,队列中剩余4个数值。等待新变化采集值vm8入队,此时vm3不出队,保证队列中有5个数值,继续进行数据清洗。
此技术方案是基于对用电采集数据的观测结果总结而来,因噪点往往是因为传输采集过程中的某种异常单个出现,并不会连续发生。如连续发生,即保存的5个变化数值队列无任何规律,则判定为智能表计出现故障,需要人工进行核实和修复。该方案最大程度的保证了数据结算时间的及时性和准确性,当噪点出现时,会将结算结果进行修正,并且减少了人工参与的过程,极大了降低了系统维护人员的工作量。
附图说明
图1数据处理过程示意图
图2正常状态下电表采集值图示
图3电表采集值噪点图示
具体实施方式
在发明内容中已经对本发明的最佳实施方案做了详细描述,在此不再重复赘述。
Claims (2)
1.一种用电采集数据清洗方法,其特征在于,包括:
根据用能监测系统数据的存储过程,将系统数据库在逻辑上划分为基础库、流水库、清洗库、冻结库和结算库;
所述基础库用于存放表计基础信息,即将智能电表进行唯一化标识;
所述流水库用于存放每次采集的数据;所述采集的数据包括表计的编号、读数、采集的时间点;
所述清洗库用于存放每次采集的数据和数据清洗后的数据;
所述冻结库用于根据系统设定的统计结算周期,保存清洗后的数据;
所述结算库用于存放每个计算周期的结算值;
假设智能表计E,第n次数据采集的时间点为tn,表计读数为vn,且vn>=v1,n为大于等于2的整数,所述数据清洗的具体方法为:
S1、将表计E的最新的5次变化的采集值保存在队列中,即若出现vn=vn+1保留vn,vn+1不参与运算;保存在队列中的5次变化采集值记为vm1、vm2、vm3、vm4、vm5,vm1≠vm2≠vm3≠vm4≠vm5;
S2、假设vm1和vm2是正常数据,已保留在清洗库中,若vm1<vm2<vm3<vm4<vm5,则判定vm3为正常采集数据,vm4、vm5只参与判断,并不做任何处理;
S3、有最新的变化采集值vm6产生时,队列中vm1出队vm6入队;此时队列中保存的5个变化值为vm2-vm6,若vm6>vm5,则判定vm4为正常采集值,以此类推,等待新的数据入队,否则进入步骤S4;
S4、判定vm5或vm6中其中一点是噪点,等待新的变化采集值vm7产生,将vm2出队vm7入队,此时队列中保存的5个变化值为vm3-vm7,若vm7>vm5,则判定vm6为噪点,将其从队列中和清洗库中去除;若vm7<vm5且vm7>vm6且vm6>vm4,判定vm5为噪点,将其从队列中和清洗库去除;去除噪点后,队列中剩余4个数值,等待新变化采集值vm8入队,此时vm3不出队,保证队列中有5个数值,继续进行数据清洗。
2.根据权利要求1所述的一种用电采集数据清洗方法,其特征在于,所述采集的数据在存入流水库和清洗库时,还包括预处理过程,即采集的数据如果为非正浮点数,则直接丢弃。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910261757.9A CN109977107B (zh) | 2019-04-02 | 2019-04-02 | 一种用电采集数据清洗方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910261757.9A CN109977107B (zh) | 2019-04-02 | 2019-04-02 | 一种用电采集数据清洗方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109977107A true CN109977107A (zh) | 2019-07-05 |
CN109977107B CN109977107B (zh) | 2022-04-05 |
Family
ID=67082498
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910261757.9A Active CN109977107B (zh) | 2019-04-02 | 2019-04-02 | 一种用电采集数据清洗方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109977107B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5191649A (en) * | 1990-12-21 | 1993-03-02 | Intel Corporation | Multiprocessor computer system with data bus and ordered and out-of-order split data transactions |
CN106709035A (zh) * | 2016-12-29 | 2017-05-24 | 贵州电网有限责任公司电力科学研究院 | 一种电力多维全景数据的预处理系统 |
CN109308306A (zh) * | 2018-09-29 | 2019-02-05 | 重庆大学 | 一种基于孤立森林的用户用电异常行为检测方法 |
-
2019
- 2019-04-02 CN CN201910261757.9A patent/CN109977107B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5191649A (en) * | 1990-12-21 | 1993-03-02 | Intel Corporation | Multiprocessor computer system with data bus and ordered and out-of-order split data transactions |
CN106709035A (zh) * | 2016-12-29 | 2017-05-24 | 贵州电网有限责任公司电力科学研究院 | 一种电力多维全景数据的预处理系统 |
CN109308306A (zh) * | 2018-09-29 | 2019-02-05 | 重庆大学 | 一种基于孤立森林的用户用电异常行为检测方法 |
Non-Patent Citations (1)
Title |
---|
谷峪等: "基于监控对象动态聚簇的高效RFID数据清洗模型", 《软件学报》 * |
Also Published As
Publication number | Publication date |
---|---|
CN109977107B (zh) | 2022-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110471024B (zh) | 一种基于量测数据分析的智能电表在线远程校验方法 | |
CN109359698A (zh) | 基于长短时记忆神经网络模型的漏损识别方法 | |
CN105811402B (zh) | 一种电力负荷预测系统及其预测方法 | |
CN108197845A (zh) | 一种基于深度学习模型lstm的交易指标异常的监测方法 | |
CN105373877A (zh) | 一种用电趋势异常嫌疑分析及反窃电监控系统 | |
CN109787552A (zh) | 一种光伏电站的清洗方法及系统 | |
CN105203924A (zh) | 一种用电趋势异常嫌疑分析方法及反窃电监控系统 | |
US20180039895A1 (en) | Data predicting method and apparatus | |
CN104200314A (zh) | 基于数据远程同步采集技术的电量及线损同期统计方法 | |
CN111948596A (zh) | 基于多时间尺度的台区电能表误差在线检测方法和系统 | |
CN114709821B (zh) | 一种基于有限量测的配电网分区谐波责任评估方法及系统 | |
CN111141950A (zh) | 一种计量自动化系统电表分时表码异常判断与修复方法 | |
CN110807563B (zh) | 一种基于大数据的设备寿命预测系统及方法 | |
CN109977107A (zh) | 一种用电采集数据清洗方法 | |
CN112883075A (zh) | 一种滑坡普适型地表位移监测数据缺失及异常值处理方法 | |
CN111985816A (zh) | 电力设备检修模式风险成本评估方法、装置、终端及介质 | |
CN113722906B (zh) | 基于数字孪生的数据中心空调系统可靠性评估方法 | |
CN108675465A (zh) | 凝汽器循环水处理阻垢效果的预测性监控系统及监控方法 | |
CN117708735A (zh) | 一种基于多点校核的量测数据拟合方法、介质及系统 | |
CN112345972A (zh) | 基于停电事件的配电网线变关系异常诊断方法、装置及系统 | |
Wang et al. | What maintenance is worth the money? a data-driven answer | |
CN106682383A (zh) | 一种计量系统中对采集表码值精确的统计处理方法 | |
CN208371741U (zh) | 基于预防式维护的租赁用清洁机和清洁机租赁平台 | |
CN115002171B (zh) | 一种污水处理设施的智能运营监管系统 | |
CN113722557B (zh) | 一种燃气供销差的确定方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |