CN113468152A - 高频用户用电数据清洗方法、系统、设备及存储介质 - Google Patents

高频用户用电数据清洗方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN113468152A
CN113468152A CN202110624156.7A CN202110624156A CN113468152A CN 113468152 A CN113468152 A CN 113468152A CN 202110624156 A CN202110624156 A CN 202110624156A CN 113468152 A CN113468152 A CN 113468152A
Authority
CN
China
Prior art keywords
user
data
filling
consumption data
missing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110624156.7A
Other languages
English (en)
Inventor
郭乃网
田英杰
朱征
谢伟
瞿海妮
奚增辉
苏运
李凡
吴裔
赵莹莹
张菲菲
阮静娴
金妍斐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Online Shanghai Energy Internet Research Institute Co ltd
State Grid Shanghai Electric Power Co Ltd
Electric Power Research Institute of State Grid Shanghai Electric Power Co Ltd
Original Assignee
China Online Shanghai Energy Internet Research Institute Co ltd
State Grid Shanghai Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Online Shanghai Energy Internet Research Institute Co ltd, State Grid Shanghai Electric Power Co Ltd filed Critical China Online Shanghai Energy Internet Research Institute Co ltd
Priority to CN202110624156.7A priority Critical patent/CN113468152A/zh
Publication of CN113468152A publication Critical patent/CN113468152A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Water Supply & Treatment (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种高频用户用电数据清洗方法、系统、设备及存储介质,所述的方法包括以下步骤:S1:读取用户用电数据;S2:对用户群进行切分;S3:对切分后的用户进行异常值的检测及剔除;S4:对用户用电数据进行预填充,获取预填充后的各用户用电数据的缺失率,剔除缺失率大于缺失率阈值的用户用电数据;S5:根据用户用电数据的连续缺失最大天数判断用户用电数据的缺失模式,根据缺失模式对用户用电数据进行填充;S6:对填充结果进行校验,利用邻近值填充法填充未填充数据,获取清洗结果。与现有技术相比,本发明有效提高数据清洗效果和填充效率,提高数据填充的准确性。

Description

高频用户用电数据清洗方法、系统、设备及存储介质
技术领域
本发明涉及用电数据处理领域,尤其是涉及一种高频用户用电数据清洗方法、系统、设备及存储介质。
背景技术
随着配电物联网的快速发展,海量异构数据不断地从生产、传输、消费端产生,这些数据具有更新速度快、质量差、价值密度低、时间序列性强的特点。采集到的电力大数据往往是不完整、有噪声和不一致的。数据质量问题会使基于这些数据的分析和研究毫无意义甚至还会产生不必要的错误。大数据的清洗过程具体包括海量冗余数据的识别与剔除、错误数据的纠正、不完整数据的补充、不规范数据的格式转换等,提高大数据分析的正确性、完整性、一致性和可靠性。
中国专利CN201910080821.3公开了数据清洗方法及装置,包括:接收客户端发送的数据清洗流程文件和原始数据;根据数据清洗流程文件获取对应的多个工作流应用模型;根据多个工作流应用模型生成对应的数据清洗执行文件;根据数据清洗执行文件对原始数据进行清洗。该发明的清洗方法并不能针对高频用电用户数据进行针对性清洗,数据清洗效果差。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种高频用户用电数据清洗方法、系统、设备及存储介质。
本发明的目的可以通过以下技术方案来实现:
一种高频用户用电数据清洗方法,包括以下步骤:
S1:读取用户用电数据;
S2:对用户群进行切分;
S3:对切分后的用户进行异常值的检测及剔除;
S4:对用户用电数据进行预填充,获取预填充后的各用户用电数据的缺失率,剔除缺失率大于缺失率阈值的用户用电数据;
S5:根据用户用电数据的连续缺失最大天数判断用户用电数据的缺失模式,根据缺失模式对用户用电数据进行填充;
S6:对填充结果进行校验,利用邻近值填充法填充未填充数据,获取清洗结果。
优选地,所述的S2中切分方法包括聚类切分和伪随机切分。
优选地,所述的步骤S3中采用4分位检测法和3sigma标准差检测法进行异常值的检测。
优选地,所述的步骤S5的具体步骤包括:
S51:获取用户用电数据的连续缺失最大天数,判断连续缺失最大天数是否大于缺失天数阈值,若是,判断缺失模式为连续缺失,进入步骤S52,否则判断缺失模式为间断缺失,进入步骤S53;
S52:利用余弦相似度法对用户用电数据进行填充;
S53:利用指数滑动平均算法对用户用电数据进行填充。
一种高频用户用电数据清洗系统,包括预处理模块、切分模块、异常值处理模块、预处理模块、填充模块和校验模块,
所述的预处理模块读取用户用电数据,
所述的切分模块对用户群进行切分,
所述的异常值处理模块对切分后的用户进行异常值的检测及剔除,
所述的预处理模块对用户用电数据进行预填充,获取预填充后的各用户用电数据的缺失率,剔除缺失率大于缺失率阈值的用户用电数据,
所述的填充模块根据用户用电数据的连续缺失最大天数判断用户用电数据的缺失模式,根据缺失模式对用户用电数据进行填充,
所述的校验模块对填充结果进行校验,利用邻近值填充法填充未填充数据,获取清洗结果。
优选地,所述的切分模块采用聚类切分和伪随机切分对用户群进行切分。
优选地,所述的异常值处理模块采用4分位检测法和3sigma标准差检测法进行异常值的检测。
优选地,所述的填充模块的处理步骤包括:
获取用户用电数据的连续缺失最大天数,判断连续缺失最大天数是否大于缺失天数阈值,若是,判断缺失模式为连续缺失,利用余弦相似度法对用户用电数据进行填充,否则判断缺失模式为间断缺失,利用指数滑动平均算法对用户用电数据进行填充。
一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被一个或多个所述处理器执行时,使得一个或多个所述处理器执行上述的一种高频用户用电数据清洗方法的步骤。
一种存储介质,所述存储介质可被处理器读写,所述存储介质存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个所述处理器执行上述的一种高频用户用电数据清洗方法的步骤。
与现有技术相比,本发明对高频用户用电数据进行了准确针对性的清洗处理,有效判断数据的缺失模式,针对不同的缺失模式,选用更为合适的缺失算法进行填充,有效提高数据清洗效果和填充效率,提高数据填充的准确性。具体地,针对连续缺失性数据利用基于余弦相似度的K近邻填充方法进行处理,通过对负荷曲线相似度特征值的抽取,采用余弦相似度算法来计算不同用户各点的余弦值以及各同时间节点负荷的相似度,可以更好的体现用户曲线的波动性规律性,针对间隔缺失数据采用指数滑动平均算法进行处理,适用于断点缺失模式下的数据填充,快速填充效率高,本发明针对性强,清洗效果好。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。注意,以下的实施方式的说明只是实质上的例示,本发明并不意在对其适用物或其用途进行限定,且本发明并不限定于以下的实施方式。
实施例
一种高频用户用电数据清洗方法,如图1所示,包括以下步骤:
S1:读取用户用电数据。根据用户日冻结电量表递减得到日用电流水表数据,对流水表转换得到按日期分布的宽表结构,获取用户用电数据。
S2:对用户群进行切分,切分方法包括聚类切分和伪随机切分。
聚类的目的是试图将用电曲线变化趋势相近的用户聚在一起,这样用户块内各曲线越相似,基于余弦相似度的热卡类填充算法精度就相对越高。
聚类方法基于不同的距离度量方式和是否指定划分具体类别数目有多达数十种方法,本次实施例分别尝试了kmeans、kmeans++、谱聚类、DBscan、层次聚类、网格聚类及OPTICS等方法;在设计实验测试不同聚类类别数,并综合对比轮廓系数等指标和代码运行效率后,选定kmeans++作为后续数据清洗用户集切分的聚类方法。除了模型方式进行数据切分外,也可以基于电力业务知识利用包含有拓扑结构信息的字段进行用户切分,例如台区字段tg_id,供电公司字段org_id等原始字段进行切分,同一字段层级下各用户用电曲线极为相似,尤其居民用户较明显。
S3:对切分后的用户进行异常值的检测及剔除。采用4分位检测法和3sigma标准差检测法进行异常值的检测。
S4:对用户用电数据进行预填充,获取预填充后的各用户用电数据的缺失率,剔除缺失率大于缺失率阈值的用户用电数据,本实施例中缺失率阈值为50%。
S5:根据用户用电数据的连续缺失最大天数判断用户用电数据的缺失模式,根据缺失模式对用户用电数据进行填充。
步骤S5的具体步骤包括:
S51:获取用户用电数据的连续缺失最大天数,判断连续缺失最大天数是否大于缺失天数阈值,若是,判断缺失模式为连续缺失,进入步骤S52,否则判断缺失模式为间断缺失,进入步骤S53,本实施例中,所述的缺失天数阈值为20天。
S52:利用基于余弦相似度的K近邻填充方法对用户用电数据进行填充;
S53:利用指数滑动平均算法对用户用电数据进行填充。
S6:对填充结果进行校验,利用邻近值填充法填充未填充数据,获取清洗结果。
另外,与本发明的清洗方法对应,本实施例的一种实施方式中提供了一种高频用户用电数据清洗系统,包括预处理模块、切分模块、异常值处理模块、预处理模块、填充模块和校验模块,预处理模块读取用户用电数据,切分模块对用户群进行切分,异常值处理模块对切分后的用户进行异常值的检测及剔除,预处理模块对用户用电数据进行预填充,获取预填充后的各用户用电数据的缺失率,剔除缺失率大于缺失率阈值的用户用电数据,填充模块根据用户用电数据的连续缺失最大天数判断用户用电数据的缺失模式,根据缺失模式对用户用电数据进行填充,校验模块对填充结果进行校验,利用邻近值填充法填充未填充数据,获取清洗结果。
具体地,切分模块采用聚类切分和伪随机切分对用户群进行切分,异常值处理模块采用4分位检测法和3sigma标准差检测法进行异常值的检测,填充模块的处理步骤包括:获取用户用电数据的连续缺失最大天数,判断连续缺失最大天数是否大于缺失天数阈值,若是,判断缺失模式为连续缺失,利用基于余弦相似度的K近邻填充方法对用户用电数据进行填充,否则判断缺失模式为间断缺失,利用指数滑动平均算法对用户用电数据进行填充。
本实施例的一种实施方式中,提供了一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被一个或多个所述处理器执行时,使得一个或多个所述处理器执行本实施例中的一种高频用户用电数据清洗方法的步骤。
本实施例的一种实施方式中,提供了一种存储介质,所述存储介质可被处理器读写,所述存储介质存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个所述处理器执行本实施例中的一种高频用户用电数据清洗方法的步骤。
上述实施方式仅为例举,不表示对本发明范围的限定。这些实施方式还能以其它各种方式来实施,且能在不脱离本发明技术思想的范围内作各种省略、置换、变更。

Claims (10)

1.一种高频用户用电数据清洗方法,其特征在于,包括以下步骤:
S1:读取用户用电数据;
S2:对用户群进行切分;
S3:对切分后的用户进行异常值的检测及剔除;
S4:对用户用电数据进行预填充,获取预填充后的各用户用电数据的缺失率,剔除缺失率大于缺失率阈值的用户用电数据;
S5:根据用户用电数据的连续缺失最大天数判断用户用电数据的缺失模式,根据缺失模式对用户用电数据进行填充;
S6:对填充结果进行校验,利用邻近值填充法填充未填充数据,获取清洗结果。
2.根据权利要求1所述的一种高频用户用电数据清洗方法,其特征在于,所述的S2中切分方法包括聚类切分和伪随机切分。
3.根据权利要求1所述的一种高频用户用电数据清洗方法,其特征在于,所述的步骤S3中采用4分位检测法和3sigma标准差检测法进行异常值的检测。
4.根据权利要求1所述的一种高频用户用电数据清洗方法,其特征在于,所述的步骤S5的具体步骤包括:
S51:获取用户用电数据的连续缺失最大天数,判断连续缺失最大天数是否大于缺失天数阈值,若是,判断缺失模式为连续缺失,进入步骤S52,否则判断缺失模式为间断缺失,进入步骤S53;
S52:利用基于余弦相似度的K近邻填充方法对用户用电数据进行填充;
S53:利用指数滑动平均算法对用户用电数据进行填充。
5.一种高频用户用电数据清洗系统,其特征在于,包括预处理模块、切分模块、异常值处理模块、预处理模块、填充模块和校验模块,
所述的预处理模块读取用户用电数据,
所述的切分模块对用户群进行切分,
所述的异常值处理模块对切分后的用户进行异常值的检测及剔除,
所述的预处理模块对用户用电数据进行预填充,获取预填充后的各用户用电数据的缺失率,剔除缺失率大于缺失率阈值的用户用电数据,
所述的填充模块根据用户用电数据的连续缺失最大天数判断用户用电数据的缺失模式,根据缺失模式对用户用电数据进行填充,
所述的校验模块对填充结果进行校验,利用邻近值填充法填充未填充数据,获取清洗结果。
6.根据权利要求5所述的一种高频用户用电数据清洗系统,其特征在于,所述的切分模块采用聚类切分和伪随机切分对用户群进行切分。
7.根据权利要求5所述的一种高频用户用电数据清洗系统,其特征在于,所述的异常值处理模块采用4分位检测法和3sigma标准差检测法进行异常值的检测。
8.根据权利要求5所述的一种高频用户用电数据清洗系统,其特征在于,所述的填充模块的处理步骤包括:
获取用户用电数据的连续缺失最大天数,判断连续缺失最大天数是否大于缺失天数阈值,若是,判断缺失模式为连续缺失,利用基于余弦相似度的K近邻填充方法对用户用电数据进行填充,否则判断缺失模式为间断缺失,利用指数滑动平均算法对用户用电数据进行填充。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被一个或多个所述处理器执行时,使得一个或多个所述处理器执行如权利要求1至4中任一项所述的一种高频用户用电数据清洗方法的步骤。
10.一种存储介质,其特征在于,所述存储介质可被处理器读写,所述存储介质存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个所述处理器执行如权利要求1至4中任一项所述的一种高频用户用电数据清洗方法的步骤。
CN202110624156.7A 2021-06-04 2021-06-04 高频用户用电数据清洗方法、系统、设备及存储介质 Pending CN113468152A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110624156.7A CN113468152A (zh) 2021-06-04 2021-06-04 高频用户用电数据清洗方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110624156.7A CN113468152A (zh) 2021-06-04 2021-06-04 高频用户用电数据清洗方法、系统、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113468152A true CN113468152A (zh) 2021-10-01

Family

ID=77872387

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110624156.7A Pending CN113468152A (zh) 2021-06-04 2021-06-04 高频用户用电数据清洗方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113468152A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105117988A (zh) * 2015-10-14 2015-12-02 国家电网公司 一种电力系统中缺失数据插补的方法
CN105488736A (zh) * 2015-12-02 2016-04-13 国家电网公司 一种用于光伏电站数据采集系统的数据处理方法
CN108492134A (zh) * 2018-03-07 2018-09-04 国网四川省电力公司 基于多周期回归树集成的大数据用户用电行为分析系统
CN109445972A (zh) * 2018-09-21 2019-03-08 深圳供电局有限公司 数据修复方法、装置、设备和存储介质
CN109564641A (zh) * 2017-10-16 2019-04-02 深圳乐信软件技术有限公司 数据填补方法和装置
CN110991696A (zh) * 2019-11-04 2020-04-10 广州丰石科技有限公司 一种客流数据缺失填补的方法
CN111178611A (zh) * 2019-12-23 2020-05-19 广西电网有限责任公司 一种日电量预测的方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105117988A (zh) * 2015-10-14 2015-12-02 国家电网公司 一种电力系统中缺失数据插补的方法
CN105488736A (zh) * 2015-12-02 2016-04-13 国家电网公司 一种用于光伏电站数据采集系统的数据处理方法
CN109564641A (zh) * 2017-10-16 2019-04-02 深圳乐信软件技术有限公司 数据填补方法和装置
CN108492134A (zh) * 2018-03-07 2018-09-04 国网四川省电力公司 基于多周期回归树集成的大数据用户用电行为分析系统
CN109445972A (zh) * 2018-09-21 2019-03-08 深圳供电局有限公司 数据修复方法、装置、设备和存储介质
CN110991696A (zh) * 2019-11-04 2020-04-10 广州丰石科技有限公司 一种客流数据缺失填补的方法
CN111178611A (zh) * 2019-12-23 2020-05-19 广西电网有限责任公司 一种日电量预测的方法

Similar Documents

Publication Publication Date Title
US11868906B2 (en) System and method for fault detection of components using information fusion technique
CN110659693B (zh) 基于k近邻分类的配电网快速拓扑识别方法、系统及介质
Zhang et al. Time series anomaly detection for smart grids: A survey
EP2505827A2 (en) Wind power prediction method of single wind turbine generator
CN110570012B (zh) 一种基于Storm的电厂生产设备故障预警方法及系统
CN110932917A (zh) 一种基于高频同步采集和边缘计算的台区拓扑发现方法
CN117078048A (zh) 基于数字孪生的智慧城市资源管理方法及系统
CN102496033B (zh) 基于mr计算框架的图像sift特征匹配方法
CN112463848A (zh) 检测用户异常行为的检测方法、系统、装置和存储介质
CN113627685B (zh) 一种考虑风电上网负荷限制的风力发电机功率预测方法
CN117556369B (zh) 一种动态生成的残差图卷积神经网络的窃电检测方法及系统
CN113094448B (zh) 住宅空置状态的分析方法及分析装置、电子设备
CN116384843B (zh) 数字能源氮气站的能效评估模型训练方法及其监测方法
CN113468152A (zh) 高频用户用电数据清洗方法、系统、设备及存储介质
CN111077404B (zh) 扰动源定位方法
Li et al. Short-term load forecasting using support vector regression-based local predictor
CN106816871B (zh) 一种电力系统状态相似性分析方法
CN116484301A (zh) 一种基于cart算法的涡轮流量计异常检测方法及系统
Luo et al. Recognition and labeling of faults in wind turbines with a density-based clustering algorithm
CN116756622B (zh) 基于智能水壶的用电量分析方法及系统
Jana et al. Structured approach to downsize data administration and improve fault recognition accuracy for large power systems
US20240185089A1 (en) System and method for fault detection of components using information fusion technique
CN115542062B (zh) 户变关系异常的识别方法、装置、设备和存储介质
Huang et al. An Ensemble Learning Approach for Wind Power Forecasting
CN117335408A (zh) 一种混合非侵入式负荷辨识方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination