CN107679089B - 一种用于电力传感数据的清洗方法、装置和系统 - Google Patents

一种用于电力传感数据的清洗方法、装置和系统 Download PDF

Info

Publication number
CN107679089B
CN107679089B CN201710790445.8A CN201710790445A CN107679089B CN 107679089 B CN107679089 B CN 107679089B CN 201710790445 A CN201710790445 A CN 201710790445A CN 107679089 B CN107679089 B CN 107679089B
Authority
CN
China
Prior art keywords
data
clustering
cluster
power sensing
structured data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710790445.8A
Other languages
English (en)
Other versions
CN107679089A (zh
Inventor
陈江琦
刘贺
刘卫卫
赵婷
杨訸
黄复鹏
王晓慧
朱承治
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Zhejiang Electric Power Co Ltd
Global Energy Interconnection Research Institute
Original Assignee
State Grid Corp of China SGCC
State Grid Zhejiang Electric Power Co Ltd
Global Energy Interconnection Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Zhejiang Electric Power Co Ltd, Global Energy Interconnection Research Institute filed Critical State Grid Corp of China SGCC
Priority to CN201710790445.8A priority Critical patent/CN107679089B/zh
Publication of CN107679089A publication Critical patent/CN107679089A/zh
Application granted granted Critical
Publication of CN107679089B publication Critical patent/CN107679089B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Abstract

本发明提供一种用于电力传感数据的清洗方法、装置和系统,采用K‑Means聚类法将电力传感数据中的结构化数据聚类为多个分区,对每个分区中的结构化数据进行检测,对检测得到的异常数据进行修复,最终实现异常数据的清洗。本发明采用K‑Means聚类法将电力传感数据中的结构化数据聚类为多个分区的过程中,在对最优簇数量对应的K‑Means聚类的聚类结果再进行聚类时考虑了连续电力传感数据之间的关联等特性,能够发现更多的异常数据,能够有效改善大规模电力传感数据的数据质量;且将电力传感数据的时间特性引入异常数据检测过程,能够识别出在阈值范围内但与邻近点的值存在较大偏差的异常数据。

Description

一种用于电力传感数据的清洗方法、装置和系统
技术领域
本发明涉及数据清洗技术,具体涉及一种用于电力传感数据的清洗方法、装置和系统。
背景技术
电力传感设备从属于不同的电力设备,广泛分布在电网的各级单位,智能电网的绝大多数数据是由电力传感设备产生的,且智能电网的规模非常庞大,且规模正在逐年扩展。伴随智能电网规模的扩大,电力传感设备产生的电力传感数据将越来越多。然而,受到数据干扰源、电力传感数据采集和网络传输异常等因素的影响,电力传感数据通常存在数据质量问题,即电力传感数据存在数据准确性不高且属于异常数据。
数据清洗是确保数据信息源的数据质量的方法之一,异常数据的检测和修复便成为数据清洗的关键问题,目前关于异常数据的清洗主要采取以下两种措施:
1)使用自动化方法和工具清洗企业信息数据:该措施能够针对海量的企业信息数据进行以下处理:找出相似重复的数据以便去重,对不同来源的数据进行匹配,还使数据标准化。通过网站提供的在线数据匹配工具,可把不同来源的企业信息数据匹配到统一的编码下,以便合并,实现对现有的企业信息数据进行查重和去重。
2)通过数据质量管理平台软件QualityCube清洗系统数据:数据质量管理平台软件QualityCube制定并实施数据质量检核,暴露各系统数据的质量问题,具体是通过持续监控各系统数据质量波动情况及数据质量规则占比分析,定期生成各系统关键数据质量报告,掌握系统数据质量状况,结合系统提供的清洗组件以及数据质量问题处理流程为各系统数据质量提升提供有效支撑。
然而,上述两种方法对于连续数值型记录多关注各个数据值本身是否在合理阈值范围之内,很多异常数据无法被检测到,上述两种方法具有数据清洗不干净的缺点。
发明内容
为了克服上述现有技术中数据清洗不干净的不足,本发明提供一种用于电力传感数据的清洗方法、装置和系统,方法先采用K-Means聚类法将电力传感数据中的结构化数据聚类为多个分区,然后对每个分区中的结构化数据进行检测,最后对检测得到的异常数据进行修复,系统设有采集装置、清洗装置和存储装置,通过清洗装置实现电力传感数据的清洗。
为了实现上述发明目的,本发明采取如下技术方案:
第一个方面,本发明提供一种用于电力传感数据的清洗方法,包括:
采用K-Means聚类法将电力传感数据中的结构化数据聚类为多个分区;
对每个分区中的结构化数据进行检测;
对检测得到的异常数据进行修复。
所述采用K-Means聚类将电力传感数据中的结构化数据聚类为多个分区包括:
按下式计算类内平均距离:
Figure BDA0001399033690000021
其中,K表示簇的数量,MIA(K)表示簇数量为K时的类内平均距离,dk表示第k个簇中样本点到簇中心的平均距离,且
Figure BDA0001399033690000022
其中
Figure BDA0001399033690000023
表示Ck中的第n个元素,Ck表示第k个簇,nk表示Ck中的元素数,xk表示Ck的簇中心;
选择满足MIA(K)-MIA(K+1)>c的最大K值作为最优簇数量,其中MIA(K+1)表示簇数量为K+1时的类内平均距离,c表示簇数量阈值;
对最优簇数量对应的K-Means聚类的聚类结果再进行聚类。
所述对每个分区中的结构化数据进行检测包括:
判断每个分区中结构化数据的数值是否大于相应分区的数据上限或小于相应分区的数据下限,若是,该结构化数据为异常数据,否则结构化数据为正常数据。
所述对检测得到的异常数据进行修复包括:
采用平均值修复法、中值修复法或模式值修复法对检测得到的异常数据进行修复。
第二个方面,本发明还提供一种用于电力传感数据的清洗装置,包括:
聚类模块,用于采用K-Means聚类法将电力传感数据中的结构化数据聚类为多个分区;
检测模块,用于对每个分区中的结构化数据进行检测;
修复模块,用于对检测得到的异常数据进行修复。
所述聚类模块具体用于:
按下式计算类内平均距离:
Figure BDA0001399033690000024
其中,K表示簇的数量,MIA(K)表示簇数量为K时的类内平均距离,dk表示第k个簇中样本点到簇中心的平均距离,且
Figure BDA0001399033690000031
其中
Figure BDA0001399033690000032
表示Ck中的第n个元素,Ck表示第k个簇,nk表示Ck中的元素数,xk表示Ck的簇中心;
选择满足MIA(K)-MIA(K+1)>c的最大K值作为最优簇数量,其中MIA(K+1)表示簇数量为K+1时的类内平均距离,c表示簇数量阈值;
对最优簇数量对应的K-Means聚类的聚类结果再进行聚类。
所述检测模块具体用于:
判断每个分区中结构化数据的数值是否大于相应分区的数据上限或小于相应分区的数据下限,若是,该结构化数据为异常数据,否则结构化数据为正常数据。、
所述修复模块具体用于:
采用平均值修复法、中值修复法或模式值修复法对检测得到的异常数据进行修复。
第三个方面,本发明还提供一种用于电力传感数据的清洗系统,包括:
上述用于电力传感数据的清洗装置;
采集装置,用于将采集的电力传感数据中的结构化数据传输给清洗装置,并接收来自于清洗装置的清洗结果;
存储装置,用于存储采集装置采集的电力传感数据和清洗装置下发的清洗结果。
所述电力传感数据还包括非结构化数据。
所述采集装置包括通信单元、传输单元、结构化数据存储和访问单元以及非结构化数据存储和访问单元。
所述通信单元采用异步事件驱动的网络应用程序框架Netty,用于采集来自于将电力传感器的电力传感数据;
所述传输单元采用分布式发布订阅消息系统Kafka,用于实现采集装置与清洗装置之间的数据交换;
所述结构化数据存储和访问单元用于存储和提供结构化数据和来自于清洗装置的清洗结果;
所述非结构化数据存储和访问单元用于存储和提供非结构化数据。
所述存储装置包括关系型数据库MySQL、非关系型数据库HBASE和分布式文件系统HDFS。
所述关系型数据库MySQL用于存储结构化数据;
所述非关系型数据库HBASE用于存储非结构化数据。
所述分布式文件系统HDFS用于存储结构化数据和非结构化数据。
与最接近的现有技术相比,本发明提供的技术方案具有以下有益效果:
本发明提供的用于电力传感数据的清洗方法先采用K-Means聚类法将电力传感数据中的结构化数据聚类为多个分区,然后对每个分区中的结构化数据进行检测,最后对检测得到的异常数据进行修复,实现异常数据的检测;
本发明提供的用于电力传感数据的清洗装置,包括聚类模块,用于采用K-Means聚类法将电力传感数据中的结构化数据聚类为多个分区;检测模块,用于对每个分区中的结构化数据进行检测;修复模块,用于对检测得到的异常数据进行修复,最终实现海量电力传感数据的清洗;
本发明提供的用于电力传感数据的清洗系统包括清洗装置、采集装置和存储装置,采集装置用于将采集的电力传感数据中的结构化数据传输给清洗装置并接收来自于清洗装置的清洗结果;存储装置用于存储采集装置采集的电力传感数据和清洗装置下发的清洗结果,解决了海量电力传感数据的接入、清洗和存储问题;
本发明提供的用于电力传感数据的清洗方法中,采用K-Means聚类法将电力传感数据中的结构化数据聚类为多个分区的过程中,分为计算类内平均距离和对最优簇数量对应的K-Means聚类的聚类结果再进行聚类共2个阶段,且在对最优簇数量对应的K-Means聚类的聚类结果再进行聚类的过程中考虑了连续电力传感数据之间的关联等特性,能够发现更多的异常数据,能够有效改善大规模电力传感数据的数据质量;
本发明提供的技术方案具有良好的并行性和高扩展性,且将电力传感数据的时间特性引入异常数据检测过程,能够识别出在阈值范围内但与邻近点的值存在较大偏差的异常数据。
附图说明
图1是本发明实施例中用于电力传感数据的清洗系统结构图;
图2是本发明实施例中用于电力传感数据的清洗方法流程图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
在数据清洗方法方面,电力传感数据往往是时间敏感的,最主要的特征是呈现周期性。由此可知,采用固定的阈值识别的数据异常的方法,会存在异常漏报的情况。一些数据尽管在阈值范围内,但与邻近点的取值存在较大偏差,因此仍然属于异常数据,可能由传输故障或影响光照因素造成。所以本发明实施例提供一种用于电力传感数据的清洗方法,该清洗方法的流程图如图2,具体过程如下:
S101:采用K-Means聚类法将电力传感数据中的结构化数据聚类为多个分区;
S102:对上述S101聚类得到的每个分区中的结构化数据进行检测;
S103:对上述S102检测得到的异常数据进行修复。
上述S101中,采用K-Means聚类将电力传感数据中的结构化数据聚类为多个分区具体过程如下:
1)按下式计算类内平均距离:
Figure BDA0001399033690000051
其中,K表示簇的数量,MIA(K)表示簇数量为K时的类内平均距离,dk表示第k个簇中样本点到簇中心的平均距离,且
Figure BDA0001399033690000052
其中
Figure BDA0001399033690000053
表示Ck中的第n个元素,Ck表示第k个簇,nk表示Ck中的元素数,xk表示Ck的簇中心;
2)选择满足MIA(K)-MIA(K+1)>c的最大K值作为最优簇数量,其中MIA(K+1)表示簇数量为K+1时的类内平均距离,c表示簇数量阈值;
3)对最优簇数量对应的K-Means聚类的聚类结果再进行聚类。
上述S101中主要包括计算类内平均距离和对最优簇数量对应的K-Means聚类的聚类结果再进行聚类共两个阶段,在第二阶段,对于具有周期性特性的电力传感数据,为了更精确的描述数据的时间相关性,需要对最优簇数量对应的K-Means聚类的聚类结果再进行聚类,使数据在值域和时间域上均具有聚集的特性,形成更加精细化的聚类,并将这些聚类称为分区。
上述S102中,对每个分区中的结构化数据进行检测具体过程如下:
判断每个分区中结构化数据的数值是否大于相应分区的数据上限或小于相应分区的数据下限,若是,该结构化数据为异常数据,否则结构化数据为正常数据。
上述S103中,对检测得到的异常数据进行修复具体过程如下:
采用平均值修复法、中值修复法或模式值修复法对检测得到的异常数据进行修复。
上述S103中需要进行修复的异常数据是由数据采集和网络传输过程中发生的错误引起的,异常数据还可能由天气影响太阳辐射造成的,对于由天气影响太阳辐射造成的异常数据,先发出警告,进一步的操作将由领域专家完成。
基于同一发明构思,本发明实施例还提供了一种用于电力传感数据的清洗装置,可以包括聚类模块、检测模块和修复模块,下面分别介绍这几个模块的功能:
其中的聚类模块,用于采用K-Means聚类法将电力传感数据中的结构化数据聚类为多个分区;
其中的检测模块,用于对每个分区中的结构化数据进行检测;
其中的修复模块,用于对检测得到的异常数据进行修复。
上述的聚类模块采用K-Means聚类法将电力传感数据中的结构化数据聚类为多个分区具体过程如下:
1)按下式计算类内平均距离:
Figure BDA0001399033690000061
其中,K表示簇的数量,MIA(K)表示簇数量为K时的类内平均距离,dk表示第k个簇中样本点到簇中心的平均距离,且
Figure BDA0001399033690000062
其中
Figure BDA0001399033690000063
表示Ck中的第n个元素,Ck表示第k个簇,nk表示Ck中的元素数,xk表示Ck的簇中心;
2)随着K的增大,MIA(K)会减小,但是K过大又会导致每类的样本过少,无法满足分析需求,因此设定簇数量阈值c,选择满足MIA(K)-MIA(K+1)>c的最大K值作为最优簇数量,其中MIA(K+1)表示簇数量为K+1时的类内平均距离;
3)对最优簇数量对应的K-Means聚类的聚类结果再进行聚类。
上述的检测模块对聚类模块聚类得到的每个分区中的结构化数据进行检测的具体过程如下:
判断每个分区中结构化数据的数值是否大于相应分区的数据上限或小于相应分区的数据下限,若是,该结构化数据为异常数据,否则结构化数据为正常数据。
上述的修复模块对检测得到的异常数据进行修复具体可以采用平均值修复法、中值修复法或模式值修复法对检测得到的异常数据进行修复。
该清洗装置可以基于MapReduce组件和Spark组件实现数据的清洗,其中的MapReduce组件适用于对结构化数据进行批量清洗;其中的Spark组件包括SQL、DataFrame和MLib,适用于对结构化数据进行快速清洗;其中MLib包含许多算法和实用程序,包括分类、决策树和聚类等。
本发明实施例还提供了一种用于电力传感数据的清洗系统,其结构图如图1所示,该用于电力传感数据的清洗系统可以包括上述的清洗装置、采集装置和存储装置,
其中的采集装置,用于将采集的电力传感数据中的结构化数据传输给清洗装置,并接收来自于清洗装置的清洗结果;
其中的存储装置,用于存储采集装置采集的电力传感数据和清洗装置下发的清洗结果。
上述的电力传感数据除了包括结构化数据,还可以包括非结构化数据。
上述的采集装置包括通信单元、传输单元、结构化数据存储和访问单元以及非结构化数据存储和访问单元,下面具体介绍上述几个单元:
其中的通信单元采用异步事件驱动的网络应用程序框架Netty,用于采集来自于将电力传感器的电力传感数据;
其中的传输单元采用分布式发布订阅消息系统Kafka,用于实现采集装置与清洗装置之间的数据交换;
其中的结构化数据存储和访问单元用于存储和提供结构化数据和来自于清洗装置的清洗结果;
其中的非结构化数据存储和访问单元用于存储和提供非结构化数据。
上述的存储装置包括关系型数据库MySQL、非关系型数据库HBASE和分布式文件系统HDFS。
上述的关系型数据库MySQL用于存储结构化数据;
上述的非关系型数据库HBASE用于存储非结构化数据。
上述的分布式文件系统HDFS用于存储结构化数据和非结构化数据。
本发明实施例所提的具体数据清洗可以指:在对数据源进行充分地分析后,将从电力传感数据中抽取的异常数据经过转化使其成为满足数据质量要求的数据。上述异常数据不仅包括电流、电压、功率等电力指标超出阈值的数据,还包括未超出阈值但与相邻数据存在明显差异的数据。
为了描述的方便,以上所述装置的各部分以功能分为各种模块或单元分别描述。当然,在实施本申请时可以把各模块或单元的功能在同一个或多个软件或硬件中实现。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,所属领域的普通技术人员参照上述实施例依然可以对本发明的具体实施方式进行修改或者等同替换,这些未脱离本发明精神和范围的任何修改或者等同替换,均在申请待批的本发明的权利要求保护范围之内。

Claims (10)

1.一种用于电力传感数据的清洗方法,其特征在于,包括:
采用K-Means聚类法将电力传感数据中的结构化数据聚类为多个分区;
对每个分区中的结构化数据进行检测;
对检测得到的异常数据进行修复;
所述采用K-Means聚类将电力传感数据中的结构化数据聚类为多个分区,包括:
按下式计算类内平均距离:
Figure FDA0002998839860000011
其中,K表示簇的数量,MIA(K)表示簇数量为K时的类内平均距离,dk表示第k个簇中样本点到簇中心的平均距离,且
Figure FDA0002998839860000012
其中
Figure FDA0002998839860000013
表示Ck中的第n个元素,Ck表示第k个簇,nk表示Ck中的元素数,xk表示Ck的簇中心;
选择满足MIA(K)-MIA(K+1)>c的最大K值作为最优簇数量,其中MIA(K+1)表示簇数量为K+1时的类内平均距离,c表示簇数量阈值;
对最优簇数量对应的K-Means聚类的聚类结果再进行聚类。
2.根据权利要求1所述的用于电力传感数据的清洗方法,其特征在于,所述对每个分区中的结构化数据进行检测,包括:
判断每个分区中结构化数据的数值是否大于相应分区的数据上限或小于相应分区的数据下限,若是,该结构化数据为异常数据,否则结构化数据为正常数据。
3.根据权利要求1或2所述的用于电力传感数据的清洗方法,其特征在于,所述对检测得到的异常数据进行修复,包括:
采用平均值修复法、中值修复法或模式值修复法对检测得到的异常数据进行修复。
4.一种用于电力传感数据的清洗装置,其特征在于,包括:
聚类模块,用于采用K-Means聚类法将电力传感数据中的结构化数据聚类为多个分区;
检测模块,用于对每个分区中的结构化数据进行检测;
修复模块,用于对检测得到的异常数据进行修复;
所述聚类模块具体用于:
按下式计算类内平均距离:
Figure FDA0002998839860000014
其中,K表示簇的数量,MIA(K)表示簇数量为K时的类内平均距离,dk表示第k个簇中样本点到簇中心的平均距离,且
Figure FDA0002998839860000021
其中
Figure FDA0002998839860000022
表示Ck中的第n个元素,Ck表示第k个簇,k表示Ck中的元素数,xk表示Ck的簇中心;
选择满足MIA(K)-MIA(K+1)>c的最大K值作为最优簇数量,其中MIA(K+1)表示簇数量为K+1时的类内平均距离,c表示簇数量阈值;
对最优簇数量对应的K-Means聚类的聚类结果再进行聚类。
5.根据权利要求4所述的用于电力传感数据的清洗装置,其特征在于,所述检测模块具体用于:
判断每个分区中结构化数据的数值是否大于相应分区的数据上限或小于相应分区的数据下限,若是,该结构化数据为异常数据,否则结构化数据为正常数据。
6.根据权利要求5所述的用于电力传感数据的清洗装置,其特征在于,所述修复模块具体用于:
采用平均值修复法、中值修复法或模式值修复法对检测得到的异常数据进行修复。
7.一种用于电力传感数据的清洗系统,其特征在于,包括:
如权利要求4-6任一所述的清洗装置;
采集装置,用于将采集的电力传感数据中的结构化数据传输给清洗装置,并接收来自于清洗装置的清洗结果;
存储装置,用于存储采集装置采集的电力传感数据和清洗装置下发的清洗结果。
8.根据权利要求7所述的用于电力传感数据的清洗系统,其特征在于,所述电力传感数据还包括非结构化数据。
9.根据权利要求8所述的用于电力传感数据的清洗系统,其特征在于,所述采集装置包括通信单元、传输单元、结构化数据存储和访问单元以及非结构化数据存储和访问单元;
所述通信单元采用异步事件驱动的网络应用程序框架Netty,用于采集来自于将电力传感器的电力传感数据;
所述传输单元采用分布式发布订阅消息系统Kafka,用于实现采集装置与清洗装置之间的数据交换;
所述结构化数据存储和访问单元用于存储和提供结构化数据和来自于清洗装置的清洗结果;
所述非结构化数据存储和访问单元用于存储和提供非结构化数据。
10.根据权利要求7所述的用于电力传感数据的清洗系统,其特征在于,所述存储装置包括关系型数据库MySQL、非关系型数据库HBASE和分布式文件系统HDFS;
所述关系型数据库MySQL用于存储结构化数据;
所述非关系型数据库HBASE用于存储非结构化数据;
所述分布式文件系统HDFS用于存储结构化数据和非结构化数据。
CN201710790445.8A 2017-09-05 2017-09-05 一种用于电力传感数据的清洗方法、装置和系统 Active CN107679089B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710790445.8A CN107679089B (zh) 2017-09-05 2017-09-05 一种用于电力传感数据的清洗方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710790445.8A CN107679089B (zh) 2017-09-05 2017-09-05 一种用于电力传感数据的清洗方法、装置和系统

Publications (2)

Publication Number Publication Date
CN107679089A CN107679089A (zh) 2018-02-09
CN107679089B true CN107679089B (zh) 2021-10-15

Family

ID=61135621

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710790445.8A Active CN107679089B (zh) 2017-09-05 2017-09-05 一种用于电力传感数据的清洗方法、装置和系统

Country Status (1)

Country Link
CN (1) CN107679089B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109669935A (zh) * 2018-12-13 2019-04-23 平安医疗健康管理股份有限公司 检查数据筛选方法、装置、设备及存储介质
CN109740648B (zh) * 2018-12-21 2020-11-03 广东电网有限责任公司广州供电局 电力负荷异常数据识别方法、装置和计算机设备
CN110750527A (zh) * 2019-10-24 2020-02-04 南方电网科学研究院有限责任公司 一种电力大数据的数据清洗方法
JP7205514B2 (ja) * 2020-03-31 2023-01-17 横河電機株式会社 学習データ処理装置、学習データ処理方法、学習データ処理プログラム、及び非一時的なコンピュータ読み取り可能な媒体
CN111708846A (zh) * 2020-05-14 2020-09-25 北京嗨学网教育科技股份有限公司 一种多终端的数据管理方法及装置
CN112783883A (zh) * 2021-01-22 2021-05-11 广东电网有限责任公司东莞供电局 一种多源数据接入下电力数据标准化清洗方法和装置
CN113297744B (zh) * 2021-05-28 2023-11-07 国网浙江省电力有限公司营销服务中心 一种适用于误差监测计算的充电桩数据清洗方法及充电站

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915423A (zh) * 2012-09-11 2013-02-06 中国电力科学研究院 一种基于粗糙集和基因表达式的电力业务数据过滤系统及方法
CN105550700A (zh) * 2015-12-08 2016-05-04 国网山东省电力公司电力科学研究院 一种基于关联分析和主成分分析的时间序列数据清洗方法
CN105678398A (zh) * 2015-12-24 2016-06-15 国家电网公司 基于大数据技术的电力负荷预测方法及基于该方法的研究应用系统
CN105930424A (zh) * 2016-04-19 2016-09-07 国网重庆市电力公司电力科学研究院 一种实现配电网数据在线异步采集智能挖掘的方法
CN106160232A (zh) * 2016-08-20 2016-11-23 国网山东滨州市沾化区供电公司 一种用于电力系统的负荷监管设备
CN106682116A (zh) * 2016-12-08 2017-05-17 重庆邮电大学 基于Spark内存计算大数据平台的OPTICS点排序聚类方法
CN106909664A (zh) * 2017-02-28 2017-06-30 国网福建省电力有限公司 一种电力设备数据流故障识别方法
CN107016507A (zh) * 2017-04-07 2017-08-04 国网技术学院 基于数据挖掘技术的电网故障追踪方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150050016A (ko) * 2013-10-31 2015-05-08 삼성전자주식회사 전자 장치 및 전자 장치에서의 검색 방법
KR102568097B1 (ko) * 2015-06-22 2023-08-18 삼성전자 주식회사 파싱 데이터의 관련 정보를 표시하는 방법 및 전자 장치
US20170076304A1 (en) * 2015-09-11 2017-03-16 Powerscout, Inc. Spatial modeling and other data analytics enabled energy platform

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915423A (zh) * 2012-09-11 2013-02-06 中国电力科学研究院 一种基于粗糙集和基因表达式的电力业务数据过滤系统及方法
CN105550700A (zh) * 2015-12-08 2016-05-04 国网山东省电力公司电力科学研究院 一种基于关联分析和主成分分析的时间序列数据清洗方法
CN105678398A (zh) * 2015-12-24 2016-06-15 国家电网公司 基于大数据技术的电力负荷预测方法及基于该方法的研究应用系统
CN105930424A (zh) * 2016-04-19 2016-09-07 国网重庆市电力公司电力科学研究院 一种实现配电网数据在线异步采集智能挖掘的方法
CN106160232A (zh) * 2016-08-20 2016-11-23 国网山东滨州市沾化区供电公司 一种用于电力系统的负荷监管设备
CN106682116A (zh) * 2016-12-08 2017-05-17 重庆邮电大学 基于Spark内存计算大数据平台的OPTICS点排序聚类方法
CN106909664A (zh) * 2017-02-28 2017-06-30 国网福建省电力有限公司 一种电力设备数据流故障识别方法
CN107016507A (zh) * 2017-04-07 2017-08-04 国网技术学院 基于数据挖掘技术的电网故障追踪方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
综合数据清洗及无监督学习技术的电力设备状态评估;魏金萧等;《水电能源科学》;20160925;第210-214页 *

Also Published As

Publication number Publication date
CN107679089A (zh) 2018-02-09

Similar Documents

Publication Publication Date Title
CN107679089B (zh) 一种用于电力传感数据的清洗方法、装置和系统
CN111027615B (zh) 基于机器学习的中间件故障预警方法和系统
CN114048870A (zh) 一种基于日志特征智能挖掘的电力系统异常监测方法
CN108053095B (zh) 一种电能质量扰动事件特征提取方法及系统
CN111949480B (zh) 一种基于组件感知的日志异常检测方法
JP2023511464A (ja) 製品不良要因を分析するシステム及び方法、コンピュータ可読媒体
CN115563477A (zh) 谐波数据识别方法、装置、计算机设备和存储介质
CN114429256A (zh) 数据监测方法、装置、电子设备及存储介质
CN115358481A (zh) 一种企业外迁预警识别的方法、系统及装置
CN113283502B (zh) 基于聚类的设备状态阈值确定方法和装置
CN113810792A (zh) 一种基于云计算的边缘数据采集分析系统
US20160078071A1 (en) Large scale offline retrieval of machine operational information
Al-Dahidi et al. A novel ensemble clustering for operational transients classification with application to a nuclear power plant turbine
CN111723136A (zh) 一种面向网格事件分类分级处置的单维聚类分析方法
Hsu et al. Data mining for yield enhancement in TFT-LCD manufacturing: an empirical study
Luo et al. Recognition and labeling of faults in wind turbines with a density-based clustering algorithm
CN113705920A (zh) 火电厂用水数据样本集的生成方法和终端设备
CN113255096A (zh) 基于向前逐步回归的高损线路异常台区定位方法及系统
He et al. Quality improvement using data mining in manufacturing processes
Sarquis Filho et al. Practical recommendations for the design of automatic fault detection algorithms based on experiments with field monitoring data
Vergura Big data and efficiency of PV plants
CN117235648B (zh) 基于数据处理的钢丝加工全流程集成化管理系统
CN113723835B (zh) 火电厂用水评估方法和终端设备
CN117193088B (zh) 一种工业设备监控方法、装置以及服务器
CN113806495B (zh) 一种离群机器检测方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant