CN111552685A

CN111552685A - 基于Spark的电能质量数据清洗方法及装置

Info

Publication number: CN111552685A
Application number: CN202010376853.0A
Authority: CN
Inventors: 徐思尧; 周刚; 杨强; 谢善益; 王玲
Original assignee: Electric Power Research Institute of Guangdong Power Grid Co Ltd
Current assignee: Electric Power Research Institute of Guangdong Power Grid Co Ltd
Priority date: 2019-12-27
Filing date: 2020-05-07
Publication date: 2020-08-18
Anticipated expiration: 2040-05-07
Also published as: CN111552685B

Abstract

本申请公开了基于Spark的电能质量数据清洗方法及装置，方法包括：采用预置Spark RDD模型读取HBase中的待清洗电能数据，待清洗电能数据为多源异构数据，待清洗电能数据包括模式层数据和实例层数据；通过预置系统间数据互校核规则对模式层数据的属性进行清洗，得到第一清洗数据；通过预置完整率判定法对实例层数据的缺失数据进行清洗，得到第二清洗数据；通预置函数估计算法对实例层数据的异常数据进行清洗，得到第三清洗数据。本申请解决了现有数据清洗技术效率较低，且不具备针对性导致的无法保证清洗数据的准确性的技术问题。

Description

基于Spark的电能质量数据清洗方法及装置

本申请要求申请日为2019年12月27日，申请号为201911380589.1的中国专利申请的优先权。

技术领域

本申请涉及数据清洗技术领域，尤其涉及基于Spark的电能质量数据清洗方法及装置。

背景技术

为加强对电网电能质量监测与分析，从上世纪90年代起，各省级电网公司、高校和研究机构、企业开展了大量的电能质量监测相关技术研究，推动了电能质量监测技术的快速发展，积累了大量的有效电能质量数据，在一定程度上提高了电能质量技术监督的工作效率，并为电能质量普查、电网故障分析等提供了数据和技术支撑。但电能质量监测系统与公司其他电力信息系统之间是隔绝的，没有信息交互，是典型的信息孤岛。

为了更大程度发挥电能质量数据的价值、减少信息孤岛中冗余信息的存在，有必要将电能质量数据与其他电力信息系统进行融合，从其他电力信息系统中获取用于电能质量数据分析应用的相关信息和数据。例如：网络架构、监测点信息等可从生产管理系统(Power production Management System，PMS)中获取，配网及用户侧的电压监测数据、电压合格率数据等可从电压监测系统、配网计量自动化系统中获取，开展电能质量与雷电影响相关性分析的气象数据可从电网气象信息系统中获取。但是，由于每个信息系统均是为了特定应用单独开发、部署和维护的，导致数据格式、数据模型和模式设计等不同，在这些系统融合的过程中，不可避免的会出现各种数据问题。这些问题数据直接影响到基于数据的分析结果的可信度。因此通过数据清洗技术对来自不同异构数据源的数据问题进行处理，以提升数据入库之前的质量是电能质量数据分析的重要环节。

目前，对于多源异构电能质量数据的清洗方法大部分是基于MapReduce程序进行的。对于融合后的海量异构电能质量数据，利用MapReduce程序清洗数据时效率低下，耗时较长，清洗技术不具备针对性，无法保证清洗后数据的干净程度和准确性。

发明内容

本申请提供了基于Spark的电能质量数据清洗方法及装置，用于解决现有数据清洗技术效率较低，且不具备针对性导致的无法保证清洗数据的准确性的技术问题。

有鉴于此，本申请第一方面提供了基于Spark的电能质量数据清洗方法，包括：

采用预置Spark RDD模型读取HBase中的待清洗电能数据，所述待清洗电能数据为多源异构数据，所述待清洗电能数据包括模式层数据和实例层数据；

通过预置系统间数据互校核规则对所述模式层数据的属性进行清洗，得到第一清洗数据；

通过预置完整率判定法对所述实例层数据的缺失数据进行清洗，得到第二清洗数据；

通预置函数估计算法对所述实例层数据的异常数据进行清洗，得到第三清洗数据。

优选地，所述采用预置Spark RDD模型读取HBase中的待清洗电能数据，之前还包括：

根据预置条件从异构数据源中抽取所述待清洗电能数据上传到所述HBase中进行存储，所述异构数据源包括pqdif、comtrade、excel和oracle。

优选地，所述根据预置条件从异构数据源中抽取所述待清洗电能数据上传到所述HBase中进行存储，所述异构数据源包括pqdif、comtrade、excel和oracle，包括：

利用flume根据所述预置条件从所述pqdif、所述comtrade和所述excel中抽取所述待清洗电能数据上传到所述HBase中进行存储；

利用sqoop根据所述预置条件从所述oracle中抽取所述待清洗电能数据上传到所述HBase中进行存储。

优选地，所述通过预置系统间数据互校核规则对所述模式层数据的属性进行清洗，得到第一清洗数据，包括：

以预置电能质量在线监测系统为基准，将所述模式层数据的属性与所述预置电能质量在线监测系统中的基准属性对比，如果存在差异，则将所述模式层数据的属性进行属性转换，得到第一清洗数据，否则，不进行转换，所述第一清洗数据的属性为所述基准属性。

优选地，所述通过预置完整率判定法对所述实例层数据的缺失数据进行清洗，得到第二清洗数据，包括：

判断所述缺失数据是否为数据库主键值缺失，若是，则丢弃所述缺失数据，若否，则计算所述缺失数据的完整率；

当所述完整率大于预置完整值时，则根据历史数据对所述缺失数据进行填充，得到第一子清洗数据；

当所述完整率小于所述预置完整值且不为零值时，则重新抽取所述实例层数据，得到第二子清洗数据，所述第二清洗数据包括所述第一子清洗数据和所述第二子清洗数据；

当所述完整率为零值时，则剔除所述实例层数据。

优选地，所述通预置函数估计算法对所述实例层数据的异常数据进行清洗，得到第三清洗数据，包括：

通过高斯核函数非参数概率密度函数估计算法对所述实例层数据逐一进行辨识，得到异常数据；

将所述异常数据前后相邻时刻数据的平均值代替所述异常数据，得到所述第三清洗数据。

优选地，所述通预置函数估计算法对所述实例层数据的异常数据进行清洗，得到第三清洗数据，之后还包括：

将清洗后的干净数据存储到所述HBase中，所述干净数据包括所述第一清洗数据、所述第二清洗数据和所述第三清洗数据。

本申请第二方面提供了基于Spark的电能质量数据清洗装置，包括：

读取模块，用于采用预置Spark RDD模型读取HBase中的待清洗电能数据，所述待清洗电能数据为多源异构数据，所述待清洗电能数据包括模式层数据和实例层数据；

第一清洗模块，用于通过预置系统间数据互校核规则对所述模式层数据的属性进行清洗，得到第一清洗数据；

第二清洗模块，用于通过预置完整率判定法对所述实例层数据的缺失数据进行清洗，得到第二清洗数据；

第三清洗模块，用于通预置函数估计算法对所述实例层数据的异常数据进行清洗，得到第三清洗数据。

优选地，还包括：

预置数据模块，用于根据预置条件从异构数据源中抽取所述待清洗电能数据上传到所述HBase中进行存储，所述异构数据源包括pqdif、comtrade、excel和oracle。

优选地，还包括：

存储模块，用于将清洗后的干净数据存储到所述HBase中，所述干净数据包括所述第一清洗数据、所述第二清洗数据和所述第三清洗数据。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请中，提供了基于Spark的电能质量数据清洗方法，包括：采用预置Spark RDD模型读取HBase中的待清洗电能数据，待清洗电能数据为多源异构数据，待清洗电能数据包括模式层数据和实例层数据；通过预置系统间数据互校核规则对模式层数据的属性进行清洗，得到第一清洗数据；通过预置完整率判定法对实例层数据的缺失数据进行清洗，得到第二清洗数据；通预置函数估计算法对实例层数据的异常数据进行清洗，得到第三清洗数据。

本申请提供的基于Spark的电能质量数据清洗方法，通过构建的Spark框架读取已经存储在HBase中的待清洗电能数据，这些待清洗的电能数据都是多源异构数据，存在各种数据问题，例如模式层的属性冲突；实例层的数据异常、数据缺失等，这些数据问题直接影响到基于数据的分析结果的可信度，因此需要分门别类的进行针对性的清洗的同时，还要提高清洗的效率，采用Spark框架进行数据处理最大的好处就是不需要将待清洗电能数据写入磁盘，而是直接存入缓存区进行处理，这样可以显著提高数据清洗的效率，节省大量的清洗时间；针对不同的数据问题制定不同的清洗规则，从而实现自适应的清洗操作，使得数据清洗更加具有针对性，每种数据清洗过后也能最大程度的保证数据的干净程度和准确性。因此，本申请能够解决现有数据清洗技术效率较低，且不具备针对性导致的无法保证清洗数据的准确性的技术问题。

附图说明

图1为本申请实施例提供的基于Spark的电能质量数据清洗方法的一个流程示意图；

图2为本申请实施例提供的基于Spark的电能质量数据清洗方法的另一个流程示意图；

图3为本申请实施例提供的多源异构电能质量数据抽取存储示意图；

图4为本申请实施例提供的基于Spark的电能质量数据清洗装置的一个结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了便于理解，请参阅图1，本申请提供的基于Spark的电能质量数据清洗方法的实施例一，包括：

步骤101、采用预置Spark RDD模型读取HBase中的待清洗电能数据，待清洗电能数据包括模式层数据和实例层数据。

需要说明的是，待清洗电能数据为多源异构数据。HBase可以预先存储多源异构数据，供Spark RDD模型读取，读取的数据是RDD对象；构建的Spark框架是专为大规模数据处理而设计的快速通用的计算引擎，它的输出结果可以保存在内存中，从而不需要读写HDFS，这样可以较大程度的提升数据处理的效率。待清洗电能数据包括不同类型数据，将其分开来处理能够加强清洗算法的针对性，得到的清洗数据也能在保证干净程度的同时，保障清洗数据的准确性。本实施例中多数据源的数据质量问题主要体现在两个层面，一个是模式层数据问题，另一个是实例层数据问题，对于多个系统融合得到的电能质量数据而言，模式层数据的主要问题是属性冲突，即各个系统的同种数据的取值单位不一致；而实例层数据的主要问题是数据缺失和数据异常，针对不同的数据问题本实施例提供了不同的清洗规则。

步骤102、通过预置系统间数据互校核规则对模式层数据的属性进行清洗，得到第一清洗数据。

需要说明的是，所谓系统间的数据进行互校核，就是选定基准数据系统，以此为标准，与待清理的模式层数据进行对比校核，就可以识别出模式层数据中属性冲突问题，然后以基准数据系统为参考进行属性转换就可以完成数据清洗操作。

步骤103、通过预置完整率判定法对实例层数据的缺失数据进行清洗，得到第二清洗数据。

需要说明的是，针对实例层数据的清洗主要包括缺失数据的清洗和异常数据的清洗；缺失数据的清洗主要是判断当下获取并处理的实例层数据的完整率是否达标，对完整率达标的数据进行现有数据的填充，例如历史数据的填充；或者对达标的实例层数据进行重新抽取，不达标就需要直接丢弃掉这条不够完整的实例层数据。

步骤104、通预置函数估计算法对实例层数据的异常数据进行清洗，得到第三清洗数据。

需要说明的是，异常数据是存在于实例层数据中的，不像缺失数据那么明显，需要通过预置函数逐一计算，进行辨识，从而确定处理的实例层数据中的异常数据，然后对这个异常数据进行修正，可以是替代，可以是填补，具体方法在此不作限定。不论是第一清洗数据、第二清洗数据还是第三清洗数据，都是清洗操作后得到的结果数据，是针对多源异构数据的特性设计的不同的清洗规则，实现数据的自适应清洗，更加具有针对性，提升数据清洗质量。

本实施例提供的基于Spark的电能质量数据清洗方法，通过构建的Spark框架读取已经存储在HBase中的待清洗电能数据，这些待清洗的电能数据都是多源异构数据，存在各种数据问题，例如模式层的属性冲突；实例层的数据异常、数据缺失等，这些数据问题直接影响到基于数据的分析结果的可信度，因此需要分门别类的进行针对性的清洗的同时，还要提高清洗的效率，采用Spark框架进行数据处理最大的好处就是不需要将待清洗电能数据写入磁盘，而是直接存入缓存区进行处理，这样可以显著提高数据清洗的效率，节省大量的清洗时间；针对不同的数据问题制定不同的清洗规则，从而实现自适应的清洗操作，使得数据清洗更加具有针对性，每种数据清洗过后也能最大程度的保证数据的干净程度和准确性。因此，本实施例能够解决现有数据清洗技术效率较低，且不具备针对性导致的无法保证清洗数据的准确性的技术问题。

为了便于理解，请参阅图2，本申请实施例中提供了基于Spark的电能质量数据清洗方法的实施例二，包括：

步骤201、利用flume根据预置条件从pqdif、comtrade和excel中抽取待清洗电能数据上传到HBase中进行存储。

需要说明的是，请参阅图3，图3为多源异构电能质量数据抽取存储示意图；Hbase的数据最终存放在HDFS中存储，但HDFS下数据查询很困难，所以结构化数据通过Hbase后可方便查询；HBase中需要预先存储一些多源异构电能质量数据，这些数据的来源有很大不同，可以是pqdif、comtrade、excel或者oracle；但是，不同来源的电能数据均需要不同的抽取方式，pqdif、comtrade和excel可以通过flume进行抽取，flume可以将应用产生的数据存储到任何集中存储器中，比如HDFS、HBase；它非常可靠，容错性高，且可以进行必要的升级处理，易于管理。预置条件其实就是人为根据对多源异构数据的要求在抽取过程中设置相应的条件，这里不作限定。

步骤202、利用sqoop根据预置条件从oracle中抽取待清洗电能数据上传到HBase中进行存储。

需要说明的是，sqoop可以用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库(例如：MySQL，Oracle，Postgres等)中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中，本实施例就是通过sqoop将待清洗电能数据从oracle中抽取出来，并存储到HBase中。

步骤203、采用预置Spark RDD模型读取HBase中的待清洗电能数据，待清洗电能数据包括模式层数据和实例层数据。

需要说明的是，待清洗电能数据为多源异构数据。构建的Spark框架是专为大规模数据处理而设计的快速通用的计算引擎，它的输出结果可以保存在内存中，从而不需要读写HDFS，这样可以较大程度的提升数据处理的效率。本实施例中多数据源的数据质量问题主要体现在两个层面，一个是模式层数据问题，另一个是实例层数据问题，对于多个系统融合得到的电能质量数据而言，模式层数据的主要问题是属性冲突，即各个系统的同种数据的取值单位不一致；而实例层数据的主要问题是数据缺失和数据异常，针对不同的数据问题本实施例提供了不同的清洗规则。

步骤204、以预置电能质量在线监测系统为基准，将模式层数据的属性与预置电能质量在线监测系统中的基准属性对比，如果存在差异，则将模式层数据的属性进行属性转换，得到第一清洗数据。

需要说明的是，如果没有差异，就不进行属性转换，第一清洗数据的属性为基准属性。本实施例中选择预置电能质量在线监测系统中的数据为基准，采用不同系统间数据互校核的规则，将目标模式层数据与基准数据的属性进行比对，如果出现差异，就需要将目标模式层数据的属性转换为基准属性，从而完成模式层数据的属性清洗操作。例如，模式层数据出现与基准数据单位不一致的情况，数据类型是电压，模式层数据单位是V，而电能质量在线监测系统中的数据单位是KV，则需要对模式层数据的单位进行转换统一，将V转换为KV，可以将模式层的电压数据除以1000，单位就和电能质量在线监测系统中的数据单位一致了；其他的电能质量数据单位之间的转换关系如表1：

表1电能质量数据单位之间的转换关系

步骤205、判断缺失数据是否为数据库主键值缺失，若是，则丢弃缺失数据，若否，则计算缺失数据的完整率。

需要说明的是，对于处理实例层数据中的缺失数据是否是数据库主键值缺失，如果是，则不需要对此数据进行处理，直接丢弃这一条数据即可，如果不是，就需要进行完整率计算，然后根据完整率的大小制定清洗规则；数据是通过采样的方式获取的，所以间隔一段时间才能生成一组数据，然后根据实际获取的数据计算数据的完整率，具体的完整率计算公式如下：

其中，N为预期获取的数据量，M₁为实际获取的数据量。

步骤206、当完整率大于预置完整值时，则根据历史数据对缺失数据进行填充，得到第一子清洗数据。

步骤207、当完整率小于预置完整值且不为零值时，则重新抽取实例层数据，得到第二子清洗数据，第二清洗数据包括第一子清洗数据和第二子清洗数据。

步骤208、当完整率为零值时，则剔除实例层数据。

需要说明的是，将计算得到完整率与预设的完整值进行比对，如果大于预设值，就说明缺失数据在接受范围内，可以进行适当的修补，归为有效数据，具体的修补方法是根据历史数据对缺失数据填充，得到完整的第一子清洗数据；如果完整率小于预设值但又不为零，说明这条实例层数据的缺失程度较大，完整度不在接受范围内，可以重新抽取一次该条实例层数据，得到第二子清洗数据，倘若完整率为零值，则剔除该条实例层数据即可。针对缺失数据的清洗任务至此完成，得到由第一子清洗数据和第二子清洗数据组成的第二清洗数据。

步骤209、通过高斯核函数非参数概率密度函数估计算法对实例层数据逐一进行辨识，得到异常数据。

需要说明的是，实例层数据除了存在缺失问题外，还有就是数据异常问题，数据异常问题没办法直接明显识别，然后进行填补或者替代，需要通过高斯核函数非参数概率密度函数估计算法对实例层数据逐一进行计算，辨别出实例层数据中的异常数据。具体采用高斯核函数非参数概率密度函数估计算法辨识异常数据的方法为：首先采用基于BIRCH的聚类方法对正常的历史数据按照数据特征进行划分，相似且有相同变化趋势的数据归为一类，得到不同的数据类，然后在每个类别中使用高斯核函数非参数概率密度函数估计算法检测待测数据的异常值，假设某一参数的历史样本数据为x₁,x₂,...,x_n，采用的高斯核函数非参数概率密度函数为：

其中，h为带宽系数，一般采用如下公式确定带宽系数：

h＝1.06σn^-1/5；

其中，σ为样本数据的标准差。根据函数计算出待检测数据出现的概率，若出现的概率大于设定的阈值，则为正常数据，否则就判定为异常数据。

步骤210、将异常数据前后相邻时刻数据的平均值代替异常数据，得到第三清洗数据。

需要说明的是，在确定了异常数据后，获取这一条实例层数据中该异常数据前后相邻时刻两个数据的平均值，用这个平均值代替该异常数据，完成异常数据的清洗操作，这个异常数据需要和清洗后的数据一样进行存储，在查询异常数据产生原因的过程中，可以输出异常数据文本，为解决问题提供指导。

步骤211、将清洗后的干净数据存储到HBase中，干净数据包括第一清洗数据、第二清洗数据和第三清洗数据。

为了便于理解，请参阅图4，本申请中还提供了基于Spark的电能质量数据清洗装置的实施例，包括：

读取模块301，用于采用预置Spark RDD模型读取HBase中的待清洗电能数据，待清洗电能数据为多源异构数据，待清洗电能数据包括模式层数据和实例层数据；

第一清洗模块302，用于通过预置系统间数据互校核规则对模式层数据的属性进行清洗，得到第一清洗数据；

第二清洗模块303，用于通过预置完整率判定法对实例层数据的缺失数据进行清洗，得到第二清洗数据；

第三清洗模块304，用于通预置函数估计算法对实例层数据的异常数据进行清洗，得到第三清洗数据。

进一步地，还包括：

预置数据模块305，用于根据预置条件从异构数据源中抽取待清洗电能数据上传到HBase中进行存储，异构数据源包括pqdif、comtrade、excel和oracle。

进一步地，还包括：

存储模块306，用于将清洗后的干净数据存储到HBase中，干净数据包括第一清洗数据、第二清洗数据和第三清洗数据。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以通过一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：RandomAccess Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.基于Spark的电能质量数据清洗方法，其特征在于，包括：

2.根据权利要求1所述的基于Spark的电能质量数据清洗方法，其特征在于，所述采用预置Spark RDD模型读取HBase中的待清洗电能数据，之前还包括：

3.根据权利要求2所述的基于Spark的电能质量数据清洗方法，其特征在于，所述根据预置条件从异构数据源中抽取所述待清洗电能数据上传到所述HBase中进行存储，所述异构数据源包括pqdif、comtrade、excel和oracle，包括：

4.根据权利要求1所述的基于Spark的电能质量数据清洗方法，其特征在于，所述通过预置系统间数据互校核规则对所述模式层数据的属性进行清洗，得到第一清洗数据，包括：

5.根据权利要求1所述的基于Spark的电能质量数据清洗方法，其特征在于，所述通过预置完整率判定法对所述实例层数据的缺失数据进行清洗，得到第二清洗数据，包括：

当所述完整率为零值时，则剔除所述实例层数据。

6.根据权利要求1所述的基于Spark的电能质量数据清洗方法，其特征在于，所述通预置函数估计算法对所述实例层数据的异常数据进行清洗，得到第三清洗数据，包括：

7.根据权利要求1所述的基于Spark的电能质量数据清洗方法，其特征在于，所述通预置函数估计算法对所述实例层数据的异常数据进行清洗，得到第三清洗数据，之后还包括：

8.基于Spark的电能质量数据清洗装置，其特征在于，包括：

9.根据权利要求8中所述的基于Spark的电能质量数据清洗装置，其特征在于，还包括：

10.根据权利要求8中所述的基于Spark的电能质量数据清洗装置，其特征在于，还包括：