发明内容
由于现有方法存在上述问题,本发明实施例提出一种电能质量数据清洗方法及装置。
第一方面,本发明实施例提出一种电能质量数据清洗方法,包括:
从电能质量终端获取电能质量基础数据,将所述电能质量基础数据按照统一数据格式进行转换并存储到Hadoop分布式平台;
基于预先构建的数据清洗规则,利用Hadoop分布式平台对转换后的电能质量基础数据进行清洗,获得电能质量数据;
对清洗后的电能质量数据按照日、月、年的维度进行计算,产生电能质量计算结果数据;
基于所述预先构建的数据清洗规则,利用Hadoop分布式平台对所述电能质量计算结果数据进行清洗,获得最终的电能质量数据。
可选地,在基于预先构建的数据清洗规则,利用Hadoop分布式平台对转换后的电能质量基础数据进行清洗之前,所述方法还包括:
预先构建数据清洗规则。
可选地,所述统一数据格式包括:行键、列和值;
其中:
行键:指标名称+监测点ID+对应频率+相别+采样率+值类型+精度与单位+时间量测;
列:时间偏移量;
值:量测值字面量,列值。
可选地,所述数据清洗规则,包括:数据属性缺失规则和数据属性异常规则;
其中,所述数据属性缺失规则,包括:对于任意一条数据记录:若该条数据记录的行键存在属性值缺失,则不会产生该条数据记录;若该条数据记录的非行键存在属性值缺失,对于属性值缺失的任一属性,取该条数据记录中该属性前后相邻时刻数值的平均值替代该属性的属性值,若该属性前后相邻时刻数值也存在为空情况,则取不为空的相邻数据值替代该属性的属性值,若该条数据记录中非行键的属性值全部缺失,则剔除该条数据记录;
所述数据属性异常规则,包括:判断数据记录所有属性是否满足合理规则库中该属性对应的取值范围,所述合理规则库是根据常识性规则和业务特定规则预先构建的;若数据记录任一属性不满足合理规则库中该属性对应的取值范围,则确定该属性为异常,将该属性进行清除,然后按照所述数据属性缺失规则进行属性替代。
可选地,所述基于预先构建的数据清洗规则,利用Hadoop分布式平台对转换后的电能质量基础数据进行清洗,获得电能质量数据,包括:
按照预先构建的数据清洗规则,从转换后的电能质量基础数据中获取待清洗数据;
根据所述数据清洗规则,在Hadoop分布式平台中对待清洗数据进行分布式清洗;
检验本次分布式清洗完成后的数据是否满足所述数据清洗规则;
若本次分布式清洗完成后的数据满足所述数据清洗规则,则将本次分布式清洗完成后的数据作为待清洗数据,返回所述根据所述数据清洗规则,在Hadoop分布式平台中对待清洗数据进行分布式清洗的步骤,直至本次分布式清洗完成后的数据不满足所述数据清洗规则,将本次分布式清洗完成后的数据作为电能质量数据输出;
相应地,所述基于所述预先构建的数据清洗规则,利用Hadoop分布式平台对所述电能质量计算结果数据进行清洗,获得最终的电能质量数据,包括:
按照预先构建的数据清洗规则,从所述电能质量计算结果数据中获取待清洗数据;
根据所述数据清洗规则,在Hadoop分布式平台中对待清洗数据进行分布式清洗;
检验本次分布式清洗完成后的数据是否满足所述数据清洗规则;
若本次分布式清洗完成后的数据满足所述数据清洗规则,则将本次分布式清洗完成后的数据作为待清洗数据,返回所述根据所述数据清洗规则,在Hadoop分布式平台中对待清洗数据进行分布式清洗的步骤,直至本次分布式清洗完成后的数据不满足所述数据清洗规则,将本次分布式清洗完成后的数据作为最终的电能质量数据输出。
可选地,在基于所述预先构建的数据清洗规则,利用Hadoop分布式平台对所述电能质量计算结果数据进行清洗,获得最终的电能质量数据之后,所述方法还包括:
利用预先构建的数据质量评价体系,对所述最终的电能质量数据的数据质量进行评价。
可选地,在利用预先构建的数据质量评价体系,对所述最终的电能质量数据的数据质量进行评价之前,所述方法还包括:
预先构建数据质量评价体系。
第二方面,本发明实施例还提出一种电能质量数据清洗装置,包括:
格式转换模块,用于从电能质量终端获取电能质量基础数据,将所述电能质量基础数据按照统一数据格式进行转换并存储到Hadoop分布式平台;
第一清洗模块,用于基于预先构建的数据清洗规则,利用Hadoop分布式平台对转换后的电能质量基础数据进行清洗,获得电能质量数据;
计算模块,用于对清洗后的电能质量数据按照日、月、年的维度进行计算,产生电能质量计算结果数据;
第二清洗模块,用于基于所述预先构建的数据清洗规则,利用Hadoop分布式平台对所述电能质量计算结果数据进行清洗,获得最终的电能质量数据。
第三方面,本发明实施例还提出一种电子设备,包括:处理器、存储器、总线及存储在存储器上并可在处理器上运行的计算机程序;
其中,所述处理器,存储器通过所述总线完成相互间的通信;
所述处理器执行所述计算机程序时实现上述方法。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述方法。
由上述技术方案可知,本发明实施例提供的一种电能质量数据清洗方法及装置,通过从电能质量终端获取电能质量基础数据,将其按照统一数据格式进行转换并存储到Hadoop分布式平台;基于预先构建的数据清洗规则,利用Hadoop分布式平台对转换后的电能质量基础数据进行清洗,获得电能质量数据;对清洗后的电能质量数据按照日、月、年的维度进行计算,产生电能质量计算结果数据;基于预先构建的数据清洗规则,利用Hadoop分布式平台对电能质量计算结果数据进行清洗,获得最终的电能质量数据,由此,通过将电能质量基础数据按照统一数据格式进行转换存储,实现了异构电能质量数据兼容存储,同时提高了数据索引和查询效率;通过基于预先构建的数据清洗规则,利用Hadoop分布式平台对转换后的电能质量基础数据进行清洗,提高了数据清洗效率,保障电能质量数据的准确性,为后续电能质量数据的计算提供准确的数据基础;通过基于预先构建的数据清洗规则,利用Hadoop分布式平台对电能质量计算结果数据进行清洗,保障电能质量计算结果数据进行关联分析应用的准确性。
具体实施方式
下面结合附图,对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
图1示出了本发明一实施例提供的一种电能质量数据清洗方法的流程示意图,如图1所示,本实施例的电能质量数据清洗方法,包括:
S1、从电能质量终端获取电能质量基础数据,将所述电能质量基础数据按照统一数据格式进行转换并存储到Hadoop分布式平台。
可以理解的是,电能质量基础数据由于设备的不同导致数据格式不统一,需转换成统一格式的数据实现数据的兼容,同时按照电能质量业务应用分析需求,检索查询时一般都是获取单监测点或多监测点某一量测指标在某时间段内的所有数据,而电能质量监测数据一般都是每个指标在某采集周期时刻采集一条数据,按照不同数据类型的采集频率都不一样,如稳态统计数据一般1分钟内或3分钟一条,对此类数据在Hadoop中的存储,一般的设计方法为一个指标值就存为一行,但这样会带来海量rowkey,从而影响查询性能,考虑到数据主要用于每日统计,故本实施例可以将一天的24×60个指标值存为一行(一分钟数据,若是其他频率数据,相应调整,例如,对于3分钟数据,则只会存储24×20个指标值)。
S2、基于预先构建的数据清洗规则,利用Hadoop分布式平台对转换后的电能质量基础数据进行清洗,获得电能质量数据。
S3、对清洗后的电能质量数据按照日、月、年的维度进行计算,产生电能质量计算结果数据。
S4、基于所述预先构建的数据清洗规则,利用Hadoop分布式平台对所述电能质量计算结果数据进行清洗,获得最终的电能质量数据。
本实施例的电能质量数据清洗方法,通过从电能质量终端获取电能质量基础数据,将其按照统一数据格式进行转换并存储到Hadoop分布式平台;基于预先构建的数据清洗规则,利用Hadoop分布式平台对转换后的电能质量基础数据进行清洗,获得电能质量数据;对清洗后的电能质量数据按照日、月、年的维度进行计算,产生电能质量计算结果数据;基于预先构建的数据清洗规则,利用Hadoop分布式平台对电能质量计算结果数据进行清洗,获得最终的电能质量数据,由此,通过将电能质量基础数据按照统一数据格式进行转换存储,实现了异构电能质量数据兼容存储,同时提高了数据索引和查询效率;通过基于预先构建的数据清洗规则,利用Hadoop分布式平台对转换后的电能质量基础数据进行清洗,提高了数据清洗效率,保障电能质量数据的准确性,为后续电能质量数据的计算提供准确的数据基础;通过基于预先构建的数据清洗规则,利用Hadoop分布式平台对电能质量计算结果数据进行清洗,保障电能质量计算结果数据进行关联分析应用的准确性。
进一步地,在上述实施例的基础上,本实施例所述统一数据格式可以包括:行键、列和值;其中:
行键(rowkey):指标名称+监测点ID(标识)+对应频率+相别+采样率+值类型+精度与单位+时间量测;
列:时间偏移量;
值:量测值字面量,列值。
具体地,监测点ID、指标名称、对应频率、相别、采样率、值类型、精度与单位等信息编码可按照自行按一定标准进行定义,将电能质量基础数据进行转换时对相应信息按照编码规范(例如表2为一种编码规范表,其中示出了部分编码示例)进行转换,然后在行键中进行组合存储,例如可以参考表1,表1为统一数据格式的一种数据结构示例;时间量测可以取精度到日;时间偏移量列数可以以指标的采集频率进行相应调整。
表1
rowkey |
0 |
… |
100 |
… |
2359 |
01001100316321510211742 |
220.71 |
… |
223.12 |
… |
213.58 |
表2
指标名称 |
编码 |
未知 |
00000 |
电压有效值 |
01001 |
电压偏差 |
01002 |
有功功率 |
02001 |
无功功率 |
02002 |
视在功率 |
02003 |
功率因数 |
02004 |
电压总谐波畸变率 |
03001 |
电压偶次总谐波畸变率 |
03002 |
电压奇次总谐波畸变率 |
03003 |
基波电压有效值 |
03001 |
基波电压相角 |
03002 |
谐波电压有效值 |
04001 |
…… |
………… |
本实施例通过将电能质量基础数据按照统一数据格式进行转换存储,实现了异构电能质量数据兼容存储,同时提高了数据索引和查询效率。
进一步地,在上述实施例的基础上,在所述步骤S2之前,本实施例所述方法还可以包括:
预先构建数据清洗规则。
在具体应用中,本实施例所述数据清洗规则,可以包括:数据属性缺失规则和数据属性异常规则;
其中,所述数据属性缺失规则,包括:对于任意一条数据记录:若该条数据记录的行键(rowkey)存在属性值缺失,则不会产生该条数据记录;若该条数据记录的非行键存在属性值缺失,对于属性值缺失的任一属性,取该条数据记录中该属性前后相邻时刻数值的平均值替代该属性的属性值,若该属性前后相邻时刻数值也存在为空情况,则取不为空的相邻数据值替代该属性的属性值,若该条数据记录中非行键的属性值全部缺失,则剔除该条数据记录;
所述数据属性异常规则,包括:判断数据记录所有属性是否满足合理规则库中该属性对应的取值范围,所述合理规则库是根据常识性规则和业务特定规则预先构建的;若数据记录任一属性不满足合理规则库中该属性对应的取值范围,则确定该属性为异常,将该属性进行清除,然后按照所述数据属性缺失规则进行属性替代。例如,表3为一种合理规则库,若数据记录的某一属性不满足表3中数据项的取值范围,则确定该属性为异常。
表3
序号 |
数据项中文名 |
数据项的取值范围 |
|
频率 |
42.5~57.5 |
1 |
频率偏差 |
-7.5~7.5 |
2 |
相(线)电压有效值 |
0~150%U,U为监测点电压等级 |
3 |
电压偏差 |
-20%~20% |
4 |
单相功率因数 |
-1~1 |
5 |
单相基波功率因数 |
-1~1 |
6 |
三相功率因数 |
-1~1 |
7 |
基波功率因数 |
-1~1 |
8 |
电压总谐波畸变率 |
0~30% |
9 |
电流总谐波畸变率 |
|
10 |
相(线)电压基波有效值 |
0~150%U,U为监测点电压等级 |
11 |
相(线)电压基波相角 |
-180~180 |
12 |
2~50次谐波电压含有率 |
0~30% |
13 |
2~50次谐波电压相角 |
-180~180 |
14 |
2~50次间谐波电压含有率 |
0~30% |
15 |
正序、负序和零序电压 |
0~150%U,U为监测点电压等级 |
16 |
负序电压不平衡度 |
0~40% |
17 |
零序电压不平衡度 |
0~40% |
18 |
电压波动 |
0~40% |
19 |
短时间闪变值 |
0~20 |
20 |
长时间闪变值 |
0~20 |
21 |
电压暂降特征幅值 |
0~90% |
22 |
电压暂升特征幅值 |
110%~180% |
进一步地,在上述实施例的基础上,所述步骤S2,可以包括:
按照预先构建的数据清洗规则,从转换后的电能质量基础数据中获取待清洗数据;
根据所述数据清洗规则,在Hadoop分布式平台中对待清洗数据进行分布式清洗;
检验本次分布式清洗完成后的数据是否满足所述数据清洗规则;
若本次分布式清洗完成后的数据满足所述数据清洗规则,则将本次分布式清洗完成后的数据作为待清洗数据,返回所述根据所述数据清洗规则,在Hadoop分布式平台中对待清洗数据进行分布式清洗的步骤,直至本次分布式清洗完成后的数据不满足所述数据清洗规则,将本次分布式清洗完成后的数据作为电能质量数据输出。
可以理解的是,使用Hadoop分布式环境来实现集群的存储及计算,可以通过HDFS分布式文件系统实现对电能质量数据的存储和管理,通过Map/Reduce运行机制实现并行化。本实施例可以利用一个数据清洗引擎模块基于所述数据清洗规则进行数据的清洗,HDFS分布式文件系统一方面为数据清洗引擎模块提供了分布式计算的运行机制,另一方面负责中间输出文件的保存及管理。数据清洗引擎主要通过基于Hadoop的分布式计算,对整个数据集进行清洗,找出缺失或异常的属性值,并执行相应的数据清洗动作,最终将清洗后的数据通过接口或其他方式输出,数据清洗引擎主要包括几个子功能模块:数据加载模块、数据清洗模块、结果存储模块。其中:数据加载模块对数据进行再加载工作,将指定属性的数据加载到指定的Hadoop目录文件,输入数据来自于HDFS文件,输出数据也放于HDFS文件;数据清洗模块主要是针对海量数据清洗的属性清洗的,通过Hadoop分布式环境,找出缺失和异常的属性值,并结合相应的清洗规则继续分析处理;结果存储模块主要是将处理后的中间数据或最终数据结果,都通过该模块指定存放到对应的HDFS文件系统中,同时提供接口或其他方式,将清洗后的数据用于更高层的数据处理。
相应地,所述步骤S4,可以包括:
按照预先构建的数据清洗规则,从所述电能质量计算结果数据中获取待清洗数据;
根据所述数据清洗规则,在Hadoop分布式平台中对待清洗数据进行分布式清洗;
检验本次分布式清洗完成后的数据是否满足所述数据清洗规则;
若本次分布式清洗完成后的数据满足所述数据清洗规则,则将本次分布式清洗完成后的数据作为待清洗数据,返回所述根据所述数据清洗规则,在Hadoop分布式平台中对待清洗数据进行分布式清洗的步骤,直至本次分布式清洗完成后的数据不满足所述数据清洗规则,将本次分布式清洗完成后的数据作为最终的电能质量数据输出。
本实施例通过基于预先构建的数据清洗规则,利用Hadoop分布式平台对转换后的电能质量基础数据进行清洗,提高了数据清洗效率,保障电能质量数据的准确性,为后续电能质量数据的计算提供准确的数据基础;通过基于预先构建的数据清洗规则,利用Hadoop分布式平台对电能质量计算结果数据进行清洗,保障电能质量计算结果数据进行关联分析应用的准确性。
进一步地,在上述实施例的基础上,在所述步骤S4之后,本实施例所述方法还可以包括图中未示出的步骤:
利用预先构建的数据质量评价体系,对所述最终的电能质量数据的数据质量进行评价。
具体地,在利用预先构建的数据质量评价体系,对所述最终的电能质量数据的数据质量进行评价之前,本实施例所述方法还可以包括:
预先构建数据质量评价体系。
具体地,本实施例预先构建的数据质量评价体系,包括:数据质量评价指标和指标规则。
所述数据质量评价指标,可以包括:在线率、完整率、准确率和匹配率;其中:
在线率:主要表征电能质量监测点在线运行的情况;
完整率:描述各项电能质量数据的完备性程度,包括属性信息的完整性和数据记录数量的完整性,各项指标内容可参考表4;
准确率:描述各项电能质量数据的精确程度,包括属性信息的是否在业务合理值范围,各项指标内容见表4。
匹配率:描述不同数据相同业务含义数据的匹配程度。
所述指标规则,可以包括:
在线率:将在运监测点台账与采集的监测点指标数据进行关联,若统计期间在线监测点台账存在至少一条监测点指标,则判断为在线监测点,在线率=统计期间在线监测点数量/统计期间监测点总数量;
完整率:1)待清洗的存在属性缺失的电能质量基础数据及计算结果数据均计为不完整数据;2)根据采集频率计算监测点应获取的数据量减去实际获取数据总量为不完整数据;完整率=1-统计期间不完整数据/统计期间应获取数据量;
准确率:待清洗的存在属性异常的电能质量基础数据及计算结果数据均为不准确数据,准确率=1-统计期间不准确数据量/统计期间应获取数据。
匹配率:历史暂时事件告警数据和历史发生的暂态事件进行匹配,数据匹配率=暂态事件告警条目数量/暂态事件发生次数。
在具体应用中,可以按照所述数据质量评价体系,对各项指标进行自动计算,实现从不同维度评价电能质量数据质量。
本实施例通过对数据清洗过程中的问题数据记录进行保留,并制定数据质量评价方法,可实现对数据质量的事后评价,从而督促各企业从数据源端进行数据质量问题的解决;通过电能质量数据清洗和问题数据的整理评价,整体实现了在电能质量数据流转应用环节中,对电能质量数据质量问题的事前发现,事中处理和事后评价,全方位保障了电能质量数据的准确性,有效支撑电能质量的分析应用和管理决策。
本实施例的电能质量数据清洗方法,通过将电能质量基础数据按照统一数据格式进行转换存储,实现了异构电能质量数据兼容存储,同时提高了数据索引和查询效率;通过基于预先构建的数据清洗规则,利用Hadoop分布式平台对转换后的电能质量基础数据进行清洗,提高了数据清洗效率,保障电能质量数据的准确性,为后续电能质量数据的计算提供准确的数据基础;通过基于预先构建的数据清洗规则,利用Hadoop分布式平台对电能质量计算结果数据进行清洗,保障电能质量计算结果数据进行关联分析应用的准确性;通过对数据清洗过程中的问题数据记录进行保留,并制定数据质量评价方法,可实现对数据质量的事后评价,从而督促各企业从数据源端进行数据质量问题的解决;通过电能质量数据清洗和问题数据的整理评价,整体实现了在电能质量数据流转应用环节中,对电能质量数据质量问题的事前发现,事中处理和事后评价,全方位保障了电能质量数据的准确性,有效支撑电能质量的分析应用和管理决策。
图2示出了本发明一实施例提供的一种电能质量数据清洗装置的结构示意图,如图2所示,本实施例的电能质量数据清洗装置,包括:格式转换模块21、第一清洗模块22、计算模块23和第二清洗模块24;其中:
所述格式转换模块21,用于从电能质量终端获取电能质量基础数据,将所述电能质量基础数据按照统一数据格式进行转换并存储到Hadoop分布式平台;
所述第一清洗模块22,用于基于预先构建的数据清洗规则,利用Hadoop分布式平台对转换后的电能质量基础数据进行清洗,获得电能质量数据;
所述计算模块23,用于对清洗后的电能质量数据按照日、月、年的维度进行计算,产生电能质量计算结果数据;
所述第二清洗模块24,用于基于所述预先构建的数据清洗规则,利用Hadoop分布式平台对所述电能质量计算结果数据进行清洗,获得最终的电能质量数据。
具体地,所述格式转换模块21从电能质量终端获取电能质量基础数据,将所述电能质量基础数据按照统一数据格式进行转换并存储到Hadoop分布式平台;所述第一清洗模块22基于预先构建的数据清洗规则,利用Hadoop分布式平台对转换后的电能质量基础数据进行清洗,获得电能质量数据;所述计算模块23对清洗后的电能质量数据按照日、月、年的维度进行计算,产生电能质量计算结果数据;所述第二清洗模块24基于所述预先构建的数据清洗规则,利用Hadoop分布式平台对所述电能质量计算结果数据进行清洗,获得最终的电能质量数据。
本实施例的电能质量数据清洗装置,通过将电能质量基础数据按照统一数据格式进行转换存储,实现了异构电能质量数据兼容存储,同时提高了数据索引和查询效率;通过基于预先构建的数据清洗规则,利用Hadoop分布式平台对转换后的电能质量基础数据进行清洗,提高了数据清洗效率,保障电能质量数据的准确性,为后续电能质量数据的计算提供准确的数据基础;通过基于预先构建的数据清洗规则,利用Hadoop分布式平台对电能质量计算结果数据进行清洗,保障电能质量计算结果数据进行关联分析应用的准确性。
进一步地,在上述实施例的基础上,本实施例所述装置还可以包括图中未示出的:
第一构建模块,用于预先构建数据清洗规则。
可以理解的是,本实施例所述数据清洗规则可以参见上述方法实施例的具体说明,此处不再赘述。
可以理解的是,本实施例所述统一数据格式可以参见上述方法实施例的具体说明,此处不再赘述。
进一步地,在上述实施例的基础上,本实施例所述装置还可以包括图中未示出的:
评价模块,用于利用预先构建的数据质量评价体系,对所述最终的电能质量数据的数据质量进行评价。
进一步地,本实施例所述装置还可以包括图中未示出的:
第二构建模块,用于预先构建数据质量评价体系。
可以理解的是,本实施例所述预先构建的数据质量评价体系可以参见上述方法实施例的具体说明,此处不再赘述。
在具体应用中,本实施例可以按照所述数据质量评价体系,对各项指标进行自动计算,实现从不同维度评价电能质量数据质量。
本实施例的电能质量数据清洗装置,通过对数据清洗过程中的问题数据记录进行保留,并制定数据质量评价方法,可实现对数据质量的事后评价,从而督促各企业从数据源端进行数据质量问题的解决;通过电能质量数据清洗和问题数据的整理评价,整体实现了在电能质量数据流转应用环节中,对电能质量数据质量问题的事前发现,事中处理和事后评价,全方位保障了电能质量数据的准确性,有效支撑电能质量的分析应用和管理决策。
本实施例的电能质量数据清洗装置,通过将电能质量基础数据按照统一数据格式进行转换存储,实现了异构电能质量数据兼容存储,同时提高了数据索引和查询效率;通过基于预先构建的数据清洗规则,利用Hadoop分布式平台对转换后的电能质量基础数据进行清洗,提高了数据清洗效率,保障电能质量数据的准确性,为后续电能质量数据的计算提供准确的数据基础;通过基于预先构建的数据清洗规则,利用Hadoop分布式平台对电能质量计算结果数据进行清洗,保障电能质量计算结果数据进行关联分析应用的准确性;通过对数据清洗过程中的问题数据记录进行保留,并制定数据质量评价方法,可实现对数据质量的事后评价,从而督促各企业从数据源端进行数据质量问题的解决;通过电能质量数据清洗和问题数据的整理评价,整体实现了在电能质量数据流转应用环节中,对电能质量数据质量问题的事前发现,事中处理和事后评价,全方位保障了电能质量数据的准确性,有效支撑电能质量的分析应用和管理决策。
本实施例的电能质量数据清洗装置,可以用于执行前述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图3示出了本发明实施例提供的一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器31、存储器32、总线33及存储在存储器32上并可在处理器31上运行的计算机程序;
其中,所述处理器31,存储器32通过所述总线33完成相互间的通信;
所述处理器31执行所述计算机程序时实现上述各方法实施例所提供的方法,例如包括:从电能质量终端获取电能质量基础数据,将所述电能质量基础数据按照统一数据格式进行转换并存储到Hadoop分布式平台;基于预先构建的数据清洗规则,利用Hadoop分布式平台对转换后的电能质量基础数据进行清洗,获得电能质量数据;对清洗后的电能质量数据按照日、月、年的维度进行计算,产生电能质量计算结果数据;基于所述预先构建的数据清洗规则,利用Hadoop分布式平台对所述电能质量计算结果数据进行清洗,获得最终的电能质量数据。
本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例所提供的方法,例如包括:从电能质量终端获取电能质量基础数据,将所述电能质量基础数据按照统一数据格式进行转换并存储到Hadoop分布式平台;基于预先构建的数据清洗规则,利用Hadoop分布式平台对转换后的电能质量基础数据进行清洗,获得电能质量数据;对清洗后的电能质量数据按照日、月、年的维度进行计算,产生电能质量计算结果数据;基于所述预先构建的数据清洗规则,利用Hadoop分布式平台对所述电能质量计算结果数据进行清洗,获得最终的电能质量数据。
本领域内的技术人员应明白,本申请的实施例可提供为方法、装置、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、装置、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置/系统。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。