CN114090562A - 一种电力营销数据的清洗方法及装置 - Google Patents
一种电力营销数据的清洗方法及装置 Download PDFInfo
- Publication number
- CN114090562A CN114090562A CN202111406786.3A CN202111406786A CN114090562A CN 114090562 A CN114090562 A CN 114090562A CN 202111406786 A CN202111406786 A CN 202111406786A CN 114090562 A CN114090562 A CN 114090562A
- Authority
- CN
- China
- Prior art keywords
- data
- cleaned
- power marketing
- marketing data
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 77
- 238000004140 cleaning Methods 0.000 title claims abstract description 42
- 230000002159 abnormal effect Effects 0.000 claims abstract description 103
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 27
- 238000012937 correction Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000007689 inspection Methods 0.000 claims description 8
- 238000007619 statistical method Methods 0.000 claims description 8
- 238000011012 sanitization Methods 0.000 claims 3
- 230000002123 temporal effect Effects 0.000 claims 2
- 238000004458 analytical method Methods 0.000 description 19
- 230000005611 electricity Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 6
- 239000000126 substance Substances 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000005856 abnormality Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000005065 mining Methods 0.000 description 4
- 238000007405 data analysis Methods 0.000 description 3
- 238000007418 data mining Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000004128 high performance liquid chromatography Methods 0.000 description 1
- 238000010234 longitudinal analysis Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000246 remedial effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Water Supply & Treatment (AREA)
- Strategic Management (AREA)
- Quality & Reliability (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种电力营销数据的清洗方法及装置,包括:对待清洗电力营销数据进行一致性检查,得到目标待清洗电力营销数据;基于所述目标待清洗电力营销数据的横向时间特征识别所述目标待清洗电力营销数据的缺失值;基于所述目标待清洗电力营销数据的纵向时间特征识别所述目标待清洗电力营销数据的异常值;基于动态时间规整算法补全所述缺失值和修正所述异常值。上述过程,基于标待清洗电力营销数据的纵向时间特征识别所述目标待清洗电力营销数据的异常值,可以提高伪异常数据识别的准确率,基于目标待清洗电力营销数据的横向时间特征识别所述目标待清洗电力营销数据的缺失值,可以提高缺失值补全的准确率。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种电力营销数据的清洗方法及装置。
背景技术
电力营销数据在采集过程中由于受通信信号强弱、电路连接是否良好等因素影响,存在缺失值或异常值;除此之外,在数据传输、存储、运算过程中,也可能产生缺失值或异常值。数据质量的好坏直接决定了模型预测和泛化能力的好坏。它涉及很多因素,包括:准确性、完整性、一致性、时效性、可信性和解释性。
为提高数据挖掘分析的精度,在进行数据分析挖掘前首先要进行数据清洗工作,对用电曲线数据中的缺失值和异常值进行处理。现有技术中,采用复杂的异常值识别(例如基于聚类的异常值识别)与数据补全算法(例如基于预测的补全方法)进行数据清洗,在异常值识别过程中,针对伪异常数据识别的准确率低,在数据补全过程中,针对连续缺失的数据补全的准确率低。
发明内容
有鉴于此,本发明提供了一种电力营销数据的清洗方法及装置,用以解决现有技术中,采用复杂的异常值识别(例如基于聚类的异常值识别)与数据补全算法(例如基于预测的补全方法)进行数据清洗,在异常值识别过程中,针对伪异常数据识别的准确率低,在数据补全过程中,针对连续缺失的数据补全的准确率低的问题。具体方案如下:
一种电力营销数据的清洗方法,包括:
对待清洗电力营销数据进行一致性检查,得到目标待清洗电力营销数据;
基于所述目标待清洗电力营销数据的横向时间特征识别所述目标待清洗电力营销数据的缺失值;
基于所述目标待清洗电力营销数据的纵向时间特征识别所述目标待清洗电力营销数据的异常值;
基于动态时间规整算法补全所述缺失值和修正所述异常值。
上述的方法,可选的,对待清洗电力营销数据进行一致性检查,包括:
通过预设的格式规则查验所述待清洗电力营销数据中的数据格式是否符合一致性条件;
基于对所述待清洗电力营销数据进行统计分析检查所述待清洗电力营销数据中是否存在重复数据;
根据与设定的取值规则判断所述待清洗电力营销数据中是否存在范围超界数据;
基于所述待清洗电力营销数据之间的关联关系,判断所述待清洗电力营销数据是否符合对应的业务逻辑。
上述的方法,可选的,基于所述目标待清洗电力营销数据的横向时间特征识别所述目标待清洗电力营销数据的缺失值,包括:
判断所述目标待清洗电力营销数据的横向时间数据序列中是否存在预设的数据缺失标识,若是,判断与所述数据缺失标识对应的位置存在缺失值,和/或;
判断所述目标待清洗电力营销数据的横向时间数据序列中是否存储于预设数量的数据,若否,所述目标待清洗电力营销数据中存在缺失值。
上述的方法,可选的,基于所述目标待清洗电力营销数据的纵向时间特征识别所述目标待清洗电力营销数据的异常值,包括:
在所述目标待清洗电力营销数据中识别预设时长的第一目标待清洗电力营销数据的待确定异常值;
获取与所述预设时长匹配的第二目标待清洗电力营销数据,基于所述第二目标待清洗电力营销数据判断所述待确定异常值是否为伪异常值;
若否,将所述待确定异常值作为所述目标待清洗电力营销数据的异常值。
上述的方法,可选的,基于动态时间规整算法补全所述缺失值和修正所述异常值,包括:
获取所述缺失值和所述异常值的当前时间点;
基于动态时间规整算法确定与所述当前时间点匹配的历史时间段;
计算与所述历史时间段相邻时间段和与所述当前时间点相邻的时间段中对应电力营销数据的比值;
基于所述比值和所述历史时间段中对应的电力营销数据补全所述缺失值和修正所述异常值。
一种电力营销数据的清洗装置,包括:
检查模块,用于对待清洗电力营销数据进行一致性检查,得到目标待清洗电力营销数据;
第一识别模块,用于基于所述目标待清洗电力营销数据的横向时间特征识别所述目标待清洗电力营销数据的缺失值;
第二识别模块,用于基于所述目标待清洗电力营销数据的纵向时间特征识别所述目标待清洗电力营销数据的异常值;
补全和修正模块,用于基于动态时间规整算法补全所述缺失值和修正所述异常值。
上述的装置,可选的,所述检查模块包括:
格式检查单元,用于通过预设的格式规则查验所述待清洗电力营销数据中的数据格式是否符合一致性条件;
数据检查单元,用于基于对所述待清洗电力营销数据进行统计分析检查所述待清洗电力营销数据中是否存在重复数据;
范围检查单元,用于根据与设定的取值规则判断所述待清洗电力营销数据中是否存在范围超界数据;
逻辑检查单元,用于基于所述待清洗电力营销数据之间的关联关系,判断所述待清洗电力营销数据是否符合对应的业务逻辑。
上述的装置,可选的,所述第一识别模块包括:
第一判断单元,用于判断所述目标待清洗电力营销数据的横向时间数据序列中是否存在预设的数据缺失标识,若是,判断与所述数据缺失标识对应的位置存在缺失值,和/或;
第二判断单元,用于判断所述目标待清洗电力营销数据的横向时间数据序列中是否存储于预设数量的数据,若否,所述目标待清洗电力营销数据中存在缺失值。
上述的装置,可选的,所述第二识别模块包括:
第一确定单元,用于在所述目标待清洗电力营销数据中识别预设时长的第一目标待清洗电力营销数据的待确定异常值;
获取和判断单元,用于获取与所述预设时长匹配的第二目标待清洗电力营销数据,基于所述第二目标待清洗电力营销数据判断所述待确定异常值是否为伪异常值;
第二确定单元,用于若否,将所述待确定异常值作为所述目标待清洗电力营销数据的异常值。
上述的装置,可选的,所述补全和修正模块包括:
获取单元,用于获取所述缺失值和所述异常值的当前时间点;
第三确定单元,用于基于动态时间规整算法确定与所述当前时间点匹配的历史时间段;
计算单元,用于计算与所述历史时间段相邻时间段和与所述当前时间点相邻的时间段中对应电力营销数据的比值;
补全和修正单元,用于基于所述比值和所述历史时间段中对应的电力营销数据补全所述缺失值和修正所述异常值。
与现有技术相比,本发明包括以下优点:
本发明公开了一种电力营销数据的清洗方法及装置,包括:对待清洗电力营销数据进行一致性检查,得到目标待清洗电力营销数据;基于所述目标待清洗电力营销数据的横向时间特征识别所述目标待清洗电力营销数据的缺失值;基于所述目标待清洗电力营销数据的纵向时间特征识别所述目标待清洗电力营销数据的异常值;基于动态时间规整算法补全所述缺失值和修正所述异常值。上述过程,基于标待清洗电力营销数据的纵向时间特征识别所述目标待清洗电力营销数据的异常值,可以提高伪异常数据识别的准确率,基于目标待清洗电力营销数据的横向时间特征识别所述目标待清洗电力营销数据的缺失值,可以提高缺失值补全的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例公开的一种电力营销数据的清洗方法流程图;
图2为现有技术中的一种箱线图示意图;
图3为本发明实施例公开的一种电力营销数据的清洗装置结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明公开了一种电力营销数据的清洗方法及装置,应用于对电力营销数据的清洗过程中,现有技术中,随着HPLC智能电能表的推广应用,用电客户数据得以完善,更好地支撑客户电力营销数据应用新模式,发挥电力大数据价值。而在采集过程中由于受通信信号强弱、电路连接是否良好等因素影响,存在缺失值或异常值;除此之外,在数据传输、存储、运算过程中,也可能产生缺失值或异常值。为提高数据挖掘分析的精度,在进行数据分析挖掘前首先要进行数据清洗工作,对电力营销用数据中的缺失值和异常值进行处理,其中,HPLC智能电表:即高速电力线载波电表,也称为宽带电力线载波电表,是在低压电力线上进行数据传输的宽带电力线载波技术,可实现频率为每15分钟的数据采集。异常值指数据集中的个别值,其取值明显偏离其余的观测值或其取值无业务意义。异常值也称为离群点
数据质量的好坏直接决定了模型预测和泛化能力的好坏。它涉及很多因素,包括:准确性、完整性、一致性、时效性、可信性和解释性。而在真实数据中,我们拿到的数据可能包含了大量的缺失值,可能包含大量的噪音,也可能因为人工录入错误导致有异常值存在,非常不利于算法模型的训练。数据清洗的结果是对各种脏数据进行对应方式的处理,得到标准的、干净的、完整的数据,提供给数据统计、数据挖掘等使用。
研究客户用电曲线数据清洗技术,提高采集数据质量。如果采用复杂的异常值识别(例如基于聚类的异常值识别)与数据补全算法(例如基于预测的补全方法)进行数据清洗,将耗费难以接受的计算空间和时间,但如果数据清洗方法过于简单又难以对数据进行准确清洗,而且还可能滤掉有用信息,导致数据清洗不准确。为了平衡海量数据清洗的准确性和时间空间复杂性,其中,数据补全指对缺失数据、异常数据通过插补、替换、删除等方式处理完善数据集。
本发明提供了一种电力营销数据的清洗方法,所述方法的执行流程如图1所示,包括步骤:
S101、对待清洗电力营销数据进行一致性检查,得到目标待清洗电力营销数据;
本发明实施例中,规则匹配是通过将目标对象与规则条件进行差异化比较的一种方法。获取目标对象,选定待匹配的规则,根据目标对象的数据结构,解析目标对象获得目标对象的属性值,匹配目标对象的属性值与规则条件的属性值。当满足规则条件时,目标对象可归并入类,并具有类的数据结构;当不满足规则条件时,目标对象即为待考察对象不可以直接归并入类。规则匹配在数据清洗中应用广泛,如对目标对象计数,当计数大于1时说明目标数据有重复;设定数据的最大值和最小值,识别取值范围超界的对象。
检查所述待清洗电力营销数据是否具有一致性是清洗过程的第一步。通过制定格式规则检查所述待清洗电力营销数据的数据格式是否符合一致性条件,筛选出格式错误的数据;基于数据的统计分析检查所述待清洗电力营销数据中是否存在重复数据;根据设定取值规则判断所述待清洗电力营销数据中是否存在范围超界数据,例如,取值规则根据业务含义确定。比如居民电压一般220V,实际中取值一般是220左右,如果某户的电压取值与220相差很大,那么该户取值超出取值范围,属于异常值。数据的模式异常识别方法简单易行,格式错误、数据重复等模式异常可以实现及时修正,对于范围超界的模式异常识别简单,修正时可基于S104所述方法或者其它优选的计算方法进行补全。
进一步的,不同的电力营销数据之间有相应的关联关系。如低压居民电力营销数据中的用电量等于功率的数值积分,户级光伏用户的收益等于发电量乘以发电补贴与上网电量乘以上网电价的和。而某些电力营销数据指标存在于多个源数据表,在场景实现中,不同数据操作人员引用同一个指标时,可能引用的源数据表不同,导致指标在数据展现的过程中可能已经做了处理(如变换单位)。通过指标间关联关系反向识别,根据反向计算结果与该指标之间的差值,应用误差分析判断该指标是否符合业务逻辑,并进行相应地修正,其中,误差分析的处理过程如下:
误差是真值(又称测量值)与参考值(如预测值)的差值。在数学中,误差分析是对解决问题可能存在的错误或不确定性的种类和数量的研究。在数值分析和统计分析等应用领域中为检验模型算法的分析挖掘可靠性时,误差分析的重要性尤为突出。误差分析离不开准确度这个指标,准确度是分析结果与真值的相符程度。误差越小,表示分析结果的准确度越高,分析结果的可靠性越高。
常用的误差计算方法有:
绝对误差
相对误差
基于上述的处理,将所述待清洗电力营销数据转换为目标待清洗电力营销数据。
S102、基于所述目标待清洗电力营销数据的横向时间特征识别所述目标待清洗电力营销数据的缺失值;
本发明实施例中,缺失值一般在数据表中的存在形式有两种。一种是数据在横向时间上是完整的,缺失的数据由特殊符号(如空值)或者数值填充(如用9999填充);另一种采集数据在时间上是非连续的,数据集中不展示缺失值,也就是在横向时间上数据不完整,例如96点数据,每15分钟采集一个点,24小时内采集96个数据,当某时刻发生数据缺失时,此时在数据集中显示的采集数据个数少于96。第一种数据缺失情形通过设定规则是易识别的,而第二种的数据缺失情况具有一定的隐蔽性,尤其在数据量较大的情况下,需要根据数据的时间特征定位到缺失数据的横向位置。第二种缺失值是数据量上的缺失,识别方法可以通过时间序列统计来进行,如,以原数据为某日电力营销数据为例,一条记录包含96(预设数量)个采集点,判断一条记录是否存在缺失值,可以根据这一条记录中的采集点个数来判断,当采集点个数小于96时,可以判断这条记录存在缺失值。本发明中应用了描述性统计的方法,根据计数、最大值、最小值、等间隔序列等计算结果,定位缺失值所在的横向和纵向位置。
S103、基于所述目标待清洗电力营销数据的纵向时间特征识别所述目标待清洗电力营销数据的异常值;
本发明实施例中,传统的电力营销数据清洗方法只关注数据层面的数据异常,而电力营销数据由用电用户实际使用所产生,不同用电群体的使用习惯不同,存在某些类别用户的电力营销数据特征与绝大多数的用户的用电特征不同,因此缺少业务解释,易导致识别出具有实际意义的“伪异常”。
本发明充分考虑电力营销数据的业务意义,在实际清洗过程中,从不同维度入手,识别异常值,具体的识别过程如下:
异常值产生的原因有两种,一种是采集设备故障、传输信号不佳、用电操作错误等导致的源数据为异常数据,如低压居民用电数据的电压为220V,由于采集原因造成电压A、B、C三项的数值均为0,可以判断该条数据为异常值;另一种异常值是人为异常,常见地发生在数据库操作过程中,当涉及到信息录入时同样容易产生异常值。实际分析过程中,经常发现“伪异常”,例如低压居民用户家中添置了新的电器,使得电量数据较前期明显的升高,此时很容易将该居民的近期用电数据识别为异常值。
所述目标待清洗电力营销数据的纵向时间特征表现在相同时刻的历史数据特征具有一定的一致性,通过分析过去一段时间预设时长内相同时刻的取值情况,来判断该时刻取值是否满足历史发生规律。具体的处理过程如下:在所述目标待清洗电力营销数据中识别预设时长的第一目标待清洗电力营销数据的待确定异常值;获取与所述预设时长匹配的第二目标待清洗电力营销数据,基于所述第二目标待清洗电力营销数据判断所述待确定异常值是否为伪异常值,具体的判断过程如下:对于高频采集的目标待清洗电力营销数据,基于箱线图区间化取值,结合温度、节假日等信息,挖掘数据的纵向特征,识别所述目标待清洗电力营销数据的异常值,例如,纵向特征,如原始数据中,一天一条记录(96个采集点),采集间隔为15分钟,即采集时刻为0:00,0:15,0:30,0:45....,横向特征是将一条记录为分析对象,而纵向特征是以每天的相同时刻的数据为分析对象,比如0:00时刻的纵向分析,数据为9月9日0:00,9月8日0:00,9月7日0:00...等时刻的采集数据。
以居民用电数据为例,考虑温度、节假日因素,如温度划分几个档(0度以下、0-25度,25度以上),不同温度条件下,用电特征是不同的;节假日因素,如春节、国庆节等对用电也有很大影响。这些因素需要考虑进去,可以在各个因素下,依据具体的应用场景进行分析,本发明实施例中不进行具体限定。在统计上,箱线图包含的箱体、上下边缘线、超过边缘线的部分定义为异常值如图2所示,纵坐标取值为40、60、80和100,箱线图法对数据没有限制,不需要事先假定数据服从特定的分布形式。在下边缘与异常值之间和上边缘与异常值之间为温和异常值,在异常值之外就属于极端异常值,下边缘与上边缘之间为正常值,且四分位数具有一定的抗耐性,因此在一般应用上,常将上四分位数和下四分位数所对应的数据作为合理数据区域,其中上下四分位数之间的部分称之为箱体部分。
但是在具体的电力营销数据分析中,考虑到业务意义可根据需求调整箱体大小、上下边缘为特定的统计量,为减少“伪异常”数据的出现,需要充分引入业务含义。
若所述待确定异常值满足图2所示箱线图异常值的取值范围,则将所述待确定异常值作为所述目标待清洗电力营销数据的异常值。
S104、基于动态时间规整算法补全所述缺失值和修正所述异常值。
本发明实施例中,缺失值的产生一般有两种途径。一是在数据的存储过程中(如数据库操作、人工录入等),对数据的遗漏导致数据缺失;二是在数据采集的过程中,由于采集设备、传输信号等原因造成源数据中缺失该采集数据。对于第一种缺失的数据,可以采取溯源的方法找到数据缺失的源数据,如通过表关联找到源数据表或者通过重新录入等方式补全缺失数据。对于第二种缺失原因,我们无法通过采取补救措施将缺失值进行补全的,需要对缺失数据进行补全。同时对于具有分析意义的异常值也需要进行修正补全。
对海量电力营销数据进行数据清洗既要考虑清洗结果的准确性,也要考虑清洗过程的时间空间复杂度。基于用电业务的特点和数据分析挖掘的规律,在该方法中合理地假设用电客户在相同节假日属性和气温属性下的用电习惯也是相似的。
基于动态时间规整的目标待清洗电力营销数据清洗技术的具体处理过程如下:
动态时间规整DTW(Dynamic Time Warping)是一种衡量两个长度不同的时间序列X=(x1,…,xi,…,xm)和Y=(y1,…,yj,…,yn)的相似度的方法。DTW通过把时间序列进行延伸和缩短,来计算两个时间序列之间的相似性。动态时间规整DTW是一个典型的优化问题,求解两模板匹配时累计距离最小所对应的规整函数D(i,j),它表示为序列X上点i和Y上的点j之间的规整路径距离:
D(i,j)=Dist(i,j)+min{D(i-1,j),D(i,j-1),D(i-1,j-1)} (3)
其中Dist(i,j)为X上点i和Y上的点j之间的欧式距离。
DTW算法的步骤为:
①计算两个序列各个点之间的距离矩阵。
②寻找一条从矩阵左上角到右下角的路径,使得路径上的元素和最小。
首先以区域为维度,根据区域节假日属性和气温属性,利用动态时间规整算法对当前日期序列和同期日期时间序列进行动态时间规整,得到当前日期与同期最相似日期的匹配关系,当前日期的节假日、气温属性与同期最相似日期的节假日、气温属性非常相似,基于前述假设,该区域内用电客户当前日期的用电习惯与同期最相似日期的用电习惯也是相似的;然后基于S102和S103分析过程,识别缺失值和异常值;最后针对存在缺失值和异常值的目标待清洗电力营销数据,根据计算需补全日期需补全时刻点的相邻时段目标待清洗电力营销数据与区域历史相似日期该用电客户在该时刻点的相邻时段电力营销数据计算比值,基于数据比值与历史相似日期同一时刻点的电力营销数据计算补全数据,实现对缺失值和异常值的补全。
由于区域数量较少,利用较为复杂的动态时间规整算法以区域为维度进行相似日期匹配的总体计算复杂度是可接受的。因此,本发明提出的基于动态时间规整的电力营销数据清洗技术能够实现对海量用电曲线数据的快速、准确清洗。
本发明公开了一种电力营销数据的清洗方法,包括:对待清洗电力营销数据进行一致性检查,得到目标待清洗电力营销数据;基于所述目标待清洗电力营销数据的横向时间特征识别所述目标待清洗电力营销数据的缺失值;基于所述目标待清洗电力营销数据的纵向时间特征识别所述目标待清洗电力营销数据的异常值;基于动态时间规整算法补全所述缺失值和修正所述异常值。上述过程,基于标待清洗电力营销数据的纵向时间特征识别所述目标待清洗电力营销数据的异常值,可以提高伪异常数据识别的准确率,基于目标待清洗电力营销数据的横向时间特征识别所述目标待清洗电力营销数据的缺失值,可以提高缺失值补全的准确率。
本发明实施例中,采用规则匹配、统计计算、误差分析、动态时间规整等算法,提出一种电力营销数据的清洗方法,从正向和反向两种切入方向进行数据清洗。其中,通过正向识别方法识别出数据模式异常(格式错误、数据重复、范围超界等);通过反向识别方法识别出不符合业务逻辑的“真异常”。本发明以区域为维度,根据区域节假日属性和气温属性,利用动态时间规整算法对当前日期序列和同期日期时间序列进行动态时间规整,得到当前日期与同期最相似日期的匹配关系,进而完成缺失值/异常值的补全。
基于上述的一种电力营销数据的清洗方法,本发明实施例中,还提供了一种电力营销数据的清洗装置,所述清洗装置的结构框图如图3所示,包括:
检查模块201、第一识别模块202、第二识别模块203和补全和修正模块204。
其中,
所述检查模块201,用于对待清洗电力营销数据进行一致性检查,得到目标待清洗电力营销数据;
所述第一识别模块202,用于基于所述目标待清洗电力营销数据的横向时间特征识别所述目标待清洗电力营销数据的缺失值;
所述第二识别模块203,用于基于所述目标待清洗电力营销数据的纵向时间特征识别所述目标待清洗电力营销数据的异常值;
所述补全和修正模块204,用于基于动态时间规整算法补全所述缺失值和修正所述异常值。
本发明公开了一种电力营销数据的清洗装置,包括:对待清洗电力营销数据进行一致性检查,得到目标待清洗电力营销数据;基于所述目标待清洗电力营销数据的横向时间特征识别所述目标待清洗电力营销数据的缺失值;基于所述目标待清洗电力营销数据的纵向时间特征识别所述目标待清洗电力营销数据的异常值;基于动态时间规整算法补全所述缺失值和修正所述异常值。上述过程,基于标待清洗电力营销数据的纵向时间特征识别所述目标待清洗电力营销数据的异常值,可以提高伪异常数据识别的准确率,基于目标待清洗电力营销数据的横向时间特征识别所述目标待清洗电力营销数据的缺失值,可以提高缺失值补全的准确率。
本发明实施例中,所述检查模块201包括:
格式检查单元205、数据检查单元206、范围检查单元207和逻辑检查单元208。
其中,
所述格式检查单元205,用于通过预设的格式规则查验所述待清洗电力营销数据中的数据格式是否符合一致性条件;
所述数据检查单元206,用于基于对所述待清洗电力营销数据进行统计分析检查所述待清洗电力营销数据中是否存在重复数据;
所述范围检查单元207,用于根据与设定的取值规则判断所述待清洗电力营销数据中是否存在范围超界数据;
所述逻辑检查单元208,用于基于所述待清洗电力营销数据之间的关联关系,判断所述待清洗电力营销数据是否符合对应的业务逻辑。
本发明实施例中,所述第一识别模块202包括:
第一判断单元209和第二判断单元210。
其中,
所述第一判断单元209,用于判断所述目标待清洗电力营销数据的横向时间数据序列中是否存在预设的数据缺失标识,若是,判断与所述数据缺失标识对应的位置存在缺失值,和/或;
所述第二判断单元210,用于判断所述目标待清洗电力营销数据的横向时间数据序列中是否存储于预设数量的数据,若否,所述目标待清洗电力营销数据中存在缺失值。
本发明实施例中,所述第二识别模块203包括:
第一确定单元211、获取和判断单元212和第二确定单元213。
其中,
所述第一确定单元211,用于在所述目标待清洗电力营销数据中识别预设时长的第一目标待清洗电力营销数据的待确定异常值;
所述获取和判断单元212,用于获取与所述预设时长匹配的第二目标待清洗电力营销数据,基于所述第二目标待清洗电力营销数据判断所述待确定异常值是否为伪异常值;
所述第二确定单元213,用于若否,将所述待确定异常值作为所述目标待清洗电力营销数据的异常值。
本发明实施例中,所述补全和修正模块204包括:
获取单元214、第三确定单元215、计算单元216和补全和修正单元217。
其中,
所述获取单元214,用于获取所述缺失值和所述异常值的当前时间点;
所述第三确定单元215,用于基于动态时间规整算法确定与所述当前时间点匹配的历史时间段;
所述计算单元216,用于计算与所述历史时间段相邻时间段和与所述当前时间点相邻的时间段中对应电力营销数据的比值;
所述补全和修正单元217,用于基于所述比值和所述历史时间段中对应的电力营销数据补全所述缺失值和修正所述异常值。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种电力营销数据的清洗方法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种电力营销数据的清洗方法,其特征在于,包括:
对待清洗电力营销数据进行一致性检查,得到目标待清洗电力营销数据;
基于所述目标待清洗电力营销数据的横向时间特征识别所述目标待清洗电力营销数据的缺失值;
基于所述目标待清洗电力营销数据的纵向时间特征识别所述目标待清洗电力营销数据的异常值;
基于动态时间规整算法补全所述缺失值和修正所述异常值。
2.根据权利要求1所述的方法,其特征在于,对待清洗电力营销数据进行一致性检查,包括:
通过预设的格式规则查验所述待清洗电力营销数据中的数据格式是否符合一致性条件;
基于对所述待清洗电力营销数据进行统计分析检查所述待清洗电力营销数据中是否存在重复数据;
根据与设定的取值规则判断所述待清洗电力营销数据中是否存在范围超界数据;
基于所述待清洗电力营销数据之间的关联关系,判断所述待清洗电力营销数据是否符合对应的业务逻辑。
3.根据权利要求1所述的方法,其特征在于,基于所述目标待清洗电力营销数据的横向时间特征识别所述目标待清洗电力营销数据的缺失值,包括:
判断所述目标待清洗电力营销数据的横向时间数据序列中是否存在预设的数据缺失标识,若是,判断与所述数据缺失标识对应的位置存在缺失值,和/或;
判断所述目标待清洗电力营销数据的横向时间数据序列中是否存储于预设数量的数据,若否,所述目标待清洗电力营销数据中存在缺失值。
4.根据权利要求1所述的方法,其特征在于,基于所述目标待清洗电力营销数据的纵向时间特征识别所述目标待清洗电力营销数据的异常值,包括:
在所述目标待清洗电力营销数据中识别预设时长的第一目标待清洗电力营销数据的待确定异常值;
获取与所述预设时长匹配的第二目标待清洗电力营销数据,基于所述第二目标待清洗电力营销数据判断所述待确定异常值是否为伪异常值;
若否,将所述待确定异常值作为所述目标待清洗电力营销数据的异常值。
5.根据权利要求1所述的方法,其特征在于,基于动态时间规整算法补全所述缺失值和修正所述异常值,包括:
获取所述缺失值和所述异常值的当前时间点;
基于动态时间规整算法确定与所述当前时间点匹配的历史时间段;
计算与所述历史时间段相邻时间段和与所述当前时间点相邻的时间段中对应电力营销数据的比值;
基于所述比值和所述历史时间段中对应的电力营销数据补全所述缺失值和修正所述异常值。
6.一种电力营销数据的清洗装置,其特征在于,包括:
检查模块,用于对待清洗电力营销数据进行一致性检查,得到目标待清洗电力营销数据;
第一识别模块,用于基于所述目标待清洗电力营销数据的横向时间特征识别所述目标待清洗电力营销数据的缺失值;
第二识别模块,用于基于所述目标待清洗电力营销数据的纵向时间特征识别所述目标待清洗电力营销数据的异常值;
补全和修正模块,用于基于动态时间规整算法补全所述缺失值和修正所述异常值。
7.根据权利要求6所述的装置,其特征在于,所述检查模块包括:
格式检查单元,用于通过预设的格式规则查验所述待清洗电力营销数据中的数据格式是否符合一致性条件;
数据检查单元,用于基于对所述待清洗电力营销数据进行统计分析检查所述待清洗电力营销数据中是否存在重复数据;
范围检查单元,用于根据与设定的取值规则判断所述待清洗电力营销数据中是否存在范围超界数据;
逻辑检查单元,用于基于所述待清洗电力营销数据之间的关联关系,判断所述待清洗电力营销数据是否符合对应的业务逻辑。
8.根据权利要求6所述的装置,其特征在于,所述第一识别模块包括:
第一判断单元,用于判断所述目标待清洗电力营销数据的横向时间数据序列中是否存在预设的数据缺失标识,若是,判断与所述数据缺失标识对应的位置存在缺失值,和/或;
第二判断单元,用于判断所述目标待清洗电力营销数据的横向时间数据序列中是否存储于预设数量的数据,若否,所述目标待清洗电力营销数据中存在缺失值。
9.根据权利要求6所述的装置,其特征在于,所述第二识别模块包括:
第一确定单元,用于在所述目标待清洗电力营销数据中识别预设时长的第一目标待清洗电力营销数据的待确定异常值;
获取和判断单元,用于获取与所述预设时长匹配的第二目标待清洗电力营销数据,基于所述第二目标待清洗电力营销数据判断所述待确定异常值是否为伪异常值;
第二确定单元,用于若否,将所述待确定异常值作为所述目标待清洗电力营销数据的异常值。
10.根据权利要求6所述的装置,其特征在于,所述补全和修正模块包括:
获取单元,用于获取所述缺失值和所述异常值的当前时间点;
第三确定单元,用于基于动态时间规整算法确定与所述当前时间点匹配的历史时间段;
计算单元,用于计算与所述历史时间段相邻时间段和与所述当前时间点相邻的时间段中对应电力营销数据的比值;
补全和修正单元,用于基于所述比值和所述历史时间段中对应的电力营销数据补全所述缺失值和修正所述异常值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111406786.3A CN114090562A (zh) | 2021-11-24 | 2021-11-24 | 一种电力营销数据的清洗方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111406786.3A CN114090562A (zh) | 2021-11-24 | 2021-11-24 | 一种电力营销数据的清洗方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114090562A true CN114090562A (zh) | 2022-02-25 |
Family
ID=80304133
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111406786.3A Pending CN114090562A (zh) | 2021-11-24 | 2021-11-24 | 一种电力营销数据的清洗方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114090562A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114936211A (zh) * | 2022-07-19 | 2022-08-23 | 深圳市星卡软件技术开发有限公司 | 一种汽车诊断数据处理方法、装置、设备及介质 |
-
2021
- 2021-11-24 CN CN202111406786.3A patent/CN114090562A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114936211A (zh) * | 2022-07-19 | 2022-08-23 | 深圳市星卡软件技术开发有限公司 | 一种汽车诊断数据处理方法、装置、设备及介质 |
CN114936211B (zh) * | 2022-07-19 | 2022-11-01 | 深圳市星卡软件技术开发有限公司 | 一种汽车诊断数据处理方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Azeroual et al. | Data quality measures and data cleansing for research information systems | |
CN111061821B (zh) | 基于改进k值聚类算法的低压配电网拓扑校验方法及系统 | |
JP6467186B2 (ja) | データストリームにおける不良データを検出、訂正、および検査するためのシステムおよび方法 | |
CN108020752B (zh) | 一种基于多源贯通相关性的配线线损诊断方法及系统 | |
US20150046249A1 (en) | Method and system for measuring web advertising effect based on multiple-contact attribution model | |
CN107832927B (zh) | 基于灰色关联分析法的10kV线路线变关系评价方法 | |
TWI663570B (zh) | 用電分析伺服器及其用電分析方法 | |
CN112257013A (zh) | 高损台区基于动态时间弯曲算法的窃电用户识别定位方法 | |
CN114090562A (zh) | 一种电力营销数据的清洗方法及装置 | |
CN113985339A (zh) | 智能电表的误差诊断方法及系统、设备、存储介质 | |
CN116995653A (zh) | 一种基于ddtw距离的低压台区相户拓扑识别方法 | |
CN109902133B (zh) | 基于电网任意分割区域的多源数据纠错处理方法及系统 | |
CN114266457A (zh) | 一种配电线路异损诱因检测的方法 | |
CN117708735A (zh) | 一种基于多点校核的量测数据拟合方法、介质及系统 | |
CN116051185B (zh) | 广告位数据的异常检测与筛选方法 | |
CN112345972A (zh) | 基于停电事件的配电网线变关系异常诊断方法、装置及系统 | |
CN112598227A (zh) | 一种基于电力数据的电力经济指数构建方法及系统 | |
CN116632836A (zh) | 一种基于温度敏感性的公变台区负载率预测系统 | |
CN115496358A (zh) | 电能表在线误差远程估计测试数据生成方法、装置和设备 | |
CN115545240A (zh) | 一种低压配电网台区异常线损诊断方法、系统、设备及介质 | |
CN115166625A (zh) | 智能电表误差估计方法及装置 | |
Alquthami et al. | Importance of smart meters data processing–case of saudi arabia | |
CN110717244B (zh) | 基于平均偏离度算法的数据信任度分析计算机仿真方法 | |
CN112132442A (zh) | 一种间歇启停电热工况下负荷辨识效果的评价方法 | |
CN111459925A (zh) | 一种园区综合能源异常数据组合式插补方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |