CN114626429A

CN114626429A - 一种新能源大数据分类与可疑数据处理方法

Info

Publication number: CN114626429A
Application number: CN202110934715.4A
Authority: CN
Inventors: 习新魁; 马斌; 袁龙; 孔祥玉; 袁健; 徐俊杰; 周超; 王宁
Original assignee: State Grid Corp of China SGCC; State Grid Hebei Electric Power Co Ltd; NARI Nanjing Control System Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Hebei Electric Power Co Ltd; NARI Nanjing Control System Co Ltd
Priority date: 2021-08-16
Filing date: 2021-08-16
Publication date: 2022-06-14

Abstract

本发明涉及一种新能源大数据分类与可疑数据处理方法，包括以下步骤：(1)数据预处理；(2)分类，基于用户的负荷分类包括多用户分类和单用户多时段分类，获得聚类有效性指标；(3)FCM聚类分析，根据前面确定的聚类有效性指标，计算聚类结果的变化，得出最佳分类结果，并计算得出最佳分类结果对应的典型日负荷曲线；(4)加权FCM聚类分析，得到新能源数据特征指标；(5)异常值处理；(6)缺失值处理；(7)归一化处理。本方法利用FCM聚类得到分类结果，同时对于聚类结果有效性的检验，从而得到最优的分类结果。针对可疑数据，研究可疑数据的处理方法，为后续的新能源数据特征分析和综合核查体系的构建提供高质量的数据。

Description

一种新能源大数据分类与可疑数据处理方法

技术领域

本发明属于气象研究技术领域，尤其是一种新能源大数据分类与可疑数据处理方法。

背景技术

在电力系统中，几乎所有对负荷的研究都是基于原始数据的。因此，原始数据的正确与否决定了研究结果的精度。而目前，原始数据通常直接来源于EMS/SCADA系统中实时采集的数据，由于动态数据采集有时会出现通道故障、拥堵等现象，此外数据采集程序中断也会造成原始数据的错误。目前缺乏准确有效的分类方法，导致用于研究的初始数据的精度不足，尤其是在新能源环境下，缺乏有效的分类及处理方法。

经过检索，发现以下相近领域的已公开专利文献：

基于k-means算法的电力数据分类方法及系统(CN110796159A)，本发明涉及计算机领域，尤其涉及基于朴素贝叶斯算法的电力数据分类方法及系统，包括：S1：从电力公司的电力系统中获取数据并生成数据集；S2：从数据集中取数据子集，并作增量式训练，所述数据子集；S3：计算各类别Ck在数据子集中的频率；S4：将数据子集划分成K个子数据子集，计算出其中第j个特征Xj＝ajl的概率；S5：计算其对于每个类别Ck的后验概率，概率值最大的类别即为待预测样本的预测类别；S6：在数据集中去掉当前数据子集，并判断数据集是否为空，若非空则进入步骤S2，若空则结束分类。本发明针对各种特征采用极大似然估计来表示各种分类的概率，再选取概率值最大的类别即为待预测样本的预测类别，能够迅速准确的实现数据的分类。

对比分析可知，现有方法与本专利方法的研究目的不同，采用的具体技术方案也存在明显区别。

发明内容

本发明的目的在于克服现有技术的不足之处，提供一种以提高调度控制系统的安全稳定为目标的新能源大数据分类与可疑数据处理方法，为后续的新能源数据特征分析和综合核查体系的构建提供高质量的数据。

本发明解决其技术问题是采取以下技术方案实现的：

一种新能源大数据分类与可疑数据处理方法，其特征在于：包括以下步骤：

(1)对能源大数据进行预处理；

(2)分类，基于用户的负荷分类包括多用户分类和单用户多时段分类，获得聚类有效性指标；

(3)FCM聚类分析，根据前面确定的聚类有效性指标，计算聚类结果的变化，得出最佳分类结果，并计算得出最佳分类结果对应的典型日负荷曲线；

(4)加权FCM聚类分析，得到新能源数据特征指标；

(5)异常值处理；

(6)缺失值处理；

(7)归一化处理。

而且，所述步骤(1)对能源大数据数据预处理，数据来源包括发电计量数据，基于EMS/SCADA系统获取的电网电量数据，以及非电量气象数据，对于其中任一类型数据，具体包括以下预处理步骤：

①不良数据辨识；

②不良数据的修正；

③划分日类型，是按工作日与非工作日划分开类型；

④预处理数据的归一化处理。

而且，所述①不良数据辨识的具体步骤为，对于采样点为m的负荷数据，提取负荷特征曲线为各个聚类中心的所有采样点的连线v_i＝{v_i,1,v_i,2,…,v_i,m}，再通过训练已经聚类好的负荷曲线及特征曲线得到一个正常负荷数据存在的可行域，具体步骤为：

1)对于一个具有n个历史负荷数据的样品集合X＝{x₁,x₂,…,x_n}，针对第i个分类，计算出该类负荷数据在同一时刻的最大值和最小值：

2)对于聚类完成后形成的特征曲线v_i，应用式(4-1)计算出可行域的上下限：

3)利用计算出的可行域上下限形成负荷分类的可行域矩阵，对于第i类曲线其可行域矩阵为：

可行域矩阵的每一列元素，表征的是该时刻负荷数据处于正常曲线模式的阈值范围

进行不良数据辨识时，对于待核查负荷数据x_new＝(x_new,1,x_new,2,…,x_new,m)，计算x_new与每一个聚类中心v_i的相关性，据此判断所属聚类，当x_new第j个分量满足x_new,j≥v_i,j时，此时负荷曲线在特征曲线上部，利用式(4-3)计算上限：

当第j个分量满足x_new,j≤v_i,j时，负荷曲线在特征曲线下部，利用式(4-5)计算下限：

当上下限均在可行域范围内时，则认为待检数据是正常的，无不良数据；当出现越限情况时，从而辨识出不良数据。

进一步，所述②不良数据的修正，采用纵向比较修正法对不良数据进行修正，设采集的负荷曲线为x_i＝(x_i,1,x_i,2,…,x_i,m)，其中第j个负荷采集量x_i,j发生异常，将其修正的公式为：

其中，

和

分别为前一天该样本在第j和第j-1时刻的历史数据。

进一步，所述④预处理数据的归一化处理，选取日负荷曲线的最大值作为归一化参数，具体操作如下，记最大负荷为P_max，第h时刻的负荷为P_h(h＝1,2,…,24)，取P_max为标准化因子，对负荷曲线进行归一化处理，则有

其中x_h为归一化后的负荷曲线在第h时刻的值，将对电力系统用户的分类转化为对用户负荷曲线的分类。

进一步，所述(2)分类方法包括：(1)SOM法；(2)K-Means聚类；(3)模糊C均值聚类。

进一步，所述(3)FCM聚类分析，根据前面确定的聚类有效性指标，计算聚类结果从2类到20类过程中P'(U；c)的变化，得出当c＝13时P'(U；c)有最大值，样本数据的最佳分类结果为13类，计算每一类负荷曲线的算术平均值作为该类用户的典型日负荷曲线，得到13种用户负荷类型的典型日负荷曲线，根据典型日负荷曲线确定相应的各类型负荷的部分负荷特性指标，能够将特殊性质的曲线划分出来。

进一步，所述(4)加权FCM聚类分析，考虑不同时段负荷的重要性，使得在特定时段具有最接近负荷特性的用户划分到一类，设定负荷曲线各点的权值为ω_i＝1， (i＝0,1,2,3,4,5,6,7,21,22,23)，ω_i＝5i＝8,9,…,20，采用加权欧式距离聚类方法对样本数据重新分类。

进一步，所述(5)异常值处理方法：若时间序列中出现20％以上为负值，则将该时间序列删除；若少于20％为负值，则视为缺失值。

进一步，所述(7)归一化处理，数据经过数据标准化处理后，各指标处于同一数量级，采用min-max标准化归一化方法，通过对原始数据的线性变换，使结果值映射到[0,1]之间，转换函数为：

式中：x为实际的负荷量测数据；x_max为样本数据的最大值；x_min为样本数据的最小值；x^*为归一化后的用电数据。

本发明的优点和积极效果是：

本方法基于新能源大数据的多维度数据分类的概念，从数据特性曲线、空间维度出发进行分析，研究新能源大数据分类与可疑数据处理方法实现对用户进行精细化数据特征挖掘。利用FCM聚类得到分类结果，同时对于聚类结果有效性的检验，从而得到最优的分类结果，针对可疑数据，研究可疑数据的处理方法，为后续的新能源数据特征分析和综合核查体系的构建提供高质量的数据。

附图说明

图1为本方法的流程图；

图2为样本数据的分类结果；

图3为13种类型用户的典型日负荷曲线；

图4为P'(U；c)随聚类结果的变化值；

图5为样本加权FCM聚类的结果。

具体实施方式

下面结合附图并通过具体实施例对本发明作进一步详述，以下实施例只是描述性的，不是限定性的，不能以此限定本发明的保护范围。

一种新能源大数据分类与可疑数据处理方法，包括以下步骤：

新能源大数据的分类分析

Ⅰ数据预处理

在电力系统中，几乎所有对负荷的研究都是基于原始数据的。因此，原始数据的正确与否决定了研究结果的精度。数据来源包括风力、光伏等发电计量数据，基于EMS/SCADA系统获取的电压、电流、功率等的电网电量数据，以及温度、湿度、光照、降雨等非电量气象数据，由于动态数据采集有时会出现通道故障、拥堵等现象，此外数据采集程序中断也会造成原始数据的错误。同时，根据所使用分类方法的需要，还需要对数据进行归一化等处理。因此，在对系统负荷分类进行研究之前，需要从以下几个方面对样本数据进行预处理。

(1)不良数据辨识

用作分类研究的用户负荷数据大多是通过电量采集器或远动系统采集的，数据中往往包含“不良数据”或“坏数据”，在利用这些数据之前，应先对其进行预处理，即数据的核查与辨识。

对于采样点为m的负荷数据，基于前述聚类结果，提取负荷特征曲线为各个聚类中心的所有采样点的连线v_i＝{v_i,1,v_i,2,…,v_i,m}，再通过训练已经聚类好的负荷曲线及特征曲线得到一个正常负荷数据存在的可行域，具体步骤为：

1)对于一个具有n个历史负荷数据的样品集合X＝{x₁,x₂,…,x_n}，针对第i个分类，计

算出该类负荷数据在同一时刻的最大值和最小值：

3)利用计算出的可行域上下限形成负荷分类的可行域矩阵，对于第i类曲线其可行域矩

阵为：

进行不良数据辨识时，对于待核查负荷数据x_new＝(x_new,1,x_new,2,…,x_new,m)，计算x_new与每一个聚类中心v_i的相关性，据此判断所属聚类。当x_new第j个分量满足x_new,j≥v_i,j时，此时负荷曲线在特征曲线上部，利用式(4-3)计算上限：

当上下限均在可行域范围内时，则认为待检数据是正常的，无不良数据；当出现越限情况时，即可辨识出不良数据；

(2)不良数据的修正

目前针对不良数据修复方法主要有：横向比较修正法、纵向比较修正法、曲线置换法、插值法、多源数据对比替代法、功率平衡法等^[10-12]。本实施例采用纵向比较修正法对不良数据进行修正，设采集的负荷曲线为x_i＝(x_i,1,x_i,2,…,x_i,m)，其中第j个负荷采集量x_i,j发生异常，则将其修正的公式为：

其中，

和

分别为前一天该样本在第j和第j-1时刻的历史数据。

(3)划分日类型

一般情况下，由于用户在工作日和非工作日的生产、生活方式会有很大的不同，其相应的负荷特性也就存在着较大的差别，因此在负荷预测等研究工作中，通常都是对这两种情况分开加以考虑。同样需要把由测量得到的用户负荷数据按工作日与非工作日划分开，分别加以考虑，而本实施例只研究工作日情况下的负荷分类情况。

(4)归一化

通过电力系统负荷测量装置得到的用户负荷数据，在数值范围上会有很大的差别，这些差别会对分类的结果造成很大的影响。因此，在进行分类之前要对样本数据进行归一化，以消除这些差别的影响。选取日负荷曲线的最大值(即峰值负荷)作为归一化参数，具体操作如下，记最大负荷为P_max，第h时刻的负荷为P_h(h＝1,2,…,24)，取P_max为标准化因子，对负荷曲线进行归一化处理，则有

其中x_h为归一化后的负荷曲线在第h时刻的值。本实施例以下所指的负荷曲线均为归一化之后的具有代表性的用户日负荷曲线，因此对电力系统用户的分类即转化为对用户负荷曲线的分类。

Ⅱ分类方法

基于用户的负荷分类包括多用户分类和单用户多时段分类，

单用户多时段分类是对单个用户不同时段的负荷曲线进行分类，提取用户关于时间的用电模式。单用户多时段分类方法与多用户分类方法相同，只是分类依据由多个用户的典型日负荷曲线变成单个用户多个日期的日负荷曲线；

多用户分类一般将用户的日负荷曲线作为分类依据。由于工作日和休息日的日负荷曲线差异较大，可将日负荷曲线按季节分为工作日和休息日分别讨论。提取用户在研究时间区间内的典型负荷趋势线作为用户的负荷特性代表参与分类。典型负荷趋势线可以取研究时间区间内日负荷的均值也可以取干扰因素较少的日期的日负荷曲线，如每月月中的周三，可以根据研究目的灵活确定。多个用户被分成若干类，同一类别的用户具有相同或相似的负荷规律。

常用分类方法如下所述：

(1)SOM法

自组织特征映射法(Self-Organizing Feature Map，SOM)是最流行的神经网络聚类分析方法之一。SOM的目标是用低维(通常是二维或三维)目标空间中的点来表示高维空间中的所有点，尽可能地保持点间的距离和邻近关系。SOM网络中,某个输出结点能对某一类模式做出特别的反应以代表该模式类,输出层上相邻的结点能对实际模式分布中相近的模式类做出特别的反映,当某类数据模式输入时,对某一输出结点产生最大刺激(获胜结点),同时对获胜结点周围的一些结点产生较大刺激。在训练的过程中,不断对获胜结点的连接权值作调整,同时对获胜结点的邻域结点的连接权值作调整；随着训练的进行,这个邻域范围不断缩小,直到最后, 只对获胜结点进行细微的连接权值调整。算法步骤如下：

1)连接权值初始化：给从输入结点到输出结点的所有权值赋予较小的随机数。时间步长 n＝0,1,2,…；

2)获取网络输入模式

3)计算输入X^k与全部输出结点所连的权向量的欧氏距离；

4)具有最小欧氏距离的输出结点获胜；

5)调整输出结点所连接的权值以及其邻域内的输出结点所连权值：

6)若还有输入样本数据，则t＝t+1，转步骤2)。

算法中η(t)是可变学习速度，η(t)随时间的增加而减小。也就是说，随着训练过程的进行权值的调整幅度越来越小；

也随着时间而收缩，最后t足够大时，

即只训练获胜节点本身；η(t)和

有多种不同的形式，在具体训练过程中可以根据不同的要求不同的数据分布进行设计。

SOM算法具有自组织、可视化、计算效率高、聚类效果好等特性。特别地，当非线性映射是问题本身固有的时，这种方法特别有用但是，SOM模型也存在着些不足，需要预先给定网络单元数目及其结构形状的限制。

(2)K-Means聚类

K-Means聚类首先从n个数据对象任意选择k个对象作为初始聚类中心，对于所剩下其它对象，则根据它们与这些聚类中心的相似度(距离)，分别将它们分配给与其最相似的(聚类中心所代表的)聚类。然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值)，并且不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数。

具体算法描述如下：

1)确定分类数目k的取值；

2)随机选择k个样本作为初始类中心；

3)计算每个样本X_i到类中心的距离，将样本X_i归到距离最近的类中；

4)用类均值更新类中心；

5)重复步骤3)，直至类中心不再变化。

在第t步迭代中，计算输入向量与每个类中心的欧氏距离，将其划分为与其距离最小的类中心代表的类。当所有的输入向量归类完毕形成新的类集后，由式(4-8)计算新的类中心，其中

是类

中包含的个体数目。

K-Means算法尽管有迭代过程，但相对于其它聚类算法，如层次聚类算法，K-Means算法的时间复杂度还是很低的。K-Means算法对数据输入顺序敏感，数据输入顺序不同，选取的k各中心点就不同，因此聚类结果就不同。

(3)模糊C均值聚类

本文采用模糊C聚类(FCM，FuzzyC-Means)分析方法算法，是一种基于划分的聚类算法，其思想是使被划分到同一类的对象之间的相似度最大，不同类之间的相似最小。FCM是一种柔性的模糊划分，依据每个样本相对于各个聚类中心的隶属度大小进行分类。

·条件与约定

隶属度函数是表示一个对象X隶属于集合A的程度的函数，通常记作u_A(X)， 0≤u_A(X)≤1，u_A(X)＝1表示X完全隶属于集合A，即相当于传统集合概念中的X∈A。

·基本思想

在对样本数据的分类应用中，FCM算法将n个样本的特征向量X_i(i＝1,2,…,n)分为n_c个类，然后求每类的聚类中心，使得用隶属度函数和距离定义的聚类目标函数J达到最小。FCM 用模糊方法划分，对于每个给定的样本用区间(0,1)中的隶属度值来确定其相似于各类的程度。为了能够应用模糊划分方法，隶属矩阵u中的元素取值应在区间(0,1)上，加上归一化的规定，要求一个样本对各类的隶属度之和为1，即

因此，引入欧氏距离概念定义的目标函数为

式中，U为隶属度矩阵，u_ij∈(0,1)表示第j个样本对于第i类的隶属度；X_ci表示类别i的聚类中心；d_ij＝||X_ci-X_j||为聚类中心X_ci与样本j之间的欧式距离；m表示加权指数，本文取m 的值为2。

综合式(4-9)和式(4-10)再利用拉格朗日变换即可得到使得式(4-10)达到最小值的必要条件：

·算法步骤

在设定聚类数目n_c后，就可以用迭代的方法求解式(4-10)和式(4-11)，得到各类别的聚类中心X_ci和隶属度矩阵U，具体步骤为：

①初始化隶属度矩阵U，使其满足式(4-9)的约束条件；

②依据式(4-11)，计算n_c的聚类中心X_ci，i＝1,2,…,n；

③依据式(4-9)计算目标函数值，如果它小于某个确定的阀值或者达到设定的迭代次数，则停止计算。

④否则，利用式(4-10)计算新的隶属度矩阵U，返回第②步。

·有效性

聚类有效性函数P'(U；c)的定义为：

式中，n为样本数目；x_i为样本，i＝1,2,…,n；c为聚类数目；V_j为第j个聚类中心j＝1,2,…,c； U为隶属度矩阵；

为可能性划分系数

为所有样本到V₀的距离之和；

当P'(U；c)取得最大值时，即可得到划分数据的最佳分类结果。

ⅢFCM聚类分析及结果

据系统量测到的用户负荷数据，选取江苏某地区的437个用户负荷曲线作为待分类样本，采用FCM聚类算法研究系统用户负荷的分类情况。根据前面确定的聚类有效性指标，计算聚类结果从2类到20类过程中P'(U；c)的变化，结果如下表1和图2所示。

表1P'(U；c)的值

C	2	3	4	5	6	7	8	9	l0
										P'		0.427	0.161	0.233	0.232	0.267	0.402	0.399	0.398
ll	l2	13	l4	l5	l6	l7	l8	l9	20
										0.421	0.439	0.519	0.429	0.415	0.383	0.404	0.299	0.282	0.426

由表1可知，当c＝13时P'(U；c)有最大值，因此样本数据的最佳分类结果为13类，具体分类结果如图2所示，图中括号内的数字表示分类结果中每一种类型所包含的用户数。

根据上述结果，计算每一类负荷曲线的算术平均值作为该类用户的典型日负荷曲线，得到13种用户负荷类型的典型日负荷曲线如图3所示。

典型日负荷曲线对电网的运行、规划和负荷管理都具有重要意义，同时在电力市场条件下，更是期货、合约交易中分配电量，审核调峰能力及分析互联系统错峰效益的基础。通过聚类分析，原有电网中的437个用户负荷，即可利用上述13类典型日负荷曲线进行负荷管理与分析，大大降低了对系统进行负荷管理的难度与复杂度，有利于在此基础上的进一步应用。同时，根据典型日负荷曲线，还可以确定相应的典型日负荷率、日最小负荷率等，如下表2 所示。

表2各类型负荷的部分负荷特性指标

由上述计算结果可以看出，利用FCM聚类算法对负荷曲线进行分类，取得了比较理想的结果，通过聚类有效性函数的判断，不仅得到了最佳的分类数目，而且划分到同一类中的负荷曲线具有较高的相似性，同时不同类别之间又体现出了明显的差异，如日负荷率、日最小负荷率等，并且对一些特殊性质的曲线能够很好地划分出来，如第13种类型，是一类典型的街道照明负荷，FCM算法能够很好地加以识别和区分。

Ⅳ加权FCM聚类分析及结果

在上面的分类结果中，负荷曲线中各点对分类结果的“贡献”是相同的。而在实际应用中，负荷曲线中各点的重要性却不一样，例如目前广泛推行的峰谷时分电价。国家对于实行峰谷时分电价在政策上一直都是鼓励和提倡的，因为它是合理配置社会资源的一种重要的经济手段。最近又专门下发文件，要求各地加大实行峰谷分时电价的力度，实行峰谷分时电价的峰、谷时段电价价差在2至5倍之间进行选择，对电力供应紧缺的地区，可对高峰用电期间出现的尖峰时段实行尖峰电价，电价水平可适当高于高峰时段电价。因此，有必要考虑不同时段负荷的重要性，使得在特定时段具有最接近负荷特性的用户划分到一类。作为研究探讨，本文设定负荷曲线各点的权值为ω_i＝1，(i＝0,1,2,3,4,5,6,7,21,22,23)，ω_i＝5i＝8,9,…,20即认为工作时段的电价较高，而夜间休息时段的电价较低，利用前文所述加权欧式距离聚类方法对样本数据重新分类，结果如图4所示。

由图4可知，当样本数据加以权值之后，最优分类结果为10类，分类结果如图5所示，虚线表示不同的权值区间，8时—12时为权值较大的区间，位于图形中部，两端为权值较小的时间段。不难看出，由于此期间内的权值较大，各类别中的负荷曲线在该时间段内更为贴近，而在两端的差异性较大。此外，加入权值之后，分类数目发生了变化(由13类缩减为10类)，但同一类型中的负荷曲线仍具有较高的相似性。

新能源大数据中的可疑数据处理

用电信息系统是近年来供电企业广泛应用的管理系统，其采集的数据包括用户的电量、电压和电流等，这些类数据项中蕴含着用户的用电特征信息，充分挖掘这些用电的特征信息，对电力公司的运营和管理的提升具有重大的意义。用电信息系统采集的数据会因为通信干扰、设备故障等因素而存在异小常值、缺失值等现象，所以需要对采集的数据进行预处理，为后续的数据生成和核查提供数据基础；分析常见的方式并得到新能源数据特征指标，为核查模型提供指标支持；介绍的数据生成模型为变分自编码式WGAN的数据生成模型提供理论基础，同时为解决不平衡数据集的问题提供思路。本节的主要工作如下：

(1)计量数据预处理。采集的数据中存在的缺失值根据缺失比例和用户的重要程度分别制定策略，存在的异常值根据异常值的比例来判断该序列删除、视为缺失值或取特定值修正，为数据生成和核查提供高质量的数据基础。

(2)典型方式梳理和特征指标提取。分析常见的五种典型的方式，确定了四种行为判别指标，为建立核查模型提供特征指标。

(3)数据生成模型的介绍。正常样本间的不平衡会导致核查准确率不高，所以处理两者之间的平衡至关重要。其中VAE数据生成模型有明确的特征处理能力但是输出效果比较差，而WGAN训练稳定且输出明确但是无特征提取能力，结合两者的优点为提出的变分自编码式 WGAN的数据生成模型提供了理论基础。

通过AMI量测体系得到的数据涉及到m个用户，t时间内的量测数据，是矩阵形式，同一用户不同时间的数据，可以用X_j描述，对不同用户在第t时刻的数据，可以用x_i描述。

式中：x_i,j表示在第j个用户在第i个测量周期的智能电表的量测值；n_i＝[n_i,1,n_1,2,…,n_i,m]表示台区内的所用用户在第i个测量周期的数据矩阵；N_j＝[n_1,j,n_2,j,…,n_t,j]^T表示第j个用户在所有测量周期内的数据。

Ⅰ异常值处理

电能表在进行设备检修、更换时，由于电能表会从零开始重新计数，所以在计算日用电量时会出现负值等异常情况，对于该值的修复方式有很多：删除该值、按照缺失值的处理方法进行修复、根据该负值前后的一段时间内的平均值进行修复。电力负荷数据是时间序列数据，删除会导致以后各点向前移动，在进行特征计算时，可能由于一个点位置的移动，给后续的研究留下较大隐患；若该时间序列中存在大量负值，利用特定值进行修复时，容易受到人为因素的影响，对后续的研究也是不利的。因此本章对于存在负值的电力负荷时间序列的处理方式是^[42]：若时间序列中出现20％以上为负值，则将该时间序列删除，不作为样本参与后续实验；若少于20％为负值，则视为缺失值，对于缺失值的处理会在接下来的部分中进行详细描述。

Ⅱ缺失值处理

在电能表更换不及时或AMI量测体系采集时，会缺失用户某段时间的用电量；新增用户或更换用户编号会导致个别用户信息大面积缺失，对于少量缺失值的处理办法有：补插均值、补插中位数、补插众数、使用固定值、插值算法或根据数据特点采用特定方式补充^[43]。对于缺失值的处理，本章按照缺失比例和用户的重要程度分别制定策略，其原则为：

(1)重要性高，缺失率低：利用三次样条插值来对数据进行填充；

(2)重要性高，缺失率高：若该台区的用户数量比较少，且该用户的用电特征比较明显，则需要重新采集该用户的数据；

(3)重要性低，缺失率低：根据缺失值前后的平均值进行简单的填充；

(4)重要性低，缺失率高：去掉该用户，采用其余的用户进行替代。

Ⅲ归一化处理

是数据挖掘的一项基础工作，数据经过数据标准化处理后，各指标处于同一数量级，适合进行综合比对评价。min-max标准化是一种有效的归一化方法，通过对原始数据的线性变换，使结果值映射到[0,1]之间。转换函数为：

尽管为说明目的公开了本发明的实施例和附图，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换、变化和修改都是可能的，因此，本发明的范围不局限于实施例和附图所公开的内容。

Claims

1.一种新能源大数据分类与可疑数据处理方法，其特征在于：包括以下步骤：

(1)对能源大数据进行预处理；

(4)加权FCM聚类分析，得到新能源数据特征指标；

(5)异常值处理；

(6)缺失值处理；

(7)归一化处理。

2.根据权利要求1所述的新能源大数据分类与可疑数据处理方法，其特征在于：所述步骤(1)对能源大数据数据预处理，数据来源包括发电计量数据，基于EMS/SCADA系统获取的电网电量数据，以及非电量气象数据，对于其中任一类型数据，具体包括以下预处理步骤：

①不良数据辨识；

②不良数据的修正；

③划分日类型，是按工作日与非工作日划分开类型；

④预处理数据的归一化处理。

3.根据权利要求2所述的新能源大数据分类与可疑数据处理方法，其特征在于：所述①不良数据辨识的具体步骤为，对于采样点为m的负荷数据，提取负荷特征曲线为各个聚类中心的所有采样点的连线v_i＝{v_i,1,v_i,2,…,v_i,m}，再通过训练已经聚类好的负荷曲线及特征曲线得到一个正常负荷数据存在的可行域，具体步骤为：

4.根据权利要求2所述的新能源大数据分类与可疑数据处理方法，其特征在于：所述②不良数据的修正，采用纵向比较修正法对不良数据进行修正，设采集的负荷曲线为x_i＝(x_i,1,x_i,2,…,x_i,m)，其中第j个负荷采集量x_i,j发生异常，将其修正的公式为：

其中，

和

分别为前一天该样本在第j和第j-1时刻的历史数据。

5.根据权利要求2所述的新能源大数据分类与可疑数据处理方法，其特征在于：所述④预处理数据的归一化处理，选取日负荷曲线的最大值作为归一化参数，具体操作如下，记最大负荷为P_max，第h时刻的负荷为P_h(h＝1,2,…,24)，取P_max为标准化因子，对负荷曲线进行归一化处理，则有

6.根据权利要求1所述的新能源大数据分类与可疑数据处理方法，其特征在于：所述(2)分类方法包括：(1)SOM法；(2)K-Means聚类；(3)模糊C均值聚类。

7.根据权利要求1所述的新能源大数据分类与可疑数据处理方法，其特征在于：所述(3)FCM聚类分析，根据前面确定的聚类有效性指标，计算聚类结果从2类到20类过程中P'(U；c)的变化，得出当c＝13时P'(U；c)有最大值，样本数据的最佳分类结果为13类，计算每一类负荷曲线的算术平均值作为该类用户的典型日负荷曲线，得到13种用户负荷类型的典型日负荷曲线，根据典型日负荷曲线确定相应的各类型负荷的部分负荷特性指标，能够将特殊性质的曲线划分出来。

8.根据权利要求1所述的新能源大数据分类与可疑数据处理方法，其特征在于：所述(4)加权FCM聚类分析，考虑不同时段负荷的重要性，使得在特定时段具有最接近负荷特性的用户划分到一类，设定负荷曲线各点的权值为ω_i＝1，(i＝0,1,2,3,4,5,6,7,21,22,23)，ω_i＝5i＝8,9,…,20，采用加权欧式距离聚类方法对样本数据重新分类。

9.根据权利要求1所述的新能源大数据分类与可疑数据处理方法，其特征在于：所述(5)异常值处理方法：若时间序列中出现20％以上为负值，则将该时间序列删除；若少于20％为负值，则视为缺失值。

10.根据权利要求1所述的新能源大数据分类与可疑数据处理方法，其特征在于：所述(7)归一化处理，数据经过数据标准化处理后，各指标处于同一数量级，采用min-max标准化归一化方法，通过对原始数据的线性变换，使结果值映射到[0,1]之间，转换函数为：