CN111984629A

CN111984629A - 多维场景下基于数据挖掘的台区线损率标准库构建方法

Info

Publication number: CN111984629A
Application number: CN202010895216.4A
Authority: CN
Inventors: 陈光宇; 徐嘉杰; 张仰飞; 郝思鹏; 刘海涛
Original assignee: Nanjing Institute of Technology
Current assignee: Nanjing Heyuan Electric Power Industry Co ltd
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2020-11-24
Anticipated expiration: 2040-08-31
Also published as: CN111984629B

Abstract

本发明公开了多维场景下基于数据挖掘的台区线损率标准库构建方法，包括步骤：获取台区的线损率数据；根据季节、节假日以及特殊节假日的规则设定场景标签；采取缺失值填补众数的原则进行缺失值的预处理；改进3‑σ去噪法剔除异常值；分别提取具有相同场景标签的线损率数据；基于轮廓系数和卡林斯基‑哈拉巴斯指数确定最佳聚类数；K‑means聚类；基于动态簇类质心下降法确定标准库区间的上下限；基于确定区间属性值相似度合并标准库，得到多维场景下的台区线损率标准库。本发明考虑了季节和节假日等因素的影响，精细划分成各场景下的线损率标准库模型，提高了线损异常辨识的准确性。

Description

多维场景下基于数据挖掘的台区线损率标准库构建方法

技术领域

本发明属于台区故障辨识技术领域，具体涉及多维场景下基于数据挖掘的台区线损率标准库构建方法。

背景技术

随着智能电表的推广、用电信息系统的建设，使得数据的完整性和实时性较以前有了较大的提高，线损业务管理条件越来越完善。得益于全面拓展的数据应用，台区异常线损率的精准定位技术不断走向智能化，促进深化同期线损系统应用，推进电网高质量发展。

现有的台区线损率标准库建立方法，在划分程度和影响因素的考虑等方面存在一些缺陷。一是没有考虑到“一区一库”的划分方法对于不断复杂的用户用电系统具有较强的局限性，大部分情况下只能粗略辨识异常线损率；二是台区线损率的波动受到季节、节假日等多种因素的影响，需考虑多维场景下标准库的精细划分与建立，目前台区线损率标准库的建立方法忽略了对历史数据的分析和挖掘，降低了线损异常辨识的准确性。

发明内容

本发明针对现有技术中的不足，提供提供多维场景下基于数据挖掘的台区线损率标准库构建方法，本发明在获取台区的线损率数据的基础上，分别采用缺失值填补众数和改进3-σ去噪法对原始数据预处理；同时，根据季节、节假日以及特殊节假日的规则设定场景标签；分别提取具有相同场景标签的线损率数据；基于轮廓系数和CHI系数确定最佳聚类数，并进行K-means聚类；基于动态簇类质心下降法确定标准库区间的上下限；基于确定区间属性值相似度合并标准库，从而得到多维场景下的台区线损率标准库。

为实现上述目的，本发明采用以下技术方案：多维场景下基于数据挖掘的台区线损率标准库构建方法，包括以下步骤：

S1、获取台区的线损率数据；

S2、根据季节、节假日以及特殊节假日的规则设定场景标签；

S3、采取缺失值填补众数的原则进行缺失值的预处理；

S4、基于改进3-σ去噪法剔除异常值；

S5、分别提取具有相同场景标签的线损率数据；

S6、基于轮廓系数和卡林斯基-哈拉巴斯指数确定最佳聚类数k；

S7、K-means聚类；

S8、基于动态簇类质心下降法确定标准库区间的上下限；

S9、基于确定区间N属性值相似度合并标准库，得到多维场景下的台区线损率标准库。

为优化上述技术方案，采取的具体措施还包括：

进一步地，步骤S1中的台区线损率是用于判断台区是否存在异常的依据，亦是用于建立台区线损率标准库的基础，其值由用电信息采集系统提供的线损电量计算得出，线损率计算公式如下式：

式中，LLR表示线损率，E_m表示抄表电量，E_s表示实际售电量。

进一步地，步骤S3中的线损率数据缺失值的预处理包括：

将数据严重缺失的用户的缺失数据不作处理，直接将其判定为异常用户；对于分散、缺失较少的用电数据进行异常值处理，使用skleam中填补缺失值专用的Impute模块对获取的原始线损率采用众数填补，使数据适应模型并且匹配模型的需求。

进一步地，步骤S4中，改进3-σ去噪是指假设一组检测数据中只含有随机误差，需要对其进行计算得到标准偏差，按一定概率确定一个区间，对于超过这个区间的误差，就不属于随机误差而是粗大误差，需要将含有该误差的数据进行剔除。3-σ法则下的数值分布为：

式中，X为台区线损率数据，μ代表台区线损率的均值，σ代表台区线损率的标准差。

Y的取值几乎全部集中在(μ-3σ，μ+3σ)区间内，超出这个范围的可能性仅占不到0.3％。

进一步地，步骤S4中，基于改进3-σ去噪法剔除台区线损率的异常值包括如下步骤：

S41、计算需要检验的数据列的平均值

和标准差s_N；

S42、比较数据列的每个值与平均值的偏差是否超过标准差的3倍，如果超过3倍，则为异常值，评判规则如下：

其中，x为线损率的实际值；

为线损率数据列的平均值；s_N为线损率数据列的标准差；

S43、剔除异常值，得到规范的数据，转入步骤S41；

S44、不断迭代N次步骤S41-S43，依据迭代次数N和规范数据量的学习曲线，确定最佳样本量。

进一步地，步骤S5中建立台区线损率标准库考虑到场景的多维性质，需按照步骤S2的规则设定场景标签，将具有相同场景标签所对应的线损率分别存放至集合W_i，i∈[0，8]，分别研究不同场景下线损率的分布情况，以便于对同一特征下数据进行K-means聚类以及生成台区的标准库。

进一步地，步骤S6中，K-means的目标是确保“簇内差异小，簇外差异大”，即完全依赖于簇内的稠密程度和簇间的离散程度来评估聚类的效果。其中轮廓系数是最常用的聚类算法的评价指标，针对每个样本来定义的，能够同时衡量：

1)样本与其自身所在的簇中的其他样本的相似度a，等于样本与同一簇中所有其他点之间的平均距离；

2)样本与其他簇中的样本的相似度b，等于样本与下一个最近的簇中的所有点之间的平均距离。

根据聚类的要求“簇内差异小，簇外差异大”，理想情况下b永远大于a，并且大得越多越好。

单个样本的轮廓系数计算为：

上式可以被解析为：

故轮廓系数范围为(-1，1)，其中值越接近1表示样本与自己所在的簇中的样本很相似，并且与其他簇中的样本不相似；当样本点与簇外的样本更相似时，轮廓系数就为负；当轮廓系数为0时，则代表两个簇中的样本相似度一致，两个簇本应该是一个簇。因此轮廓系数越接近1聚类效果越好，负数则表示聚类效果非常差。

除了轮廓系数可以评估聚类模型，卡林斯基-哈拉巴斯指数(CHI)，也被称为方差比标准也是一种聚类模型评估指标。CHI指数越高越好，对于有k个簇的聚类，轮廓系数和卡林斯基-哈拉巴斯指标s(k)写作如下公式：

其中，N为数据集中的样本量，k为簇的个数，B_k是组间离散矩阵，即不同簇之间的协方差矩阵，W_k是簇内离散矩阵，即一个簇内数据的协方差矩阵，Tr表示矩阵的迹。数据之间的离散程度越高，协方差矩阵的迹就会越大。组内离散程度低，协方差的迹就会越小，Tr(W_k)也就越小，同时，组间离散程度大，协方差的迹也会越大，Tr(B_k)就越大，因此CHI指标越高越好。

在sklearn中使用模块metrics中的类silhouette_score来计算轮廓系数，它返回的是一个数据集中，所有样本的轮廓系数的均值。同时在metrics模块中存在类silhouette_sample，它的参数与轮廓系数一致，但返回的是数据集中每个样本自己的轮廓系数。

进一步地，步骤S7中依据已知的最佳聚类数k对集合W_i，i∈[0，8]进行K-means聚类，具体过程如下：

S71、随机抽取k个样本作为最初的质心；

S72、开始循环；

S73、将每个样本点分配到离他们最近的质心，生成k个簇；

S74、对于每个簇，计算所有被分配到该簇的样本点的平均值作为新的质心；

S75、当质心的位置不再发生变化，迭代停止，聚类完成。

K-means聚类追求“簇内差异小，簇外差异大”的原则，而这个“差异”就是通过该样本点到其所在簇的质心距离来衡量的。令x表示簇中的一个样本点，μ表示该簇中的质心，n表示每个样本中的特征数目，i表示组成点x的每个特征，则该样本点到质心的距离可以由以下距离来度量：

d₁，d₂，d₃分别为欧几里得距离，曼哈顿距离和余弦距离。

K-means算法是一个计算成本很大的算法，K-means算法的平均复杂度是O(k*n*T)，其中k是超参数，n是整个数据集中的样本量，T是所需要的迭代次数。在最坏的情况下，K-means的复杂度可写作

其中p是特征总数。

进一步地，步骤S8中，标准库的建立需要确定其区间的上限和下限，单纯依据簇类个案数目进行划分区间，会导致数据流失较多，故提出一种基于簇类个案数目的质心平移法，使标准库的区间尽可能多的囊括线损率数据且满足数据在此区间内集中分布。选取标准库区间下限y_lower和上限y_upper的方法为：针对不同簇类的个案数目进行升序排列，保留个案数目最多的簇类元素，此时标准库下限取个案数目位于第2的簇类i质心横坐标经相对偏移量

下移后的新坐标，下限取个案数目位于第3的簇类j质心横坐标经相对偏移量

上移后的新坐标，此时区间的上限和下限为：

其中y_lower为标准库区间下限，y_upper为标准库区间上限，ct_i为第i类簇的质心横坐标，ct_j为第j类簇的质心横坐标，m_i为第i类簇的个案数目，m_j为第j类簇的个案数目，n为数据集中的样本容量。

进一步地，步骤S9中，确定区间N是指有确定下界n₁和上界n₂的区间，内部数据分布可以是离散的，也可以是连续的，记为：N[n₁，n₂]；采用区间相对长度法来计算2个区间属性值间的相似度，该方法是通过计算2个区间长度的重叠率作为区间间的相似度，具有计算简单和准确的优点。

设A、B是2个确定区间，则A、B的相似度定义为：

其中L表示相应区间的长度，(A∩B)表示A、B的重叠区间；

设置相似度阈值为α，将各场景线损率区间属性的相似度大于阈值的区间按交集原则进行合并，最终得到多维场景下的台区线损率标准库。

本发明的有益效果是：本发明考虑了在获取台区的线损率数据的基础上，提出了一种采用缺失值填补众数的原则对原始数据缺失值预处理，解决了数据形式的不规范化；同时，提出了一种基于改进3-σ去噪法对噪声值进行预处理；考虑了多维场景下线损率的特性不同，提前根据季节、节假日以及特殊节假日的规则设定场景标签，并分别提取具有相同场景标签的线损率数据；提出了一种基于轮廓系数和卡林斯基-哈拉巴斯指数(CHI)确定最佳聚类数，从而使K-means聚类效果达到最佳；提出了一种基于动态簇类质心下降法确定各类场景标准库区间的上下限，解决了仅仅依赖簇类个案数目确定区间导致的数据流失；提出了一种基于确定区间属性值相似度合并标准库，从而得到多维场景下的台区线损率标准库；本发明实现了对台区线损率标准库的精细划分，提高了线损异常辨识的准确性。

附图说明

图1是本发明的台区线损率标准库构建方法流程图。

图2是本发明的2016年样本线损率去噪前后对比图。

图3是本发明的迭代次数与剩余样本量的学习曲线图。

图4是本发明的簇类数目与样本轮廓系数均值的变化趋势图。

图5是本发明基于簇类个案数目的质心平移法建立第0类场景标准库图。

图6是本发明合并台区线损率标准库区间的柱状图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。

如附图所示，本发明提供了多维场景下基于数据挖掘的台区线损率标准库构建方法，包括如下步骤：

S1、获取台区的线损率数据，采用数据预处理的方法对原始数据进行清洗。

台区线损率是用于判断台区是否存在异常的依据，亦是用于建立台区线损率标准库的基础，其值由用电信息采集系统提供的线损电量计算得出，线损率计算公式如下式：

由于用电数据在采集过程中频次、精度的缺乏，造成了数据存在部分缺失值、噪声值，会干扰数据分析的过程，影响最终的识别效果，本发明对原始用电数据的预处理以缺失值和异常值的处理为主。同时，用电数据指标有很多不同的量纲单位，他们之间可能存在着倍数级的数值大小差异，这种差异不利于数据分析以及模型的建立，因此需要对用电数据进行规范化的处理，去除其量纲形式，转化为更加规范化的数据形式。

S11、采取缺失值填补众数的原则对数据缺失值进行预处理；

在原始用电数据中，尤其是在抽取用户用电量的过程中，发现存在数据缺失的情况。如果将这些缺失数据直接抛弃，将会影响到模型的训练过程，以及供电量的计算结果，导致最终的分析效果有误差，形成异常用电用户的漏判误判。处理缺失值的时候，可将数据严重缺失的用户的缺失数据不作处理，直接将其判定为异常用户，对于分散、缺失较少的用电数据进行异常值处理。

选取XX台区2016年～2019年的线损率数据作为样本，观察各年线损率采集过程中存在的缺失值数目，2016年～2019年线损率缺失值统计如表一所示：

表一

年份	线损率缺失值数目
		2016	3
2017	2
		2018	1
2019	1

由于数据缺失较少，在机器学习的数据预处理中，通常直接删除特征矩阵中含有缺失值的一行。本发明需要通过每个日期的线损率数据建立台区线损率标准库，故不能直接删除缺失值数据，利用众数填补缺失值。

S12、基于改进3-σ去噪法剔除台区线损率的异常值；

改进3-σ去噪是指假设一组检测数据中只含有随机误差，需要对其进行计算得到标准偏差，按一定概率确定一个区间，对于超过这个区间的误差，就不属于随机误差而是粗大误差，需要将含有该误差的数据进行剔除。3-σ法则下的数值分布为：

Y的取值几乎全部集中在(μ-3σ，μ+3σσ)区间内，超出这个范围的可能性仅占不到0.3％。

基于改进3-σ去噪法剔除台区线损率的异常值包括如下步骤：

S121、计算需要检验的数据列的平均伯

和标准差s_N，如表二所示：

表二

S122、比较数据列的每个值与平均值的偏差是否超过标准差的3倍，如果超过3倍，则为异常值；评判规则如下：

x为线损率的实际值；

为线损率数据列的平均值；s_N为线损率数据列的标准差。

S123、剔除异常值，得到规范的数据，转入步骤S121；

选取XX台区2016年的线损率数据作为样本，分析改进3-σ去噪法对于异常值辨识的效果，去噪前后对比图如图2所示。由图2可知，通过改进3-σ去噪法对于异常值进行一次筛选的效果并不理想，依然存在尖峰值，对于台区线损率标准库的建立具有一定的偏差。

S124、不断迭代N次，依据迭代次数和剩余样本量的学习曲线，确定最佳样本量。

由图3可知，当迭代次数N大于等于4时，剩余样本量的变化趋势趋于平稳，即3-σ去噪法最佳迭代次数为4，2016年台区线损率去噪后的最佳样本量为350。

S2、根据季节、节假日以及特殊节假日的规则设定场景标签，分别提取具有相同标签的所有线损率数据。

由于本发明考虑多维场景下利用线损率数据建立台区线损率标准库，故分别对近4年的日期按照季节、节假日以及特殊节假日的规则分别设定场景标签，具体规则如下表三所示：

表三

将具有相同标签所对应的线损率分别存放至集合W_i，i∈[0，8]，分别研究不同场景下线损率的分布情况，以便于台区线损率标准库的生成。

S3、基于轮廓系数和卡林斯基-哈拉巴斯指数(CHI)确定最佳聚类数。

K-means的目标是确保“簇内差异小，簇外差异大”，即完全依赖于簇内的稠密程度和簇间的离散程度来评估聚类的效果。其中轮廓系数是最常用的聚类算法的评价指标，针对每个样本来定义的，能够同时衡量：

单个样本的轮廓系数计算为：

上式可以被解析为：

除了轮廓系数可以评估聚类模型，卡林斯基-哈拉巴斯指数(CHI)，也被称为方差比标准也是一种聚类模型评估指标。CHI指数越高越好，对于有k个簇的聚类而言，CHI指标s(k)写作如下公式：

选取存放第0类场景的线损率集合作为样本，分析簇类数目与样本轮廓系数均值的变化趋势关系。

由图4可知，当簇类数等于4时，轮廓系数值最高，故最佳聚类数为4，此时CHI值为329.89。

S4、基于K-means聚类和动态簇类质心平移法分别建立9个不同场景下的台区线损率标准库。

根据最佳聚类数k＝4找出k个最优的质心，并将离这些质心最近的数据分别分配到这些质心代表的簇中去。K-means的具体过程如下：

S41、随机抽取k＝4个样本作为最初的质心；

S42、开始循环；

S43、将每个样本点分配到离他们最近的质心，生成k＝4个簇；

S44、对于每个簇，计算所有被分配到该簇的样本点的平均值作为新的质心；

S45、当质心的位置不再发生变化，迭代停止，聚类完成。

K-means算法是一个计算成本很大的算法，K-means算法的平均复杂度是O(k*n*T)，其中k是超参数，即所需要输入的簇数4，n是整个数据集中的样本量，T是所需要的迭代次数。在最坏的情况下，K-means的复杂度可写作

其中p是特征总数。

在簇数为最佳聚类数k＝4时，第0类场景线损率的分布图如图5所示。

每个簇类中的个案数目如表四所示：

表四

标准库的建立需要确定其区间的上限和下限，单纯依据簇类个案数目进行划分区间，会导致数据流失较多，故提出一种基于簇类个案数目的质心平移法，使标准库的区间尽可能多的囊括线损率数据且满足数据在此区间内集中分布。

针对第0类场景聚类结果进行分析，保留个案数目最多的簇类2，剔除个案数目最少的簇类4，选取区间下限y_lower和上限y_upper的方案为：标准库上限取簇类3质心经相对偏移量

上移后的新坐标，下限取簇类1经相对偏移量

下移后的新坐标，此时区间的上限和下限为：

S5、基于确定区间属性值相似度合并标准库，得到多维场景下台区线损率标准库。

确定区间N是指有确定下界n₁和上界n₂的区间，内部数据分布可以是离散的，也可以是连续的，记为：N[n₁，n₂]。采用区间相对长度法来计算2个区间属性值间的相似度，该方法是通过计算2个区间长度的重叠率作为区间间的相似度，具有计算简单和准确的优点。设A、B 是2个确定区间，则A、B的相似度定义为：

其中L表示相应区间的长度，A∩B表示A、B的重叠区间。

计算各场景线损率区间属性的相似度结果如表五所示：

表五

设置相似度阈值为α＝0.8，由上表可知sim(0，1)＝0.941＞α，sim(2，6)＝0.808＞α，故将场景0和1、2和6的标准库区间按交集原则进行合并。

本发明多维场景下台区线损率最终标准库分布如表六所示：

表六

场景标签	标准库下限y_lower	标准库上限y_upper
			0、1	0.88	3.62
3	1.05	4.36
			4	0.84	2.76
5	1.01	2.82
			2、6	0.73	2.20
7	0.56	3.09
			8	0.95	2.87

综上，本发明考虑了在获取台区的线损率数据的基础上，提出了一种采用缺失值填补众数的原则对原始数据缺失值预处理，解决了数据形式的不规范化；同时，提出了一种基于改进3-σ去噪法对噪声值进行预处理；考虑了多维场景下线损率的特性不同，提前根据季节、节假日以及特殊节假日的规则设定场景标签，并分别提取具有相同场景标签的线损率数据；提出了一种基于轮廓系数和卡林斯基-哈拉巴斯指数(CHI)确定最佳聚类数，从而使K-means 聚类效果达到最佳；提出了一种基于动态簇类质心下降法确定各类场景标准库区间的上下限，解决了仅仅依赖簇类个案数目确定区间导致的数据流失；提出了一种基于确定区间属性值相似度合并标准库，从而得到多维场景下的台区线损率标准库；本发明实现了对台区线损率标准库的精细划分，提高了线损异常辨识的准确性。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。