CN111612053A

CN111612053A - 一种线损率合理区间的计算方法

Info

Publication number: CN111612053A
Application number: CN202010405707.6A
Authority: CN
Inventors: 李梦宇; 王晓甜; 任鹏; 马浩; 李兵; 周洋
Original assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Hebei Electric Power Co Ltd; State Grid Hebei Energy Technology Service Co Ltd
Current assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Hebei Electric Power Co Ltd; State Grid Hebei Energy Technology Service Co Ltd; Marketing Service Center of State Grid Hebei Electric Power Co Ltd
Priority date: 2020-05-14
Filing date: 2020-05-14
Publication date: 2020-09-01
Anticipated expiration: 2040-05-14
Also published as: CN111612053B

Abstract

本发明涉及一种线损合理区间的计算方法，其包括如下步骤：（1）用电信息的数据采集和处理；（2）基于XGBOOST算法预测台区线损率合理值；（3）利用小波变换方法处理台区线损率波动情况，再利用K‑Means聚类算法对线损运行状态进行分类；（4）对不同类型的台区线损率预测结果结合拉依达准则对目标台区划分台区线损率合理值区间。本发明可实现“一台区一目标”的台区线损差异化管理模式，支撑台区线损精益化管理。

Description

一种线损率合理区间的计算方法

技术领域

本发明属于配电网领域，具体涉及一种线损率合理区间的计算方法。

背景技术

台区是配电网向用户供电的“最后一公里”，也是电网线损管理的末端节点，是线损治理的重要环节。目前，台区线损管理未充分考虑不同台区的实际情况及其差异性，台区合理降损空间不明确，“一刀切”高损预警管理模式给线损治理带来了困难，不利于线损工作的推进，无法满足精益管理的需求。

因此，有必要利用大数据挖掘分析方法开展台区线损大数据应用，支撑台区线损精益管理工作。

发明内容

本发明的目的是提供一种可实现“一台区一目标”的台区线损差异化管理模式，支撑台区线损精益化管理的线损率合理区间的计算方法。

本发明采用如下技术方案：

一种线损合理区间的计算方法，其包括如下步骤：

(1)用电信息的数据采集和处理；

(2)基于XGBOOST算法预测台区线损率合理值；

(3)利用小波变换方法处理台区线损率波动情况，再利用K-Means聚类算法对线损运行状态进行分类；

(4)对不同类型的台区线损率预测结果结合拉依达准则对目标台区划分台区线损率合理值区间。

其中，步骤(1)中，收集供电量、用电量、用户数、配变容量、户均容量、线损率、采集成功率和智能表覆盖率，经异常数据处理和基于业务逻辑的数据筛选后，计算单向占比、台区三相不平衡度、台区24小时负荷均匀度。

其中，所述台区三项不平衡度PHD通过下式计算：

式中：Max_I：三相电流最大值；Min_I：三相电流最小值；

所述台区24小时负荷均匀度JYD通过下式计算：

式中：Sum_I：配变每天每个时间点的三相电流之和；

Max_I：配变Sum_I中的最大值；

Min_I：配变Sum_I中的最小值；

所述单向占比DXZB通过下式计算：

式中：Sum_P：配变每日三相用电量之和；P_i：配变每日单相用户用电量之和；

所述户均容量AVG_CAP通过下式计算：

式中：CAP：配变容量；Num：台区用户数。

其中，所述异常数据处理为删除线损相关特征数据中的缺失值以及利用散点图和箱线图法处理数据中极值；所述基于业务逻辑的数据筛选为选取台区线损率在0-10之间的台区数据；删除采集成功率为0的台区数据，删除智能表覆盖率小于0的台区数据，删除其他业务规则明显异常的数据。

其中，所述步骤(2)中，以台区三相不平衡度、台区24小时负荷均匀度、单相占比作为特征因素，台区线损率为目标，则台区线损率合理值预测模型中 XGBOOST的目标函数为：

其中，

为训练集中每个样本点的真实线损率值y_i和预测目标线损率

的差距，l为平方损失函数；

Ω(f_k)为正则项，T为叶子节点数，ω为叶子节点的分数。

其中，所述预测目标线损率

通过下式进行计算：

式中，f_k(x_i)为使用k个树模型依据台区三相不平衡度、台区24小时负荷均匀度和单相占比等特征输入模型后的输出结果，并将k个输出结果求和后得到估计线损率

F为所有树组成的函数空间。

其中，步骤(3)中，小波变换方法为：

式中：a为尺度，τ为平移量，t为线损率。

其中，步骤(3)中，对小波处理后的台区线损率数据利用K-Means聚类算法对线损运行状态进行分类，具体过程为：

将台区线损率作为特征，构建台区分类模型，即：

其中，K表示类簇个数；

当两次迭代J的差值小于某一阈值时，即ΔJ＜δ时，则终止迭代，此时所得类簇即为最终聚类结果，通过对每一次聚类分析轮廓系数比较，最佳聚类结果划分为运行稳定台区、运行波动较小台区以及波动较大台区。

其中，所述轮廓系数通过下式得到：

其中，a(i)＝average(i)，i向量到所有它属于的簇中其它点的距离；

b(i)＝min(i)，i向量到与它相邻最近的一簇内的所有点的平均距离；

a(i)：i向量到同一簇内其他点不相似程度的平均值；

b(i)：i向量到其他簇的平均不相似程度的最小值。

其中，所述步骤(4)中，划分每个台区的线损合理值区间的具体方法为：

(A)运行波动较小台区线损率合理值区间：(μ-σ，μ+σ)

上式中：μ为运行波动较小台区日度线损率均值；

σ为运行波动较小台区中每个台区日度线损率的标准差；

(B)运行稳定台区线损率合理值区间：(μ-2σ，μ+2σ)

上式中：μ为运行稳定台区日度线损率均值；

σ为稳定台区中每个台区日度线损率的标准差；

(C)波动较大台区线损率合理值区间：(μ-3σ，μ+3σ)

上式中：μ为波动较大台区区日度线损率均值；

σ为波动较大台区中每个台区日度线损率的标准差。

本发明的有益效果在于：

1、本发明综合考虑台区之间的差异性，深度挖掘台区降损空间，建立目标台区降损浮动机制，实现“一台区一目标”线损精益化管理模式。

2、本发明对台区线损相关特征进行深度挖掘，对台区运行数据进行分析，从业务与数据多维角度考虑台区线损率重点影响指标，构建台区线损率相关特征，并结合多个维度，分析与线损率的关系及映射函数，根据特征的变化推出线损率的变化。

3、本发明从业务角度出发，分析台区运行特征，对具有相同特征的台区进行聚类，对不同运行情况的台区进行分析，从而实现对台区线损率合理值预测。

4、本发明深入挖掘台区运行过程中线损率变化特性，分析造成台区线损率波动情况原因，结合小波变换算法用于削减台区日度线损率波动情况对台区线损率的影响程度，并利用K-Means聚类算法对台区波动性进行聚类，分析台区运行特征。

附图说明

图1为本发明的流程示意图。

图2为本发明的实施框架图。

具体实施方式

下面将结合本申请实施例，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本申请及其应用或使用的任何限制。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本申请，但是本申请还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施例的限制。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/ 或它们的组合。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

实施例

结合图1和图2所示，一种线损合理区间计算方法，首次利用用电信息采集数据，整合台区与用户档案数据，构建线损数据集并对数据进行预处理工作，分析台区线损率相关因素，构建台区线损率相关特征，包括供电量、采集成功率、智能表覆盖率、台区下单相用户用电量占比、台区三相不平衡度、台区24小时负荷均匀度等。利用数据梯度划分的方式筛选具有相同运行状态的台区数据，基于Xgboost算法分析对台区线损率进行预测，基于小波变换原理削减台区线损极值对线损运行状态的影响程度，并利用K-Means聚类算法对线损运行状态进行分类，对不同类型的台区线损率预测结果结合拉依达准则对目标台区划分台区线损率合理值区间，从而建立目标台区线损浮动机制，将区间划分结果推送至大数据交互平台与用电信息采集系统，并将信息存储于用电信息采集系统中，将结果展示给供电单位的监控终端。

具体的，包括如下步骤：

步骤1：数据准备

基于用电系信息采集系统，整合台区档案数据、用户档案数据、台区线损数据、台区用电量、供电量数据，以及用户表计类型等数据，深度挖掘影响台区线损率因素，从业务角度出发，考虑台区在运行过程中，引起台区线损率变化相关影响因素，从而构建台区三相不平衡度、负荷均匀度、单相占比、供电量、用电量、户均容量、用户数等线损率相关特征。

三相不平衡度(PHD)的计算：

式中，Max_I：三相电流最大值；Min_I：三相电流最小值。

负荷均匀度(JYD)的计算：

式中，Sum_I：配变每天每个时间点的三相电流之和；Max_I：配变Sum_I中的最大值；Min_I：配变Sum_I中的最小值。

单相占比(DXZB)的计算：

式中，Sum_P：配变每日三相用电量之和；P_i：配变每日单相用户用电量之和。

户均容量(AVG_CAP)的计算：

式中，CAP：配变容量；Num：台区用户数。

部分数据集如表1所示。

表1线损数据集

步骤2：数据处理

数据处理主要包括两部分：异常数据处理以及基于业务逻辑的数据筛选。

异常数据处理：从数据的角度出发，根据数据集中异常点分布情况，处理数据中的异常值，删除线损相关特征数据中的缺失值，以及利用散点图和箱线图法处理数据中极值。基于四分位数的分箱法对异常值处理，能够有效识别数据中异常点分布情况，对于数据中存在的极值点，进行删除或者替换。

基于业务逻辑的数据筛选：选取台区线损率在0～10之间的台区数据；删除采集成功率为0的台区数据，删除智能表覆盖率小于0的台区数据，删除其他业务规则明显异常的数据。基于业务分析，台区在运行过程中，线损率相似的台区存在相同的运行特征，对每个特征采用数据分段梯度划分的方法，筛选每个特征分布最密集的数据段，从而筛选具有相同运行特征的台区数据。

步骤3：台区线损合理值预测

基于XGBOOST树回归算法，其原理是将许多树模型集成在一起，形成一个很强的分类器不断地添加树，不断地进行特征分裂来生长一棵树，每次添加一个树，即：

上式中，

为预测目标线损率，f_k(x_i)为使用k个树模型依据台区三相不平衡度、负荷均匀度、单相占比、户均容量等特征代表输入x_i的输出结果，并将k 个输出结果求和后得到估计线损率

F为所有树组成的函数空间(这里的回归树也就是一个分段函数，不同分段的不同取值就构成了一颗树)，与一般机器学习算法不同的是，加法模型不是学习d维空间的权重，而是直接学习决策树的集合。

XGBOOST的目标函数定义为：

其中

是训练集中每个样本点的真实线损率值y_i和估计线损率值

的差距，l为平方损失函数。平方损失函数用于回归预测，即xgboost.XGBRegressor。Ω(f_k)是正则项，利用加入正则项的好处是防止过拟合，一般包含了叶子结点个数等，用来控制模型复杂度，T代表叶子节点数，ω代表叶子节点的分数。

利用拟合优度R²＝SSR/SST＝1-SSE/SST评价模型优劣程度。

上式中：SST＝SSR+SSE，SST(total sum ofsquares)为总平方和，SSR(regressionsum of squares)为回归平方和，SSE(error sum of squares)为残差平方和。

即通过反应y的波动有多少百分比能被x的波动所描述，即表征依变数Y 的变异中有多少百分比，可由控制的自变数X来解释，也就是数据的组间变异/ 总变异*100％，就是所谓的R-square。对于拟合优度来说，拟合优度越大，自变量对因变量的解释程度越高，自变量引起的变动占总变动的百分比高，其观察点在回归直线附近越密集，说明台区三相不平衡度、负荷均匀度、户均容量等特征对于台区线损率的解释程度越高。

部分线损率合理值预测结果如表2所示。

表2线损率计算结果

配变编号	供电所编号	供电量	用户数	CONS_NM	TG_CAP	户均容量	单相占比	SUCC_RATE	三相下平衡度	负荷均匀度	线损率	线损率计算值
													43853645	134011810	196	101	37	400	0.0925	0.225089	100	0.85	0.67	3.26	4
43855991	134011811	143	134	22	100	0.22	0.159069	100	0.3	1	6.8	6.53
													43970336	134011805	422	412	4	100	0.04	0	100	0.04	1	3.95	5.13
43970339	134011813	2294	2231	109	250	0.436	0.528608	100	0.14	0.81	2.41	3.05
													127121274	134011809	830	807	116	315	0.368253968	0.77617	100	0.4	0.65	3.74	5.01

步骤4：小波变换处理台区线损率波动情况

小波变换继承和发展了短时傅立叶变换局部化的思想，同时又克服了窗口大小不随频率变化等缺点，能够提供一个随频率改变的“时间-频率”窗口，是进行信号时频分析和处理的理想工具。即：

上式中：a表示尺度，τ表示平移量，t为线损率。尺度a控制小波函数的伸缩，平移量τ控制小波函数的平移。尺度就对应于频率(反比)，平移量τ就对应于时间。

为了保证经过一次正变换和反变换之后，得到的信号与原信号幅值相同，从而小波变换WT(a，τ)的结果。通过将台区线损率经过已给正反变换之后保证台区线损的变化幅值相同，从而削减台区线损率中极大极小值对台区线损率波动的影响。

小波处理后部分结果如表3所示。

表3小波处理结果

步骤5：台区运行状态分类

对小波处理后的台区线损率数据利用K-Means聚类算法对台区线损率波动情况进行聚类分析。

K-means聚类算法也称k均值聚类算法，是集简单和经典于一身的基于距离的聚类算法。它采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。该算法认为类簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。

K-means聚类算法是一种迭代求解的聚类分析算法，其步骤是随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本，聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类，没有(或最小数目)聚类中心再发生变化，误差平方和局部最小。

K-means算法以距离作为数据对象间相似性度量的标准，通常采用欧氏距离来计算数据对象间的距离。下面给出欧式距离的计算公式：

其中，D表示线损率数据的数量，x_i代表台区线损率。

K-means算法聚类过程中，每次迭代，对应的类簇中心需要重新计算(更新)：对应类簇中所有数据对象的均值，即为更新后该类簇的类簇中心。定义第K个类簇的类簇中心为Centerk，则类簇中心更新方式如下：

其中，C_k表示第k个类簇，|C_k|表示第k个类簇中数据对象的个数，这里的求和是指类簇Ck中所有元素在每列属性上的和，因此Centerk也是一个含有D 个属性的向量，表示为Centerk＝(Centerk，1，Centerk，2，...，Centerk，D)。

K-means算法需要不断地迭代来重新划分类簇，并更新类簇中心，通过设定迭代次数T，当到达第T次迭代，则终止迭代，此时所得类簇即为最终聚类结果。

本发明采用另一种方法，即采用误差平方和准则函数，函数模型如下：

其中，K表示类簇个数。当两次迭代J的差值小于某一阈值时，即ΔJ＜δ时，则终止迭代，此时所得类簇即为最终聚类结果。

通过轮廓系数(Silhouette Coefficient)，评估K-Means聚类结果，该方法结合内聚度和分离度两种因素。其核心思路是：

对于模型结果簇中的某一个点来说：

那么i向量轮廓系数就为：

可见轮廓系数的值是介于[-1，1]，越趋近于1代表内聚度和分离度都相对较优。

将所有点的轮廓系数求平均，就是该聚类结果总的轮廓系数。

在上式中：a(i)＝average(i)i向量到所有它属于的簇中其它点的距离；

b(i)＝min(i)i向量到与它相邻最近的一簇内的所有点的平均距离；

a(i)：i向量到同一簇内其他点不相似程度的平均值；

b(i)：i向量到其他簇的平均不相似程度的最小值。

基于K-Means聚类结果以及从业务角度分析，将台区分为运行稳定台区、运行波动较小台区以及波动较大台区。

步骤6：台区线损合理值区间划分

结合台区分类结果以及台区线损率预测结果，拉依达准则划分台区线损率合理值区间。拉依达准则是指假设对于每一个台区的日度线损数据存在误差，通过对每一类台区线损率数据计算得到标准偏差数据，并计算每个台区的线损率合理值区间。计算方案如下所示：

(A)运行波动较小台区线损率合理值区间：(μ-σ，μ+σ)

上式中：μ为运行波动较小台区日度线损率均值；

σ为运行波动较小台区中每个台区日度线损率的标准差；

(B)运行稳定台区线损率合理值区间：(μ-2σ，μ+2σ)

上式中：μ为运行稳定台区日度线损率均值；

σ为稳定台区中每个台区日度线损率的标准差；

(C)波动较大台区线损率合理值区间：(μ-3σ，μ+3σ)

上式中：μ为波动较大台区区日度线损率均值；

σ为波动较大台区中每个台区日度线损率的标准差。

使用计算机程序依次对三类台区按照波动较小台区、运行稳定台区、波动较大台区中的每个台区按照不同标准划分台区线损合理值区间。

台区编号	合理值区间最小值	合理值区间最大值
			13356392	4.05	7.29
13356379	1.9	4.71
			……	……	……

结合台区线损率合理值区间，分析目标台区线损率超过其对应区间情况，对台区降损可能性进行分析，提高线损精益化管理水平。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等，均应包含在本发明的保护范围之内。

Claims

1.一种线损合理区间的计算方法，其特征在于，其包括如下步骤：