CN105160416A

CN105160416A - 一种结合主元分析与神经网络的台区合理线损预测方法

Info

Publication number: CN105160416A
Application number: CN201510461276.4A
Authority: CN
Inventors: 邹云峰; 徐金玲; 邓素兰; 毛神根
Original assignee: State Grid Corp of China SGCC; State Grid Jiangsu Electric Power Co Ltd; Changzhou Power Supply Co of Jiangsu Electric Power Co; Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Jiangsu Electric Power Co Ltd; Changzhou Power Supply Co of Jiangsu Electric Power Co; Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2015-07-31
Filing date: 2015-07-31
Publication date: 2015-12-16

Abstract

本发明公开了一种结合主元分析与神经网络的台区合理线损预测方法，首先对大量台区线损特征数据进行三次初步分类，其次利用聚类方法将分类数据通过台区特征分为若干聚类，再次对每一聚类建立相应的预测模型；最后利用预测模型得到合理线损预测值，并对其进行分析处理；针对台区线损特征量数据庞大的特点，提出了RBF神经网络算法，利用PCA算法排除干扰因素，提取综合指标，降低数据维数；利用ANN对主成分数据进行训练，达到兼顾数据处理效率与精度的双重要求。

Description

一种结合主元分析与神经网络的台区合理线损预测方法

技术领域

本发明涉及一种结合主元分析与神经网络的台区合理线损预测方法，属于电力系统自动化技术领域。

背景技术

电网线损率是电力企业一项重要的经济技术指标。线损是在输送和分配电能过程中，电力网中各个元件或设备所产生的功率损失和电能损失以及其他损失。线损率指的是电力网络中损耗的电能(线路损失负荷)与向电力网络供应电能(供电负荷)的百分数。以台区为单位对线损率进行分析，可以直接反映配电网规划设计与运行管理水平，而对台区合理线损的预测则是实现线损精益化管理的前提和关键。线损率的计算公式如下：

线损率作为一种综合反映电力系统中规划设计、生产运行、经营管理水平的经济技术指标，是电力部门日常管理工作中所关注的重要内容，降低线损率能够带来非常可观的经济与社会效益。我国对低压客户全面实行分台区管理，台区线损直接反映了一个地区的电网营销管理水平。台区线损管理通过比较理论线损与实际线损的差值，对不合理线损进行分析和预测，提供较为科学有效的降损措施，有利于提升电力部门的管理水平与经济效益，促进电网的建设与改造的科学性与合理性。

作为台区线损管理中的重要环节，理论线损的确定对于提高线损管理的精益化水平有着重要的意义，传统对于理论线损的计算主要是通过的基于潮流计算的方法。随着人工智能技术在电力领域的广泛应用，理论线损的计算方法也发展到以神经网络、支持向量机、核心向量机等及其他改进算法为主。然而，以往对于理论线损的研究都采用标准算例来设计实验，样本数较少，难以全面反映实际生产中的实际线损状况。近年来，随着用电信息采集系统的全面建设以及大数据处理技术的广泛应用，利用数据挖掘方法对整体台区线损数据进行处理已成为可能。从统计理论角度对海量台区线损数据进行分析、建模、预测，进而找出潜在信息与关联，是电力营销部门面临的重要任务。传统的台区线损管理中采取一刀切的方式，通过人工设定台区合理线损率，缺乏科学依据，也与精益化的管理目标背道而驰。实现台区合理线损的准确快速预测成为亟待解决的重要问题。但是由于低压台区下分支线路复杂，元件多样，设备台账数据不全，理论线损计将非常困难，实时性不高。同时，台区线损数据庞大，以江苏省为例，全省台区多达四十余万，传统的理论台区线损计算将难以在低压台区线损评估中进行实际应用。

因此，发明一种适用于用户数据采集系统中海量线损数据的低压台区线损预测的新方法成为亟需解决的问题。

发明内容

为了解决上述技术问题，本发明提供了一种结合主元分析与神经网络的台区合理线损预测方法。

为了达到上述目的，本发明所采用的技术方案是：

一种结合主元分析与神经网络的台区合理线损预测方法，包括以下步骤，

步骤一，提取台区线损的特征数据；

所述特征数据包括总用户数、居民户数、非居民户数、居民容量、非居民容量、变压器容量、居民容量占比、居民户均容量、日均供电量以及日均线损率；

其中，日均供电量＝当月总供电量/当月数据采集有效天数；日均线损率＝每日线损率总和/当月数据采集有效天数；

步骤二，对特征数据进行筛选和清洗，获得线损稳定台区的特征数据，并将该特征数据作为建模的样本空间；

所述线损稳定台区指用电信息采集系统在线计算的台区日和月线损率数值稳定，能真实反应当前实际线损情况的台区；

步骤三，进行第一次预分类；

将样本空间中的特征数据分成城区特征数据和农村特征数据；

步骤四，进行第二次预分类；

将城区特征数据和农村特征数据分别按照居居民容量占比分成居民类特征数据、非居民类特征数据以及居民与非居民混合类特征数据；

步骤五，进行第三次预分类；

将城区特征数据和农村特征数据中的居民类特征数据，分别按照户均容量分为高、中、低三档；

将城区特征数据和农村特征数据中的混合类特征数据，分别按照用户负载率分为高、中、低三档；负载率＝日均供电量/(变压器容量×24)。

步骤六，每一类特征数据通过K均值进行聚类，通过整体轮廓系数优化聚类结果，获得每一类特征数据的最优聚类结果；

步骤七，对聚类结果中的每个聚类通过主元分析获得主元系数；

步骤八，每个聚类的主元系数作为RBF神经网络的训练集，建立神经网络模型；

步骤九，利用RBF神经网络进行台区线损预测，并对预测结果进行评估。

获得每一类特征数据的最优聚类结果的过程为，

a1)设定K＝f，f为正整数，设定聚类计算迭代终止阈值；

a2)，进行聚类计算，获得聚类数为K时的聚类结果；

a3)，计算步骤a2中聚类结果的整体轮廓系数；

a4)，判断K是否小于f+p-1，p为正整数，如果是，则K＝f+1，转至步骤a2，否则转至步骤a5；

a5)，比较p个整体轮廓系数，确定最优的整体轮廓系数，获得最优的聚类结果。

进行聚类计算的过程为，

A1)，在每一类特征数据中任选K个作为聚类中心，剩余的特征数据作为样本数据；

A2)，计算每个样本数据到每个聚类中心的欧氏距离，并将其归类于最近的聚类中心；

A3)重新计算每个聚类的平均值，并将该值作为新的聚类中心；

A4)重复步骤A2和A3，反复迭代，直到满足终止条件，即目标函数达到迭代终止阈值；；

所述目标函数采用平方误差准则，

E = Σ_{j = 1}^{K} \underset{x_{q} &Element; C_{j}}{Σ} {(x_{q} - m_{j})}^{2}

其中，E表示所有聚类对象的平方误差，x_q为第j个聚类C_j中的元素，m_j是第j个聚类C_j的聚类中心，j∈[1,K]。

4、根据权利要求2所述的一种结合主元分析与神经网络的台区合理线损预测方法，其特征在于：整体轮廓系数计算过程为，

B1)对于第j个聚类C_j中的元素x_q，计算x_q与其同一聚类内的所有其他元素距离的平均值，记作c_j；

B2)选取x_q外的一个聚类C_j′，j′∈[1,K]，计算x_q与C_j′中所有元素的平均距离，遍历所有其他聚类，找到最近的这个平均距离，记作c_j′；

B3)对于x_q，其轮廓系数

B4)计算所有K个聚类中所有元素的轮廓系数，求平均值即为整体轮廓系数。

在获得获得主元系数之前，将最优的聚类结果进行进一步优化，即将元素少于特征数据总数0.1％的聚类删除。

通过主元分析获得主元系数的过程为，首先对数据进行z-score标准化处理，再利用PCA算法搭建模型，计算累计贡献率，累计贡献率超过95％时的主元数为最终需要提取的主元数目，得到相应的主元系数。

z-score标准化的过程为，

C1)定义一个聚类中的特征数据构成一n×m矩阵，定义x(i，k)为一个聚类中第i行，第k列的特征数据，i∈[1,n]，k∈[1,m]；

C2)计算每列的均值；

μ_{k} = \frac{Σ_{i = 1}^{n} x (i, k)}{n}

其中，μ_k为第k列的均值；

C3)计算每列的标准差；

σ_{k} = \sqrt{\frac{1}{n} Σ_{i = 1}^{n} {(x (i, k) - μ_{k})}^{2}}

其中，σ_k为第k列的标准差；

C4)计算每一列中单个特征数据的z-score标准化值；

x^{'} (i, k) = \frac{x (i, k) - μ_{k}}{σ_{k}}

其中，x′(i,k)为x(i，k)z-score标准化值。

PCA算法步骤为，

D1)定义一个聚类z-score标准化处理后构成一数据矩阵Z_n×m；

D2)计算Z_n×m的协方差矩阵COV(Z)；

D3)计算COV(Z)的特征值λ_k和特征向量p_k；

D4)特征值按降序排序，得λ′₁＞λ′₂＞…＞λ′_m，同时对特征向量进行相应调整，得p′₁,p′₂,…,p′_m；

D5)通过施密特正交化方法单位正交化特征向量p′_k，得p″₁,p″₂,…,p″_m；

D6)计算特征值的累积贡献率L₁,L₁,…,L_m，根据设定的阈值ε，若L_k≥ε，则提取k个主元；

第k个主元的贡献率，

ρ_{k} = \frac{λ_{k}^{'}}{Σ_{k = 1}^{m} λ_{k}^{'}}

前k个主元的累计贡献率L_k：

L_k＝ρ₁+ρ₂+ρ₃+…+ρ_k

D7)计算k个主元系数t₁,t₂,…,t_k。

RBF神经网络的输入k个主元系数t₁,t₂,…,t_k，从输入层到隐含层的非线性变换采用高斯核函数作为径向基函数；

径向基函数公式为，

σ′为高斯核函数的宽度参数，X₁,X₂,…,X_i′为第i′个节点的中心向量，i′∈[1,N]，N为隐含层节点个数；

输出层的输出函数y_i′公式为，

其中w_i′k为权系数。

本发明所达到的有益效果：1、本发明首先对大量台区线损特征数据进行三次初步分类，其次利用聚类方法将分类数据通过台区特征分为若干聚类，再次对每一聚类建立相应的预测模型；最后利用预测模型得到合理线损预测值，并对其进行分析处理；针对台区线损特征量数据庞大的特点，提出了RBF神经网络算法，利用PCA算法排除干扰因素，提取综合指标，降低数据维数；利用ANN对主成分数据进行训练，达到兼顾数据处理效率与精度的双重要求；2、本发明简单实用，处理速度较快，在处理海量台区线损数据中取得了较好的效果，通过预测结果与实际线损的比较可以快速定位异常台区，为台区线损管理提供较为可靠的科学依据。

附图说明

图1为本发明的流程图。

图2为本发明的RBF神经网络结构图。

图3为农村居民类低档特征数据第1个聚类的实际与预测线损率分布散点图。

图4为农村居民类低档特征数据第1个聚类的实际与预测误差分布直方图。

图5为农村居民类低档特征数据第2个聚类的实际与预测线损率分布散点图。

图6为农村居民类低档特征数据第2个聚类的实际与预测误差分布直方图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

如图1所示，一种结合主元分析与神经网络的台区合理线损预测方法，包括以下步骤：

步骤一，提取台区线损的特征数据。

特征数据包括总用户数、居民户数、非居民户数、居民容量、非居民容量、变压器容量、居民容量占比、居民户均容量、日均供电量以及日均线损率；其中，日均供电量＝当月总供电量/当月数据采集有效天数；日均线损率＝每日线损率总和/当月数据采集有效天数。

步骤二，对特征数据进行筛选和清洗，获得线损稳定台区的特征数据，并将该特征数据作为建模的样本空间

线损稳定台区指用电信息采集系统在线计算的台区日和月线损率数值稳定，能真实反应当前实际线损情况的台区。

线损非稳定台区包括：

1)采集未全覆盖：所有在用计量点均已采集，无未采集供、用电表计；

2)台区下有特殊用户，如光伏发电、无表计量等；

3)当月发生业务变更，如考核单元对象数量发生增减、户变关系调整、用户增减、用户业务变更(换表除外)；

4)月线损值超出(-1％～10％)的范围；

5)月内日线损超出(-1％～10％)范围的天数多于10天。

步骤三，进行第一次预分类；将样本空间中的特征数据分成城区特征数据和农村特征数据。

供电单位名称中含有“供电所”字符的为农村特征数据，其他的为城区特征数据。

步骤四，进行第二次预分类；将城区特征数据和农村特征数据分别按照居居民容量占比分成居民类特征数据、非居民类特征数据以及居民与非居民混合类特征数据。

居民容量占比大于等于90％为居民类特征数据，小于等于10％为非居民类特征数据，大于10％且小于90％为居民与非居民混和类特征数据。

步骤五，进行第三次预分类；将城区特征数据和农村特征数据中的居民类特征数据，分别按照户均容量分为高、中、低三档。

居民户均容量为[2，6]的为居民类低档特征数据，(6，10]的为居民类中档特征数据，(10，14]的为居民类高档特征数据。

将城区特征数据和农村特征数据中的混合类特征数据，分别按照用户负载率(分为高、中、低三档，负载率＝日均供电量/(变压器容量×24)。

负载率分布最低的20％的为混合类低负荷特征数据，负载率分布最高的20％的为混合类高负荷特征数据，介于两者之间的是混合类中负荷特征数据。

步骤六，每一类特征数据通过K均值进行聚类，通过整体轮廓系数优化聚类结果，获得每一类特征数据的最优聚类结果。

获得每一类特征数据的最优聚类结果的过程为，

a1)设定K＝f，f为正整数，设定聚类计算迭代终止阈值；

a2)，进行聚类计算，获得聚类数为K时的聚类结果；

进行聚类计算的过程为，

A4)重复步骤A2和A3，反复迭代，直到满足终止条件，即目标函数达到迭代终止阈值；

所述目标函数采用平方误差准则，

E = Σ_{j = 1}^{K} \underset{x_{q} &Element; C_{j}}{Σ} {(x_{q} - m_{j})}^{2}

其中，E表示所有聚类对象的平方误差，x_q为第j个聚类C_j中的元素，m_j是第j个聚类C_j的聚类中心，j∈[1,K]；

a3)，计算步骤a2中聚类结果的整体轮廓系数；

整体轮廓系数计算过程为，

B3)对于x_q，其轮廓系数

B4)计算所有K个聚类中所有元素的轮廓系数，求平均值即为整体轮廓系数；

步骤七，对聚类结果中的每个聚类通过主元分析获得主元系数。

由于K-means聚类对噪声点和孤立点敏感，在获得获得主元系数之前，将最优的聚类结果进行进一步优化，即将元素少于特征数据总数0.1％的聚类删除。

其中，z-score标准化的过程为，

C2)计算每列的均值；

μ_{k} = \frac{Σ_{i = 1}^{n} x (i, k)}{n}

其中，μ_k为第k列的均值；

C3)计算每列的标准差；

σ_{k} = \sqrt{\frac{1}{n} Σ_{i = 1}^{n} {(x (i, k) - μ_{k})}^{2}}

其中，σ_k为第k列的标准差；

C4)计算每一列中单个特征数据的z-score标准化值；

x^{'} (i, k) = \frac{x (i, k) - μ_{k}}{σ_{k}}

其中，x′(i,k)为x(i，k)z-score标准化值。

PCA算法步骤为，

D1)定义一个聚类z-score标准化处理后构成一数据矩阵Z_n×m；

D2)计算Z_n×m的协方差矩阵COV(Z)；

D3)计算COV(Z)的特征值λ_k和特征向量p_k；

第k个主元的贡献率，

ρ_{k} = \frac{λ_{k}^{'}}{Σ_{k = 1}^{m} λ_{k}^{'}}

前k个主元的累计贡献率L_k：

L_k＝ρ₁+ρ₂+ρ₃+…+ρ_k

D7)计算k个主元系数t₁,t₂,…,t_k。

步骤八，每个聚类的主元系数作为RBF神经网络的训练集，建立神经网络模型。

径向基函数公式为，

输出层的输出函数y_i′公式为，

其中w_i′k为权系数。

上述方法首先对大量台区线损特征数据进行三次初步分类，其次利用聚类方法将分类数据通过台区特征分为若干聚类，再次对每一聚类建立相应的预测模型；最后利用预测模型得到合理线损预测值，并对其进行分析处理；针对台区线损特征量数据庞大的特点，提出了RBF神经网络算法，利用PCA算法排除干扰因素，提取综合指标，降低数据维数；利用ANN对主成分数据进行训练，达到兼顾数据处理效率与精度的双重要求。

为了进一步说明本方法，本发明将利用用户采集系统的实际采集数据，基于IBMSPSSModeler软件平台，对上述算法在台区合理线损预测中的应用进行验证。

为验证本发明中算法流程的有效性，本文以江苏省2014年12月台区线损数据作为分析建模对象，进行数据前处理(排除线损非稳定台区)后，线损稳定台区的特征数据共1609323个，进行一次分类后农村特征数据130089个，城区特征数据30843个，其特征包含总用户数、居民户数、非居民户数、居民容量、非居民容量、日均供电量、变压器容量、居民的容量占比、居民用户户均容量，以及日平均线损，共10个特征，其中前9个特征作为训练特征，日平均线损作为建模目标对象。

以农村特征数据为例，排除部分缺失数据后，数据样本共129532个。进行二次分类，农村特征数据74602个，非居民类特征数据10786个，混合类特征数据44144个。

进行第三次分类，居民类低档特征数据27757个，居民类中档特征数据45405个，居民类高档特征数据1440个，混合类低负荷特征数据11036个，混合类中负荷特征数据22073个，混合类高负荷特征数据11035个。

将每一类特征数据利用IBMSPSSModeler分别进行Kmean聚类，聚类数设定为2～15，通过轮廓系数考核聚类效果。聚类结果如下表1所示。

表1农村特征数据聚类结果

从表中可见，聚类之后的特征数据之间，具有相对明显的差异，聚类效果较好。

将农村特征数据按照上述的方法分为16类每一类的数据分别利用PCA-ANN算法进行数据建模。以农村居民类低档特征数据中的两个聚类为例，分别利用PCA算法搭建模型，结果表明，在提取五个主元系数的时候总方差累计贡献率达到99.486％与98.249％，故本文中选择五个主元系数，主元系数分别如表2与表3所示。

表2农村居民类低档特征数据第1个聚类主元系数表

表3农村居民类低档特征数据第2个聚类主元系数表

经过主元分析后，将提取的5个主元系数作为RBF神经网络的输入，训练RBF神经网络模型，隐藏层数设定为200层，训练时间9s，训练样本实际值与预测值的散点图如图3和5所示，预测误差分布如图4和6所示，其中，图3和5中虚线中间的区域表示置信区间为95％的预测点。

从图中可以看出，误差分布基本符合正态分布，具有良好的统计特性，置信区间误差限较小，训练预测值可以作为理论线损的重要参考。同理，利用PCA-ANN算法对剩余的所有数据分别进行处理。所得到的95％置信区间误差如表4所示。表4中可以看出，将台区按照特征分类，分别建立PCA-ANN模型进行线损率的预测，误差分布合理，残差值较小，取得了较好的预测效果。

表495％置信区间对应的误差表

	原始有效数据总数	95％置信区间对应的残
			居民类低档1	20844	1.8096

居民类低档2	6913	1.7377
			居民类中档1	23687	1.8953
居民类中档2	2391	1.7100
			居民类中档3	8158	1.8544
居民类中档4	11169	1.7897
			居民类高档1	1023	1.8451
居民类高档2	417	1.1817
			混合类低负荷1	7714	1.8528
混合类低负荷2	3322	1.7090
			混合类高负荷1	4849	2.1086
混合类高负荷2	6186	2.1001
			混合类中负荷1	8672	1.8561
混合类中负荷2	13401	1.8579
			非居民类1	9001	1.6690
非居民类2	1785	2.0029

综上所述，本方法简单实用，处理速度较快，在处理海量台区线损数据中取得了较好的效果，通过预测结果与实际线损的比较可以快速定位异常台区，为台区线损管理提供较为可靠的科学依据。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种结合主元分析与神经网络的台区合理线损预测方法，其特征在于：包括以下步骤，

步骤一，提取台区线损的特征数据；

步骤三，进行第一次预分类；

步骤四，进行第二次预分类；

步骤五，进行第三次预分类；

将城区特征数据和农村特征数据中的混合类特征数据，分别按照用户负载率分为高、中、低三档；负载率＝日均供电量/(变压器容量×24)；

2.根据权利要求1所述的一种结合主元分析与神经网络的台区合理线损预测方法，其特征在于：获得每一类特征数据的最优聚类结果的过程为，

a1)设定K＝f，f为正整数，设定聚类计算迭代终止阈值；

a2)，进行聚类计算，获得聚类数为K时的聚类结果；

a3)，计算步骤a2中聚类结果的整体轮廓系数；

3.根据权利要求2所述的一种结合主元分析与神经网络的台区合理线损预测方法，其特征在于：进行聚类计算的过程为，

所述目标函数采用平方误差准则，

4.根据权利要求2所述的一种结合主元分析与神经网络的台区合理线损预测方法，其特征在于：整体轮廓系数计算过程为，

B3)对于x_q，其轮廓系数

5.根据权利要求1所述的一种结合主元分析与神经网络的台区合理线损预测方法，其特征在于：在获得获得主元系数之前，将最优的聚类结果进行进一步优化，即将元素少于特征数据总数0.1％的聚类删除。

6.根据权利要求1所述的一种结合主元分析与神经网络的台区合理线损预测方法，其特征在于：通过主元分析获得主元系数的过程为，首先对数据进行z-score标准化处理，再利用PCA算法搭建模型，计算累计贡献率，累计贡献率超过95％时的主元数为最终需要提取的主元数目，得到相应的主元系数。

7.根据权利要求6所述的一种结合主元分析与神经网络的台区合理线损预测方法，其特征在于：z-score标准化的过程为，

C2)计算每列的均值；

其中，μ_k为第k列的均值；

C3)计算每列的标准差；

其中，σ_k为第k列的标准差；

C4)计算每一列中单个特征数据的z-score标准化值；

其中，x′(i,k)为x(i，k)z-score标准化值。

8.根据权利要求7所述的一种结合主元分析与神经网络的台区合理线损预测方法，其特征在于：PCA算法步骤为，

D1)定义一个聚类z-score标准化处理后构成一数据矩阵Z_n×m；

D2)计算Z_n×m的协方差矩阵COV(Z)；

D3)计算COV(Z)的特征值λ_k和特征向量p_k；

第k个主元的贡献率，

前k个主元的累计贡献率L_k：

L_k＝ρ₁+ρ₂+ρ₃+…+ρ_k

D7)计算k个主元系数t₁,t₂,…,t_k。

9.根据权利要求8所述的一种结合主元分析与神经网络的台区合理线损预测方法，其特征在于：RBF神经网络的输入k个主元系数t₁,t₂,…,t_k，从输入层到隐含层的非线性变换采用高斯核函数作为径向基函数；

径向基函数公式为，

输出层的输出函数y_i′公式为，

其中w_i′k为权系数。