CN106991524A

CN106991524A - 一种台区线损率预估方法

Info

Publication number: CN106991524A
Application number: CN201710166143.3A
Authority: CN
Inventors: 沈泓; 刘顺
Original assignee: State Grid Corp of China SGCC; State Grid Jiangsu Electric Power Co Ltd; Changzhou Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Jiangsu Electric Power Co Ltd; Changzhou Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2017-03-20
Filing date: 2017-03-20
Publication date: 2017-07-28

Abstract

本发明涉及一种台区线损率预估方法，包括如下几个步骤：①原始样本数据的收集分析及处理：对供电公司所有的台区数据进行收集及预处理；②通过K‑means聚类方法按照台区特征对供电公司所有的台区数据进行分类，将供电公司辖区内的台区分为特征不同的类群共K'类；③将每一类典型台区基础数据与预测值相关联，通过线性回归方式建立数学预测模型；④将所要预测的数据输入模型，得到输出合理的所需预测特征数据预测值，从而得出每一类台区的合理的所需预测特征数据预测值。本发明通过输出合理的所需预测特征数据预测值为供电工作提供有效的辅助。

Description

一种台区线损率预估方法

技术领域

本发明涉及电力系统信息化及自动化领域，特别涉及电能量数据处理及统计分析研究。

背景技术

随着电力系统信息化、自动化水平的不断提高及计算机技术的发展，电网数据作为一种综合反映供电公司规划设计、生产运行、经营管理水平的直观展示，是供电公司日常管理工作中所关注的重要内容。合理分析处理利用海量的电网数据能够带来非常可观的经济与社会效益。

以数据预估模型应用于线损为例，台区线损管理通过比较理论线损与实际线损的差值，对不合理线损进行分析和预测，提供较为科学有效的降损措施，有利于提升电力部门的管理水平与经济效益，促进电网的建设与改造的科学性与合理性。传统的台区线损管理中存在一些问题：

1）采取一刀切方式，通过人工设定台区合理线损率，缺乏科学依据，离精益化管理目标相差甚远。

2）台区理论线损的计算主要基于潮流的计算方法，但是由于低压台区下分支线路复杂，元件多样，设备台账数据不全，理论线损计算将非常复杂。

3）供电公司管辖范围内台区数量巨大，彼此之间差别较大，无法用统一的方式进行管理。

因此，如何进一步提高台区线损管理精益化水平，给出每个台区可参照的合理线损范围，科学合理的对台区线损进行监视，并及时发现异常台区，分析原因，及时解决问题，成为电力营销工作迫切需要解决的问题。

发明内容

本发明要解决的技术问题是提供一种台区线损率预估方法，弥补了现有电网数据分析预估方面的不足，直接可利用于线损的合理预估场景，为供电工作提供有效的辅助。

实现本发明目的的技术方案是一种台区线损率预估方法，包括如下几个步骤：

①原始样本数据的收集分析及处理：首先，识别信息需求，从而有目的的收集数据；其次，收集各台区数据，收集到报表数据中包含的字段有：台区名称、台区居民户数、台区非居民户数、居民容量、非居民容量、居民户均容量、非居民户均容量、居民容量占比、非居民容量占比、台区总容量、台区窃电量、功率因数平均水平、最大负荷、最大负载率以及以台区实际线损率：然后将收集的数据通过加工、整理和分析、使其转化为信息，且对于数据缺失的现象，采取人工补录或者数据清洗工具填充的方法；

②通过K-means聚类方法按照台区特征对供电公司所有的台区数据进行分类：基于如下原理过程：2.1、从数据集中随机取k'个元素，作为k'个簇的各自的中心；

2.2、分别计算剩下的元素到k'个簇中心的相异度，将这些元素分别划归到相异度最低的簇；

2.3、根据聚类结果，重新计算k'个簇各自的中心，计算方法是取簇中所有元素各自维度的算术平均数；

2.4、将数据集中全部元素按照新的中心重新聚类；

2.5、重复第2.4步，直到聚类结果不再变化；

2.6、将结果输出；

从而具体操作如下：以供电公司辖区下台区数据作为样本数据，作为K-means算法的输入；聚类样本特征输入量包括：台区名称、台区居民户数、台区非居民户数、居民容量、非居民容量、居民户均容量、非居民户均容量、居民容量占比、非居民容量占比、台区总容量、台区窃电量、功率因数平均水平、最大负荷、最大负载率以及以台区实际线损率；在K-means聚类算法中，初始聚类数设定为2到12，通过尝试设定不同的初始聚类数，计算不同聚类数时的轮廓系数值，轮廓系数值越接近1表明聚类数越合理；

③将每一类典型台区基础数据与预测值相关联，通过线性回归方程建立数学预测模型：基于如下原理：根据线性回归建模的原理，在线性关系相关性条件下，两个或者两个以上自变量对一个因变量，为多元线性回归分析，表现这一数量关系的数学公式，建立多元线性样本回归方程为：

++ （1）

其中是个未知参数，为回归常数，为回归系数；为被解释变量；是k个可以精确可控制的一般变量，为解释变量；

多元线性回归方程中回归系数的估计同样可以采用最小二乘法；由残差平方和：

=0 （2）

根据微积分中求极小值得原理，可知残差平方和存在极小值；欲使达到最小，对的偏导数必须为零；

将对求偏导数，并令其等于零，加以整理后可得到各方程式：

= （3）

=-2 （4）

通过求解便可分别得到的估计值回归系数的估计值，从而得出因变量与自变量的多元线性回归方程，即需要的数学预测模型；从而具体操作如下：将步骤②中通过K-means聚类得出的各数据作为线性回归模型的输入，建模特征参数包括：台区名称、台区居民户数、台区非居民户数、居民容量、非居民容量、居民户均容量、非居民户均容量、居民容量占比、非居民容量占比、台区总容量、台区窃电量、功率因数平均水平、最大负荷、最大负载率；输出参数为：台区线损率；依据调整后的R平方值，F检验系数、T检验系数，sig值检验系数对模型进行评估，从而判断出合理线损预测模型的拟合程度：因变量即实际线损率；自变量即所述各建模特征参数；

T检验是对于单个变量进行显著性，检验该变量独自对被解释变量的影响；

F检验是检验回归模型的显著意义，即所有解释变量联合起来对被解释变量的影响；

R的平方值系数表示因变量y与所有自变量全体之间线性相关程度，实际反映的是样本数据与预测数据间的相关程度；

sig值的意思就是显著性，表示平均值是在百分之几的几率上相等的；

通过上述基于线性回归建模的原理分析得到线性回归方程的包括常量

在内的各系数值，从而得到线性回归方程：即线损率预测值与常量、台区居民户数、台区非居民户数、居民容量、非居民容量、居民户均容量、非居民户均容量、居民容量占比、非居民容量占比、台区总容量、台区窃电量、功率因数平均水平、最大负荷及最大负载率的线性关系；

④将所要预测的数据输入模型，从而得出每一类台区的合理线损率预测值：将台区样本数据代入到步骤③得到的线性回归方程可得出通过预测模型得出的台区线损率预测值，并将台区预测线损率与台区实际线损率做比较从而用于后续应用。

进一步的，步骤①中，识别信息需求的设定规则如下：

1、将识别的需求转化为具体的要求；

2、明确由谁在何时何处，通过何种渠道和方法收集数据；

3、记录表应便于使用；

4、采取有效措施，防止数据丢失和虚假数据对系统的干扰。

进一步的，步骤①中，收集的各台区数据包括台区基础信息表、线路线损率分月报表、台区线损率分月报表、生产经营报表、窃电用户统计报表；建模数据的收集涉及到的部门包括发展策划部，电力营销部，运维检修部；数据范围包括供电公司辖区内各线路下的台区，分别为：220KV线路，110KV线路，35KV线路，10KV线路，10KV以下线路以及1KV以下的线路下的台区；经过ETL数据工具的处理以及对数据报表整合。

进一步的，步骤①中，对于缺失数据根据以下原则补充：

1.由填报单位补充；

2.线损数据可参考往年同期数据；

3.根据上下数据插值。

进一步的，步骤③中，判定系数R的平方根系数的大小受到自变量x的个数k的影响；R的平方根系数的取值范围为(0,1)，越接近1，回归平面拟合程度越高，反之，越接近0，拟合程度越低。

进一步的，步骤③中将sig值与0.05相比较，如果它大于0.05，说明平均值在大于5%的几率上是相等的，而在小于95%的几率上不相等。

本发明具有积极的效果：（1）本发明提出了一种台区线损率预估方法，弥补了现有电网数据分析预估方面的不足，直接可利用于线损的合理预估等场景，通过数据分析进行分析预测线损率非常依赖于精确的元数据信息，不断提升远程计量采集水平，可以有效地分析出哪些台区可能存在偷窃电行为或者其他影响正常供电的不合理行为，为供电工作提供有效的辅助。

（2）本发明的K-means聚类算法可以处理大量数据集，具有很好的可伸缩性，简单快速。

（3）本发明利用线性回归建模的思路，在线性关系相关性条件下，两个或者两个以上自变量对一个因变量，为多元线性回归分析，表现这一数量关系。在企业的供电管理中，应加大对线损的数据分析预测，这是降低电网线损率的良好举措，同时也是提高企业供电管理水平的有效手段。

（4）本发明可以找出线损管理工作的不足和降损方向。针对线损较高或居高不下的情况，可以找出电网结构的薄弱环节，以及管理方面存在的问题，确定改善电网结构工作的重点，加强管理，降低线损。

（5）本发明可以及时查找出线损升降原因，特别是上升原因，准确地掌握每条线路在不同用电季节，各种用电负荷所引起的线损变化的规律及特点，以确定降损的主攻方向，以便有针对性的采取降损措施，使电网的线损率降到合理范围，提高企业的经济效益和社会效益。

（6）本发明是可以找出电网运行存在的问题，确定最佳运行方案。在实际的应用中，本发明可以不断强化数据分析模型应用于预测作业，提高计量远程采集管理水平。通过此数据分析模型进行预测各电网指标的运行状态及偏差值，并及时作出指导建议，为供电工作提供有效的辅助。

附图说明

图1为本发明的流程示意图；

图2为本发明的实施例1中的样本数据图；

图3为本发明的实施例1中聚类数为2时聚类模型概要及聚类大小示意图：

图4为本发明的实施例1中k-means聚类中变量重要性示意图；

图5为本发明的实施例1中聚类-1的模型摘要示意图；

图6为本发明的实施例1中聚类-1的模型方差分析（ANOVA）表；

图7为本发明的实施例1中聚类-1的线性回归模型系数表；

图8为本发明的实施例1中聚类-1台区实际线损率与和预测线损率折线图；

图9为本发明的实施例1中聚类-1线损误差值图；

图10为本发明的实施例1中聚类-2的模型摘要图；

图11为本发明的实施例1中聚类-2的模型方差分析（ANOVA）表；

图12为本发明的实施例1中聚类-2的线性回归模型系数表；

图13为本发明的实施例1中聚类-2台区实际线损率与和预测线损率折线图；

图14为本发明的实施例1中聚类-2线损误差值图。

具体实施方式

（实施例1）

本发明的台区线损率预估方法通过合理预估电网数据指标，可以为供电工作提供有效的辅助：比如，电能从发电厂传输到用户过程中，在输电、变电、配电以及营销管理的各环节中会所产生电能损耗和损失，如果线路的损耗较高，则对电网运行的安全型与经济性会造成直接的影响，同时也会加快线路的老化或者损坏速度。本发明的数据预估方法可以找出差异性较大的台区着重进行管理与监测，进而有效地预测出哪些台区可能存在偷窃电行为或者其他影响正常供电的不合理行为。

见图1，本发明的台区线损率预估方法的基于K-means算法的数据预估模型的建立包含K-means聚类与线性回归2部分。首先通过K-means聚类算法依据与台区线损率相关的基本特征属性将台区分为K'类，然后将每一类数据分别建立各自的线性回归模型，最后将不同分类的台区特征数据引入对应的线性回归模型，得出合理的数据预测值，并将此值定义为合理预测。合理预测与实际值之差即为预测误差。整体步骤如下：

①原始样本数据的收集分析及处理，包括如下步骤：步骤A：识别信息需求，是确保数据分析过程有效性的首要条件，可以为收集数据、分析数据提供清晰的目标。识别信息需求是管理者的职责管理者应根据决策和过程控制的需求，提出对信息的需求。

步骤B：策划收集数据的内容、渠道、方法，进行有目的的收集数据，从而确保数据分析过程的真实有效。

步骤C：将收集的数据通过加工、整理和分析、使其转化为信息，通常用方法有：老七种工具，即排列图、因果图、分层法、调查表、散步图、直方图、控制图；新七种工具，即关联图、系统图、矩阵图、KJ法、计划评审技术、PDPC法矩阵数据图。对于数据缺失的现象，只能采取人工补录或者数据清洗工具填充的方法。

本实施中，具体来讲：首先，我们应该进行识别信息需求的工作。

识别信息需求是确保数据分析过程有效性的首要条件，可以为收集数据、分析数据提供清晰的目标。识别信息需求是管理者的职责管理者应根据决策和过程控制的需求，提出对信息的需求。就过程控制而言，管理者应识别需求要利用那些信息支持评审过程输入、过程输出、资源配置的合理性、过程活动的优化方案和过程异常变异的发现。

有目的的收集数据，是确保数据分析过程有效的基础。组织需要对收集数据的内容、渠道、方法进行策划。策划时应考虑：

1、将识别的需求转化为具体的要求，如评价供方时，需要收集的数据可能包括其过程能力、测量系统不确定度等相关数据；

2、明确由谁在何时何处，通过何种渠道和方法收集数据；

3、记录表应便于使用；

4、采取有效措施，防止数据丢失和虚假数据对系统的干扰。

本次建模收集的数据包括台区基础信息表、线路线损率分月报表、台区线损率分月报表、生产经营报表（按月分）、窃电用户统计报表。建模数据的收集涉及到的部门包括发展策划部，电力营销部，运维检修部。数据范围包括供电公司辖区内各线路下的台区，分别为：220KV线路，110KV线路，35KV线路，10KV线路，10KV以下线路以及1KV以下的线路下的台区。经过ETL数据工具的处理以及对数据报表的整合，最终收集到报表数据（见图2）中包含的字段有：台区名称，台区居民户数，台区非居民户数，居民容量，非居民容量，居民户均容量，非居民户均容量，居民容量占比，非居民容量占比，台区总容量，台区窃电量，功率因数平均水平，最大负荷，最大负载率以及以台区实际统计线损率。

下面进行分析处理数据的工作，将收集的数据通过加工、整理和分析、使其转化为信息，通常用方法有：老七种工具，即排列图、因果图、分层法、调查表、散步图、直方图、控制图；新七种工具，即关联图、系统图、矩阵图、KJ法、计划评审技术、PDPC法矩阵数据图。

原始样本数据中有部分字段值由于信息系统的不完备性或者其他原因导致源数据存在数据缺失的现象。但是在数据分析建模过程中，数据缺失将严重影响建模的可行性、合理性与准确性，使数据分析工作陷入混乱，导致不可靠的输出。数据分析算法本身更致力于避免数据过分适合所建的模型，这一特性使得它难以通过自身的算法去很好地处理不完整数据。因此，空缺的数据需要通过专门的方法进行推导、填充等，以减少数据分析算法与实际应用之间的差距。对于数据缺失的现象，只能采取人工补录或者数据清洗工具填充的方法。本次对于缺失数据根据以下原则补充：

1.由填报单位补充，填报单位应尽心尽责填报数据。

2.线损数据可参考往年同期数据。

3.根据上下数据插值。

②通过K-means聚类方法按照台区特征对供电公司所有的台区数据进行分类，将供电公司辖区内的台区分为特征不同的类群，具体过程如下：

2.1、从数据集中随机取k'个元素，作为k'个簇的各自的中心；

2.4、将数据集中全部元素按照新的中心重新聚类；

2.5、重复第2.4步，直到聚类结果不再变化；

2.6、将结果输出。

本实施中，具体来讲，以供电公司辖区下台区数据作为样本数据（共630个），作为K-means算法的输入。聚类样本特征输入量包括：台区名称，居民户数，非居民户数，居民容量，非居民容量，居民容量，居民户均容量，居民容量占比，非居民容量占比，台区总容量，台区窃电量，功率因数平均水平，台区最大负荷，最大负载率，实际线损率。在K-means聚类算法中，初始聚类数设定为2到12为合理范围，通过尝试设定不同的初始聚类数，计算不同聚类数时的轮廓系数值（轮廓系数值越接近1表明聚类数越合理），不同K'值聚类的轮廓系数如表1所示。

表1 K-means轮廓系数

聚类数	轮廓系数	聚类数	轮廓系数
				2	0.5	3	0.4
4	0.4	5	0.3
				6	0.4	7	0.4
8	0.4	9	0.4
				10	0.4	11	0.4
12	0.4

通过不同K'值的轮廓系数对比，可以看出聚类数为2时轮廓系数值为0.5，在所有的轮廓系数中最接近1，表明聚类数为2时K-means聚类质量最好，对应的聚类结果如图3所示。由图可知，聚类数为2时，两类数据的占比分别为15.1%、84.9%，聚类后样本数分别为95个、535个。

K-means聚类算法中各变量对于聚类的作用性是不同的，如图5所示，可以看出，居民容量容量占比、非居民容量占比、非居民容量、非居民户均容量在聚类中对聚类结果影响比较明显。

聚类数为2时各变量在聚类-1与聚类-2中的均值如表2所示，各变量按照在聚类算法中体现出的重要性从上到下依次排序。可以看出居民容量占比、非居民容量占比对聚类的影响是最大的，是台区分类的过程中的主要依据。其他变量在聚类中对聚类结果有影响，但不是主要影响因素。

表2 聚类数为2时聚类模型各变量均值

聚类	聚类1	聚类2
			大小	84.9%（535）	15.1%（95）
居民容量占比	0.92	0.41
			非居民容量占比	0.08	0.59
非居民容量	68.1	421.31
			居民容量	700.25	373.63
居民户数	154.21	70.52
			非居民户数	3.46	9.99
居民户均容量	5.43	4.65
			功率因数平均水平	0.9	0.89
最大负载率	0.6	0.56
			台区总容量	773.96	794.94
台区窃电量	10.46	7.11

从表2中可以看出聚类1中居民容量容量占比为0.92，可以认为此类为居民用户类。聚类2中非居民容量占比为0.59，可以认为此类为非居民用户类。故通过K-means聚类算法将台区分为了居民用户类台区，非居民用户类台区。

③将每一类典型台区基础数据与预测值相关联，通过线性回归方式建立数学预测模型，具体过程如下：

根据步骤②得到的K-means聚类结果数据，将不同分类的台区数据分别作为线性回归的输入，以线损率作为输出，建立线性回归模型，并对结果做相应的分析得出各分类对应的回归方程。

根据线性回归建模的原理，在线性关系相关性条件下，两个或者两个以上自变量对一个因变量，为多元线性回归分析，表现这一数量关系的数学公式，建立多元线性样本回归方程为：

++ （1）

其中是个未知参数，为回归常数，为回归系数。为被解释变量。是个可以精确可控制的一般变量，为解释变量。

多元线性回归方程中回归系数的估计同样可以采用最小二乘法。由残差平方和：

=0 （2）

根据微积分中求极小值得原理，可知残差平方和存在极小值。欲使达到最小，对的偏导数必须为零。

= （3）

=-2 （4）

通过求解便可分别得到的估计值回归系数的估计值，从而得出因变量与自变量的多元线性回归方程，即需要的数学预测模型。

本实施例中，具体来讲：将上述K-means聚类得出的2类数据作为线性回归模型的输入（见表3）：聚类-1，聚类-2。建模特征参数包括：台区居民户数，台区非居民户数，居民容量，非居民容量，居民户均容量，非居民户均容量，居民容量占比，非居民容量占比，台区总容量，台区窃电量，功率因数平均水平，最大负荷，最大负载率。输出参数为：台区线损率。

表3 线性回归模型输入输出数据

现在就上述K-means聚类得出的聚类-1与聚类-2分别做线性回归模型，并对模型进行分析。依据调整后的R平方值，F检验系数、T检验系数，sig值检验系数等对模型进行评估，从而判断出合理线损预测模型的拟合程度。

T检验是对于单个变量进行显著性，检验该变量独自对被解释变量的影响。

F检验是检验回归模型的显著意义，即所有解释变量联合起来对被解释变量的影响。对方程联合显著性检验的F检验，实际上也是对可决系数的显著性检验。

R的平方值系数表示因变量y与所有自变量全体之间线性相关程度，实际反映的是样本数据与预测数据间的相关程度。判定系数R的平方根系数的大小受到自变量x的个数k的影响。R的平方根系数的取值范围为(0,1)，越接近1，回归平面拟合程度越高，反之，越接近0，拟合程度越低。

sig值的意思就是显著性，它的意思是说，平均值是在百分之几的几率上相等的。一般将这个sig值与0.05相比较，如果它大于0.05，说明平均值在大于5%的几率上是相等的，而在小于95%的几率上不相等。我们认为平均值相等的几率还是比较大的，说明差异是不显著的，从而认为两组数据之间平均值是相等的。

如图5所示，可以看出调整后的R平方值为0.824，拟合优度较高，不被解释的变量较少。即表示输入变量中82.4%的自变量对因变量线损值有影响。依据此系数可得知样本数据与预测数据间的相关程度较高，模型模拟程度较高，模型具有可用性。

如图6所示，由回归方程显著性检验（sig值）的概率为0，小于显著性水平0.05，则认为系数不同时为0，被解释变量与解释变量全体的线性关系是显著的，则认为生成的模型具有明显的统计学意义。

④将所要预测的数据输入模型，得到输出合理的台区线损率预测值，从而得出每一类台区的合理线损率预测值。

如图7所示，给出了回归方程的系数值，即常量为1.930，居民容量为0.010，居民户均容量为1.068，台区窃电电量为0.013，居民户数为0.012，最大负载率为0.920。

所以线性回归方程为：

线损率=1.930+0.01*居民容量+1.068*居民户均容量+0.012*居民户数+0.013*台区窃电量+0.92*最大负载率。

将台区样本数据代入到线性回归方程可得出通过预测模型得出的台区线损率预测值，并将台区预测线损率与台区实际线损率通过折现图做比较，如图8所示。

如图8、图9所示，可知大部分台区的实际线损率与预测线损率较为接近，存在少数台区的线损率实际值远大于预测值，出现这一现象的可能原因如下：1.台区的实际线损率在日常工作统计中有大的误差，导致预测结果不合理。2.该部分台区的线损率有异常，可能存在用户偷窃电行为，需加强管理与核实。

而针对聚类-2的线性回归模型分析：

如图10所示，可以看出调整后的R平方值为0.657，拟合优度较高，不被解释的变量较少。即表示输入变量中65.7%的自变量对因变量线损值有影响。依据此系数可得知样本数据与预测数据间的相关程度较高，模型模拟程度较高,模型具有可用性。

如图11所示，回归方程显著性检验的概率为0，小于显著性水平0.05，则认为系数不同时为0，被解释变量与解释变量全体的线性关系是显著的，则认为生成的模型具有明显的统计学意义。

如图12所示，给出了回归方程的系数值，即常量为5.681，非居民户均容量为0.045，台区总容量0.005，最大负载率为2.952，台区窃电电量为0.015，所以线性回归方程为：

线损率=5.681+0.045*非居民户均容量+0.005*台区总容量+2.952*最大负载率+0.015*台区窃电总量。

同样，将聚类-2中的台区样本数据代入到线性回归方程可得出通过预测模型得出的台区预测线损率，并将台区预测线损率与台区实际线损率通过折现图做比较，如图13所示。如图13、图14所示，可知大部分台区的实际线损率与预测线损率较为接近，存在少数台区的线损率实际值远大于线损预测值或者远小于线损预测值，出现这一现象的可能原因如下：1.台区的实际线损率在日常工作统计中有大的误差，导致预测结果不合理。2.该部分台区的线损率有异常，可能存在用户偷窃电行为，需加强管理与核实。

显然，上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而这些属于本发明的精神所引伸出的显而易见的变化或变动仍处于本发明的保护范围之中。

Claims

1.一种台区线损率数据预估方法，其特征在于包括如下几个步骤：

②通过K-means聚类方法按照台区特征对供电公司所有的台区数据进行分类：以供电公司辖区下台区数据作为样本数据，作为K-means算法的输入；聚类样本特征输入量包括：台区名称、台区居民户数、台区非居民户数、居民容量、非居民容量、居民户均容量、非居民户均容量、居民容量占比、非居民容量占比、台区总容量、台区窃电量、功率因数平均水平、最大负荷、最大负载率以及以台区实际线损率；在K-means聚类算法中，初始聚类数设定为2到12，通过尝试设定不同的初始聚类数，计算不同聚类数时的轮廓系数值，轮廓系数值越接近1表明聚类数越合理；

③将每一类典型台区基础数据与预测值相关联，通过线性回归方程建立数学预测模型：将步骤②中通过K-means聚类得出的各数据作为线性回归模型的输入，建模特征参数包括：台区名称、台区居民户数、台区非居民户数、居民容量、非居民容量、居民户均容量、非居民户均容量、居民容量占比、非居民容量占比、台区总容量、台区窃电量、功率因数平均水平、最大负荷、最大负载率；输出参数为：台区线损率；依据调整后的R平方值，F检验系数、T检验系数，sig值检验系数对模型进行评估，从而判断出合理线损预测模型的拟合程度：因变量即实际线损率；自变量即所述各建模特征参数；

R的平方值系数表示因变量y与所有自变量全体之间线性相关程度，实际反映的是样本数据与预测数据间的相关程度；判定系数R的平方根系数的大小受到自变量x的个数k的影响；R的平方根系数的取值范围为(0,1)，越接近1，回归平面拟合程度越高，反之，越接近0，拟合程度越低；

sig值的意思就是显著性，表示平均值是在百分之几的几率上相等的；将sig值与0.05相比较，如果它大于0.05，说明平均值在大于5%的几率上是相等的，而在小于95%的几率上不相等；

通过上述基于线性回归建模的原理分析得到线性回归方程的包括常量在内的各系数值，从而得到线性回归方程：即线损率预测值与常量、台区居民户数、台区非居民户数、居民容量、非居民容量、居民户均容量、非居民户均容量、居民容量占比、非居民容量占比、台区总容量、台区窃电量、功率因数平均水平、最大负荷及最大负载率的线性关系；

2.根据权利要求1所述的一种台区线损率预估方法，其特征在于：步骤①中，识别信息需求的设定规则如下：

1、将识别的需求转化为具体的要求；

2、明确由谁在何时何处，通过何种渠道和方法收集数据；

3、记录表应便于使用；

4、采取有效措施，防止数据丢失和虚假数据对系统的干扰。

3.根据权利要求1或2所述的一种台区线损率预估方法，其特征在于：步骤①中，收集的各台区数据包括台区基础信息表、线路线损率分月报表、台区线损率分月报表、生产经营报表、窃电用户统计报表；建模数据的收集涉及到的部门包括发展策划部，电力营销部，运维检修部；数据范围包括供电公司辖区内各线路下的台区，分别为：220KV线路，110KV线路，35KV线路，10KV线路，10KV以下线路以及1KV以下的线路下的台区；经过ETL数据工具的处理以及对数据报表整合。

4.根据权利要求1至3之一所述的一种台区线损率预估方法，其特征在于：步骤①中，对于缺失数据根据以下原则补充：

1.由填报单位补充；

2.线损数据可参考往年同期数据；

3.根据上下数据插值。