CN115834424B

CN115834424B - 配电网线损异常数据的辨识与修正方法

Info

Publication number: CN115834424B
Application number: CN202211227738.2A
Authority: CN
Inventors: 朱广明; 丁坤; 梁栋; 马慧莲; 徐昀艳; 刘保群; 马龙; 吴舒婷; 孔巧玉; 王鹏; 王阳; 张宏鑫; 杨晓茹; 王世俊; 李院霞; 陈建东
Original assignee: Linxia Power Supply Company State Grid Gansu Electric Power Co
Current assignee: Linxia Power Supply Company State Grid Gansu Electric Power Co
Priority date: 2022-10-09
Filing date: 2022-10-09
Publication date: 2023-11-21
Anticipated expiration: 2042-10-09
Also published as: CN115834424A

Abstract

本发明公开了一种配电网线损异常数据的辨识与修正方法，涉及配电网数据诊断技术领域。所述方法包括如下步骤：运用基于密度的含噪声应用空间聚类DBSCAN和新息序列检验的初级辨识，识别出异常数据和可疑数据；将可疑数据根据线损数据的时间惯性进行二次辨识；采用改进长短期记忆LSTM算法修正异常数据。所述方法能够减少误判率，并能够提高检测的精度。

Description

配电网线损异常数据的辨识与修正方法

技术领域

本发明涉及配电网数据诊断技术领域，尤其涉及一种配电网线损异常数据的辨识与修正方法。

背景技术

在国家制定的“双碳”目标引领下，节能降损成为首要任务。配电网线损问题日渐突出，据统计，其线损量约占电力网损耗的40％”。为实现降本增效，提升线损精细化管理水平，同期线损管理系统得到了大力推广应用。早期线损管理中理论线损计算实时性较差、精度低，究其原因主要是运行记录数据不完整，数据采集和处理能力较差，只能简化计算方法。随着新型电网量测设备推广应用，线损管理系统的数据呈现多源(来源于营销、规划、采集、PMS、GIS、OMS/SCADA等不同系统)、多类型(电气、运行、信息)、多颗粒度(日、小时、分钟，户表、台区、线路、分区)等特性。线损管理系统融合了六大业务系统的海量数据，呈现出多源异构特征。不仅数据来源难以考证，还存在各种噪声的干扰，出现传输错误、突变以及数据空缺或重复等异常现象，因此，对异常数据的辨识十分困难,需用人工智能与数据挖掘技术进行数据辨识、修正与融合。

有相关学者对此进行了大量研究，有的提出通过线损理论值与实际值的差别进行辨识，但该方法需要依赖配电网结构参数建立模型进行线损计算，受限于模型精度、拓扑结构及数据基础，因而实用性较差。有的采用小波分解法对故障分量去噪，并采用改进多分类支持向量机实现故障识别。有的对异常数据的辨识采用基于自编码器的算法，并设置合适的重建概率阈值，实现海量数据的检测。有的应用二维小波阈值去噪，依据多维特征构建相似性矩阵，用多层聚类方法识别异常数据，准确率得到了一定提高。但上述方法的异常数据辨识准确率不高，且相关研究对线损异常数据仅进行了辨识处理，而缺乏进一一步的修正处理，直接影响线损率计算精度。

发明内容

本发明所要解决的技术问题是如何提供一种能够减少误判率，提高检测的精度的配电网线损异常数据的辨识与修正方法。

为解决上述技术问题，本发明所采取的技术方案是：一种配电网线损异常数据的辨识与修正方法，其特征在于包括如下步骤：

运用基于密度的含噪声应用空间聚类DBSCAN和新息序列检验的初级辨识，识别出异常数据和可疑数据；

将可疑数据根据线损数据的时间惯性进行二次辨识；

采用改进长短期记忆LSTM算法修正异常数据。

进一步的技术方案在于：通过基于DBSCAN聚类算法和新息序列检验的初级辨识，将两种辨识结果的交集数据作为异常数据，非交集数据作为可疑数据，对于初级辨识出的可疑数据通过基于时间惯性的检验方法进行二次辨识，若可疑数据与前后时刻呈现强相关性，则为正常数据；否则为异常数据。

进一步的技术方案在于：所述DBSCAN算法包括如下步骤：

S1：设置聚类参数E_ps和M_inpts，E_ps为邻域距离阈值，M_inpts为邻域密度阈值；

S2：选择未经处理的点，若以该点为中心，以E_ps为半径，区域内数据点个数小于M_inpts，则标记该点为可疑点；否则为核心点；

S3：将所有核心点及与核心点相连通的边缘点归为簇A中；

S4：重复步骤S2，反复寻找未处理点，直至筛选出所有核心点及其连通点；

S5：输出聚类结果，聚类结束。

进一步的技术方案在于：所述基于新息序列的异常值辨识方法包括如下步骤：

取滑动数据窗窗口为T的新息序列[e_k+2-T，e_k+3-T，...，e_k+1]，采用平均新息值协方差作为判断数据异常的标准，其计算公式如式(1)所示:

当e_k+1突然增大发生突变时，会造成式(1)协方差大于量测总方差。即有:

E_e，k+1＞E_zz，k+1 (2)

定义噪声尺度因子γ_k+1，利用γ_k+1实时调整量测量扰动方差R_k+1,使得式(2)取等,可得公式(3)。

求解式(3)，可得γ_k+1如式(4)所示；

量测矩阵中的异常突变数据会导致其在γ_k+1矩阵中相对应的对角元素将大于1；以此为突变量检验标准，将中γ_k+1对角元素大于1所对应的量测数据定义为可疑数据。

进一步的技术方案在于：所述基于时间惯性的二次辨识方法包括如下步骤：

在电力系统正常运行过程中，当线损不发生较大突变时，由于线损数据时间惯性的存在，本时刻的线损量会与前后时刻的线损量满足l_it-T≈l_it≈l_it+T的关系，其中l_it表示线路i在t时刻的线损量，T为数据刷新间隔；因此，可以以采集设备自身的采集精度为标准，利用线损数据自身时间惯性的特性与相邻时刻的线损数据进行对比，检验本时刻线损数据的异常性；据上述的方法，可进行如下判断:假设采集设备的精度为ε_S，当|(l_it-l_it-T)/l_it|≤|2ε_S|与|(l_it-l_it+T)/l_it|≤|2ε_S|至少有1个满足条件时，即可以认为此时的线损量l_it不存在异常；当两个条件均不满足时，即可以认为此时的线损量l_it为异常值。

进一步的技术方案在于：所述LSTM的单元结构包括输入门、输出门和遗忘门，x_t、y_t、h_t、c_t分别为神经元的输入输出短期状态和长期状态，在每个时间步，c_t-1首先经过一个遗忘门消除一些储存信息，然后通过加法器添加一些新储存信息，得到c_t；c_t经过由O_t控制的输出门滤波产生短期状态h_t和输出y_t；

LSTM单元的计算公式：

y_t＝O_t*(W_i，[tanh(c_t)，sigmoid(c_t)，relu(c_t)]^T (11)

式中：W_xi，W_xf，W_xo，W_xg为与输入x_t连接的权重矩阵；W_hi，W_hf，W_ho，W_hg为与先前短期状态h_t-1连接的权重矩阵，W_t代表权重矩阵，b_i，b_f，b_o，b_g为偏置项；

f_t代表t时刻的遗忘门；i_t代表t时刻的输入门；O_t代表t时刻的输出门；σ表示激活函数；输入门i_t用来反映新的输入样本x_t，决定当前的信息有多少可以记忆到单元状态c_t；输入门由激活函数控制，计算公式如式(5)所示；遗忘门f_t是用来消除前面储存的信息，决定前一时刻的状态信息c_t-1可以继续记忆到当前时刻的状态c_t，计算公式如式(6)所示；输出门可以计算出LSTM的输出值y_t，如式(7)所示；两个控制门控制当前时刻LSTM单元的长期状态c_t，如式(9)所示；改进后LSTM输出值y_t，公式如式(11)所示。

采用上述技术方案所产生的有益效果在于：本申请提出了基于DBSCAN-新息序列算法的初级辨识和基于时间惯性二次辨识的多级辨识方法，通过实际的线损数据仿真实验，得出所提的方法对异常数据辨识的准确率和召回率较高。为提高理论线损计算的准确性，进一步研究了异常数据的修正方法，建立了改进的LSTM模型，对线损异常数据进行修正。通过仿真实验与SVR、BP、LSTM算法相比，所提的异常数据修正方法，具有更高的精度。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1是本发明实施例所述方法中多级异常数据辨识原理框图；

图2是本发明实施例所述方法中DBSCAN算法流程图；

图3a是现有技术中LSTM单元结构图；

图3b是本发明实施例所述方法中改进的LSTM单元结构图；

图4是本发明实施例所述方法中DBSCAN新息序列初级辨识结果图；

图5a是本发明实施例所述方法中准确率对比图；

图5b是本发明实施例所述方法中召回率对比图；

图6a是本发明实施例所述方法中不同模型每个异常点的APE数据图(SVR)；

图6b是本发明实施例所述方法中不同模型每个异常点的APE数据图(BP)；

图6c是本发明实施例所述方法中不同模型每个异常点的APE数据图(LSTM)；

图6d是本发明实施例所述方法中不同模型每个异常点的APE数据图(改进LSTM)；

图7是本发明实施例所述方法的流程图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

总体的，如图7所示，本发明实施例公开了一种配电网线损异常数据的辨识与修正方法，包括如下步骤：

将可疑数据根据线损数据的时间惯性进行二次辨识；

采用改进长短期记忆LSTM算法修正异常数据。

在IEEE-69节点系统中应用甘肃临夏某配电台区的实际数据验证了所提方法的有效性。

异常数据辨识方法

对于异常数据的辨识，本申请提出的多级多方法联合检验原理框图如图1所示。通过基于DBSCAN聚类算法和新息序列检验的初级辨识，将两种辨识结果的交集数据作为异常数据，非交集数据作为可疑数据。对于初级辨识出的可疑数据通过基于时间惯性的检验方法进行二次辨识。若可疑数据与前后时刻呈现强相关性，则为正常数据；否则为异常数据。

DBSCAN算法

DBSCAN算法是一种密度聚类算法。该方法能对不规则形状的聚类问题成功处理。同时对包含噪声的数据也有良好的处理效果，即该算法在识别数据集中不规则形状聚类的同时，还可以识别噪声。

DBSCAN算法聚类结构的优劣取决于邻域距离阈值E_ps和邻域密度阈值M_inpts两个参数。M_inpts是指邻域范围内包含数据点的临界值。为能更大程度的识别异常值，本申请将两个连续的边界点也纳入可疑数据集中，后续再进行可疑数据的筛选。基于DBSCAN算法的异常数据聚类流程图如图2所示，具体实施方法包括如下步骤：

S3：将所有核心点及与核心点相连通的边缘点归为簇A中；

S5：输出聚类结果，聚类结束。

基于基于新息序列的异常值辨识：

E_e，k+1＞E_zz，k+1 (2)

求解式(3)，可得γ_k+1如式(4)所示；

基于时间惯性的二次辨识

在电力系统正常运行过程中，当线损不发生较大突变时，由于线损数据时间惯性的存在，一般情况下本时刻的线损量会与前后时刻的线损量满足l_it-T≈l_it≈l_it+T的关系，其中l_it表示线路i在t时刻的线损量，T为数据刷新间隔；因此，可以以采集设备自身的采集精度为标准，利用线损数据自身时间惯性的特性与相邻时刻的线损数据进行对比，检验本时刻线损数据的异常性；据上述的方法，可进行如下判断:假设采集设备的精度为ε_S，当|(_lit-l_it-T)/l_it|≤|2ε_S|与|(l_it-l_it+T)/l_it|≤|2ε_S|至少有1个满足条件时，即可以认为此时的线损量l_it不存在异常；当两个条件均不满足时，即可以认为此时的线损量l_it为异常值。

基于改进LSTM的异常数据修正方法

当线损数据序列s在时刻t的数据发生异常时，可利用在时间t之前序列s的历史数据对t时刻进行预测修正，即可通过建立历史时间序列预测模型对异常值进行修正。因此，本申请建立改进的LSTM神经网络预测模型，预测异常数据并加以修正。

LSTM可以很好的从时序数据中学习经验、对数据进行信息处理和预测的一种网络结构。通过引入不同的门结构来对单元状态进行控制。LSTM的单元结构及其改进如图3所示，包括输入门、输出门和遗忘门，x_t、y_t、h_t、c_t分别为神经元的输入输出短期状态和长期状态，在每个时间步，c_t-1首先经过一个遗忘门消除一些储存信息，然后通过加法器添加一些新储存信息，得到c_t；c_t经过由O_t控制的输出门滤波产生短期状态h_t和输出y_t；

LSTM单元的计算公式：

y_t＝O_t*(W_i，[tanh(c_t)，sigmoid(c_t)，relu(c_t)]^T (11)

图3a中，f_t代表t时刻的遗忘门；i_t代表t时刻的输入门；O_t代表t时刻的输出门；σ表示激活函数；输入门i_t用来反映新的输入样本x_t，决定当前的信息有多少可以记忆到单元状态c_t；输入门由激活函数控制，计算公式如式(5)所示；遗忘门f_t是用来消除前面储存的信息，决定前一时刻的状态信息c_t-1可以继续记忆到当前时刻的状态c_t，计算公式如式(6)所示；输出门可以计算出LSTM的输出值y_t，如式(7)所示；两个控制门控制当前时刻LSTM单元的长期状态c_t，如式(9)所示；

LSTM对于时序数据的处理是依靠激活函数，若去掉激活函数，无论有多少个单元状态和神经元，对数据的处理效果也都会降低。为此，对激活函数进行改进，以提高算法的数据处理性能。原始LSTM输出门的激活函数是单一的Tanh函数，改进后将Tanh改为Relu、Sigmoid、Tanh激活函数的加权，如图3b所示。改进后LSTM输出值y_t，公式如式(11)所示。

算例分析

为了验证所提线损异常数据辨识与修正的算法有效性，采用甘肃临夏某配电台区的运行数据，并在IEEE-69节点的配电网进行仿真验证。为模拟线损异常场景，仿真实验以概率方式改变线路的电阻或电感。并对正常和异常情况下的线损数据进行统计，数据总量为2000个数据点。采用本申请所提的异常数据辨识算法进行辨识，将辨识结果与真实结果进行比较，检验所提方法的实用性与准确性。

异常数据辨识仿真分析

为能更深层次的挖掘可疑数据，本申请对DBSCAN算法的边界节点也纳入可疑数据的范围。在算法操作过程中需通过对E_ps和M_inpts参数联合调参以获得最优结果，本申请选取E_ps和M_inpts分别为3.6和3.0。

运用DBSCAN-新息序列辨识法对线损数据点进行初级辨识。将仿真总时段的2000个数据点均匀分割成10个数据段，取其中某一数据段进行仿真测试，初级辨识结果图4所示。

由图4易知，初级辨识分离出了正常数据、可疑数据和异常数据，且分离出的异常数据经与真实值对比基本吻合。将得出的可疑数据点集根据线损数据的时间惯性进行二次辨识，分离异常点与正常点，最终实现异常数据的辨识。

为衡量异常数据的辨识效果，常选取准确率和召回率作为测试指标。其中，召回率为判断异常数据点占全部异常数据的比例。准确率P_pre和召回率P_rec的计算公式分别见式(12)和式(13)。

式中:N_TP代表真样本；N_FP代表假样本；N_FN代表假“负”样本。

为进一步的验证本申请方法的优越性，分别仿真计算10个数据段段内的数据辨识准确率和召回率。并与文献[10](参见现有技术：张国芳，刘通宇，温丽丽，等.基于变分自编码器的日线损率异常检测研究[].华东师范大学学报(自然科学版),2020(5):155-164)和文献[11](参见现有技术：林宝德,杨铮宇.基于多维特征的电网台区线损数据异常识别研究[J]、电力系统保护与控制,2022,50(09):172-178.)所提方法进行对比，仿真结果如图5a-5b所示。

分析图5a-5b的数据可明显看出，本申请所提方法的P_rec及P_pre均在90％以上。各时段的仿真效果均优于其他两种方法。这是因为本申请不仅使用了多方法检验的初级辨识还使用了基于数据本身时间惯性的二次检验降低了数据的误判率，从而保障的较高的准确率，充分证明了本申请所提多级辨识方法的有效性。

异常线损数据修正仿真分析

为了准确评估模型所提方法在异常数据修正中的性能，本申请引入绝对百分误差(Absolute percentage error,APE)、平均绝对百分误差(Mean absolute percentageerror,MAPE)和均方根误差(Root mean square error,RMSE)作为异常数据集的评价指标，其计算公式如式(14)、式(14)和式(16)所示:

式中:y_i为线损正常数据实际值:y_i为线损异常数据的修正值；n为样本数据点的总数。APE是每个修正点的修正误差与真实值之比，MAPE反映所有样本数据点误差占样本数据点真实值百分比的平均值，RMSE用来衡量观测值同真值之间的偏差。APE、MAPE和RMSE的值越小则表明模预测修正效果越好。

依据提出的多级异常数据辨识方法检测出异常数据，再利用训练好的改进LSTM模型对线损异常数据进行预测修正。在此，为验证所提的改进LSTM修正算法的有效性，与SVR、BP、LSTM算法进行对比分析。利用MAPE和RMSE评估4种模型修正异常数据的准确性，结果如表1所示。

表1不同模型的修正结果

由表1知，改进LSTM模型在这在这四种模型中表现出最好的修正性能。改进LSTM的MAPE和RMSE最低，分别为1.026％和43.134，说明改进LSTM对线损异常数据预测修正的准确性和稳定度最高，验证了本申请改进LSTM算法对线损异常数据修正的有效性。为，展现每个异常点的修正值与实际值的误差，计算四种模型每个异常点的APE，如图6a-6d所示。

从图6a-6d中可以看出，在共计50个的异常数据点中，SVR和BP模型修正值的APE在0.5％-17％之间波动，其中SVR和BP模型分别在在第25和第23个时刻点的APE值达到最大，分别为16.959％、16.848％。LSTM预测模型的APE值在0.03％到14％之间波动，最大APE值出现在第47个数据点，其值为13.958％。本申请所提出的改进LSTM模型在该数据集上的表现最好，其波动范围在8％以内，最大APE值出现在第16个时刻点，最大APE值为7.539％。综上对比分析:较之SVR、BP、LSTM算法，改进LSTM算法对异常值修正结果的MAPE和RMSE的值均最小的。APE也整体优于其他三种算法。这表明改进LSTM算法在对异常数据的修正上有更高的精度和更小的误差,也将有利于提高理论线损率的计算精度。

综上，针对配电网海量的数据中存在异常数据问题，本申请提出了一种用于异常数据辨识与修正的方法，深入研究异常数据辨识方法，提出了基于DBSCAN-新息序列算法的初级辨识和基于时间惯性二次辨识的多级辨识方法。通过实际的线损数据仿真实验，得出本申请所述方法对异常数据辨识的准确率和召回率较高。为提高理论线损计算的准确性，进一步研究了异常数据的修正方法，建立了改进LSTM模型，对线损异常数据进行修正。通过仿真实验与SVR、BP、LSTM算法相比，所提的异常数据修正方法，具有更高的精度。

Claims

1.一种配电网线损异常数据的辨识与修正方法，其特征在于包括如下步骤：

将可疑数据根据线损数据的时间惯性进行二次辨识；

采用改进长短期记忆LSTM算法修正异常数据；

通过基于DBSCAN聚类算法和新息序列检验的初级辨识，将两种辨识结果的交集数据作为异常数据，非交集数据作为可疑数据，对于初级辨识出的可疑数据通过基于时间惯性的检验方法进行二次辨识，若可疑数据与前后时刻呈现强相关性，则为正常数据；否则为异常数据；

所述DBSCAN算法包括如下步骤：

S3：将所有核心点及与核心点相连通的边缘点归为簇A中；

S5：输出聚类结果，聚类结束；

所述基于新息序列的异常值辨识方法包括如下步骤：

当e_k+1突然增大发生突变时，会造成式(1)协方差大于量测总方差，即有:

E_e，k+1＞E_zz，k+1 (2)

定义噪声尺度因子γ_k+1，利用γ_k+1实时调整量测量扰动方差R_k+1,使得式(2)取等,可得公式(3)；

求解式(3)，可得γ_k+1如式(4)所示；

量测矩阵中的异常突变数据会导致其在γ_k+1矩阵中相对应的对角元素将大于1；以此为突变量检验标准，将中γ_k+1对角元素大于1所对应的量测数据定义为可疑数据；

所述基于时间惯性的二次辨识方法包括如下步骤：

在电力系统正常运行过程中，当线损不发生较大突变时，由于线损数据时间惯性的存在，本时刻的线损量会与前后时刻的线损量满足l_it-T≈l_it≈l_it+T的关系，其中l_it表示线路i在t时刻的线损量，T为数据刷新间隔；因此，可以以采集设备自身的采集精度为标准，利用线损数据自身时间惯性的特性与相邻时刻的线损数据进行对比，检验本时刻线损数据的异常性；据上述的方法，可进行如下判断:假设采集设备的精度为ε_S，当|(l_it-l_it-T)/l_it|≤|2ε_S|与|(l_it-l_it+T)/l_it|≤|2ε_S|至少有1个满足条件时，即可以认为此时的线损量l_it不存在异常；当两个条件均不满足时，即可以认为此时的线损量l_it为异常值；

所述LSTM的单元结构包括输入门、输出门和遗忘门，x_t、y_t、h_t、c_t分别为神经元的输入输出短期状态和长期状态，在每个时间步，c_t-1首先经过一个遗忘门消除一些储存信息，然后通过加法器添加一些新储存信息，得到c_t；c_t经过由O_t控制的输出门滤波产生短期状态h_t和输出y_t；

LSTM单元的计算公式：

y_t＝O_t*(W_i，[tanh(c_t)，sigmoid(c_t)，relu(c_t)]^T (11)