CN110807014A

CN110807014A - 一种基于交叉验证的台区数据异常甄别方法和装置

Info

Publication number: CN110807014A
Application number: CN201910906640.1A
Authority: CN
Inventors: 李洪涛; 王存平; 于浩然; 于希娟; 及洪泉; 赵贺; 郝良; 傅强; 杨锦成
Original assignee: State Grid Corp of China SGCC; State Grid Beijing Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Beijing Electric Power Co Ltd
Priority date: 2019-09-24
Filing date: 2019-09-24
Publication date: 2020-02-18
Anticipated expiration: 2039-09-24
Also published as: CN110807014B

Abstract

本发明公开了一种基于交叉验证的台区数据异常甄别方法和装置，首先，对用采数据断点、异常点和现场实际运行数据情况进行统计分析；进而，分别采用原型聚类法、密度聚类法、概率密度法、深度学习方法等四种方法进行异常值的甄别，并比较各模型的异常值判定精度；为避免单一判断准则的随机性与不准确性，将四种模型异常值甄别结果进行相互交叉验证，取其交集为最终的异常值甄别结果；基于已经训练完成的模型，在线监测异常数据，最终建立基于交叉验证的异常数据甄别模型。本发明解决了传统机器学习方法处理海量数据时面临的难度大、效率低、实时性不高等问题。

Description

一种基于交叉验证的台区数据异常甄别方法和装置

技术领域

本申请涉及配电网数据处理技术领域，具体而言，涉及一种一种基于交叉验证的台区数据异常甄别方法和装置。

背景技术

随着计算机、通讯、传感技术的广泛应用，以及配网运营监测业务的不断推进及大量监测计量装置的部署，配变台区监测获得了海量运行数据、用户用电数据及设备状态数据。对这些数据进行分析、挖掘、抽取与加工，实现配变台区安全经济运行、提升服务质量、拓展电量电费业务成为配网面临的挑战。需特别指出的是，配变台区监测获得的海量电网数据中存在约10％的异常数据，有必要对用采数据质量进行分析，甄别异常数据，从而为开展监测运营业务提供可靠、精确、有效的数据支撑。

而针对传统机器学习方法处理海量数据时面临的难度大、效率低、实时性差等技术问题，目前尚未提出解决方法。

发明内容

本申请提供一种基于交叉验证的台区数据异常甄别方法和装置，以解决相关技术中传统机器学习方法处理海量数据时面临的难度大、效率低、实时性差等技术问题。

根据本申请的一个方面，提供了一种基于交叉验证的台区数据异常甄别方法。该方法包括：获取实时采集的台区数据，其中，所述台区数据为配变台区的正常配变数据和故障配变数据；将所述台区数据作为输入数据输入到多个不同的模型中，其中，所述多个模型中的每个模型均是使用一种算法实现的，所述多个模型中的每个模型的算法不同，所述每个模型均用于从所述台区数据中检测异常数据；分别获取所述每个模型的输出，其中，所述每个模型的输出为从所述台区数据甄别出的异常数据；获取所述每个模型的输出之间的交集，并将所述交集作为异常数据的甄别结果。

可选的，所述多个模型的类型包括以下至少之一:基于原型聚类算法的模型、基于密度聚类算法的模型、基于概率密度算法的模型、以及基于长短期记忆网络的深度学习算法的模型。

可选的，所述每个模型均是使用包括异常数据的历史数据进行训练得到的。

可选的，包含异常数据的历史数据是通过在原始数据中增添异常数据而形成的，其中，原始数据为基于正常运行计量装置所采集的电流、电压、有功功率、无功功率和抄表电流的数据。

可选的，异常数据为不同程度的随机噪音和干扰数据，其中，随机噪音和干扰数据在历史数据中服从正态分布。

根据本申请的另一方面，提供了一种基于交叉验证的台区数据异常甄别装置。该装置包括：获取单元，用于获取实时采集的台区数据，其中，所述台区数据为配变台区的正常配变数据和故障配变数据；输入单元，用于将所述台区数据作为输入数据输入到多个不同的模型中，其中，所述多个模型中的每个模型均是使用一种算法实现的，所述多个模型中的每个模型的算法不同，所述每个模型均用于从所述台区数据中检测异常数据；输出单元，用于分别获取所述每个模型的输出，其中，所述每个模型的输出为从所述台区数据甄别出的异常数据；结果单元，用于获取所述每个模型的输出之间的交集，并将所述交集作为异常数据的甄别结果。

根据本申请的另一方面，提供了一种存储介质，所述存储介质包括存储的程序，其中，所述程序执行上述任意一项所述的基于交叉验证的台区数据异常甄别方法。

根据本申请的另一方面，提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述任意一项所述的基于交叉验证的台区数据异常甄别方法。

通过本申请，采用以下步骤：获取实时采集的台区数据，其中，所述台区数据为配变台区的正常配变数据和故障配变数据；将所述台区数据作为输入数据输入到多个不同的模型中，其中，所述多个模型中的每个模型均是使用一种算法实现的，所述多个模型中的每个模型的算法不同，所述每个模型均用于从所述台区数据中检测异常数据；分别获取所述每个模型的输出，其中，所述每个模型的输出为从所述台区数据甄别出的异常数据；获取所述每个模型的输出之间的交集，并将所述交集作为异常数据的甄别结果，解决了传统机器学习方法处理海量数据时面临的难度大，效率低、实时性差等技术问题，实现了基于交叉验证的异常数据甄别模型，进行实时在线监测异常数据的技术效果。

也即，本申请通过一种基于交叉验证的基于交叉验证的台区数据异常甄别方法，首先，对用采数据断点、异常点和现场实际运行数据情况进行统计分析；进而，分别采用基于原型聚类算法的模型、基于密度聚类算法的模型、基于概率密度算法的模型、以及基于长短期记忆网络的深度学习算法的模型的四种模型进行异常值的甄别，并比较各模型的异常值判定精度；为避免单一判断准则的随机性与不准确性，将四种模型异常值甄别结果进行相互交叉验证，取其交集为最终的异常值甄别结果；解决了传统机器学习方法处理海量数据时面临的难度大、效率低、实时性差等技术问题，实现了基于交叉验证的异常数据甄别模型，进行实时在线监测异常数据的技术效果。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例提供的基于交叉验证的台区数据异常甄别方法的流程图；以及

图2是根据本申请实施例提供的基于交叉验证的台区数据异常甄别装置的示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

针对背景技术所描述的现有技术而言，用采时间序列异常数据出现的主要原因有：

1、计量装置故障：计量装置包括终端、互感器、接线盒、表计，故障可能存在于任何一个环节中。例如：互感器的电晕呈现局部放电或者完全放电，导致数据收集不准确；接线盒由于接触不良导致的计量数据异常等。

2、通信信号差：部分地区使用3G信号，导致信号时有时无，部分时段数据传输失败。同时，大型楼宇也会对通信信号产生屏蔽，影响通信。

3、采集器故障：采集器实现控制范围内所有设备的数据汇总和分配，实现对智能电表控制命令传输的作用。在低压用户中，采集器与计量装置分开，每一个采集器控制多个智能电表。当采集器发生通信或者本体故障时，整个采集范围内所有智能电表用电数据采集失败。

4、人为因素：主要是不合理用电，使得电表长时间处于超负荷状态以及偷电窃电行为，这都造成用采时间序列异常数据的出现。

根据本申请的实施例，提供了一种基于交叉验证的台区数据异常甄别方法。

图1是根据本申请实施例的基于交叉验证的台区数据异常甄别方法的流程图。如图1所示，该方法包括以下步骤：

步骤S102，获取实时采集的台区数据，其中，所述台区数据为配变台区的正常配变数据和故障配变数据；

在一个可选的示例中，正常配变数据包括：各相电流、电各相压、有功功率、无功功率和抄表电量；其中，各相电流、各相电压、有功功率、无功功率的采集周期可以为15min，每日产生96个数据点，抄表电量的采集周期可以为1d。

需要说明的是：在实际用电数据搜集中，主要存在用采数据断点和异常点的问题。

在一个可选的示例中，若获取到电压数据，则确定电压数据所采集的配变台数、总采集数据点数、总缺失数据个数，以判断是否发生用采数据断点；以及确定数据个数是否为满足一定阈值(例如：-9999)，以判断该获取到的电压数据是否为异常数据。

在一个可选的示例中，若获取到电流数据，则确定电流数据所采集的配变台数、总采集数据点数、总缺失数据个数，以判断是否发生用采数据断点；以及确定数据个数是否为满足一定阈值(例如：-9999)，以判断该获取到的电流数据是否为异常数据。

在一个可选的示例中，若获取到有功功率数据，则确定有功功率数据所采集的配变台数、总采集数据点数、总缺失数据个数，以判断是否发生用采数据断点；以及确定数据个数是否为满足一定阈值(例如：-9999)，以判断该获取到的有功功率数据是否为异常数据。

在一个可选的示例中，在实时采集的台区数据发生缺失的情况下，依据缺失数据之前预设时段所采集的数据曲线进行计算，推测出缺失数据。

步骤S104，将所述台区数据作为输入数据输入到多个不同的模型中，其中，所述多个模型中的每个模型均是使用一种算法实现的，所述多个模型中的每个模型的算法不同，所述每个模型均用于从所述台区数据中检测异常数据；

可选的，在本申请实施例提供的基于交叉验证的台区数据异常甄别方法中，所述多个模型的类型包括以下至少之一：基于原型聚类算法的模型、基于密度聚类算法的模型、基于概率密度算法的模型、以及基于长短期记忆网络的深度学习算法的模型。

可选地，在本申请实施例提供的基于交叉验证的台区数据异常甄别方法中，所述每个模型均是使用包括异常数据的历史数据进行训练得到的。

可选的，在本申请实施例提供的基于交叉验证的台区数据异常甄别方法中，包含异常数据的历史数据是通过在原始数据中增添异常数据而形成的，其中，原始数据为基于正常运行计量装置所采集的电流、电压、有功功率、无功功率和抄表电流的数据。

在一个可选的示例中，异常数据为不同程度的随机噪音和干扰数据，其中，随机噪音和干扰数据在历史数据中服从正态分布。

在一个可选的示例中，在将所述台区数据作为输入数据输入到多个不同的模型中之前，所述方法还包括：使用测试数据对所述多个不同的模型进行测试处理，在所述多个不同的模型通过测试的情况下，再对所述多个不同的模型输入所述台区数据，即，在执行将所述台区数据作为输入数据输入到多个不同的模型中的步骤。

具体的，测试数据为包含异常数据的历史数据，且异常数据为已知数据。

具体的，在将所述包含异常数据的历史数据作为输入数据输入到多个不同的模型中，且多个不同的模型所输出的异常数据的甄别结果，与历史数据中的已知异常数据的相似度满足阈值，则确定所述多个不同的模型通过测试。

步骤S106，分别获取所述每个模型的输出，其中，所述每个模型的输出为从所述台区数据甄别出的异常数据；

步骤S108，获取所述每个模型的输出之间的交集，并将所述交集作为异常数据的甄别结果。

也即，分别使用基于原型聚类算法的模型、基于密度聚类算法的模型、基于概率密度算法的模型、以及基于长短期记忆网络的深度学习算法的模型的四种模型对台区数据的干扰与噪声进行测试，并将四种模型异常值检测结果的交集确定为最终异常值检测结果。

本申请实施例提供的基于交叉验证的台区数据异常甄别方法，通过获取实时采集的台区数据，其中，所述台区数据为配变台区的正常配变数据和故障配变数据；将所述台区数据作为输入数据输入到多个不同的模型中，其中，所述多个模型中的每个模型均是使用一种算法实现的，所述多个模型中的每个模型的算法不同，所述每个模型均用于从所述台区数据中检测异常数据；分别获取所述每个模型的输出，其中，所述每个模型的输出为从所述台区数据甄别出的异常数据；获取所述每个模型的输出之间的交集，并将所述交集作为异常数据的甄别结果，解决了传统机器学习方法处理海量数据时面临的难度大，效率低、实时性差等技术问题，实现了基于交叉验证的异常数据甄别模型，进行实时在线监测异常数据的技术效果。

也即，本申请通过一种基于交叉验证的基于交叉验证的台区数据异常甄别方法，首先，对用采数据断点、异常点和现场实际运行数据情况进行统计分析；进而，分别采用基于原型聚类算法的模型、基于密度聚类算法的模型、基于概率密度算法的模型、以及基于长短期记忆网络的深度学习算法的模型的四种模型进行异常值的甄别，并比较各模型的异常值判定精度；为避免单一判断准则的随机性与不准确性，将四种模型异常值甄别结果进行相互交叉验证，取其交集为最终的异常值甄别结果；解决了传统机器学习方法处理海量数据时面临的难度大，效率低、实时性差等技术问题，实现了基于交叉验证的异常数据甄别模型，进行实时在线监测异常数据的技术效果。

下面对上述四种模型进行具体说明：

1、对基于原型聚类算法的模型进行具体说明：

设定模型输入为：电流序列异常值检测数据、电压序列异常值检测数据、有功功率序列异常值检测数据；其中，电流序列异常值检测数据包括该点电流实际值、该点与前一点电流变化值、该点与前两点电流变化值；电压序列异常值检测数据包括该点电压实际值、该点与前一点电压变化值、该点与前两点电压变化值；有功功率序列异常值检测数据包括该点有功功率实际值、该点与前一点有功功率变化值、该点与前两点有功功率变化值。

设定模型输出为：待判定点到各聚类中心距离。

其中，基于原型聚类算法的异常值检测模型输入输出如表1所示。

表1原型聚类法异常值检测模型输入输出

基于原型聚类算法的模型，去实现异常值甄别的具体步骤为：

a)选取聚类属性：对电压时间序列进行异常值甄别时，将电压实际值、电压变化值作为聚类属性，综合考虑电压值高低与变化速度对异常值共同作用；同理，对电流和有功功率时间序列进行异常值甄别时，其聚类属性分别为电流实际值、电流变化值及有功功率实际值和有功功率变化值；

b)采用k-means算法，将样本集聚为4类，并确定各类质心；

c)计算各聚类属性到最近聚类中心的距离；

d)计算各聚类属性到最近聚类中心的相对距离；

e)与给定阈值作比较，若某对象距离大于该阈值，认为该对象是离群点。

在一个可选的示例中，阈值由各配变台区电压特性进行确定。

经过上述步骤，可以依据基于原型聚类算法的模型，得出的异常值检测结果。

需要说明的是：基于原型聚类算法的模型，常用于对随机噪声与干扰进行测试。

2、对基于密度聚类算法的模型进行具体说明：

设定模型输入为：电压-电流相关性异常检测数据、电压-有功功率相关性异常检测数据、电流-有功功率相关性异常检测数据；其中，电压-电流相关性异常检测数据包括A相电流时间序列、A相电压时间序列；电压-有功功率相关性异常检测数据包括A相电压时间序列、有功功率时间序列；电流-有功功率相关性异常检测数据包括A相电流时间序列、有功功率时间序列。

设定模型输出为：相关性正常，或，相关性异常。

其中，基于密度聚类算法的异常值检测模型输入输出如表2所示。

表2密度聚类法异常值检测模型输入输出

基于密度聚类算法的模型，去实现异常值甄别的具体步骤为：

a)按电压、电流、有功功率三者数据两两之间的关系进行考虑，分别绘制电压-电流的二维平面分布图、电流-有功功率的平面分布图，以及电压-有功功率的平面分布图；

b)设置一个最大距离d，若两个点距离超过d时，则确定该两点不是密度可达的，即它们不属于同一类别；

c)循环迭代找出所有密度可达的一系列样本点，将这些点划分为一类；其余不属于任何类的点即为噪声。

经过上述步骤，可以依据基于密度聚类算法的模型，得出的异常值检测结果。

需要说明的是：基于密度聚类算法的模型，常用于对随机噪声与干扰进行测试。

3、对基于概率密度算法的模型进行具体说明：

设定模型输入为：电流序列异常值检测数据、电压序列异常值检测数据、有功功率序列异常值检测数据；其中，电流序列异常值检测数据包括待判定时刻电流与前一点电流的变化值；电压序列异常值检测数据包括待判定时刻电压与前一点电压的变化值；有功功率序列异常值检测数据包括待判定时刻电压与前一点电压的变化值。

设定模型输出为：变化值正常范围。

其中，基于概率密度算法的异常值检测模型输入输出如表3所示。

表3概率密度法异常值检测模型输入输出

基于于概率密度算法的模型，去实现异常值甄别的具体步骤为：

a)获取电压、电流及有功功率数据；

b)对电压、电流及有功功率的不同时间序列进行异常值甄别时，采用核密度函数分别拟合电压、电流及有功功率数据的概率分布，并获得概率密度函数；

c)计算某一数值出现的概率，并与阈值比较；

d)根据比较结果判断是否为异常数据。

经过上述步骤，可以依据基于概率密度算法的模型，得出的异常值检测结果。

需要说明的是：基于概率密度算法的模型，常用于对随机噪声与干扰进行测试。

还需要说明的是：概率密度算法是基于偏差的数据异常值检测方法，具体的，根据“3σ”准则来判断异常值。即，若数据服从正态分布，则异常值在“3σ”准则下被定义为测定值中与平均值偏差超过3倍标准差的值。

其中，在正态分布假设下，测定值中与平均值偏差超过3倍标准差的值出现概率为：

其中，σ为原始数据正态分布标准差。

对于测试数据r₁、r₂……r_n，表示输入的电压序列、电流序列、有功功率序列，取其算术平均值：

及剩余误差值

求出其均方根偏差为：

此时，则异常值判别依据为：若

该值为异常数据；若

则r_i为正常数据。

4、对基于长短期记忆网络的深度学习算法的模型进行具体说明：

设定模型输入为：电流序列异常值检测数据、电压序列异常值检测数据、有功功率序列异常值检测数据；其中，电流序列异常值检测数据包括A相电流时间序列(历史96点)；电压序列异常值检测数据包括A相电压时间序列(历史96点)；有功功率序列异常值检测数据包括有功功率时间序列(历史96点)；

设定模型输出为：待判定点电流预测值、待判定点电压预测值、待判定点有功功率预测值。

其中，基于长短期记忆网络的训练算法的异常值检测模型输入输出如表4所示。

表4深度学习方法异常值检测模型输入输出

长短期记忆网络的训练算法：完成前向计算后，即可采用误差反向传播算法对模型参数进行更新调整；长短期记忆网络需要学习的参数共8组，即：Wf和bf、Wi和bi、Wo和bo，Wc和bc；为便于推导，将权重矩阵Wf、Wi、Wo、Wc写为分开的两个矩阵：Wfh、Wfx、Wih、Wix、Woh、Wox、Wch、Wcx；

定义t时刻的误差项δ_t为损失函数对输出值的导数，即

同时，定义各神经元加权输入及其误差项分别为：

当误差沿时间反向传播时，计算t-1时刻的误差项δ_t-1为：

式中：

为雅可比矩阵；

由于o_t、f_t、i_t、c_t′为h_t-1的函数，利用全导数公式可得：

进一步可得到：

进一步可得到：

由δ_o,t、δ_f,t、δ_i,t、δ_c′,t的定义，可知：

误差由当前的l层反向传递到l-1层时，定义l-1层误差

为

即误差函数对l-1层加权输入的导数；由于

且

都是x_t的函数，利用全导数公式得：

从而，得出Woh、Wfh、Wih、Wch各参数梯度为：

Wox、Wfx、Wix、Wcx梯度计算公式为：

bo、bf、bi、bc梯度计算公式为：

经过上述步骤，可以依据基于长短期记忆网络的深度学习算法的模型，得出的异常值检测结果。

需要说明的是：基于长短期记忆网络的深度学习算法的模型，常用于对随机噪声与干扰进行测试。

需要说明的是：基于深度学习算法的异常值甄别模型依据统计学方法原理，由训练完成的深度学习模型对未来的电流、电压或功率数据进行科学合理的预测，比较预测值和真实值的误差。若预测值远远偏离真实值，则该点即为异常值点。若预测值在真实值附近波动，则该点误差属于正常的随机误差，也即说明该点为正常点。长短期记忆网络具有良好的长时间序列处理能力，能够实现远距离信息的保存与控制，有利于给出准确的电流、电压和功率预测值。因此，本申请在分析长短期记忆网络(longshort-term memory，LSTM)基本原理基础上，分别对电流、电压及功率建立长短期记忆网络预测模型，实现对电流、电压及功率时间序列的异常值甄别。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例还提供了一种基于交叉验证的台区数据异常甄别装置，需要说明的是，本申请实施例的基于交叉验证的台区数据异常甄别装置可以用于执行本申请实施例所提供的用于基于交叉验证的台区数据异常甄别方法。以下对本申请实施例提供的基于交叉验证的台区数据异常甄别装置进行介绍。

图2是根据本申请实施例的基于交叉验证的台区数据异常甄别装置的示意图。如图2所示，该装置包括：获取单元21、输入单元23、输出单元25和结果单元27。

获取单元21，用于获取实时采集的台区数据，其中，所述台区数据为配变台区的正常配变数据和故障配变数据；

输入单元23，用于将所述台区数据作为输入数据输入到多个不同的模型中，其中，所述多个模型中的每个模型均是使用一种算法实现的，所述多个模型中的每个模型的算法不同，所述每个模型均用于从所述台区数据中检测异常数据；

输出单元25，用于分别获取所述每个模型的输出，其中，所述每个模型的输出为从所述台区数据甄别出的异常数据；

结果单元27，用于获取所述每个模型的输出之间的交集，并将所述交集作为异常数据的甄别结果。

可选地，所述多个模型的类型包括以下至少之一:基于原型聚类算法的模型、基于密度聚类算法的模型、基于概率密度算法的模型、以及基于长短期记忆网络的深度学习算法的模型。

可选地，所述每个模型均是使用包括异常数据的历史数据进行训练得到的。

可选地，包含异常数据的历史数据是通过在原始数据中增添异常数据而形成的，其中，原始数据为基于正常运行计量装置所采集的电流、电压、有功功率、无功功率和抄表电流的数据。

可选地，异常数据为不同程度的随机噪音和干扰数据，其中，随机噪音和干扰数据在历史数据中服从正态分布。

本申请实施例提供的基于交叉验证的台区数据异常甄别装置，通过获取单元21获取实时采集的台区数据，其中，所述台区数据为配变台区的正常配变数据和故障配变数据；输入单元23将所述台区数据作为输入数据输入到多个不同的模型中，其中，所述多个模型中的每个模型均是使用一种算法实现的，所述多个模型中的每个模型的算法不同，所述每个模型均用于从所述台区数据中检测异常数据；输出单元25分别获取所述每个模型的输出，其中，所述每个模型的输出为从所述台区数据甄别出的异常数据；结果单元27获取所述每个模型的输出之间的交集，并将所述交集作为异常数据的甄别结果，解决了传统机器学习方法处理海量数据时面临的难度大，效率低、实时性差等技术问题，实现了基于交叉验证的异常数据甄别模型，进行实时在线监测异常数据的技术效果。

所述基于交叉验证的台区数据异常甄别装置包括处理器和存储器，上述获取单元21、输入单元23、输出单元25和结果单元27等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来实现基于交叉验证的异常数据甄别模型，进行实时在线监测异常数据的技术目的。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述基于交叉验证的台区数据异常甄别方法方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述基于交叉验证的台区数据异常甄别方法方法。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：获取实时采集的台区数据，其中，所述台区数据为配变台区的正常配变数据和故障配变数据；将所述台区数据作为输入数据输入到多个不同的模型中，其中，所述多个模型中的每个模型均是使用一种算法实现的，所述多个模型中的每个模型的算法不同，所述每个模型均用于从所述台区数据中检测异常数据；分别获取所述每个模型的输出，其中，所述每个模型的输出为从所述台区数据甄别出的异常数据；获取所述每个模型的输出之间的交集，并将所述交集作为异常数据的甄别结果。

可选的，异常数据为不同程度的随机噪音和干扰数据，其中，随机噪音和干扰数据在历史数据中服从正态分布。本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：获取实时采集的台区数据，其中，所述台区数据为配变台区的正常配变数据和故障配变数据；将所述台区数据作为输入数据输入到多个不同的模型中，其中，所述多个模型中的每个模型均是使用一种算法实现的，所述多个模型中的每个模型的算法不同，所述每个模型均用于从所述台区数据中检测异常数据；分别获取所述每个模型的输出，其中，所述每个模型的输出为从所述台区数据甄别出的异常数据；获取所述每个模型的输出之间的交集，并将所述交集作为异常数据的甄别结果。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于交叉验证的台区数据异常甄别方法，其特征在于，包括：

获取实时采集的台区数据，其中，所述台区数据为配变台区的正常配变数据和故障配变数据；

将所述台区数据作为输入数据输入到多个不同的模型中，其中，所述多个模型中的每个模型均是使用一种算法实现的，所述多个模型中的每个模型的算法不同，所述每个模型均用于从所述台区数据中检测异常数据；

分别获取所述每个模型的输出，其中，所述每个模型的输出为从所述台区数据甄别出的异常数据；

获取所述每个模型的输出之间的交集，并将所述交集作为异常数据的甄别结果。

2.根据权利要求1所述的方法，其特征在于，所述多个模型的类型包括以下至少之一:基于原型聚类算法的模型、基于密度聚类算法的模型、基于概率密度算法的模型、以及基于长短期记忆网络的深度学习算法的模型。

3.根据权利要求1所述的方法，其特征在于，所述每个模型均是使用包括异常数据的历史数据进行训练得到的。

4.根据权利要求3所述的方法，其特征在于，包含异常数据的历史数据是通过在原始数据中增添异常数据而形成的，其中，原始数据为基于正常运行计量装置所采集的电流、电压、有功功率、无功功率和抄表电流的数据。

5.根据权利要求4所述的方法，其特征在于，异常数据为不同程度的随机噪音和干扰数据，其中，随机噪音和干扰数据在历史数据中服从正态分布。

6.一种基于交叉验证的台区数据异常甄别装置，其特征在于，包括：

获取单元，用于获取实时采集的台区数据，其中，所述台区数据为配变台区的正常配变数据和故障配变数据；

输入单元，用于将所述台区数据作为输入数据输入到多个不同的模型中，其中，所述多个模型中的每个模型均是使用一种算法实现的，所述多个模型中的每个模型的算法不同，所述每个模型均用于从所述台区数据中检测异常数据；

输出单元，用于分别获取所述每个模型的输出，其中，所述每个模型的输出为从所述台区数据甄别出的异常数据；

结果单元，用于获取所述每个模型的输出之间的交集，并将所述交集作为异常数据的甄别结果。

7.根据权利要求6所述的装置，其特征在于，所述多个模型的类型包括以下至少之一:基于原型聚类算法的模型、基于密度聚类算法的模型、基于概率密度算法的模型、以及基于长短期记忆网络的深度学习算法的模型。

8.根据权利要求6所述的装置，其特征在于，所述每个模型均是使用包括异常数据的历史数据进行训练得到的。

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序执行权利要求1至5中任意一项所述的基于交叉验证的台区数据异常甄别方法。

10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至5中任意一项所述的基于交叉验证的台区数据异常甄别方法。